Resumé Vision Numerique
I. Geométrie pour vison
1) Géometrie Euclidien
Les transformation possible :
𝑡𝑥
- Translation : (𝑡𝑦 )
𝑡𝑧
𝑟11 𝑟12 𝑟13
- Rotation : (𝑟21 𝑟22 𝑟23 )
𝑟31 𝑟32 𝑟33
On a la relation suivante :
𝑥′ 𝑟11 𝑟12 𝑟13 𝑥 𝑡𝑥
(𝑦′) = (𝑟21 𝑟22 𝑟23 ) . (𝑦) + (𝑡𝑦 )
𝑧′ 𝑟31 𝑟32 𝑟33 𝑧 𝑡𝑧
On a une conservation de les distances, les angles, et le parallelisme.
1) Géometrie Metrique
On libére les ditances :
𝑥′ 𝑟11 𝑟12 𝑟13 𝑥 𝑡𝑥
(𝑦′) = 𝜎 (𝑟21 𝑟22 𝑟23 ) . (𝑦) + (𝑡𝑦 )
𝑧′ 𝑟31 𝑟32 𝑟33 𝑧 𝑡𝑧
2) Géometrie Affine
On libére de plus les angle :
𝑥′ 𝑥 𝑡𝑥
(𝑦′) = 𝜎. 𝐴. (𝑦) + (𝑡𝑦 ) tq A une matrice quelconque et detA != 0
𝑧′ 𝑧 𝑡𝑧
3) Géometrie Projective
On librére finalement le parallelisme, et on introduit les coordonées homogénre :
𝑥
𝑥
𝑦
𝑃 = (𝑦) Dans le plan affine devient ( )
𝑧
𝑧
1
Plus de detail dans la prochaine partie
II. Modélisation de la camera
Notre but est de projet le point P(x,y,z) en un point Pi(xi,yi) sur le plan 2D
1) Modèle STENOPE (PINHOLE)
Plan Rayon
image optique
f f
X
x
Centre de
projection
D’apres tales on a :
𝑓 𝑓
𝑥= 𝑋 ;𝑦 = 𝑌
𝑧 𝑧
Ce système ets non-lineaire, nous allons le lineariser en utilisant les coordonnées
homogénes de la geometrie projective
Explication des cordonnées homogénes :
3
Cas 1D : on a un point A(3) en 1D, présenté dans 2D par 𝐴 = 𝛼 ( )
1
il repésente une droite dans la geometrie projective
𝑥 𝑥
Cas 2D : 𝐴 = (𝑦) 𝐴 = 𝛼 (𝑦)
1
On va écrire d’une manière generale (don’t ask why)
𝑓 0 0 0 𝑋
𝑥
0 𝑓 0 0 𝑌
(𝑦) ͌ ( )( )
0 0 𝑓 0 𝑍
1
0 0 0 1 1
Passage du repère camera vers pixel :
𝑥𝑝 𝑓𝑘𝑥 0 𝑥0 𝑥𝑖
(𝑦𝑝 ) = ( 0 𝑓𝑘𝑦 𝑦0 ) (𝑦𝑖 )
1 0 0 1 1
(x0,y0) sont le centre du repere pixel
2) La transformation complete
Scéne -> Camera :
𝑥𝑐 𝑟11 𝑟12 𝑟13 𝑡1
𝑋
𝑌
(𝑦𝑐 ) = (𝑟21 𝑟22 𝑟23 𝑡2) ( )
𝑧𝑐 𝑟31 𝑟32 𝑟33 𝑡3
𝑍
1
utils :
Caméra -> Image :
𝑥
𝑥 1 1 0 0 0 𝑦𝑐
(𝑦) = (0 1 0 0) ( 𝑧𝑐 )
1 𝑤 𝑐
0 0 1 0
1
W represente f et z
Image->Pixel:
𝑢 𝛼𝑢 0 𝑢0 𝑥
(𝑣 ) = ( 0 𝛼𝑣 𝑣0 ) (𝑦)
1 0 0 1 1
Expression final :
𝑢 𝑋
1 𝛼𝑢 0 𝑢0 1 0 0 0 𝑟11 𝑟12 𝑟13 𝑡1
𝑌
(𝑣 ) = ( 0 𝛼𝑣 𝑣0 ) (0 1 0 0) (𝑟21 𝑟22 𝑟23 𝑡2) ( )
1 𝑤 𝑍
0 0 1 0 0 1 0 𝑟31 𝑟32 𝑟33 𝑡3
1
K : 3x3 A: 3x4 ( R T )4x4
On obtient :
𝑢 𝑚11 𝑚12 𝑚13 𝑚14 𝑋
(𝑣 ) = (𝑚21 𝑚22 𝑚23 𝑚24 ) (𝑌 )
1 𝑚31 𝑚32 𝑚33 𝑚34 𝑍
1
On peut l’écrire sous la forme :
Pixel = M.P = K.A.[R | t].P
Les transformations (coursera) :
Remarque :
- Les parametres mi,j traduisent les parametres ri,j , ti f, z, kx, ky, u0, v0
- Les parametres f, kx, ky, u0, v0 sont des parametre intrinséque liés à la
camera
- Les parametres ri,j , ti sont des parametre extrinséque
- Pour trouver les parametre mi,j on utilise le calibrage
- Il suffit d’avoir 6 points de la scène avec leur pixel sur l’image pour resoudre le
système lineaire de 12 equation et 11 inconus et determiner M.
III. Vision 3D (Stereovision)
On va utiliser 2 camera pour re-construire la scence en 3D
Avec la mis en correspondance les points similaires des 2 imges.
1) Geométrie Epipolaire