0% ont trouvé ce document utile (0 vote)
35 vues16 pages

Rapport Pfe

Le document présente les outils mathématiques fondamentaux pour l'intelligence artificielle, en se concentrant sur l'algèbre linéaire et le calcul différentiel. Il aborde des concepts tels que les espaces vectoriels, les matrices, les valeurs propres, et la décomposition en valeurs singulières, qui sont cruciaux pour la modélisation et l'optimisation des performances des algorithmes d'IA. En outre, il définit la différentiabilité des fonctions dans le contexte des espaces vectoriels normés.

Transféré par

hanaeechcharqy925
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues16 pages

Rapport Pfe

Le document présente les outils mathématiques fondamentaux pour l'intelligence artificielle, en se concentrant sur l'algèbre linéaire et le calcul différentiel. Il aborde des concepts tels que les espaces vectoriels, les matrices, les valeurs propres, et la décomposition en valeurs singulières, qui sont cruciaux pour la modélisation et l'optimisation des performances des algorithmes d'IA. En outre, il définit la différentiabilité des fonctions dans le contexte des espaces vectoriels normés.

Transféré par

hanaeechcharqy925
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Outils mathématiques pour


l’intelligence artificielle

Introduction
L’intelligence artificielle moderne repose fortement sur une variété d’outils mathé-
matiques. Ces outils permettent de représenter les données, de concevoir les modèles,
d’optimiser leurs performances et d’interpréter leurs résultats.

1.1 Algèbre linéaire


L’algèbre linéaire fournit un cadre pour représenter les données sous forme de vecteurs
ou de matrices. Par exemple, un jeu de données contenant m échantillons et n caractéris-
tiques peut être représenté par une matrice X ∈ Rm×n .

1.1.1 Rappels et compléments en algèbre linéaire


Espace vectoriel normé Rn

On considérera toujours l’espace des vecteurs Rn muni de sa structure d’espace vecto-


riel normé de dimension n :
— Pour tous x, y ∈ Rn , la somme des vecteurs x et y est notée :

x + y = [xi + yi ]1≤i≤n .

— Pour tout λ ∈ R, la multiplication scalaire est définie par :

λx := λ · x = [λxi ]1≤i≤n .

1
— La norme euclidienne ∥ · ∥ sur Rn est définie, pour tout vecteur x ∈ Rn , par :
v
u n
uX
∥x∥ := t x2 . i
i=1

On dira que x ∈ Rn est unitaire si ∥x∥ = 1.


— Pour tous vecteurs x, y ∈ Rn , le produit scalaire dérivé de la norme euclidienne est
noté x⊤ y et défini par :
n
x⊤ y :=
X
xi yi .
i=1

Il s’agit d’une forme bilinéaire symétrique définie positive. En particulier, on a :


y ⊤ x = x⊤ y.
— Il existe une famille libre et génératrice de Rn de taille n. Par exemple, tout vecteur
x ∈ Rn peut s’écrire :
n
X
x= xi e i ,
i=1

où ei = [0 · · · 0 1 0 · · · 0]⊤ est le ième vecteur de la base canonique (le coefficient


1 se trouve à la ième position).

Définition 1.1 (Sous-espace engendré). Soient x1 , . . . , xp des vecteurs de Rn . Le sous-


espace engendré par les vecteurs x1 , . . . , xp est le sous-espace vectoriel défini par :
( p
X
)
vect(x1 , . . . , xp ) := x = αi xi αi ∈ R ∀i .
i=1

Ce sous-espace est de dimension au plus min(n, p).

Définition 1.2 (Sous-espaces matriciels). Lorsque l’on travaille avec des matrices, on
s’intéresse généralement aux sous-espaces suivants.
Soit une matrice A ∈ Rm×n , on définit :
— Le noyau (ou kernel en anglais) de A :

ker(A) := {x ∈ Rn | Ax = 0m }

— L’image (ou range space) de A :

Im(A) := {y ∈ Rm | ∃x ∈ Rn , y = Ax}

La dimension de l’image est appelée rang de A, noté rang(A), et on a :

rang(A) ≤ min(m, n)

2
Théorème 1.1.1 (Théorème du rang). Pour toute matrice A ∈ Rm×n , on a :

dim(ker(A)) + rang(A) = n

Définition 1.3 (Normes matricielles). On définit sur Rm×n deux normes importantes :
Soit A ∈ Rm×n ,

∥Ax∥

∥A∥ := maxn = max ∥Ax∥ (norme d’opérateur)


∥x∥

x∈R ∥x∥=1



 x̸=0




 qP
∥A∥ A2ij
P
:= (norme de Frobenius)

F 1≤i≤m 1≤j≤n

Nous terminons cette section par quelques définitions de sous-ensembles de matrices


carrées utiles dans ce cours.

Définition 1.4 (Matrice symétrique). Une matrice carrée A ∈ Rn×n est dite symétrique
si elle vérifie :
AT = A

Définition 1.5 (Matrice inversible). Une matrice carrée A ∈ Rn×n est dite inversible
s’il existe une matrice B ∈ Rn×n telle que :

BA = AB = In

où In désigne la matrice identité de Rn×n . Si elle existe, cette matrice B est unique, elle
est appelée l’inverse de A et on la note A−1 .

Définition 1.6 (Matrice (semi-)définie positive). Une matrice carrée A ∈ Rn×n est dite
semi-définie positive si elle est symétrique et :

∀x ∈ Rn , xT Ax ≥ 0.

Elle est dite définie positive si elle est semi-définie positive et que :

∀x ∈ Rn \ {0}, xT Ax > 0.

Définition 1.7 (Matrice orthogonale). Une matrice carrée P ∈ Rn×n est dite orthogonale
si P T = P −1 .
Par extension, on dira que Q ∈ Rm×n avec m ≤ n est orthogonale si QQT = Im (les
colonnes de Q sont donc orthonormées dans Rm ).
Si Q ∈ Rn×n est une matrice orthogonale, alors QT est également orthogonale.

On utilisera fréquemment la propriété des matrices orthogonales énoncée ci-dessous.

3
Lemme 1.1. Soit une matrice A ∈ Rm×n et U ∈ Rm×m , V ∈ Rn×n des matrices ortho-
gonales (respectivement de Rm×m et Rn×n ). On a :

∥A∥ = ∥U A∥ = ∥AV ∥ et ∥A∥F = ∥U A∥F = ∥AV ∥F ,

c’est-à-dire que la multiplication par une matrice orthogonale ne modifie pas la norme
d’opérateur.

Valeurs propres et décomposition spectrale

Définition 1.8 (Valeur propre). Soit une matrice A ∈ Rn×n . On dit que λ ∈ R est une
valeur propre de A si
∃v ∈ Rn , v ̸= 0n , Av = λv.

Le vecteur v est appelé un vecteur propre associé à la valeur propre λ. L’ensemble des
valeurs propres de A s’appelle le spectre de A.
Le sous-espace engendré par les vecteurs propres associés à la même valeur propre
d’une matrice s’appelle un sous-espace propre. Sa dimension correspond à l’ordre de
multiplicité de la valeur propre relativement à la matrice.

Proposition 1.1. Pour toute matrice A ∈ Rn×n , on a les propriétés suivantes :


— La matrice A possède n valeurs propres complexes mais pas nécessairement réelles.
— Si la matrice A est semi-définie positive (respectivement définie positive), alors ses
valeurs propres sont réelles positives (respectivement strictement positives).
— Le noyau de A est engendré par les vecteurs propres associés à la valeur propre 0.

Valeurs propres et décomposition spectrale

Définition 1.9 (Valeur propre). Soit une matrice A ∈ Rn×n . On dit que λ ∈ R est une
valeur propre de A s’il existe v ∈ Rn , v ̸= 0n , tel que Av = λv.
Le vecteur v est appelé un vecteur propre associé à la valeur propre λ. L’ensemble des
valeurs propres de A s’appelle le spectre de A.
Le sous-espace engendré par les vecteurs propres associés à la même valeur propre
d’une matrice s’appelle un sous-espace propre. Sa dimension correspond à l’ordre de
multiplicité de la valeur propre relativement à la matrice.

Proposition 1.2. Pour toute matrice A ∈ Rn×n , on a les propriétés suivantes :


— La matrice A possède n valeurs propres complexes mais pas nécessairement réelles.
— Si la matrice A est semi-définie positive (respectivement définie positive), alors ses
valeurs propres sont réelles positives (respectivement strictement positives).
— Le noyau de A est engendré par les vecteurs propres associés à la valeur propre 0.

4
Théorème 1.1.2 (Théorème spectral). Toute matrice carrée A ∈ Rn×n symétrique admet
une décomposition dite spectrale de la forme :

A = P ΛP −1 ,

où P ∈ Rn×n est une matrice orthogonale, dont les colonnes p1 , . . . , pn forment une base
orthonormée de vecteurs propres, et Λ ∈ Rn×n est une matrice diagonale qui contient les
n valeurs propres de A, λ1 , . . . , λn , sur la diagonale.
Il est à noter que la décomposition spectrale n’est pas unique. En revanche, l’ensemble
des valeurs propres est unique, que l’on prenne en compte les ordres de multiplicité ou
non.

La décomposition spectrale définie dans le théorème ci-dessus est particulièrement


importante car elle permet de synthétiser l’information de A par son effet sur les vecteurs
pi .
Ainsi, lorsque |λi | ≫ 1, on aura ∥Api ∥ ≫ ∥pi ∥, et la matrice aura donc un effet expansif
dans la direction de pi (ou sa direction opposée lorsque λi < 0).
De même, si |λi | ≪ 1, la matrice aura un effet contractant dans la direction de pi : le
cas extrême est λi = 0, c’est-à-dire que pi ∈ ker(A) et la matrice ne conserve donc pas
d’information relative à pi .
Géométriquement parlant, on voit ainsi que, pour tout vecteur x ∈ Rn décomposé
dans la base des pi que l’on multiplie par A, les composantes de ce vecteur associées aux
plus grandes valeurs propres seront augmentées, tandis que celles associées aux valeurs
propres de petite magnitude seront réduites (voire annihilées dans le cas d’une valeur
propre nulle).

1.1.2 Décomposition en valeurs singulières


La décomposition en valeurs singulières (ou SVD, pour Singular Value Decomposition)
est une technique fondamentale en analyse et compression de données, particulièrement
utile pour compresser des signaux audios, des images, etc.

Principe de la décomposition

Soit une matrice rectangulaire A ∈ Rm×n : dans le cas général, les dimensions de la
matrice diffèrent, et on ne peut donc pas parler de valeurs propres de la matrice A. On
peut en revanche considérer les deux matrices AT A ∈ Rn×n et AAT ∈ Rm×m .

Ces matrices sont symétriques réelles, et par conséquent diagonalisables. Par ailleurs,
elles sont fortement liées à la matrice A. Le lemme ci-dessous illustre quelques-unes des
propriétés de AT A ; des résultats similaires peuvent être démontrés pour AAT .

Lemme 1.2. Pour toute matrice A ∈ Rm×n , les propriétés suivantes sont vérifiées :

5
i) AT A est semi-définie positive ;
ii) AT A est symétrique ;
iii) ker(AT A) = ker(A) ;
iv) Im(AT A) = Im(AT ) ;
v) rang(AT A) = rang(A).

Ces résultats sont à la base de la construction de la décomposition en valeurs singu-


lières, dont on donne l’énoncé ci-dessous.

Théorème 1.1. (Décomposition en valeurs singulières) Toute matrice A ∈ Rm×n admet


une décomposition en valeurs singulières (SVD2 ) de la forme

A = U ΣV T ,

où U ∈ Rm×m est orthogonale (U T U = Im ), V ∈ Rn×n est orthogonale (V T V = In ) et


Σ ∈ Rm×n est telle que Σij = 0 si i ̸= j et Σii ≥ 0.
L’ensemble des valeurs {Σii } pour 1 ≤ i ≤ min{m, n}, noté {σ1 , . . . , σmin{m,n} } est
appelé ensemble des valeurs singulières de la matrice A. Les colonnes de V (resp.
de U ) sont appelées les vecteurs singuliers à droite (resp. à gauche) de A.

Remarque 1.1. Comme dans le cas de la décomposition en valeurs propres, il n’y a pas
unicité de la décomposition en valeurs singulières, mais il y a unicité de l’ensemble des
valeurs singulières.

Exemple 1.1. La décomposition en valeurs singulières d’une matrice de R3×2 est de la


forme  
σ 0  ⊤
i 1
h  v1
A = u1 u2 u3   0 σ2  ⊤
 
v
0 0 | {z2 }
| {z }
U
| {z } V⊤
Σ

où σ1 ≥ 0, σ2 ≥ 0, les ui forment une base orthonormée de R3 et les vi forment une base


orthonormée de R2 .

1.2 Le calcul différentiel


1.2.1 Fonctions différentiables — Différentielle
On considère (E, ∥ · ∥E ) et (F, ∥ · ∥F ) deux espaces vectoriels normés sur K (où K = R
ou C), et f une fonction définie sur un ouvert U ⊂ E à valeurs dans F .

Définition 1.10. Soient f : U → F et x0 ∈ U . On dit que f est différentiable en x0 s’il


existe L ∈ L(E, F ) telle que

∀ε > 0, ∃η > 0, ∀h ∈ E, ∥h∥E < η ⇒ ∥f (x0 + h) − f (x0 ) − L(h)∥F < ε∥h∥E .

6
De façon équivalente, f est différentiable en x0 s’il existe L ∈ L(E, F ) telle que

1
lim (f (x0 + h) − f (x0 ) − L(h)) = 0. (2.1.1)
h→0E ∥h∥E

On écrira encore : f (x0 + h) = f (x0 ) + L(h) + o(h).

Proposition 1.3. Soient f : U → F et x0 ∈ U . Si f est différentiable en x0 , alors


l’application L est unique.
Elle est appelée différentielle de f en x0 et est notée Df (x0 ), ou encore df (x0 ), dfx0 ou
Dfx0 .

Proposition 1.4. Soient f, g : U → F et x0 ∈ U . Si f et g sont différentiables en x0 ,


alors f + g l’est aussi, et on a :

D(f + g)(x0 ) = Df (x0 ) + Dg(x0 ).

Proposition 1.5. Soient U ⊂ E, V ⊂ F des ouverts, f : U → F telle que f (U ) ⊂ V ,


g : V → G et x0 ∈ U .
Si f est différentiable en x0 et g est différentiable en f (x0 ), alors la fonction g ◦f : U → G
est différentiable en x0 et on a :

D(g ◦ f )(x0 ) = Dg(f (x0 )) ◦ Df (x0 ).

1.2.2 Différenyielles partielles et gradients


Définition 1.11. Soient U ⊂ E = E1 × · · · × En , f : U → F et x = (x1 , . . . , xn ) ∈ U .
On dit que f admet une différentielle partielle en x par rapport à la i-ème variable si
l’application
fi (y) := f (x1 , . . . , xi−1 , y, xi+1 , . . . , xn )

définie au voisinage de xi ∈ Ei est différentiable au point xi .


On note Di f (x) = Dfi (xi ) ∈ L(Ei , F ) sa différentielle, et elle est appelée différentielle
partielle de f en x par rapport à la i-ème variable.

Proposition 1.6. Soient U ⊂ E = E1 × · · · × En , f : U → F et x = (x1 , . . . , xn ) ∈ U .


Si f est différentiable en x, alors f admet une différentielle partielle en x par rapport à
chacune des variables, et on a :

Di f (x)(hi ) = Df (x)(0, . . . , 0, hi , 0, . . . , 0),

où hi ∈ Ei et le vecteur (0, . . . , 0, hi , 0, . . . , 0) ∈ E a toutes ses composantes nulles sauf la


i-ème.

7
Proposition 1.7. Soit f : E1 × · · · × En → F une application n-linéaire continue. Alors
f est différentiable sur E1 × · · · × En et
n
X
Df (x1 , . . . , xn )(h1 , . . . , hn ) = f (x1 , . . . , xi−1 , hi , xi+1 , . . . , xn ).
i=1

En particulier, f admet des différentielles partielles par rapport à chaque variable et

Di f (x)(hi ) = f (x1 , . . . , xi−1 , hi , xi+1 , . . . , xn ).

Gradient d’une fonction

Définition 1.12. Soit f une fonction de Rd → R.


∂f
Le gradient de f , noté ∇x f , est le vecteur de composantes ∂xi
pour i = 1, 2, . . . , d :
 
∂f
 ∂x1  !⊤
 ∂f 
 ∂x2  ∂f ∂f ∂f
∇x f =  .  =
  , ,...,
 ..  ∂x1 ∂x2 ∂xd
 
∂f
∂xd

La norme euclidienne (ou ℓ2 ) du gradient est donnée par :


v !2
u d
uX ∂f
∥∇x f ∥2 = t
i=1 ∂xi

Exemple 1.2. Soit f (x1 , x2 ) = x21 cos(x2 ). Alors :


!
∂f ∂f  
∇x f = , = 2x1 cos(x2 ), −x21 sin(x2 )
∂x1 ∂x2

Hessienne d’une fonction

Définition 1.13. Soit f une fonction de Rd → R.


Le Hessienne de la fonction, noté ∇2x f , est la matrice des dérivées partielles secondes
de f , de taille d × d, définie par :
 
∂2f ∂2f ∂2f
 ∂x21 ∂x1 ∂x2
··· ∂x1 ∂xd 
 ∂2f ∂2f ∂2f 

 ∂x2 ∂x1 ∂x22
··· 
∂x2 ∂xd 
∇2x f =  .. .. .. .. 

 . . . . 

∂2f ∂2f ∂2f
 
∂xd ∂x1 ∂xd ∂x2
··· ∂x2d

Cette matrice est symétrique si f est de classe C 2 , c’est-à-dire :

∂ 2f ∂ 2f
=
∂xi ∂xj ∂xj ∂xi

8
Exemple 1.3. Soit la fonction f (x1 , x2 ) = x21 cos(x2 ).
Le gradient est donné par :
!
∂f ∂f  
∇x f = , = 2x1 cos(x2 ), −x21 sin(x2 )
∂x1 ∂x2

Le Hessienne est la matrice des dérivées secondes :


∂2f ∂2f
   
2
 ∂x2 1 ∂x1 ∂x2  2 cos(x2 ) −2x1 sin(x2 )
∇2x f = ∂ f ∂2f
=
∂x2 ∂x1 ∂x22
−2x1 sin(x2 ) −x21 cos(x2 )

1.3 Probabilités et statistiques


1.3.1 Rappels
L’univers, noté Ω, est l’ensemble des issues pouvant être obtenues lors d’une expérience
aléatoire.
Un événement A ⊆ Ω est un sous-ensemble des résultats possibles pour une expé-
rience.
L’espace des probabilités, noté F, permet la mesure quantitative d’une expérience
aléatoire.
La mesure de probabilité est une fonction à valeurs réelles définie comme suit :

P :F →R

P (A) ≥ 0, ∀A ∈ F

P (Ω) = 1

Si A1 , A2 , . . . est une famille d’événements deux à deux disjoints, c’est-à-dire Ai ∩Aj =


∅ pour i ̸= j, alors on a : !
[ X
P Ai = P (Ai )
i i

Probabilités conditionnelles et théorème de Bayes

Soient A et B deux événements tels que P (B) ̸= 0, la probabilité conditionnelle


de A sachant B est définie par :

P (A ∩ B)
P (A | B) :=
P (B)

9
Théorème 1.2. Théorème de Bayes : En appliquant la définition de la probabilité condi-
tionnelle, on obtient :

P (B ∩ A) P (A ∩ B) P (B) · P (A | B)
P (B | A) = = =
P (A) P (A) P (A)

Dans le cas où l’on considère trois événements A, B, et C, on peut énoncer le théo-


rème de Bayes conditionné :

P (B | A, C) · P (A | C)
P (A | B, C) =
P (B | C)

Loi des probabilités totales

Soient B1 , . . . , Bn n évènements disjoints où l’union est l’univers. Alors pour tout


évènement A :
n
X n
X
P (A) = P (A ∩ Bi ) = P (A|Bi )P (Bi )
i=1 i=1

On peut aussi écrire le théorème de Bayes comme :

P (A|Bk )P (Bk )
P (Bk |A) = Pn
i=1 P (A|Bi )P (Bi )

1.3.2 Indépendance
Deux évènements A et B sont indépendants si :

P (AB) = P (A)P (B)

On note A ⊥ B.
À partir de là, si A ⊥ B :

P (A ∩ B) P (A)P (B)
P (A|B) = = = P (A)
P (B) P (B)

Cela implique que si deux évènements sont indépendants alors observer un évènement
n’aura pas d’effets sur l’autre et inversement.
En général : A1 , . . . , An sont mutuellement indépendants si :
!
\ Y
P Ai = P (Ai )
i∈S i∈S

pour tout S ⊆ {1, . . . , n}

10
1.3.3 Variables aléatoires
X = k est l’évènement que la variable aléatoire X prend la valeur k.

Variables aléatoires discrètes :


— Val(X) est un espace.
— P (X = k) peut être non nul.

Variables aléatoires continues :


— Val(X) est un intervalle.
— P (X = k) = 0 pour tout k ; mais P (a ≤ X ≤ b) peut être non nul.

Fonction de masse

Prenons une variable aléatoire discrète X, une fonction de masse associe les valeurs
de X à une probabilité :
pX (x) := P (X = x)

Pour qu’une fonction de masse soit valide, il faut que :


X
pX (x) = 1
x∈Val(X)

Fonction de répartition

Une fonction de répartition associe une variable aléatoire continue à une probabilité,
c’est-à-dire une fonction FX : R → [0, 1] :

FX (x) := P (X ≤ x)

Une fonction de répartition doit respecter les règles suivantes :

lim FX (x) = 0, lim FX (x) = 1


x→−∞ x→+∞

et si a ≤ b alors :
FX (a) ≤ FX (b)

On note aussi :
P (a ≤ X ≤ b) = FX (b) − FX (a).

Variable aléatoire à densité

Une variable aléatoire continue admet une fonction de densité, qui est la dérivée de
la fonction de répartition :
dFX (x)
fX (x) :=
dx

11
On a donc : Z b
P (a ≤ X ≤ b) = FX (b) − FX (a) = fX (x) dx
a

Une fonction de densité est valide si elle respecte les conditions suivantes :
— ZPour tout réel x, fX (x) ≥ 0 ;
+∞
— fX (x) dx = 1.
−∞
L’aire sous une courbe de densité doit donc être égale à 1.

Espérance

— Si X est une variable aléatoire discrète :


X
E[g(X)] := g(x) pX (x)
x∈Val(X)

— Si X est une variable aléatoire continue :


Z +∞
E[g(X)] := g(x) fX (x) dx
−∞

où g est une fonction à valeurs réelles arbitraire.

Propriétés

Pour toute constante a ∈ R et une fonction arbitraire f :

E[a] = a, E[af (X)] = a E[f (X)]

Linéarité de l’espérance : Soient n fonctions à valeurs réelles f1 (X), . . . , fn (X),


" n # n
X X
E fi (X) = E[fi (X)]
i=1 i=1

Variance

La variance d’une variable aléatoire X mesure la concentration de la distribution de


X autour de sa moyenne.
h i
Var(X) := E (X − E[X])2 = E[X 2 ] − (E[X])2

Propriétés de la variance Soit a une constante :

Var[a] = 0, Var[af (X)] = a2 Var[f (X)]

12
1.4 Distributions marginales et jointes
1.4.1 Fonction de masse jointe pour variables aléatoires dis-
crètes X, Y
Soit la fonction de masse jointe pour les variables aléatoires discrètes X et Y :

pXY (x, y) = P (X = x, Y = y)

Notons que
X X
pXY (x, y) = 1
x∈Val(X) y∈Val(Y )

1.4.2 Fonction de masse marginale de X, en donnant la fonction


de masse jointe de X, Y
La fonction de masse marginale de X est donnée par :
X
pX (x) = pXY (x, y)
y

1.4.3 Variables aléatoires de densité jointe pour X, Y continus


Soit X et Y des variables aléatoires continues. La fonction de densité jointe de X et
Y est donnée par :
∂ 2 FXY (x, y)
fXY (x, y) =
∂x ∂y
Notons que : Z ∞ Z ∞
fXY (x, y) dx dy = 1
−∞ −∞

1.4.4 Variable aléatoire à densité marginale de X, en donnant


la jointe de X, Y
La densité marginale de X, donnée la densité jointe de X et Y , est :
Z ∞
fX (x) = fXY (x, y) dy.
−∞

13
1.5 Distributions marginales et jointes pour plusieurs
variables aléatoires
1.5.1 Fonction de masse jointe pour variables aléatoires dis-
crètes X1 , . . . , Xn
La fonction de masse jointe pour les variables aléatoires discrètes X1 , . . . , Xn est donnée
par :
p(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )

Notons que :
n
Y
P (xi )p(x1 , . . . , xn ) = 1
i=1

1.5.2 Fonction de masse marginale de X1 , en donnant la fonction


de masse jointe de X1 , . . . , Xn
La fonction de masse marginale de X1 est donnée par :
X X
pX1 (x1 ) = ··· p(x1 , . . . , xn )
x2 xn

1.5.3 Variables aléatoires de densité jointe pour X1 , . . . , Xn conti-


nus
La fonction de densité jointe pour les variables continues X1 , . . . , Xn est donnée par :

∂ n F (x1 , . . . , xn )
f (x1 , . . . , xn ) =
∂x1 ∂x2 . . . ∂xn

Notons que : Z ∞ Z ∞ Z ∞
··· f (x1 , . . . , xn ) dx1 . . . dxn = 1
−∞ −∞ −∞

1.5.4 Variable aléatoire à densité marginale de X1 , en donnant


la jointe de X1 , . . . , Xn
La densité marginale de X1 est donnée par :
Z ∞ Z ∞
fX1 (x1 ) = ··· f (x1 , . . . , xn ) dx2 . . . dxn
−∞ −∞

14
1.6 Propriétés sur les variables aléatoires
1.6.1 Distribution conditionnelle
Pour des variables discrètes X et Y , la distribution conditionnelle est donnée par :

pXY (x, y)
pY |X (y|x) =
pX (x)

Pour des variables continues X et Y , la distribution conditionnelle est donnée par :

fXY (x, y)
fY |X (y|x) =
fX (x)

En général, pour des variables continues X1 , . . . , Xn , la distribution conditionnelle est


donnée par :
fX ,X ,...,Xn (x1 , x2 , . . . , xn )
fX1 |X2 ,...,Xn (x1 |x2 , . . . , xn ) = 1 2
fX2 ,...,Xn (x2 , . . . , xn )

1.6.2 Théorème de Bayes


Le théorème de Bayes fonctionne de la même manière pour des variables discrètes et
continues : Pour des variables discrètes X et Y :
pY (y ′ )
pXY (x, y ′ )
X
pY |X (y|x) =
y ′ ∈Val(Y )
pX (x)

Pour des variables continues X et Y :


Z ∞
fY (y ′ ) ′
fY |X (y|x) = fX,Y (x, y ′ ) dy
−∞ fX (x)

1.6.3 Règle de la chaîne


La règle de la chaîne pour les variables aléatoires continues est donnée par :

f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 |x1 ) . . . f (xn |x1 , x2 , . . . , xn−1 )

En termes de produit, cela donne :


n
Y
f (x1 , x2 , . . . , xn ) = f (x1 ) f (xi |x1 , . . . , xi−1 )
i=2

15
1.6.4 Indépendance
Pour des variables indépendantes X ⊥ Y , il faut que la fonction de répartition jointe
soit factorisable, c’est-à-dire :

FXY (x, y) = FX (x)FY (y)

En conséquence, pour des variables indépendantes, la règle de la chaîne devient simple-


ment : n Y
f (x1 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ) = f (xi )
i=1

16

Vous aimerez peut-être aussi