Chapitre 1
Outils mathématiques pour
l’intelligence artificielle
Introduction
L’intelligence artificielle moderne repose fortement sur une variété d’outils mathé-
matiques. Ces outils permettent de représenter les données, de concevoir les modèles,
d’optimiser leurs performances et d’interpréter leurs résultats.
1.1 Algèbre linéaire
L’algèbre linéaire fournit un cadre pour représenter les données sous forme de vecteurs
ou de matrices. Par exemple, un jeu de données contenant m échantillons et n caractéris-
tiques peut être représenté par une matrice X ∈ Rm×n .
1.1.1 Rappels et compléments en algèbre linéaire
Espace vectoriel normé Rn
On considérera toujours l’espace des vecteurs Rn muni de sa structure d’espace vecto-
riel normé de dimension n :
— Pour tous x, y ∈ Rn , la somme des vecteurs x et y est notée :
x + y = [xi + yi ]1≤i≤n .
— Pour tout λ ∈ R, la multiplication scalaire est définie par :
λx := λ · x = [λxi ]1≤i≤n .
1
— La norme euclidienne ∥ · ∥ sur Rn est définie, pour tout vecteur x ∈ Rn , par :
v
u n
uX
∥x∥ := t x2 . i
i=1
On dira que x ∈ Rn est unitaire si ∥x∥ = 1.
— Pour tous vecteurs x, y ∈ Rn , le produit scalaire dérivé de la norme euclidienne est
noté x⊤ y et défini par :
n
x⊤ y :=
X
xi yi .
i=1
Il s’agit d’une forme bilinéaire symétrique définie positive. En particulier, on a :
y ⊤ x = x⊤ y.
— Il existe une famille libre et génératrice de Rn de taille n. Par exemple, tout vecteur
x ∈ Rn peut s’écrire :
n
X
x= xi e i ,
i=1
où ei = [0 · · · 0 1 0 · · · 0]⊤ est le ième vecteur de la base canonique (le coefficient
1 se trouve à la ième position).
Définition 1.1 (Sous-espace engendré). Soient x1 , . . . , xp des vecteurs de Rn . Le sous-
espace engendré par les vecteurs x1 , . . . , xp est le sous-espace vectoriel défini par :
( p
X
)
vect(x1 , . . . , xp ) := x = αi xi αi ∈ R ∀i .
i=1
Ce sous-espace est de dimension au plus min(n, p).
Définition 1.2 (Sous-espaces matriciels). Lorsque l’on travaille avec des matrices, on
s’intéresse généralement aux sous-espaces suivants.
Soit une matrice A ∈ Rm×n , on définit :
— Le noyau (ou kernel en anglais) de A :
ker(A) := {x ∈ Rn | Ax = 0m }
— L’image (ou range space) de A :
Im(A) := {y ∈ Rm | ∃x ∈ Rn , y = Ax}
La dimension de l’image est appelée rang de A, noté rang(A), et on a :
rang(A) ≤ min(m, n)
2
[Théorème du rang] Pour toute matrice A ∈ Rm×n , on a :
dim(ker(A)) + rang(A) = n
Définition 1.3 (Normes matricielles). On définit sur Rm×n deux normes importantes :
Soit A ∈ Rm×n ,
∥Ax∥
∥A∥ := maxn = max ∥Ax∥ (norme d’opérateur)
∥x∥
x∈R ∥x∥=1
x̸=0
qP
∥A∥ A2ij
P
:= (norme de Frobenius)
F 1≤i≤m 1≤j≤n
Nous terminons cette section par quelques définitions de sous-ensembles de matrices
carrées utiles dans ce cours.
Définition 1.4 (Matrice symétrique). Une matrice carrée A ∈ Rn×n est dite symétrique
si elle vérifie :
AT = A
Définition 1.5 (Matrice inversible). Une matrice carrée A ∈ Rn×n est dite inversible
s’il existe une matrice B ∈ Rn×n telle que :
BA = AB = In
où In désigne la matrice identité de Rn×n . Si elle existe, cette matrice B est unique, elle
est appelée l’inverse de A et on la note A−1 .
Définition 1.6 (Matrice (semi-)définie positive). Une matrice carrée A ∈ Rn×n est dite
semi-définie positive si elle est symétrique et :
∀x ∈ Rn , xT Ax ≥ 0.
Elle est dite définie positive si elle est semi-définie positive et que :
∀x ∈ Rn \ {0}, xT Ax > 0.
Définition 1.7 (Matrice orthogonale). Une matrice carrée P ∈ Rn×n est dite orthogonale
si P T = P −1 .
Par extension, on dira que Q ∈ Rm×n avec m ≤ n est orthogonale si QQT = Im (les
colonnes de Q sont donc orthonormées dans Rm ).
Si Q ∈ Rn×n est une matrice orthogonale, alors QT est également orthogonale.
On utilisera fréquemment la propriété des matrices orthogonales énoncée ci-dessous.
3
Lemme 1.1. Soit une matrice A ∈ Rm×n et U ∈ Rm×m , V ∈ Rn×n des matrices ortho-
gonales (respectivement de Rm×m et Rn×n ). On a :
∥A∥ = ∥U A∥ = ∥AV ∥ et ∥A∥F = ∥U A∥F = ∥AV ∥F ,
c’est-à-dire que la multiplication par une matrice orthogonale ne modifie pas la norme
d’opérateur.
1.2 Valeurs propres et décomposition spectrale
Définition 1.8 (Valeur propre). Soit une matrice A ∈ Rn×n . On dit que λ ∈ R est une
valeur propre de A si
∃v ∈ Rn , v ̸= 0n , Av = λv.
Le vecteur v est appelé un vecteur propre associé à la valeur propre λ. L’ensemble des
valeurs propres de A s’appelle le spectre de A.
Le sous-espace engendré par les vecteurs propres associés à la même valeur propre
d’une matrice s’appelle un sous-espace propre. Sa dimension correspond à l’ordre de
multiplicité de la valeur propre relativement à la matrice.
Proposition 1.1. Pour toute matrice A ∈ Rn×n , on a les propriétés suivantes :
— La matrice A possède n valeurs propres complexes mais pas nécessairement réelles.
— Si la matrice A est semi-définie positive (respectivement définie positive), alors ses
valeurs propres sont réelles positives (respectivement strictement positives).
— Le noyau de A est engendré par les vecteurs propres associés à la valeur propre 0.
1.2.1 Valeurs propres et décomposition spectrale
Définition 1.9 (Valeur propre). Soit une matrice A ∈ Rn×n . On dit que λ ∈ R est une
valeur propre de A s’il existe v ∈ Rn , v ̸= 0n , tel que Av = λv.
Le vecteur v est appelé un vecteur propre associé à la valeur propre λ. L’ensemble des
valeurs propres de A s’appelle le spectre de A.
Le sous-espace engendré par les vecteurs propres associés à la même valeur propre
d’une matrice s’appelle un sous-espace propre. Sa dimension correspond à l’ordre de
multiplicité de la valeur propre relativement à la matrice.
Proposition 1.2. Pour toute matrice A ∈ Rn×n , on a les propriétés suivantes :
— La matrice A possède n valeurs propres complexes mais pas nécessairement réelles.
— Si la matrice A est semi-définie positive (respectivement définie positive), alors ses
valeurs propres sont réelles positives (respectivement strictement positives).
— Le noyau de A est engendré par les vecteurs propres associés à la valeur propre 0.
4
[Théorème spectral] Toute matrice carrée A ∈ Rn×n symétrique admet une décompo-
sition dite spectrale de la forme :
A = P ΛP −1 ,
où P ∈ Rn×n est une matrice orthogonale, dont les colonnes p1 , . . . , pn forment une base
orthonormée de vecteurs propres, et Λ ∈ Rn×n est une matrice diagonale qui contient les
n valeurs propres de A, λ1 , . . . , λn , sur la diagonale.
Il est à noter que la décomposition spectrale n’est pas unique. En revanche, l’ensemble
des valeurs propres est unique, que l’on prenne en compte les ordres de multiplicité ou
non.
La décomposition spectrale définie dans le théorème ci-dessus est particulièrement
importante car elle permet de synthétiser l’information de A par son effet sur les vecteurs
pi .
Ainsi, lorsque |λi | ≫ 1, on aura ∥Api ∥ ≫ ∥pi ∥, et la matrice aura donc un effet expansif
dans la direction de pi (ou sa direction opposée lorsque λi < 0).
De même, si |λi | ≪ 1, la matrice aura un effet contractant dans la direction de pi : le
cas extrême est λi = 0, c’est-à-dire que pi ∈ ker(A) et la matrice ne conserve donc pas
d’information relative à pi .
Géométriquement parlant, on voit ainsi que, pour tout vecteur x ∈ Rn décomposé
dans la base des pi que l’on multiplie par A, les composantes de ce vecteur associées aux
plus grandes valeurs propres seront augmentées, tandis que celles associées aux valeurs
propres de petite magnitude seront réduites (voire annihilées dans le cas d’une valeur
propre nulle).
1.2.2 Décomposition en valeurs singulières
La décomposition en valeurs singulières (ou SVD, pour Singular Value Decomposition)
est une technique fondamentale en analyse et compression de données, particulièrement
utile pour compresser des signaux audios, des images, etc.
Principe de la décomposition
Soit une matrice rectangulaire A ∈ Rm×n : dans le cas général, les dimensions de la
matrice diffèrent, et on ne peut donc pas parler de valeurs propres de la matrice A. On
peut en revanche considérer les deux matrices AT A ∈ Rn×n et AAT ∈ Rm×m .
Ces matrices sont symétriques réelles, et par conséquent diagonalisables. Par ailleurs,
elles sont fortement liées à la matrice A. Le lemme ci-dessous illustre quelques-unes des
propriétés de AT A ; des résultats similaires peuvent être démontrés pour AAT .
Lemme 1.2. Pour toute matrice A ∈ Rm×n , les propriétés suivantes sont vérifiées :
i) AT A est semi-définie positive ;
5
ii) AT A est symétrique ;
iii) ker(AT A) = ker(A) ;
iv) Im(AT A) = Im(AT ) ;
v) rang(AT A) = rang(A).
Ces résultats sont à la base de la construction de la décomposition en valeurs singu-
lières, dont on donne l’énoncé ci-dessous.
Théorème 1.1. (Décomposition en valeurs singulières) Toute matrice A ∈ Rm×n admet
une décomposition en valeurs singulières (SVD2 ) de la forme
A = U ΣV T ,
où U ∈ Rm×m est orthogonale (U T U = Im ), V ∈ Rn×n est orthogonale (V T V = In ) et
Σ ∈ Rm×n est telle que Σij = 0 si i ̸= j et Σii ≥ 0.
L’ensemble des valeurs {Σii } pour 1 ≤ i ≤ min{m, n}, noté {σ1 , . . . , σmin{m,n} } est
appelé ensemble des valeurs singulières de la matrice A. Les colonnes de V (resp.
de U ) sont appelées les vecteurs singuliers à droite (resp. à gauche) de A.
Remarque 1.1. Comme dans le cas de la décomposition en valeurs propres, il n’y a pas
unicité de la décomposition en valeurs singulières, mais il y a unicité de l’ensemble des
valeurs singulières.
Exemple 1.1. La décomposition en valeurs singulières d’une matrice de R3×2 est de la
forme
σ 1 0
h i v1⊤
A = u1 u2 u3 0 σ2 ⊤
v
0 0 | {z2 }
| {z }
U
| {z } V⊤
Σ
où σ1 ≥ 0, σ2 ≥ 0, les ui forment une base orthonormée de R3 et les vi forment une base
orthonormée de R2 .
1.3 Le calcul différentiel
1.3.1