Module 1
Module 1
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 1 / 75
Bienvenue à la Masterclass
OObjectifs de la session
Revoir les concepts fondamentaux de fonctions, matrices et algèbre linéaire.
Comprendre les propriétés utiles en machine learning, deep learning, traitement du signal, etc.
Développer l’intuition géométrique et l’agilité computationnelle.
Préparer le terrain pour les réseaux de neurones et les transformations linéaires.
Public cible
Étudiants en Mathématiques/Informatique et Science des
Données
Étudiants à la Faculté des Sciences et de la Santé
Chercheurs en NLP
Professionnels du secteur
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 2 / 75
Sommaire
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 3 / 75
Notions fondamentales sur les fonctions
Fonction (définition)
Soient A et B deux ensembles. Une fonction f de A vers B, notée f : A → B, est une application qui associe à chaque élément x ∈ A un
unique élément f (x) ∈ B.
Exemple
f : R → R défini par f (x) = x2 :
Domaine : R, Codomaine : R
Image : R+ = [0, +∞)
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 4 / 75
Notions fondamentales sur les fonctions
Fonction (définition)
Soient A et B deux ensembles. Une fonction f de A vers B, notée f : A → B, est une application qui associe à chaque élément x ∈ A un
unique élément f (x) ∈ B.
Exemple
f : R → R défini par f (x) = x2 :
Domaine : R, Codomaine : R
Image : R+ = [0, +∞)
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 4 / 75
Notions fondamentales sur les fonctions
Définition
Le graphe d’une fonction f : A → B est l’ensemble des couples :
x
Remarque : Une courbe n’est le graphe d’une fonction que si toute verticale coupe la courbe en au plus un point.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 5 / 75
Notions fondamentales sur les fonctions
Définition
Le graphe d’une fonction f : A → B est l’ensemble des couples :
x
Remarque : Une courbe n’est le graphe d’une fonction que si toute verticale coupe la courbe en au plus un point.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 5 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite injective si :
∀x1 , x2 ∈ A, f (x1 ) = f (x2 ) ⇒ x1 = x2
Autrement dit, deux éléments différents de A ont toujours des images différentes.
Il n’y a pas de "collisions" dans l’image.
Exemple
f : R → R défini par f (x) = 2x + 1 est injective. Mais f (x) = x2 ne l’est pas sur R car f (1) = f (−1).
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 6 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite injective si :
∀x1 , x2 ∈ A, f (x1 ) = f (x2 ) ⇒ x1 = x2
Autrement dit, deux éléments différents de A ont toujours des images différentes.
Il n’y a pas de "collisions" dans l’image.
Exemple
f : R → R défini par f (x) = 2x + 1 est injective. Mais f (x) = x2 ne l’est pas sur R car f (1) = f (−1).
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 6 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite surjective si :
∀y ∈ B, ∃x ∈ A tel que f (x) = y
Exemple
f : R → R défini par f (x) = x3 est surjective. Mais f (x) = ex n’est pas surjective si B = R.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 7 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite surjective si :
∀y ∈ B, ∃x ∈ A tel que f (x) = y
Exemple
f : R → R défini par f (x) = x3 est surjective. Mais f (x) = ex n’est pas surjective si B = R.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 7 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite bijective si elle est à la fois :
injective : chaque valeur de B est atteinte par un seul x
surjective : chaque y ∈ B a un antécédent dans A
Exemple
f : R → R défini par f (x) = x + 5 est bijective.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 8 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : A → B est dite bijective si elle est à la fois :
injective : chaque valeur de B est atteinte par un seul x
surjective : chaque y ∈ B a un antécédent dans A
Exemple
f : R → R défini par f (x) = x + 5 est bijective.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 8 / 75
Notions fondamentales sur les fonctions
Fonction linéaire
Une fonction f : R → R est dite linéaire si ∃a ∈ R tel que f (x) = ax.
Fonction affine
Une fonction est affine si f (x) = ax + b avec a, b ∈ R.
Applications
Les neurones artificiels combinent souvent une transformation affine f (x) = wT x + b suivie d’une non-linéarité.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 9 / 75
Notions fondamentales sur les fonctions
Fonction linéaire
Une fonction f : R → R est dite linéaire si ∃a ∈ R tel que f (x) = ax.
Fonction affine
Une fonction est affine si f (x) = ax + b avec a, b ∈ R.
Applications
Les neurones artificiels combinent souvent une transformation affine f (x) = wT x + b suivie d’une non-linéarité.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 9 / 75
Notions fondamentales sur les fonctions
Fonctions polynomiales
Définition
Une fonction f : R → R est polynomiale de degré n si :
f (x) = a0 + a1 x + a2 x2 + · · · + an xn avec an ̸= 0
Utilisation
Les polynômes interviennent dans les séries de Taylor, les modèles de régression non-linéaire, etc.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 10 / 75
Notions fondamentales sur les fonctions
Fonctions polynomiales
Définition
Une fonction f : R → R est polynomiale de degré n si :
f (x) = a0 + a1 x + a2 x2 + · · · + an xn avec an ̸= 0
Utilisation
Les polynômes interviennent dans les séries de Taylor, les modèles de régression non-linéaire, etc.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 10 / 75
Notions fondamentales sur les fonctions
Fonction exponentielle
Définition
La fonction exponentielle réelle est définie par :
∞
xn
f (x) = ex = ∑
n=0 n!
Application en IA
Intervient dans les fonctions d’activation comme la sigmoïde : σ(x) = 1+e1 −x .
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 11 / 75
Notions fondamentales sur les fonctions
Fonction exponentielle
Définition
La fonction exponentielle réelle est définie par :
∞
xn
f (x) = ex = ∑
n=0 n!
Application en IA
Intervient dans les fonctions d’activation comme la sigmoïde : σ(x) = 1+e1 −x .
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 11 / 75
Notions fondamentales sur les fonctions
Définition
La fonction logarithme népérien est la bijection réciproque de l’exponentielle :
Utilisation
Très utilisé en backpropagation (log-loss), softmax, ou en normalisation des valeurs.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 12 / 75
Notions fondamentales sur les fonctions
Définition
La fonction logarithme népérien est la bijection réciproque de l’exponentielle :
Utilisation
Très utilisé en backpropagation (log-loss), softmax, ou en normalisation des valeurs.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 12 / 75
Notions fondamentales sur les fonctions
Fonction sigmoïde
Définition
1
σ(x) =
1 + e−x
Image : (0, 1)
Dérivable : σ′ (x) = σ(x)(1 − σ(x))
Fonction non linéaire, à pente maximale en x = 0
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 13 / 75
Notions fondamentales sur les fonctions
Fonction sigmoïde
Définition
1
σ(x) =
1 + e−x
Image : (0, 1)
Dérivable : σ′ (x) = σ(x)(1 − σ(x))
Fonction non linéaire, à pente maximale en x = 0
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 13 / 75
Notions fondamentales sur les fonctions
Définition
ex − e−x
tanh(x) =
ex + e−x
Avantages
Zéro-centered meilleure convergence dans certains cas.
Même inconvénient que σ(x) : saturation pour |x| grand.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 14 / 75
Notions fondamentales sur les fonctions
Définition
ex − e−x
tanh(x) =
ex + e−x
Avantages
Zéro-centered meilleure convergence dans certains cas.
Même inconvénient que σ(x) : saturation pour |x| grand.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 14 / 75
Notions fondamentales sur les fonctions
Définition
ReLU(x) = max(0, x)
Avantages / limites
Accélère la convergence.
Problème de “neurones morts” quand x < 0 de manière permanente.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 15 / 75
Notions fondamentales sur les fonctions
Définition
ReLU(x) = max(0, x)
Avantages / limites
Accélère la convergence.
Problème de “neurones morts” quand x < 0 de manière permanente.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 15 / 75
Notions fondamentales sur les fonctions
Fonction GELU
Définition
1 x
GELU(x) = x · Φ(x), où Φ(x) = 1 + erf √
2 2
Utilisation avancée
Adoptée dans les Transformers (BERT, GPT-2) car elle combine efficacité computationnelle et régularité du gradient.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 16 / 75
Notions fondamentales sur les fonctions
Fonction GELU
Définition
1 x
GELU(x) = x · Φ(x), où Φ(x) = 1 + erf √
2 2
Utilisation avancée
Adoptée dans les Transformers (BERT, GPT-2) car elle combine efficacité computationnelle et régularité du gradient.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 16 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0
Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0
Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions
Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0
Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions
Définition
f est dérivable en x0 si la limite suivante existe :
f (x0 + h) − f (x0 )
f ′ (x0 ) = lim
h→0 h
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 18 / 75
Notions fondamentales sur les fonctions
Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :
Importance
La forme de f influence la vitesse et la stabilité de la convergence.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions
Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :
Importance
La forme de f influence la vitesse et la stabilité de la convergence.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions
Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :
Importance
La forme de f influence la vitesse et la stabilité de la convergence.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions
Rétropropagation (Backpropagation)
Principe
Algorithme qui applique la règle de la chaîne pour propager les gradients de la sortie vers l’entrée :
∂J ∂J ∂zn ∂z1
= · ···
∂θ ∂zn ∂zn−1 ∂θ
Chaque fonction utilisée dans le réseau doit être différentiable pour propager l’information.
Fonctions d’activation choisies pour leur dérivée simple à calculer.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 20 / 75
Notions fondamentales sur les fonctions
Rétropropagation (Backpropagation)
Principe
Algorithme qui applique la règle de la chaîne pour propager les gradients de la sortie vers l’entrée :
∂J ∂J ∂zn ∂z1
= · ···
∂θ ∂zn ∂zn−1 ∂θ
Chaque fonction utilisée dans le réseau doit être différentiable pour propager l’information.
Fonctions d’activation choisies pour leur dérivée simple à calculer.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 20 / 75
Notions fondamentales sur les fonctions
Compromis
Le choix repose sur un équilibre entre :
Continuité/dérivabilité
Coût de calcul
Propriétés d’apprentissage (vitesse, stabilité)
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 21 / 75
Notions fondamentales sur les fonctions
Compromis
Le choix repose sur un équilibre entre :
Continuité/dérivabilité
Coût de calcul
Propriétés d’apprentissage (vitesse, stabilité)
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 21 / 75
Matrices et opérations matricielles
Notation conventionnelle
X : matrice
x : vecteur
x : scalaire
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 22 / 75
Matrices et opérations matricielles
Notation conventionnelle
X : matrice
x : vecteur
x : scalaire
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 22 / 75
Matrices et opérations matricielles
Scalaires et vecteurs
Vecteur colonne :
v1
v2
v = . ∈ Rn
..
vn
Coordonnées : vi pour i = 1, . . . , n
Rn est un espace vectoriel de dimension n
Interprétation : points, directions, poids...
Vecteur ligne : v⊤ = [v1 , v2 , . . . , vn ] ∈ R1×n
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 23 / 75
Matrices et opérations matricielles
Scalaires et vecteurs
Vecteur colonne :
v1
v2
v = . ∈ Rn
..
vn
Coordonnées : vi pour i = 1, . . . , n
Rn est un espace vectoriel de dimension n
Interprétation : points, directions, poids...
Vecteur ligne : v⊤ = [v1 , v2 , . . . , vn ] ∈ R1×n
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 23 / 75
Matrices et opérations matricielles
Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
x2,1 x2,2 ... x2,n
X= .
. .. .
.. .
. . .
.
xm,1 xm,2 ... xm,n
Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles
Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
x2,1 x2,2 ... x2,n
X= .
. .. .
.. .
. . .
.
xm,1 xm,2 ... xm,n
Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles
Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
x2,1 x2,2 ... x2,n
X= .
. .. .
.. .
. . .
.
xm,1 xm,2 ... xm,n
Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles
Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles
Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles
Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles
Addition et transposition
C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji
Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles
Addition et transposition
C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji
Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles
Addition et transposition
C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji
Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles
Produit scalaire
Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)
Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles
Produit scalaire
Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)
Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles
Produit scalaire
Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)
Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles
Produit matriciel
Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p
n
ci j = ∑ aik bk j
k=1
Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles
Produit matriciel
Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p
n
ci j = ∑ aik bk j
k=1
Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles
Produit matriciel
Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p
n
ci j = ∑ aik bk j
k=1
Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles
Inversibilité
Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :
AA−1 = A−1 A = In
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles
Inversibilité
Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :
AA−1 = A−1 A = In
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles
Inversibilité
Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :
AA−1 = A−1 A = In
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles
Déterminant
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles
Déterminant
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles
Déterminant
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles
Déterminant
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles
Matrice identité
Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles
Matrice identité
Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles
Matrice identité
Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles
Matrice diagonale
di j = 0 pour i ̸= j
d1 0 ··· 0
0 d2 ··· 0
D= .
. .. .
.. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles
Matrice diagonale
di j = 0 pour i ̸= j
d1 0 ··· 0
0 d2 ··· 0
D= .
. .. .
.. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles
Matrice diagonale
di j = 0 pour i ̸= j
d1 0 ··· 0
0 d2 ··· 0
D= .
. .. .
.. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles
Matrice symétrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles
Matrice symétrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles
Matrice symétrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles
Matrice orthogonale
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles
Matrice orthogonale
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles
Matrice orthogonale
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 36 / 75
Matrices et opérations matricielles
Conclusion : La structure d’une matrice a un impact direct sur la stabilité numérique, l’interprétabilité, et la convergence des algorithmes.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 37 / 75
Matrices et opérations matricielles
Conclusion : La structure d’une matrice a un impact direct sur la stabilité numérique, l’interprétabilité, et la convergence des algorithmes.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 37 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles
Interprétation géométrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles
Interprétation géométrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles
Interprétation géométrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles
Interprétation géométrique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles
Exemple 2 : expansion (n = 2, m = 4) :
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles
Exemple 2 : expansion (n = 2, m = 4) :
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles
Exemple 2 : expansion (n = 2, m = 4) :
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles
Exemple 2 : expansion (n = 2, m = 4) :
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles
Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles
Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles
Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles
Wx+b
Input x −→ Espace latent y
Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Matrices et opérations matricielles
Wx+b
Input x −→ Espace latent y
Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Matrices et opérations matricielles
Wx+b
Input x −→ Espace latent y
Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Algèbre linéaire avancée
Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée
Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée
Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée
Combinaisons linéaires
Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée
Combinaisons linéaires
Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée
Combinaisons linéaires
Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée
Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :
λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée
Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :
λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée
Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :
λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée
Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée
Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée
Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 48 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 48 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 50 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 50 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée
Résolvons :
x + y + z = 6
2x + 3y + z = 14
x + 2y + 3z = 14
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée
Résolvons :
x + y + z = 6
2x + 3y + z = 14
x + 2y + 3z = 14
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée
Résolvons :
x + y + z = 6
2x + 3y + z = 14
x + 2y + 3z = 14
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée
En apprentissage automatique :
Les données sont représentées par des matrices (features × échantillons) ;
Un rang faible indique de la redondance ⇒ réduction de dimension utile ;
Le rang est lié à la capacité à inverser ou pseudo-inverser une matrice (A† ) ;
En réseaux de neurones : vérifier la capacité des couches à capturer des représentations linéaires distinctes.
Conclusion : Le rang est fondamental pour comprendre la structure des données et la stabilité des solutions.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 54 / 75
Algèbre linéaire avancée
En apprentissage automatique :
Les données sont représentées par des matrices (features × échantillons) ;
Un rang faible indique de la redondance ⇒ réduction de dimension utile ;
Le rang est lié à la capacité à inverser ou pseudo-inverser une matrice (A† ) ;
En réseaux de neurones : vérifier la capacité des couches à capturer des représentations linéaires distinctes.
Conclusion : Le rang est fondamental pour comprendre la structure des données et la stabilité des solutions.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 54 / 75
Algèbre linéaire avancée
x = a1 v1 + · · · + an vn
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 55 / 75
Algèbre linéaire avancée
x = a1 v1 + · · · + an vn
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 55 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée
Remarque : On obtient une base {u1 , . . . , un } orthogonale. Pour obtenir une base orthonormée, on normalise :
ui
ei =
∥ui ∥
Utilité :
Diagonalisation plus facile (matrices symétriques) ;
Calculs simplifiés avec ⟨ei , e j ⟩ = δi j ;
Étape de base dans la décomposition QR et dans l’ACP.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 58 / 75
Algèbre linéaire avancée
Remarque : On obtient une base {u1 , . . . , un } orthogonale. Pour obtenir une base orthonormée, on normalise :
ui
ei =
∥ui ∥
Utilité :
Diagonalisation plus facile (matrices symétriques) ;
Calculs simplifiés avec ⟨ei , e j ⟩ = δi j ;
Étape de base dans la décomposition QR et dans l’ACP.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 58 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 59 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 59 / 75
Algèbre linéaire avancée
Étapes de la PCA :
1 Centrer les données : X ← X − µ
2 Calculer la matrice de covariance : C = n1 X T X
3 Calculer les vecteurs propres {vi } et valeurs propres {λi } de C
4 Choisir les k plus grandes λi et construire la base projetée Uk
5 Nouvelle représentation : Z = XUk
Avantages :
Réduction de dimension ;
Compression avec perte minimale d’information ;
Très utilisé en Machine Learning pour la pré-analyse.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 60 / 75
Algèbre linéaire avancée
Étapes de la PCA :
1 Centrer les données : X ← X − µ
2 Calculer la matrice de covariance : C = n1 X T X
3 Calculer les vecteurs propres {vi } et valeurs propres {λi } de C
4 Choisir les k plus grandes λi et construire la base projetée Uk
5 Nouvelle représentation : Z = XUk
Avantages :
Réduction de dimension ;
Compression avec perte minimale d’information ;
Très utilisé en Machine Learning pour la pré-analyse.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 60 / 75
Algèbre linéaire avancée
Définitions :
Soit A ∈ Rn×n . Un vecteur v ̸= 0 est un vecteur propre de A s’il existe un scalaire λ tel que :
Av = λv
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 61 / 75
Algèbre linéaire avancée
Définitions :
Soit A ∈ Rn×n . Un vecteur v ̸= 0 est un vecteur propre de A s’il existe un scalaire λ tel que :
Av = λv
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 61 / 75
Algèbre linéaire avancée
Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée
Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée
Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée
Diagonalisation
Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :
A = PDP−1
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée
Diagonalisation
Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :
A = PDP−1
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée
Diagonalisation
Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :
A = PDP−1
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée
Application : stabilité
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée
Application : stabilité
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée
Application : stabilité
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée
Application : stabilité
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée
Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :
xt+1 = Axt
Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée
Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :
xt+1 = Axt
Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée
Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :
xt+1 = Axt
Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée
Pi j = P[état j à t + 1 | état i à t]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée
Pi j = P[état j à t + 1 | état i à t]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée
Pi j = P[état j à t + 1 | état i à t]
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée
Introduction à la décomposition
Objectif : Écrire une matrice A ∈ Rm×n comme produit de trois matrices plus simples.
Décomposition en valeurs singulières (SVD) :
A = UΣV T
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 68 / 75
Algèbre linéaire avancée
Introduction à la décomposition
Objectif : Écrire une matrice A ∈ Rm×n comme produit de trois matrices plus simples.
Décomposition en valeurs singulières (SVD) :
A = UΣV T
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 68 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée
Soit :
3 1
A=
1 3
On peut écrire :
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée
Soit :
3 1
A=
1 3
On peut écrire :
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée
Soit :
3 1
A=
1 3
On peut écrire :
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée
Soit :
3 1
A=
1 3
On peut écrire :
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée
SVD :
A ≈ Uk ΣkVkT
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée
SVD :
A ≈ Uk ΣkVkT
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée
SVD :
A ≈ Uk ΣkVkT
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée
SVD :
A ≈ Uk ΣkVkT
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée
Interprétation sémantique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée
Interprétation sémantique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée
Interprétation sémantique
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée
Résumé et perspectives
Résumé :
SVD décompose toute matrice A en UΣV T
Donne une base orthonormée optimale (compression, approximation)
Clé en réduction de dimension, visualisation, NLP
Perspectives :
Intégration dans l’apprentissage automatique (Truncated SVD)
Lien avec PCA (analyse en composantes principales)
Alternatives : NMF, autoencodeurs
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 75 / 75
Algèbre linéaire avancée
Résumé et perspectives
Résumé :
SVD décompose toute matrice A en UΣV T
Donne une base orthonormée optimale (compression, approximation)
Clé en réduction de dimension, visualisation, NLP
Perspectives :
Intégration dans l’apprentissage automatique (Truncated SVD)
Lien avec PCA (analyse en composantes principales)
Alternatives : NMF, autoencodeurs
Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 75 / 75