0% ont trouvé ce document utile (0 vote)
19 vues196 pages

Module 1

mathematiques inteligence artificielle

Transféré par

billecom75
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
19 vues196 pages

Module 1

mathematiques inteligence artificielle

Transféré par

billecom75
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Masterclass organisée par :

Togo Data Lab


Fondements Mathématiques des Transformers et des
LLMs

Module 1 : Fondements mathématiques (fonctions, matrices, algèbre linéaire)

Présentée par : Tiebekabe Pagdame


Enseignant-chercheur - Université de Kara

Dates : 15-16 juillet 2025

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 1 / 75
Bienvenue à la Masterclass

OObjectifs de la session
Revoir les concepts fondamentaux de fonctions, matrices et algèbre linéaire.
Comprendre les propriétés utiles en machine learning, deep learning, traitement du signal, etc.
Développer l’intuition géométrique et l’agilité computationnelle.
Préparer le terrain pour les réseaux de neurones et les transformations linéaires.

Public cible
Étudiants en Mathématiques/Informatique et Science des
Données
Étudiants à la Faculté des Sciences et de la Santé
Chercheurs en NLP
Professionnels du secteur

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 2 / 75
Sommaire

1 Notions fondamentales sur les fonctions

2 Matrices et opérations matricielles

3 Algèbre linéaire avancée

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 3 / 75
Notions fondamentales sur les fonctions

Définition formelle d’une fonction

Fonction (définition)
Soient A et B deux ensembles. Une fonction f de A vers B, notée f : A → B, est une application qui associe à chaque élément x ∈ A un
unique élément f (x) ∈ B.

A est appelé le domaine de définition (ou ensemble de départ).


B est appelé le codomaine (ou ensemble d’arrivée).
L’ensemble des valeurs effectivement prises par f est l’image de f : Im( f ) = { f (x) | x ∈ A} ⊆ B.

Exemple
f : R → R défini par f (x) = x2 :
Domaine : R, Codomaine : R
Image : R+ = [0, +∞)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 4 / 75
Notions fondamentales sur les fonctions

Définition formelle d’une fonction

Fonction (définition)
Soient A et B deux ensembles. Une fonction f de A vers B, notée f : A → B, est une application qui associe à chaque élément x ∈ A un
unique élément f (x) ∈ B.

A est appelé le domaine de définition (ou ensemble de départ).


B est appelé le codomaine (ou ensemble d’arrivée).
L’ensemble des valeurs effectivement prises par f est l’image de f : Im( f ) = { f (x) | x ∈ A} ⊆ B.

Exemple
f : R → R défini par f (x) = x2 :
Domaine : R, Codomaine : R
Image : R+ = [0, +∞)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 4 / 75
Notions fondamentales sur les fonctions

Graphe d’une fonction

Définition
Le graphe d’une fonction f : A → B est l’ensemble des couples :

Graph( f ) = {(x, f (x)) | x ∈ A} ⊆ A × B

Chaque point du graphe représente un lien x 7→ f (x).


En géométrie, pour f : R → R, le graphe est une courbe dans y = f (x) = x2
le plan.

x
Remarque : Une courbe n’est le graphe d’une fonction que si toute verticale coupe la courbe en au plus un point.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 5 / 75
Notions fondamentales sur les fonctions

Graphe d’une fonction

Définition
Le graphe d’une fonction f : A → B est l’ensemble des couples :

Graph( f ) = {(x, f (x)) | x ∈ A} ⊆ A × B

Chaque point du graphe représente un lien x 7→ f (x).


En géométrie, pour f : R → R, le graphe est une courbe dans y = f (x) = x2
le plan.

x
Remarque : Une courbe n’est le graphe d’une fonction que si toute verticale coupe la courbe en au plus un point.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 5 / 75
Notions fondamentales sur les fonctions

Fonction injective (injection)

Définition
Une fonction f : A → B est dite injective si :
∀x1 , x2 ∈ A, f (x1 ) = f (x2 ) ⇒ x1 = x2

Autrement dit, deux éléments différents de A ont toujours des images différentes.
Il n’y a pas de "collisions" dans l’image.

Exemple
f : R → R défini par f (x) = 2x + 1 est injective. Mais f (x) = x2 ne l’est pas sur R car f (1) = f (−1).

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 6 / 75
Notions fondamentales sur les fonctions

Fonction injective (injection)

Définition
Une fonction f : A → B est dite injective si :
∀x1 , x2 ∈ A, f (x1 ) = f (x2 ) ⇒ x1 = x2

Autrement dit, deux éléments différents de A ont toujours des images différentes.
Il n’y a pas de "collisions" dans l’image.

Exemple
f : R → R défini par f (x) = 2x + 1 est injective. Mais f (x) = x2 ne l’est pas sur R car f (1) = f (−1).

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 6 / 75
Notions fondamentales sur les fonctions

Fonction surjective (surjection)

Définition
Une fonction f : A → B est dite surjective si :
∀y ∈ B, ∃x ∈ A tel que f (x) = y

Autrement dit, l’image de f est exactement égale au codomaine : Im( f ) = B.


Tout élément du codomaine est atteint par la fonction.

Exemple
f : R → R défini par f (x) = x3 est surjective. Mais f (x) = ex n’est pas surjective si B = R.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 7 / 75
Notions fondamentales sur les fonctions

Fonction surjective (surjection)

Définition
Une fonction f : A → B est dite surjective si :
∀y ∈ B, ∃x ∈ A tel que f (x) = y

Autrement dit, l’image de f est exactement égale au codomaine : Im( f ) = B.


Tout élément du codomaine est atteint par la fonction.

Exemple
f : R → R défini par f (x) = x3 est surjective. Mais f (x) = ex n’est pas surjective si B = R.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 7 / 75
Notions fondamentales sur les fonctions

Fonction bijective (bijection)

Définition
Une fonction f : A → B est dite bijective si elle est à la fois :
injective : chaque valeur de B est atteinte par un seul x
surjective : chaque y ∈ B a un antécédent dans A

Une bijection possède une fonction réciproque f −1 : B → A telle que f −1 ( f (x)) = x.


Les bijections permettent de faire des "changements de variables" ou des codages.

Exemple
f : R → R défini par f (x) = x + 5 est bijective.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 8 / 75
Notions fondamentales sur les fonctions

Fonction bijective (bijection)

Définition
Une fonction f : A → B est dite bijective si elle est à la fois :
injective : chaque valeur de B est atteinte par un seul x
surjective : chaque y ∈ B a un antécédent dans A

Une bijection possède une fonction réciproque f −1 : B → A telle que f −1 ( f (x)) = x.


Les bijections permettent de faire des "changements de variables" ou des codages.

Exemple
f : R → R défini par f (x) = x + 5 est bijective.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 8 / 75
Notions fondamentales sur les fonctions

Fonctions linéaires et affines

Fonction linéaire
Une fonction f : R → R est dite linéaire si ∃a ∈ R tel que f (x) = ax.

Fonction affine
Une fonction est affine si f (x) = ax + b avec a, b ∈ R.

Les fonctions linéaires sont les transformations de type homothéties.


Les fonctions affines incluent une translation (elles représentent des droites).

Applications
Les neurones artificiels combinent souvent une transformation affine f (x) = wT x + b suivie d’une non-linéarité.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 9 / 75
Notions fondamentales sur les fonctions

Fonctions linéaires et affines

Fonction linéaire
Une fonction f : R → R est dite linéaire si ∃a ∈ R tel que f (x) = ax.

Fonction affine
Une fonction est affine si f (x) = ax + b avec a, b ∈ R.

Les fonctions linéaires sont les transformations de type homothéties.


Les fonctions affines incluent une translation (elles représentent des droites).

Applications
Les neurones artificiels combinent souvent une transformation affine f (x) = wT x + b suivie d’une non-linéarité.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 9 / 75
Notions fondamentales sur les fonctions

Fonctions polynomiales

Définition
Une fonction f : R → R est polynomiale de degré n si :

f (x) = a0 + a1 x + a2 x2 + · · · + an xn avec an ̸= 0

Les polynômes modélisent des comportements courbes, sont dérivables partout.


Leur étude s’appuie sur l’algèbre linéaire (espaces vectoriels de polynômes).

Utilisation
Les polynômes interviennent dans les séries de Taylor, les modèles de régression non-linéaire, etc.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 10 / 75
Notions fondamentales sur les fonctions

Fonctions polynomiales

Définition
Une fonction f : R → R est polynomiale de degré n si :

f (x) = a0 + a1 x + a2 x2 + · · · + an xn avec an ̸= 0

Les polynômes modélisent des comportements courbes, sont dérivables partout.


Leur étude s’appuie sur l’algèbre linéaire (espaces vectoriels de polynômes).

Utilisation
Les polynômes interviennent dans les séries de Taylor, les modèles de régression non-linéaire, etc.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 10 / 75
Notions fondamentales sur les fonctions

Fonction exponentielle

Définition
La fonction exponentielle réelle est définie par :

xn
f (x) = ex = ∑
n=0 n!

Strictement croissante, dérivable partout, f ′ (x) = f (x).


Image : (0, +∞) ; bijection entre R et R∗+ .

Application en IA
Intervient dans les fonctions d’activation comme la sigmoïde : σ(x) = 1+e1 −x .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 11 / 75
Notions fondamentales sur les fonctions

Fonction exponentielle

Définition
La fonction exponentielle réelle est définie par :

xn
f (x) = ex = ∑
n=0 n!

Strictement croissante, dérivable partout, f ′ (x) = f (x).


Image : (0, +∞) ; bijection entre R et R∗+ .

Application en IA
Intervient dans les fonctions d’activation comme la sigmoïde : σ(x) = 1+e1 −x .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 11 / 75
Notions fondamentales sur les fonctions

Fonction logarithme népérien

Définition
La fonction logarithme népérien est la bijection réciproque de l’exponentielle :

ln(x) = y ⇔ x = ey , pour x > 0

Strictement croissante, dérivable sur (0, +∞).


ln(ab) = ln(a) + ln(b), ln(ar ) = r ln(a).

Utilisation
Très utilisé en backpropagation (log-loss), softmax, ou en normalisation des valeurs.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 12 / 75
Notions fondamentales sur les fonctions

Fonction logarithme népérien

Définition
La fonction logarithme népérien est la bijection réciproque de l’exponentielle :

ln(x) = y ⇔ x = ey , pour x > 0

Strictement croissante, dérivable sur (0, +∞).


ln(ab) = ln(a) + ln(b), ln(ar ) = r ln(a).

Utilisation
Très utilisé en backpropagation (log-loss), softmax, ou en normalisation des valeurs.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 12 / 75
Notions fondamentales sur les fonctions

Fonction sigmoïde

Définition
1
σ(x) =
1 + e−x

Image : (0, 1)
Dérivable : σ′ (x) = σ(x)(1 − σ(x))
Fonction non linéaire, à pente maximale en x = 0

Propriétés en Deep Learning


Bonne interprétation probabiliste (utilisée en sortie pour des probabilités).
Peut saturer : le gradient devient quasi nul pour |x| ≫ 0.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 13 / 75
Notions fondamentales sur les fonctions

Fonction sigmoïde

Définition
1
σ(x) =
1 + e−x

Image : (0, 1)
Dérivable : σ′ (x) = σ(x)(1 − σ(x))
Fonction non linéaire, à pente maximale en x = 0

Propriétés en Deep Learning


Bonne interprétation probabiliste (utilisée en sortie pour des probabilités).
Peut saturer : le gradient devient quasi nul pour |x| ≫ 0.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 13 / 75
Notions fondamentales sur les fonctions

Fonction tangente hyperbolique (Tanh)

Définition
ex − e−x
tanh(x) =
ex + e−x

Image : (−1, 1), centrée sur zéro


Dérivable : tanh′ (x) = 1 − tanh2 (x)
Courbe en forme de sigmoïde plus "centrée"

Avantages
Zéro-centered meilleure convergence dans certains cas.
Même inconvénient que σ(x) : saturation pour |x| grand.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 14 / 75
Notions fondamentales sur les fonctions

Fonction tangente hyperbolique (Tanh)

Définition
ex − e−x
tanh(x) =
ex + e−x

Image : (−1, 1), centrée sur zéro


Dérivable : tanh′ (x) = 1 − tanh2 (x)
Courbe en forme de sigmoïde plus "centrée"

Avantages
Zéro-centered meilleure convergence dans certains cas.
Même inconvénient que σ(x) : saturation pour |x| grand.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 14 / 75
Notions fondamentales sur les fonctions

Fonction d’activation ReLU

Définition
ReLU(x) = max(0, x)

Non dérivable en x = 0, mais utilisée massivement en pratique.


Simple, computationnellement efficace.
Image : [0, +∞)

Avantages / limites
Accélère la convergence.
Problème de “neurones morts” quand x < 0 de manière permanente.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 15 / 75
Notions fondamentales sur les fonctions

Fonction d’activation ReLU

Définition
ReLU(x) = max(0, x)

Non dérivable en x = 0, mais utilisée massivement en pratique.


Simple, computationnellement efficace.
Image : [0, +∞)

Avantages / limites
Accélère la convergence.
Problème de “neurones morts” quand x < 0 de manière permanente.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 15 / 75
Notions fondamentales sur les fonctions

Fonction GELU

Définition
  
1 x
GELU(x) = x · Φ(x), où Φ(x) = 1 + erf √
2 2

Φ(x) est la fonction de répartition de la loi normale.


Fonction lisse, proche de ReLU mais plus fine statistiquement.

Utilisation avancée
Adoptée dans les Transformers (BERT, GPT-2) car elle combine efficacité computationnelle et régularité du gradient.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 16 / 75
Notions fondamentales sur les fonctions

Fonction GELU

Définition
  
1 x
GELU(x) = x · Φ(x), où Φ(x) = 1 + erf √
2 2

Φ(x) est la fonction de répartition de la loi normale.


Fonction lisse, proche de ReLU mais plus fine statistiquement.

Utilisation avancée
Adoptée dans les Transformers (BERT, GPT-2) car elle combine efficacité computationnelle et régularité du gradient.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 16 / 75
Notions fondamentales sur les fonctions

Continuité d’une fonction réelle

Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0

Intuitivement : pas de "saut", ni de "trou".


Toute fonction dérivable en un point est continue en ce point (mais la réciproque est fausse).

Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions

Continuité d’une fonction réelle

Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0

Intuitivement : pas de "saut", ni de "trou".


Toute fonction dérivable en un point est continue en ce point (mais la réciproque est fausse).

Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions

Continuité d’une fonction réelle

Définition
Une fonction f : R → R est continue en x0 ∈ R si :
lim f (x) = f (x0 )
x→x0

Intuitivement : pas de "saut", ni de "trou".


Toute fonction dérivable en un point est continue en ce point (mais la réciproque est fausse).

Conséquence
La continuité assure la stabilité du modèle : petites perturbations d’entrée ⇒ petites variations de sortie.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 17 / 75
Notions fondamentales sur les fonctions

Dérivabilité : définition et intérêt

Définition
f est dérivable en x0 si la limite suivante existe :

f (x0 + h) − f (x0 )
f ′ (x0 ) = lim
h→0 h

Donne le taux de variation instantané.


Fonctions usuelles (exp, ln, polynômes, sigmoïde, tanh, GELU) sont dérivables partout.
ReLU n’est pas dérivable en x = 0, mais reste utilisée car presque partout dérivable.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 18 / 75
Notions fondamentales sur les fonctions

Optimisation par descente de gradient

Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :

θ(t+1) = θ(t) − η · ∇θ J(θ(t) )

∇θ J n’existe que si J est dérivable.


Les fonctions d’activation doivent donc être dérivables (ou presque partout dérivables).

Importance
La forme de f influence la vitesse et la stabilité de la convergence.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions

Optimisation par descente de gradient

Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :

θ(t+1) = θ(t) − η · ∇θ J(θ(t) )

∇θ J n’existe que si J est dérivable.


Les fonctions d’activation doivent donc être dérivables (ou presque partout dérivables).

Importance
La forme de f influence la vitesse et la stabilité de la convergence.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions

Optimisation par descente de gradient

Idée clé
Minimiser une fonction de coût J(θ) en ajustant les paramètres θ dans le sens opposé au gradient :

θ(t+1) = θ(t) − η · ∇θ J(θ(t) )

∇θ J n’existe que si J est dérivable.


Les fonctions d’activation doivent donc être dérivables (ou presque partout dérivables).

Importance
La forme de f influence la vitesse et la stabilité de la convergence.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 19 / 75
Notions fondamentales sur les fonctions

Rétropropagation (Backpropagation)

Principe
Algorithme qui applique la règle de la chaîne pour propager les gradients de la sortie vers l’entrée :

∂J ∂J ∂zn ∂z1
= · ···
∂θ ∂zn ∂zn−1 ∂θ

Chaque fonction utilisée dans le réseau doit être différentiable pour propager l’information.
Fonctions d’activation choisies pour leur dérivée simple à calculer.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 20 / 75
Notions fondamentales sur les fonctions

Rétropropagation (Backpropagation)

Principe
Algorithme qui applique la règle de la chaîne pour propager les gradients de la sortie vers l’entrée :

∂J ∂J ∂zn ∂z1
= · ···
∂θ ∂zn ∂zn−1 ∂θ

Chaque fonction utilisée dans le réseau doit être différentiable pour propager l’information.
Fonctions d’activation choisies pour leur dérivée simple à calculer.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 20 / 75
Notions fondamentales sur les fonctions

Dérivabilité, expressivité et efficacité

σ(x), tanh(x) : dérivables partout mais saturent ⇒ gradients faibles.


ReLU(x) : non dérivable en 0, mais simple et efficace, introduit de la sparsité.
GELU(x) : dérivable partout, plus fluide que ReLU.

Compromis
Le choix repose sur un équilibre entre :
Continuité/dérivabilité
Coût de calcul
Propriétés d’apprentissage (vitesse, stabilité)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 21 / 75
Notions fondamentales sur les fonctions

Dérivabilité, expressivité et efficacité

σ(x), tanh(x) : dérivables partout mais saturent ⇒ gradients faibles.


ReLU(x) : non dérivable en 0, mais simple et efficace, introduit de la sparsité.
GELU(x) : dérivable partout, plus fluide que ReLU.

Compromis
Le choix repose sur un équilibre entre :
Continuité/dérivabilité
Coût de calcul
Propriétés d’apprentissage (vitesse, stabilité)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 21 / 75
Matrices et opérations matricielles

Objets de base en algèbre linéaire

Scalaire : un seul nombre réel a ∈ R.


Vecteur : une liste ordonnée de scalaires
v1
 
v2 
v =  .  ∈ Rn
 
 .. 
vn
Matrice : tableau de scalaires organisés en lignes et colonnes :

X ∈ Rm×n (matrice à m lignes et n colonnes)

Notation conventionnelle
X : matrice
x : vecteur
x : scalaire

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 22 / 75
Matrices et opérations matricielles

Objets de base en algèbre linéaire

Scalaire : un seul nombre réel a ∈ R.


Vecteur : une liste ordonnée de scalaires
v1
 
v2 
v =  .  ∈ Rn
 
 .. 
vn
Matrice : tableau de scalaires organisés en lignes et colonnes :

X ∈ Rm×n (matrice à m lignes et n colonnes)

Notation conventionnelle
X : matrice
x : vecteur
x : scalaire

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 22 / 75
Matrices et opérations matricielles

Scalaires et vecteurs

Scalaire : un nombre réel a ∈ R (température, poids, coût...)

Vecteur colonne :
v1
 
v2 
v =  .  ∈ Rn
 
 .. 
vn

Coordonnées : vi pour i = 1, . . . , n
Rn est un espace vectoriel de dimension n
Interprétation : points, directions, poids...
Vecteur ligne : v⊤ = [v1 , v2 , . . . , vn ] ∈ R1×n

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 23 / 75
Matrices et opérations matricielles

Scalaires et vecteurs

Scalaire : un nombre réel a ∈ R (température, poids, coût...)

Vecteur colonne :
v1
 
v2 
v =  .  ∈ Rn
 
 .. 
vn

Coordonnées : vi pour i = 1, . . . , n
Rn est un espace vectoriel de dimension n
Interprétation : points, directions, poids...
Vecteur ligne : v⊤ = [v1 , v2 , . . . , vn ] ∈ R1×n

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 23 / 75
Matrices et opérations matricielles

Matrices : définitions et notations

Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
 
 x2,1 x2,2 ... x2,n 
X= .
 
. .. . 
 .. .
. . . 
.
xm,1 xm,2 ... xm,n

xi, j : élément en ligne i, colonne j


m = nombre de lignes (exemples)
n = nombre de colonnes (features)

Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles

Matrices : définitions et notations

Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
 
 x2,1 x2,2 ... x2,n 
X= .
 
. .. . 
 .. .
. . . 
.
xm,1 xm,2 ... xm,n

xi, j : élément en ligne i, colonne j


m = nombre de lignes (exemples)
n = nombre de colonnes (features)

Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles

Matrices : définitions et notations

Matrice X ∈ Rm×n :
x1,1 x1,2 ... x1,n
 
 x2,1 x2,2 ... x2,n 
X= .
 
. .. . 
 .. .
. . . 
.
xm,1 xm,2 ... xm,n

xi, j : élément en ligne i, colonne j


m = nombre de lignes (exemples)
n = nombre de colonnes (features)

Exemple
X peut représenter un batch de données : m exemples, chacun de n dimensions.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 24 / 75
Matrices et opérations matricielles

Interprétation des dimensions en apprentissage

Exemple : classification supervisée


X ∈ Rm×n , y ∈ Rm×1

m : nombre d’exemples (données d’entraînement)


n : nombre de variables/features
X : matrice de design, chaque ligne = un vecteur d’entrée
y : vecteur des sorties/étiquettes

Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles

Interprétation des dimensions en apprentissage

Exemple : classification supervisée


X ∈ Rm×n , y ∈ Rm×1

m : nombre d’exemples (données d’entraînement)


n : nombre de variables/features
X : matrice de design, chaque ligne = un vecteur d’entrée
y : vecteur des sorties/étiquettes

Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles

Interprétation des dimensions en apprentissage

Exemple : classification supervisée


X ∈ Rm×n , y ∈ Rm×1

m : nombre d’exemples (données d’entraînement)


n : nombre de variables/features
X : matrice de design, chaque ligne = un vecteur d’entrée
y : vecteur des sorties/étiquettes

Réseaux de neurones
Poids = matrices W
Inputs = vecteurs x
Opérations = produits matriciels, compositions non linéaires

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 25 / 75
Matrices et opérations matricielles

Addition et transposition

Addition de matrices : A, B ∈ Rm×n

C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji

Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles

Addition et transposition

Addition de matrices : A, B ∈ Rm×n

C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji

Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles

Addition et transposition

Addition de matrices : A, B ∈ Rm×n

C = A + B ⇒ ci j = ai j + bi j
Transposée d’une matrice A ∈ Rm×n :
A⊤ ∈ Rn×m , (A⊤ )i j = a ji

Propriétés
(A + B)⊤ = A⊤ + B⊤
(A⊤ )⊤ = A

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 26 / 75
Matrices et opérations matricielles

Produit scalaire

Produit scalaire de deux vecteurs u, v ∈ Rn :


n
u⊤ v = ∑ ui vi ∈ R
i=1

Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)

Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles

Produit scalaire

Produit scalaire de deux vecteurs u, v ∈ Rn :


n
u⊤ v = ∑ ui vi ∈ R
i=1

Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)

Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles

Produit scalaire

Produit scalaire de deux vecteurs u, v ∈ Rn :


n
u⊤ v = ∑ ui vi ∈ R
i=1

Résultat : scalaire
Mesure l’alignement (cosinus de l’angle entre les vecteurs)

Propriétés
Symétrie : u⊤ v = v⊤ u
Linéarité : u⊤ (av + bw) = au⊤ v + bu⊤ w

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 27 / 75
Matrices et opérations matricielles

Produit matriciel

Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p

n
ci j = ∑ aik bk j
k=1

Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles

Produit matriciel

Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p

n
ci j = ∑ aik bk j
k=1

Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles

Produit matriciel

Produit matriciel :
C = AB, A ∈ Rm×n , B ∈ Rn×p ⇒ C ∈ Rm×p

n
ci j = ∑ aik bk j
k=1

Interprétation :
Composition de transformations linéaires
Produit de couches dans les réseaux de neurones

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 28 / 75
Matrices et opérations matricielles

Inversibilité

Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :

AA−1 = A−1 A = In

A est alors dite non singulière


Sinon, elle est singulière (non inversible)
Conditions d’inversibilité :
det(A) ̸= 0
Les colonnes sont linéairement indépendantes

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles

Inversibilité

Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :

AA−1 = A−1 A = In

A est alors dite non singulière


Sinon, elle est singulière (non inversible)
Conditions d’inversibilité :
det(A) ̸= 0
Les colonnes sont linéairement indépendantes

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles

Inversibilité

Définition : Une matrice carrée A ∈ Rn×n est inversible s’il existe A−1 tel que :

AA−1 = A−1 A = In

A est alors dite non singulière


Sinon, elle est singulière (non inversible)
Conditions d’inversibilité :
det(A) ̸= 0
Les colonnes sont linéairement indépendantes

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 29 / 75
Matrices et opérations matricielles

Trace d’une matrice

Trace d’une matrice carrée A ∈ Rn×n :


n
tr(A) = ∑ aii
i=1

Somme des éléments diagonaux


Invariante par changement de base
tr(AB) = tr(BA) si les produits sont définis
Applications :
En statistiques : trace = somme des variances (matrice de covariance)
En apprentissage : régularisation par la trace

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles

Trace d’une matrice

Trace d’une matrice carrée A ∈ Rn×n :


n
tr(A) = ∑ aii
i=1

Somme des éléments diagonaux


Invariante par changement de base
tr(AB) = tr(BA) si les produits sont définis
Applications :
En statistiques : trace = somme des variances (matrice de covariance)
En apprentissage : régularisation par la trace

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles

Trace d’une matrice

Trace d’une matrice carrée A ∈ Rn×n :


n
tr(A) = ∑ aii
i=1

Somme des éléments diagonaux


Invariante par changement de base
tr(AB) = tr(BA) si les produits sont définis
Applications :
En statistiques : trace = somme des variances (matrice de covariance)
En apprentissage : régularisation par la trace

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 30 / 75
Matrices et opérations matricielles

Déterminant

Déterminant : det(A), pour une matrice carrée A ∈ Rn×n


Donne une mesure de la "taille" du parallélépipède formé par les colonnes
det(A) = 0 ⇔ A non inversible
det(AB) = det(A) · det(B)
det(A⊤ ) = det(A)
Cas 2 × 2 :  
a b
det = ad − bc
c d
Polynôme caractéristique, valeurs propres, vecteurs propres, etc..

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles

Déterminant

Déterminant : det(A), pour une matrice carrée A ∈ Rn×n


Donne une mesure de la "taille" du parallélépipède formé par les colonnes
det(A) = 0 ⇔ A non inversible
det(AB) = det(A) · det(B)
det(A⊤ ) = det(A)
Cas 2 × 2 :  
a b
det = ad − bc
c d
Polynôme caractéristique, valeurs propres, vecteurs propres, etc..

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles

Déterminant

Déterminant : det(A), pour une matrice carrée A ∈ Rn×n


Donne une mesure de la "taille" du parallélépipède formé par les colonnes
det(A) = 0 ⇔ A non inversible
det(AB) = det(A) · det(B)
det(A⊤ ) = det(A)
Cas 2 × 2 :  
a b
det = ad − bc
c d
Polynôme caractéristique, valeurs propres, vecteurs propres, etc..

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles

Déterminant

Déterminant : det(A), pour une matrice carrée A ∈ Rn×n


Donne une mesure de la "taille" du parallélépipède formé par les colonnes
det(A) = 0 ⇔ A non inversible
det(AB) = det(A) · det(B)
det(A⊤ ) = det(A)
Cas 2 × 2 :  
a b
det = ad − bc
c d
Polynôme caractéristique, valeurs propres, vecteurs propres, etc..

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 31 / 75
Matrices et opérations matricielles

Matrice identité

Définition : La matrice identité In ∈ Rn×n est la matrice carrée telle que :


(
1 si i = j
(In )i j =
0 sinon

Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles

Matrice identité

Définition : La matrice identité In ∈ Rn×n est la matrice carrée telle que :


(
1 si i = j
(In )i j =
0 sinon

Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles

Matrice identité

Définition : La matrice identité In ∈ Rn×n est la matrice carrée telle que :


(
1 si i = j
(In )i j =
0 sinon

Propriété fondamentale :
∀A ∈ Rn×n , AIn = In A = A
Rôle : élément neutre du produit matriciel

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 32 / 75
Matrices et opérations matricielles

Matrice diagonale

Définition : Une matrice D ∈ Rn×n est dite diagonale si :

di j = 0 pour i ̸= j

d1 0 ··· 0
 
0 d2 ··· 0
D= .
 
. .. .
 .. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles

Matrice diagonale

Définition : Une matrice D ∈ Rn×n est dite diagonale si :

di j = 0 pour i ̸= j

d1 0 ··· 0
 
0 d2 ··· 0
D= .
 
. .. .
 .. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles

Matrice diagonale

Définition : Une matrice D ∈ Rn×n est dite diagonale si :

di j = 0 pour i ̸= j

d1 0 ··· 0
 
0 d2 ··· 0
D= .
 
. .. .
 .. .
. . .
.
0 0 ··· dn
Propriétés :
Facile à inverser si di ̸= 0
det(D) = ∏ni=1 di
Dk = diag(d1k , . . . , dnk )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 33 / 75
Matrices et opérations matricielles

Matrice symétrique

Définition : Une matrice A ∈ Rn×n est symétrique si :


A⊤ = A
Propriétés :
Les éléments diagonaux sont réels.
∀x ∈ Rn , x⊤ Ax ∈ R
Admet des valeurs propres réelles
Diagonalisable dans une base orthonormale
Applications : matrices de covariance, Hessienne

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles

Matrice symétrique

Définition : Une matrice A ∈ Rn×n est symétrique si :


A⊤ = A
Propriétés :
Les éléments diagonaux sont réels.
∀x ∈ Rn , x⊤ Ax ∈ R
Admet des valeurs propres réelles
Diagonalisable dans une base orthonormale
Applications : matrices de covariance, Hessienne

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles

Matrice symétrique

Définition : Une matrice A ∈ Rn×n est symétrique si :


A⊤ = A
Propriétés :
Les éléments diagonaux sont réels.
∀x ∈ Rn , x⊤ Ax ∈ R
Admet des valeurs propres réelles
Diagonalisable dans une base orthonormale
Applications : matrices de covariance, Hessienne

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 34 / 75
Matrices et opérations matricielles

Matrice orthogonale

Définition : Q ∈ Rn×n est orthogonale si :


Q⊤ Q = QQ⊤ = In
Propriétés :
Q−1 = Q⊤
Conserve les normes : ∥Qx∥ = ∥x∥
Produit de vecteurs orthonormés
Applications :
Transformations orthogonales (rotations, réflexions)
Décompositions QR, PCA

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles

Matrice orthogonale

Définition : Q ∈ Rn×n est orthogonale si :


Q⊤ Q = QQ⊤ = In
Propriétés :
Q−1 = Q⊤
Conserve les normes : ∥Qx∥ = ∥x∥
Produit de vecteurs orthonormés
Applications :
Transformations orthogonales (rotations, réflexions)
Décompositions QR, PCA

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles

Matrice orthogonale

Définition : Q ∈ Rn×n est orthogonale si :


Q⊤ Q = QQ⊤ = In
Propriétés :
Q−1 = Q⊤
Conserve les normes : ∥Qx∥ = ∥x∥
Produit de vecteurs orthonormés
Applications :
Transformations orthogonales (rotations, réflexions)
Décompositions QR, PCA

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 35 / 75
Matrices et opérations matricielles

Comparaison des matrices spéciales

Type Définition Propriétés clés


Identité Ii j = δi j Neutre pour le produit
Diagonale ai j = 0 si i ̸= j Facile à inverser
Symétrique A⊤ = A Valeurs propres réelles
Orthogonale Q⊤ = Q−1 Norme conservée

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 36 / 75
Matrices et opérations matricielles

Applications en apprentissage automatique

Identité : poids initiaux, régularisation (ex : ridge In )


Matrices diagonales : simplifie le calcul des gradients, jacobiens diagonaux
Symétriques : matrices de covariance, hessienne
Orthogonales :
▶ Initialisation des réseaux (orthogonal init)
▶ RNNs stables (préservent norme des vecteurs)

Conclusion : La structure d’une matrice a un impact direct sur la stabilité numérique, l’interprétabilité, et la convergence des algorithmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 37 / 75
Matrices et opérations matricielles

Applications en apprentissage automatique

Identité : poids initiaux, régularisation (ex : ridge In )


Matrices diagonales : simplifie le calcul des gradients, jacobiens diagonaux
Symétriques : matrices de covariance, hessienne
Orthogonales :
▶ Initialisation des réseaux (orthogonal init)
▶ RNNs stables (préservent norme des vecteurs)

Conclusion : La structure d’une matrice a un impact direct sur la stabilité numérique, l’interprétabilité, et la convergence des algorithmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 37 / 75
Matrices et opérations matricielles

Multiplication matrice × vecteur

Soit une matrice A ∈ Rm×n et un vecteur colonne x ∈ Rn .


Produit :
y = Ax ∈ Rm
Formule explicite :
n
yi = ∑ ai j x j , pour i = 1, . . . , m
j=1

Interprétation : combinaison linéaire des colonnes de A pondérées par les coordonnées de x.

Notation standard en Deep Learning : y = Wx + b

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles

Multiplication matrice × vecteur

Soit une matrice A ∈ Rm×n et un vecteur colonne x ∈ Rn .


Produit :
y = Ax ∈ Rm
Formule explicite :
n
yi = ∑ ai j x j , pour i = 1, . . . , m
j=1

Interprétation : combinaison linéaire des colonnes de A pondérées par les coordonnées de x.

Notation standard en Deep Learning : y = Wx + b

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles

Multiplication matrice × vecteur

Soit une matrice A ∈ Rm×n et un vecteur colonne x ∈ Rn .


Produit :
y = Ax ∈ Rm
Formule explicite :
n
yi = ∑ ai j x j , pour i = 1, . . . , m
j=1

Interprétation : combinaison linéaire des colonnes de A pondérées par les coordonnées de x.

Notation standard en Deep Learning : y = Wx + b

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles

Multiplication matrice × vecteur

Soit une matrice A ∈ Rm×n et un vecteur colonne x ∈ Rn .


Produit :
y = Ax ∈ Rm
Formule explicite :
n
yi = ∑ ai j x j , pour i = 1, . . . , m
j=1

Interprétation : combinaison linéaire des colonnes de A pondérées par les coordonnées de x.

Notation standard en Deep Learning : y = Wx + b

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 38 / 75
Matrices et opérations matricielles

Interprétation géométrique

L’application linéaire x 7→ Ax est une transformation de l’espace.


A ∈ Rn×n peut :
▶ faire une rotation
▶ une dilatation
▶ une réflexion
▶ une projection
Si A n’est pas carrée : transformation entre espaces de dimension différente.
Exemple :  
2 0
A= ⇒ dilatation selon l’axe x
0 1
Illustration visuelle : le vecteur x est "déformé" par A dans un nouvel espace.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles

Interprétation géométrique

L’application linéaire x 7→ Ax est une transformation de l’espace.


A ∈ Rn×n peut :
▶ faire une rotation
▶ une dilatation
▶ une réflexion
▶ une projection
Si A n’est pas carrée : transformation entre espaces de dimension différente.
Exemple :  
2 0
A= ⇒ dilatation selon l’axe x
0 1
Illustration visuelle : le vecteur x est "déformé" par A dans un nouvel espace.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles

Interprétation géométrique

L’application linéaire x 7→ Ax est une transformation de l’espace.


A ∈ Rn×n peut :
▶ faire une rotation
▶ une dilatation
▶ une réflexion
▶ une projection
Si A n’est pas carrée : transformation entre espaces de dimension différente.
Exemple :  
2 0
A= ⇒ dilatation selon l’axe x
0 1
Illustration visuelle : le vecteur x est "déformé" par A dans un nouvel espace.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles

Interprétation géométrique

L’application linéaire x 7→ Ax est une transformation de l’espace.


A ∈ Rn×n peut :
▶ faire une rotation
▶ une dilatation
▶ une réflexion
▶ une projection
Si A n’est pas carrée : transformation entre espaces de dimension différente.
Exemple :  
2 0
A= ⇒ dilatation selon l’axe x
0 1
Illustration visuelle : le vecteur x est "déformé" par A dans un nouvel espace.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 39 / 75
Matrices et opérations matricielles

Transformation d’un espace de dimension n vers m

Matrice A ∈ Rm×n : transforme x ∈ Rn en un vecteur y ∈ Rm


Exemple 1 : compression (n = 5, m = 2) :

A ∈ R2×5 , projection d’un espace de haute dimension vers un plan

Exemple 2 : expansion (n = 2, m = 4) :

A ∈ R4×2 , immersion d’un plan dans un espace 4D

Usage : représentation des données, réduction de dimension, reconstruction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles

Transformation d’un espace de dimension n vers m

Matrice A ∈ Rm×n : transforme x ∈ Rn en un vecteur y ∈ Rm


Exemple 1 : compression (n = 5, m = 2) :

A ∈ R2×5 , projection d’un espace de haute dimension vers un plan

Exemple 2 : expansion (n = 2, m = 4) :

A ∈ R4×2 , immersion d’un plan dans un espace 4D

Usage : représentation des données, réduction de dimension, reconstruction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles

Transformation d’un espace de dimension n vers m

Matrice A ∈ Rm×n : transforme x ∈ Rn en un vecteur y ∈ Rm


Exemple 1 : compression (n = 5, m = 2) :

A ∈ R2×5 , projection d’un espace de haute dimension vers un plan

Exemple 2 : expansion (n = 2, m = 4) :

A ∈ R4×2 , immersion d’un plan dans un espace 4D

Usage : représentation des données, réduction de dimension, reconstruction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles

Transformation d’un espace de dimension n vers m

Matrice A ∈ Rm×n : transforme x ∈ Rn en un vecteur y ∈ Rm


Exemple 1 : compression (n = 5, m = 2) :

A ∈ R2×5 , projection d’un espace de haute dimension vers un plan

Exemple 2 : expansion (n = 2, m = 4) :

A ∈ R4×2 , immersion d’un plan dans un espace 4D

Usage : représentation des données, réduction de dimension, reconstruction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 40 / 75
Matrices et opérations matricielles

Couches linéaires dans un réseau de neurones

Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles

Couches linéaires dans un réseau de neurones

Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles

Couches linéaires dans un réseau de neurones

Opération fondamentale :
y = Wx + b
Où :
x ∈ Rn : entrée (features)
W ∈ Rm×n : poids de la couche
b ∈ Rm : biais
y ∈ Rm : sortie (logits ou activation)
But : apprendre W, b pour approximer des fonctions non linéaires via combinaisons linéaires + activation

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 41 / 75
Matrices et opérations matricielles

Intuition en apprentissage profond

Chaque couche linéaire transforme les données :

Wx+b
Input x −→ Espace latent y

Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Matrices et opérations matricielles

Intuition en apprentissage profond

Chaque couche linéaire transforme les données :

Wx+b
Input x −→ Espace latent y

Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Matrices et opérations matricielles

Intuition en apprentissage profond

Chaque couche linéaire transforme les données :

Wx+b
Input x −→ Espace latent y

Rôle :
Encoder l’information dans un autre espace
Préparer les données pour les non-linéarités (ReLU, Tanh, etc.)
Construire progressivement des représentations complexes
Remarque :
Sans multiplication matrice/vecteur, il n’y a pas de capacité d’apprentissage !
Le gradient (via rétropropagation) est calculé directement sur W et b.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 42 / 75
Algèbre linéaire avancée

Espaces vectoriels : définition formelle

Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée

Espaces vectoriels : définition formelle

Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée

Espaces vectoriels : définition formelle

Définition : Un espace vectoriel V sur un corps K (souvent R ou C) est un ensemble muni de deux opérations :
Addition vectorielle : + : V ×V → V
Multiplication scalaire : · : K ×V → V
Ces opérations doivent satisfaire les 8 axiomes suivants (associativité, commutativité, neutres, etc.).
Exemples :
Rn avec addition et multiplication scalaire usuelles
Ensemble des fonctions continues sur [a, b]

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 43 / 75
Algèbre linéaire avancée

Combinaisons linéaires

Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée

Combinaisons linéaires

Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée

Combinaisons linéaires

Définition : Soient v1 , . . . , vk ∈ V et λ1 , . . . , λk ∈ K.
La combinaison linéaire :
w = λ1 v1 + · · · + λk vk
est un élément de V .
En Deep Learning :
Les couches linéaires produisent des combinaisons linéaires d’entrées pondérées.
L’espace engendré par un ensemble de vecteurs est l’ensemble de toutes les combinaisons linéaires possibles.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 44 / 75
Algèbre linéaire avancée

Familles libres et génératrices

Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :

λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i

Une base est une famille libre et génératrice de V .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée

Familles libres et génératrices

Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :

λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i

Une base est une famille libre et génératrice de V .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée

Familles libres et génératrices

Famille génératrice : Un ensemble {v1 , . . . , vk } est générateur de V si tout vecteur de V est combinaison linéaire de ces vecteurs.
Famille libre : Aucune combinaison linéaire non triviale des vecteurs ne donne le vecteur nul :

λ1 v1 + · · · + λk vk = 0 ⇒ λi = 0 ∀i

Une base est une famille libre et génératrice de V .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 45 / 75
Algèbre linéaire avancée

Base d’un espace vectoriel

Définition : Une base B de V est un ensemble de vecteurs tel que :


B est libre
B engendre V
Exemple dans R3 :       
 1 0 0 
B = e1 = 0 , e2 = 1 , e3 = 0
0 0 1
 

Tout vecteur v ∈ R3 peut s’écrire de manière unique :


v = xe1 + ye2 + ze3

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée

Base d’un espace vectoriel

Définition : Une base B de V est un ensemble de vecteurs tel que :


B est libre
B engendre V
Exemple dans R3 :       
 1 0 0 
B = e1 = 0 , e2 = 1 , e3 = 0
0 0 1
 

Tout vecteur v ∈ R3 peut s’écrire de manière unique :


v = xe1 + ye2 + ze3

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée

Base d’un espace vectoriel

Définition : Une base B de V est un ensemble de vecteurs tel que :


B est libre
B engendre V
Exemple dans R3 :       
 1 0 0 
B = e1 = 0 , e2 = 1 , e3 = 0
0 0 1
 

Tout vecteur v ∈ R3 peut s’écrire de manière unique :


v = xe1 + ye2 + ze3

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 46 / 75
Algèbre linéaire avancée

Dimension d’un espace vectoriel

Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée

Dimension d’un espace vectoriel

Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée

Dimension d’un espace vectoriel

Définition : La dimension de V , notée dim(V ), est le nombre de vecteurs dans une base de V .
Exemples :
dim(Rn ) = n
L’ensemble des polynômes de degré ≤ n a pour dimension n + 1
L’espace des matrices m × n a pour dimension mn
Propriété : Toutes les bases d’un espace vectoriel ont le même nombre de vecteurs.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 47 / 75
Algèbre linéaire avancée

Importance des espaces vectoriels en IA

Pourquoi s’en soucier ?


Les données (images, sons, textes) sont représentées comme des vecteurs dans Rn
Les couches de neurones réalisent des transformations linéaires entre espaces vectoriels
Les dimensions déterminent la capacité de représentation d’un modèle
Remarque :
La réduction de dimension (ex : PCA) s’appuie sur ces notions.
Comprendre les bases permet de visualiser les changements de repères dans les embeddings.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 48 / 75
Algèbre linéaire avancée

Importance des espaces vectoriels en IA

Pourquoi s’en soucier ?


Les données (images, sons, textes) sont représentées comme des vecteurs dans Rn
Les couches de neurones réalisent des transformations linéaires entre espaces vectoriels
Les dimensions déterminent la capacité de représentation d’un modèle
Remarque :
La réduction de dimension (ex : PCA) s’appuie sur ces notions.
Comprendre les bases permet de visualiser les changements de repères dans les embeddings.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 48 / 75
Algèbre linéaire avancée

Rang d’une matrice : définition

Définition : Le rang d’une matrice A ∈ Rm×n est :


le nombre de lignes (ou colonnes) linéairement indépendantes ;
la dimension de l’image de l’application linéaire associée à A ;
le nombre de pivots non nuls dans la forme échelonnée de A.
Notation : rang(A) ou rg(A).
Exemple :  
1 2 3
A = 0 1 1 ⇒ rang(A) = 2
0 0 0

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée

Rang d’une matrice : définition

Définition : Le rang d’une matrice A ∈ Rm×n est :


le nombre de lignes (ou colonnes) linéairement indépendantes ;
la dimension de l’image de l’application linéaire associée à A ;
le nombre de pivots non nuls dans la forme échelonnée de A.
Notation : rang(A) ou rg(A).
Exemple :  
1 2 3
A = 0 1 1 ⇒ rang(A) = 2
0 0 0

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée

Rang d’une matrice : définition

Définition : Le rang d’une matrice A ∈ Rm×n est :


le nombre de lignes (ou colonnes) linéairement indépendantes ;
la dimension de l’image de l’application linéaire associée à A ;
le nombre de pivots non nuls dans la forme échelonnée de A.
Notation : rang(A) ou rg(A).
Exemple :  
1 2 3
A = 0 1 1 ⇒ rang(A) = 2
0 0 0

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 49 / 75
Algèbre linéaire avancée

Systèmes d’équations linéaires

Un système linéaire s’écrit sous la forme :


Ax = b où A ∈ Rm×n , x ∈ Rn , b ∈ Rm
Classification selon le rang :
Unique solution : rang(A) = rang([A | b]) = n
Infinité de solutions : rang(A) = rang([A | b]) < n
Aucune solution : rang(A) < rang([A | b])

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 50 / 75
Algèbre linéaire avancée

Systèmes d’équations linéaires

Un système linéaire s’écrit sous la forme :


Ax = b où A ∈ Rm×n , x ∈ Rn , b ∈ Rm
Classification selon le rang :
Unique solution : rang(A) = rang([A | b]) = n
Infinité de solutions : rang(A) = rang([A | b]) < n
Aucune solution : rang(A) < rang([A | b])

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 50 / 75
Algèbre linéaire avancée

Méthode de Gauss : principe

La méthode de Gauss (ou élimination de Gauss) consiste à :


1 Réduire le système à une forme triangulaire (forme échelonnée) ;
2 Résoudre par substitution arrière.
Opérations autorisées (opérations élémentaires) :
Permutation de lignes ;
Multiplication d’une ligne par un scalaire non nul ;
Ajout d’un multiple d’une ligne à une autre.
But : Identifier les pivots ⇒ déterminer le rang.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée

Méthode de Gauss : principe

La méthode de Gauss (ou élimination de Gauss) consiste à :


1 Réduire le système à une forme triangulaire (forme échelonnée) ;
2 Résoudre par substitution arrière.
Opérations autorisées (opérations élémentaires) :
Permutation de lignes ;
Multiplication d’une ligne par un scalaire non nul ;
Ajout d’un multiple d’une ligne à une autre.
But : Identifier les pivots ⇒ déterminer le rang.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée

Méthode de Gauss : principe

La méthode de Gauss (ou élimination de Gauss) consiste à :


1 Réduire le système à une forme triangulaire (forme échelonnée) ;
2 Résoudre par substitution arrière.
Opérations autorisées (opérations élémentaires) :
Permutation de lignes ;
Multiplication d’une ligne par un scalaire non nul ;
Ajout d’un multiple d’une ligne à une autre.
But : Identifier les pivots ⇒ déterminer le rang.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 51 / 75
Algèbre linéaire avancée

Méthode de Gauss : exemple

Résolvons : 
x + y + z = 6

2x + 3y + z = 14

x + 2y + 3z = 14

Forme matricielle augmentée :  


1 1 1 6
 2 3 1 14 
1 2 3 14
Après élimination (détails à faire au tableau ou en notes) :
 
1 1 1 6
 0 1 −1 2  ⇒ (z = 2, y = 4, x = 0)
0 0 1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée

Méthode de Gauss : exemple

Résolvons : 
x + y + z = 6

2x + 3y + z = 14

x + 2y + 3z = 14

Forme matricielle augmentée :  


1 1 1 6
 2 3 1 14 
1 2 3 14
Après élimination (détails à faire au tableau ou en notes) :
 
1 1 1 6
 0 1 −1 2  ⇒ (z = 2, y = 4, x = 0)
0 0 1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée

Méthode de Gauss : exemple

Résolvons : 
x + y + z = 6

2x + 3y + z = 14

x + 2y + 3z = 14

Forme matricielle augmentée :  


1 1 1 6
 2 3 1 14 
1 2 3 14
Après élimination (détails à faire au tableau ou en notes) :
 
1 1 1 6
 0 1 −1 2  ⇒ (z = 2, y = 4, x = 0)
0 0 1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 52 / 75
Algèbre linéaire avancée

Interprétation géométrique du rang

Cas de 2 ou 3 équations à 2 ou 3 inconnues :


Chaque équation représente un hyperplan ;
Le rang représente le nombre de directions indépendantes ;
Rang 1 : plans parallèles (ou confondus) ⇒ intersection ligne ou vide ;
Rang 2 (en 3D) : intersection en une droite ou un point ;
Rang 3 (en 3D) : intersection unique (point).
En image : intersection de plans en 3D.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée

Interprétation géométrique du rang

Cas de 2 ou 3 équations à 2 ou 3 inconnues :


Chaque équation représente un hyperplan ;
Le rang représente le nombre de directions indépendantes ;
Rang 1 : plans parallèles (ou confondus) ⇒ intersection ligne ou vide ;
Rang 2 (en 3D) : intersection en une droite ou un point ;
Rang 3 (en 3D) : intersection unique (point).
En image : intersection de plans en 3D.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée

Interprétation géométrique du rang

Cas de 2 ou 3 équations à 2 ou 3 inconnues :


Chaque équation représente un hyperplan ;
Le rang représente le nombre de directions indépendantes ;
Rang 1 : plans parallèles (ou confondus) ⇒ intersection ligne ou vide ;
Rang 2 (en 3D) : intersection en une droite ou un point ;
Rang 3 (en 3D) : intersection unique (point).
En image : intersection de plans en 3D.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 53 / 75
Algèbre linéaire avancée

Pourquoi s’intéresser au rang ?

En apprentissage automatique :
Les données sont représentées par des matrices (features × échantillons) ;
Un rang faible indique de la redondance ⇒ réduction de dimension utile ;
Le rang est lié à la capacité à inverser ou pseudo-inverser une matrice (A† ) ;
En réseaux de neurones : vérifier la capacité des couches à capturer des représentations linéaires distinctes.
Conclusion : Le rang est fondamental pour comprendre la structure des données et la stabilité des solutions.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 54 / 75
Algèbre linéaire avancée

Pourquoi s’intéresser au rang ?

En apprentissage automatique :
Les données sont représentées par des matrices (features × échantillons) ;
Un rang faible indique de la redondance ⇒ réduction de dimension utile ;
Le rang est lié à la capacité à inverser ou pseudo-inverser une matrice (A† ) ;
En réseaux de neurones : vérifier la capacité des couches à capturer des représentations linéaires distinctes.
Conclusion : Le rang est fondamental pour comprendre la structure des données et la stabilité des solutions.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 54 / 75
Algèbre linéaire avancée

Changement de base : motivation

Pourquoi changer de base ?


Pour simplifier les calculs (ex. base orthonormée) ;
Pour exprimer un vecteur dans un nouveau repère plus adapté au problème ;
Pour compresser l’information ou réduire la dimension.
Définition : Soit B = {v1 , . . . , vn } une base de Rn . Tout vecteur x ∈ Rn s’écrit de manière unique :

x = a1 v1 + · · · + an vn

Les coordonnées (a1 , . . . , an ) sont les coordonnées de x dans la base B .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 55 / 75
Algèbre linéaire avancée

Changement de base : motivation

Pourquoi changer de base ?


Pour simplifier les calculs (ex. base orthonormée) ;
Pour exprimer un vecteur dans un nouveau repère plus adapté au problème ;
Pour compresser l’information ou réduire la dimension.
Définition : Soit B = {v1 , . . . , vn } une base de Rn . Tout vecteur x ∈ Rn s’écrit de manière unique :

x = a1 v1 + · · · + an vn

Les coordonnées (a1 , . . . , an ) sont les coordonnées de x dans la base B .

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 55 / 75
Algèbre linéaire avancée

Formule de changement de base

Soient B et B ′ deux bases de Rn .


Soit P la matrice de passage de B ′ vers B :
[x]B = P · [x]B ′
Interprétation : La matrice P est formée par les vecteurs de B ′ exprimés dans la base B :
 
| |
P = v′1 ··· v′n 
| |

Changement de base très utile si B ′ est orthonormale.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée

Formule de changement de base

Soient B et B ′ deux bases de Rn .


Soit P la matrice de passage de B ′ vers B :
[x]B = P · [x]B ′
Interprétation : La matrice P est formée par les vecteurs de B ′ exprimés dans la base B :
 
| |
P = v′1 ··· v′n 
| |

Changement de base très utile si B ′ est orthonormale.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée

Formule de changement de base

Soient B et B ′ deux bases de Rn .


Soit P la matrice de passage de B ′ vers B :
[x]B = P · [x]B ′
Interprétation : La matrice P est formée par les vecteurs de B ′ exprimés dans la base B :
 
| |
P = v′1 ··· v′n 
| |

Changement de base très utile si B ′ est orthonormale.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée

Formule de changement de base

Soient B et B ′ deux bases de Rn .


Soit P la matrice de passage de B ′ vers B :
[x]B = P · [x]B ′
Interprétation : La matrice P est formée par les vecteurs de B ′ exprimés dans la base B :
 
| |
P = v′1 ··· v′n 
| |

Changement de base très utile si B ′ est orthonormale.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 56 / 75
Algèbre linéaire avancée

Procédé de Gram-Schmidt (1/2)

Objectif : Transformer une base quelconque {v1 , . . . , vn } en une base orthogonale.


Formules : Soit
u1 = v1
⟨v2 , u1 ⟩
u2 = v2 − u1
⟨u1 , u1 ⟩
⟨v3 , u1 ⟩ ⟨v3 , u2 ⟩
u3 = v3 − u1 − u2
⟨u1 , u1 ⟩ ⟨u2 , u2 ⟩
Et ainsi de suite...

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée

Procédé de Gram-Schmidt (1/2)

Objectif : Transformer une base quelconque {v1 , . . . , vn } en une base orthogonale.


Formules : Soit
u1 = v1
⟨v2 , u1 ⟩
u2 = v2 − u1
⟨u1 , u1 ⟩
⟨v3 , u1 ⟩ ⟨v3 , u2 ⟩
u3 = v3 − u1 − u2
⟨u1 , u1 ⟩ ⟨u2 , u2 ⟩
Et ainsi de suite...

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée

Procédé de Gram-Schmidt (1/2)

Objectif : Transformer une base quelconque {v1 , . . . , vn } en une base orthogonale.


Formules : Soit
u1 = v1
⟨v2 , u1 ⟩
u2 = v2 − u1
⟨u1 , u1 ⟩
⟨v3 , u1 ⟩ ⟨v3 , u2 ⟩
u3 = v3 − u1 − u2
⟨u1 , u1 ⟩ ⟨u2 , u2 ⟩
Et ainsi de suite...

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 57 / 75
Algèbre linéaire avancée

Procédé de Gram-Schmidt (2/2)

Remarque : On obtient une base {u1 , . . . , un } orthogonale. Pour obtenir une base orthonormée, on normalise :

ui
ei =
∥ui ∥

Utilité :
Diagonalisation plus facile (matrices symétriques) ;
Calculs simplifiés avec ⟨ei , e j ⟩ = δi j ;
Étape de base dans la décomposition QR et dans l’ACP.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 58 / 75
Algèbre linéaire avancée

Procédé de Gram-Schmidt (2/2)

Remarque : On obtient une base {u1 , . . . , un } orthogonale. Pour obtenir une base orthonormée, on normalise :

ui
ei =
∥ui ∥

Utilité :
Diagonalisation plus facile (matrices symétriques) ;
Calculs simplifiés avec ⟨ei , e j ⟩ = δi j ;
Étape de base dans la décomposition QR et dans l’ACP.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 58 / 75
Algèbre linéaire avancée

Application : réduction de dimension (PCA)

ACP (Analyse en Composantes Principales) :


Objectif : trouver une base orthogonale où les données sont projetées avec variance maximale ;
Basée sur les vecteurs propres de la matrice de covariance ;
Retourne une nouvelle base {u1 , . . . , uk } (avec k < n).
Interprétation géométrique :
Nouvelle base = directions principales de la distribution ;
Les données sont « compressées » dans ce nouveau repère.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 59 / 75
Algèbre linéaire avancée

Application : réduction de dimension (PCA)

ACP (Analyse en Composantes Principales) :


Objectif : trouver une base orthogonale où les données sont projetées avec variance maximale ;
Basée sur les vecteurs propres de la matrice de covariance ;
Retourne une nouvelle base {u1 , . . . , uk } (avec k < n).
Interprétation géométrique :
Nouvelle base = directions principales de la distribution ;
Les données sont « compressées » dans ce nouveau repère.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 59 / 75
Algèbre linéaire avancée

ACP : résumé mathématique

Étapes de la PCA :
1 Centrer les données : X ← X − µ
2 Calculer la matrice de covariance : C = n1 X T X
3 Calculer les vecteurs propres {vi } et valeurs propres {λi } de C
4 Choisir les k plus grandes λi et construire la base projetée Uk
5 Nouvelle représentation : Z = XUk
Avantages :
Réduction de dimension ;
Compression avec perte minimale d’information ;
Très utilisé en Machine Learning pour la pré-analyse.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 60 / 75
Algèbre linéaire avancée

ACP : résumé mathématique

Étapes de la PCA :
1 Centrer les données : X ← X − µ
2 Calculer la matrice de covariance : C = n1 X T X
3 Calculer les vecteurs propres {vi } et valeurs propres {λi } de C
4 Choisir les k plus grandes λi et construire la base projetée Uk
5 Nouvelle représentation : Z = XUk
Avantages :
Réduction de dimension ;
Compression avec perte minimale d’information ;
Très utilisé en Machine Learning pour la pré-analyse.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 60 / 75
Algèbre linéaire avancée

Valeurs propres et vecteurs propres

Définitions :
Soit A ∈ Rn×n . Un vecteur v ̸= 0 est un vecteur propre de A s’il existe un scalaire λ tel que :

Av = λv

λ est alors une valeur propre de A.


Interprétation géométrique : v est une direction invariante par A ; A étire (ou contracte ou inverse) v sans changer sa direction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 61 / 75
Algèbre linéaire avancée

Valeurs propres et vecteurs propres

Définitions :
Soit A ∈ Rn×n . Un vecteur v ̸= 0 est un vecteur propre de A s’il existe un scalaire λ tel que :

Av = λv

λ est alors une valeur propre de A.


Interprétation géométrique : v est une direction invariante par A ; A étire (ou contracte ou inverse) v sans changer sa direction.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 61 / 75
Algèbre linéaire avancée

Comment calculer les valeurs propres ?

Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :  
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée

Comment calculer les valeurs propres ?

Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :  
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée

Comment calculer les valeurs propres ?

Équation caractéristique :
Av = λv ⇒ (A − λI)v = 0
⇒ det(A − λI) = 0
Cette équation donne un polynôme de degré n (appelé polynôme caractéristique), dont les racines sont les valeurs propres λ.
Exemple :  
2 1
A= , det(A − λI) = (λ − 3)(λ − 1) ⇒ λ = 3, 1
1 2

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 62 / 75
Algèbre linéaire avancée

Diagonalisation

Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :

A = PDP−1

Condition nécessaire : A possède n vecteurs propres linéairement indépendants.


Intérêt : La puissance k d’une matrice devient facile à calculer :

Ak = PDk P−1 avec Dk = diag(λk1 , . . . , λkn )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée

Diagonalisation

Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :

A = PDP−1

Condition nécessaire : A possède n vecteurs propres linéairement indépendants.


Intérêt : La puissance k d’une matrice devient facile à calculer :

Ak = PDk P−1 avec Dk = diag(λk1 , . . . , λkn )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée

Diagonalisation

Définition : Une matrice A ∈ Rn×n est diagonalisable s’il existe une matrice inversible P et une matrice diagonale D telles que :

A = PDP−1

Condition nécessaire : A possède n vecteurs propres linéairement indépendants.


Intérêt : La puissance k d’une matrice devient facile à calculer :

Ak = PDk P−1 avec Dk = diag(λk1 , . . . , λkn )

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 63 / 75
Algèbre linéaire avancée

Application : stabilité

Considérons un système dynamique linéaire discret :


xt+1 = Axt
Si x0 est combinaison des vecteurs propres de A :
xt = At x0 = PDt P−1 x0
Stabilité :
Si |λi | < 1 pour tout i, alors xt → 0 ;
Si certains |λi | > 1, alors le système diverge.
Les valeurs propres déterminent le comportement à long terme.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée

Application : stabilité

Considérons un système dynamique linéaire discret :


xt+1 = Axt
Si x0 est combinaison des vecteurs propres de A :
xt = At x0 = PDt P−1 x0
Stabilité :
Si |λi | < 1 pour tout i, alors xt → 0 ;
Si certains |λi | > 1, alors le système diverge.
Les valeurs propres déterminent le comportement à long terme.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée

Application : stabilité

Considérons un système dynamique linéaire discret :


xt+1 = Axt
Si x0 est combinaison des vecteurs propres de A :
xt = At x0 = PDt P−1 x0
Stabilité :
Si |λi | < 1 pour tout i, alors xt → 0 ;
Si certains |λi | > 1, alors le système diverge.
Les valeurs propres déterminent le comportement à long terme.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée

Application : stabilité

Considérons un système dynamique linéaire discret :


xt+1 = Axt
Si x0 est combinaison des vecteurs propres de A :
xt = At x0 = PDt P−1 x0
Stabilité :
Si |λi | < 1 pour tout i, alors xt → 0 ;
Si certains |λi | > 1, alors le système diverge.
Les valeurs propres déterminent le comportement à long terme.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 64 / 75
Algèbre linéaire avancée

Lien avec les réseaux dynamiques

Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :

xt+1 = Axt

Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée

Lien avec les réseaux dynamiques

Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :

xt+1 = Axt

Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée

Lien avec les réseaux dynamiques

Soit A la matrice d’adjacence pondérée d’un graphe. L’état du réseau à l’instant t peut être modélisé par :

xt+1 = Axt

Exemples d’applications :
Diffusion de l’information (ou virus) ;
Synchronisation dans un réseau ;
Réseaux de neurones récurrents linéarisés.
La dynamique est contrôlée par les valeurs propres de A.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 65 / 75
Algèbre linéaire avancée

Chaînes de Markov : rappel

Soit P une matrice de transition de probabilité (stochastique) :

Pi j = P[état j à t + 1 | état i à t]

L’état du système à l’instant t est :


p(t) = Pt p(0)
Objectif : étudier le comportement à long terme limt→∞ Pt p(0)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée

Chaînes de Markov : rappel

Soit P une matrice de transition de probabilité (stochastique) :

Pi j = P[état j à t + 1 | état i à t]

L’état du système à l’instant t est :


p(t) = Pt p(0)
Objectif : étudier le comportement à long terme limt→∞ Pt p(0)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée

Chaînes de Markov : rappel

Soit P une matrice de transition de probabilité (stochastique) :

Pi j = P[état j à t + 1 | état i à t]

L’état du système à l’instant t est :


p(t) = Pt p(0)
Objectif : étudier le comportement à long terme limt→∞ Pt p(0)

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 66 / 75
Algèbre linéaire avancée

Chaînes de Markov et valeurs propres

Fait : P a toujours une valeur propre λ1 = 1. Si la chaîne est irréductible et apériodique :

lim Pt = 1πT où π est la distribution stationnaire


t→∞

Rôle des autres valeurs propres :


Les λi avec |λi | < 1 contrôlent la vitesse de convergence vers l’équilibre ;
Plus |λ2 | est petit, plus la chaîne converge vite.
Outils utilisés en théorie des graphes, random walk, PageRank, etc.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée

Chaînes de Markov et valeurs propres

Fait : P a toujours une valeur propre λ1 = 1. Si la chaîne est irréductible et apériodique :

lim Pt = 1πT où π est la distribution stationnaire


t→∞

Rôle des autres valeurs propres :


Les λi avec |λi | < 1 contrôlent la vitesse de convergence vers l’équilibre ;
Plus |λ2 | est petit, plus la chaîne converge vite.
Outils utilisés en théorie des graphes, random walk, PageRank, etc.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée

Chaînes de Markov et valeurs propres

Fait : P a toujours une valeur propre λ1 = 1. Si la chaîne est irréductible et apériodique :

lim Pt = 1πT où π est la distribution stationnaire


t→∞

Rôle des autres valeurs propres :


Les λi avec |λi | < 1 contrôlent la vitesse de convergence vers l’équilibre ;
Plus |λ2 | est petit, plus la chaîne converge vite.
Outils utilisés en théorie des graphes, random walk, PageRank, etc.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 67 / 75
Algèbre linéaire avancée

Introduction à la décomposition

Objectif : Écrire une matrice A ∈ Rm×n comme produit de trois matrices plus simples.
Décomposition en valeurs singulières (SVD) :
A = UΣV T

U ∈ Rm×m : matrice orthogonale (U T U = I )


V ∈ Rn×n : matrice orthogonale
Σ ∈ Rm×n : matrice diagonale avec valeurs singulières σ1 ≥ σ2 ≥ · · · ≥ 0

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 68 / 75
Algèbre linéaire avancée

Introduction à la décomposition

Objectif : Écrire une matrice A ∈ Rm×n comme produit de trois matrices plus simples.
Décomposition en valeurs singulières (SVD) :
A = UΣV T

U ∈ Rm×m : matrice orthogonale (U T U = I )


V ∈ Rn×n : matrice orthogonale
Σ ∈ Rm×n : matrice diagonale avec valeurs singulières σ1 ≥ σ2 ≥ · · · ≥ 0

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 68 / 75
Algèbre linéaire avancée

Interprétation géométrique de la SVD

La SVD transforme un vecteur x en trois étapes :


Ax = UΣV T x

V T x : rotation (changement de base) dans l’espace des colonnes


Σ : mise à l’échelle des composantes
U : rotation finale dans l’espace des lignes
La SVD donne une description optimale de A en termes de directions principales.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée

Interprétation géométrique de la SVD

La SVD transforme un vecteur x en trois étapes :


Ax = UΣV T x

V T x : rotation (changement de base) dans l’espace des colonnes


Σ : mise à l’échelle des composantes
U : rotation finale dans l’espace des lignes
La SVD donne une description optimale de A en termes de directions principales.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée

Interprétation géométrique de la SVD

La SVD transforme un vecteur x en trois étapes :


Ax = UΣV T x

V T x : rotation (changement de base) dans l’espace des colonnes


Σ : mise à l’échelle des composantes
U : rotation finale dans l’espace des lignes
La SVD donne une description optimale de A en termes de directions principales.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 69 / 75
Algèbre linéaire avancée

Exemple : petite matrice

Soit :  
3 1
A=
1 3
On peut écrire :  
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée

Exemple : petite matrice

Soit :  
3 1
A=
1 3
On peut écrire :  
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée

Exemple : petite matrice

Soit :  
3 1
A=
1 3
On peut écrire :  
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée

Exemple : petite matrice

Soit :  
3 1
A=
1 3
On peut écrire :  
σ1 0
A = UΣV T où Σ =
0 σ2
Valeurs singulières :
σ1 = 4, σ2 = 2
A étire plus dans une direction que dans une autre.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 70 / 75
Algèbre linéaire avancée

SVD pour réduction de dimension

La SVD permet une approximation de rang k :


A ≈ Ak = Uk ΣkVkT
où :
Uk : les k premières colonnes de U
Σk : matrice k × k avec les k plus grandes valeurs singulières
Vk : les k premières colonnes de V
Théorème d’Eckart-Young : Ak est la meilleure approximation de A de rang k (en norme Frobenius).

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée

SVD pour réduction de dimension

La SVD permet une approximation de rang k :


A ≈ Ak = Uk ΣkVkT
où :
Uk : les k premières colonnes de U
Σk : matrice k × k avec les k plus grandes valeurs singulières
Vk : les k premières colonnes de V
Théorème d’Eckart-Young : Ak est la meilleure approximation de A de rang k (en norme Frobenius).

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée

SVD pour réduction de dimension

La SVD permet une approximation de rang k :


A ≈ Ak = Uk ΣkVkT
où :
Uk : les k premières colonnes de U
Σk : matrice k × k avec les k plus grandes valeurs singulières
Vk : les k premières colonnes de V
Théorème d’Eckart-Young : Ak est la meilleure approximation de A de rang k (en norme Frobenius).

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 71 / 75
Algèbre linéaire avancée

Application : compression d’image

Une image (niveau de gris) est une matrice A ∈ Rm×n .


On applique la SVD : A = UΣV T
On garde les k plus grandes valeurs singulières :
Ak = Uk ΣkVkT
Compression :
k = 50 ≪ m, n : image approximée avec peu de stockage ;
Visualisation proche de l’original si σk suffisamment grands.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée

Application : compression d’image

Une image (niveau de gris) est une matrice A ∈ Rm×n .


On applique la SVD : A = UΣV T
On garde les k plus grandes valeurs singulières :
Ak = Uk ΣkVkT
Compression :
k = 50 ≪ m, n : image approximée avec peu de stockage ;
Visualisation proche de l’original si σk suffisamment grands.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée

Application : compression d’image

Une image (niveau de gris) est une matrice A ∈ Rm×n .


On applique la SVD : A = UΣV T
On garde les k plus grandes valeurs singulières :
Ak = Uk ΣkVkT
Compression :
k = 50 ≪ m, n : image approximée avec peu de stockage ;
Visualisation proche de l’original si σk suffisamment grands.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée

Application : compression d’image

Une image (niveau de gris) est une matrice A ∈ Rm×n .


On applique la SVD : A = UΣV T
On garde les k plus grandes valeurs singulières :
Ak = Uk ΣkVkT
Compression :
k = 50 ≪ m, n : image approximée avec peu de stockage ;
Visualisation proche de l’original si σk suffisamment grands.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 72 / 75
Algèbre linéaire avancée

SVD en NLP : analyse sémantique latente (LSA)

Matrice document-terme A ∈ Rm×n :

Ai j = pondération TF-IDF du terme j dans le document i

SVD :
A ≈ Uk ΣkVkT

Uk : représentation des documents dans l’espace latent


Vk : représentation des termes
Σk : importance des dimensions sémantiques
Réduction de bruit, extraction de thèmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée

SVD en NLP : analyse sémantique latente (LSA)

Matrice document-terme A ∈ Rm×n :

Ai j = pondération TF-IDF du terme j dans le document i

SVD :
A ≈ Uk ΣkVkT

Uk : représentation des documents dans l’espace latent


Vk : représentation des termes
Σk : importance des dimensions sémantiques
Réduction de bruit, extraction de thèmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée

SVD en NLP : analyse sémantique latente (LSA)

Matrice document-terme A ∈ Rm×n :

Ai j = pondération TF-IDF du terme j dans le document i

SVD :
A ≈ Uk ΣkVkT

Uk : représentation des documents dans l’espace latent


Vk : représentation des termes
Σk : importance des dimensions sémantiques
Réduction de bruit, extraction de thèmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée

SVD en NLP : analyse sémantique latente (LSA)

Matrice document-terme A ∈ Rm×n :

Ai j = pondération TF-IDF du terme j dans le document i

SVD :
A ≈ Uk ΣkVkT

Uk : représentation des documents dans l’espace latent


Vk : représentation des termes
Σk : importance des dimensions sémantiques
Réduction de bruit, extraction de thèmes.

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 73 / 75
Algèbre linéaire avancée

Interprétation sémantique

La SVD regroupe les termes co-occurrents dans des dimensions principales.


Exemple :
termes : “chat”, “animal”, “chien”, “voiture”, “camion”
SVD les regroupe par sémantique : (animaux vs véhicules)
Cela améliore la recherche sémantique :
Interrogation “chien” → document contenant “chat”
Grâce à la proximité dans l’espace latent

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée

Interprétation sémantique

La SVD regroupe les termes co-occurrents dans des dimensions principales.


Exemple :
termes : “chat”, “animal”, “chien”, “voiture”, “camion”
SVD les regroupe par sémantique : (animaux vs véhicules)
Cela améliore la recherche sémantique :
Interrogation “chien” → document contenant “chat”
Grâce à la proximité dans l’espace latent

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée

Interprétation sémantique

La SVD regroupe les termes co-occurrents dans des dimensions principales.


Exemple :
termes : “chat”, “animal”, “chien”, “voiture”, “camion”
SVD les regroupe par sémantique : (animaux vs véhicules)
Cela améliore la recherche sémantique :
Interrogation “chien” → document contenant “chat”
Grâce à la proximité dans l’espace latent

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 74 / 75
Algèbre linéaire avancée

Résumé et perspectives

Résumé :
SVD décompose toute matrice A en UΣV T
Donne une base orthonormée optimale (compression, approximation)
Clé en réduction de dimension, visualisation, NLP
Perspectives :
Intégration dans l’apprentissage automatique (Truncated SVD)
Lien avec PCA (analyse en composantes principales)
Alternatives : NMF, autoencodeurs

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 75 / 75
Algèbre linéaire avancée

Résumé et perspectives

Résumé :
SVD décompose toute matrice A en UΣV T
Donne une base orthonormée optimale (compression, approximation)
Clé en réduction de dimension, visualisation, NLP
Perspectives :
Intégration dans l’apprentissage automatique (Truncated SVD)
Lien avec PCA (analyse en composantes principales)
Alternatives : NMF, autoencodeurs

Tiebekabe Pagdame Enseignant-chercheur Fondements Mathématiques des Transformers et des LLMs 15 juillet 2025 75 / 75

Vous aimerez peut-être aussi