0% ont trouvé ce document utile (0 vote)
33 vues26 pages

Rapport Pfe

Le document traite des mathématiques appliquées à l'intelligence artificielle, en abordant des outils tels que l'algèbre linéaire, le calcul différentiel, les probabilités, et l'optimisation. Il explore également l'historique de l'intelligence artificielle et les différents types d'algorithmes, y compris les réseaux de neurones. Enfin, il présente des concepts mathématiques essentiels comme les valeurs propres et la décomposition en valeurs singulières.

Transféré par

hanaeechcharqy925
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues26 pages

Rapport Pfe

Le document traite des mathématiques appliquées à l'intelligence artificielle, en abordant des outils tels que l'algèbre linéaire, le calcul différentiel, les probabilités, et l'optimisation. Il explore également l'historique de l'intelligence artificielle et les différents types d'algorithmes, y compris les réseaux de neurones. Enfin, il présente des concepts mathématiques essentiels comme les valeurs propres et la décomposition en valeurs singulières.

Transféré par

hanaeechcharqy925
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mathématiques et L’intélligence artificielle

29 avril 2025
Table des matières

1 Inroduction et Motivation 2

2 Outils mathématiques pour l’intelligence artificielle 3


2.1 Algèbre linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Rappels et compléments en algèbre linéaire . . . . . . . . . . . . . 3
2.1.2 Décomposition en valeurs singulières . . . . . . . . . . . . . . . . . 7
2.2 Le calcul différentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Fonctions différentiables — Différentielle . . . . . . . . . . . . . . . 8
2.2.2 Différenyielles partielles et gradients . . . . . . . . . . . . . . . . . . 9
2.3 Probabilités et statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Introduction à l’optimisation mathématique . . . . . . . . . . . . . 14
2.4.2 Descente de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Descente de gradient avec momentum . . . . . . . . . . . . . . . . . 16
2.4.4 Descente de gradient stochastique (SGD) . . . . . . . . . . . . . . . 16

3 Historique de l’intelligence artificielle 18


3.1 Les prémices de l’intelligence artificielle (1940-1970) . . . . . . . . . . . . . 18
3.2 La seconde vague d’évolution de l’intelligence artificielle (1980-2010) . . . . 19
3.3 La troisième vague d’évolution de l’intelligence artificielle (2020- ) . . . . . 20

4 Les algorithmes de l’intelligence artificielle 21


4.1 Qu’est-ce qu’un algorithme d’IA ? . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 les alghorithes de base d’IA . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2.1 les algorithmes d’apprentissage automatique supervisé . . . . . . . . 21
4.2.2 les algorithmes d’apprentissage automatique non supervisé . . . . . 24
4.2.3 les algorithmes d’apprentissage automatique par renforecement . . 24
4.3 Les réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1
Chapitre 1

Inroduction et Motivation

IA faible : Ce sont des programmes d’intelligence artificielle développés pour des


tâches bien spécifiques. Par exemple : un programme de reconnaissance d’images.
IA forte : Ce sont des programmes d’intelligence artificielle capables de résoudre des
problèmes très complexes qui exigent parfois la réalisation de tâches très difficiles. Par
exemple : les programmes de reconnaissance de langage naturel (NLP).
IA symbolique : Ce sont des programmes d’intelligence artificielle qui utilisent des
symboles et des règles logiques pour simuler un raisonnement humain contrairement aux
programmes qui utilisent des données numériques. Par exemple : les systèmes experts. IA
hybride : Ce sont des programmes d’intelligence artificielle utilisant différentes approches
d’IA. Par exemple : les systèmes de traductions linguistiques qui utilisent des symboles
linguistiques en premier et des réseaux de neurones en deuxième lieu pour la traduction
de textes.

2
Chapitre 2

Outils mathématiques pour


l’intelligence artificielle

Introduction
L’intelligence artificielle moderne repose fortement sur une variété d’outils mathématiques.
Ces outils permettent de représenter les données, de concevoir les modèles, d’optimiser
leurs performances et d’interpréter leurs résultats.

2.1 Algèbre linéaire


L’algèbre linéaire fournit un cadre pour représenter les données sous forme de vecteurs
ou de matrices. Par exemple, un jeu de données contenant m échantillons et n caractéristiques
peut être représenté par une matrice X ∈ Rm×n .

2.1.1 Rappels et compléments en algèbre linéaire


Espace vectoriel normé Rn

On considérera toujours l’espace des vecteurs Rn muni de sa structure d’espace vectoriel


normé de dimension n :
— Pour tous x, y ∈ Rn , la somme des vecteurs x et y est notée :

x + y = [xi + yi ]1≤i≤n .

— Pour tout λ ∈ R, la multiplication scalaire est définie par :

λx := λ · x = [λxi ]1≤i≤n .

3
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

— La norme euclidienne ∥ · ∥ sur Rn est définie, pour tout vecteur x ∈ Rn , par :


v
u n
uX
∥x∥ := t x2 . i
i=1

On dira que x ∈ Rn est unitaire si ∥x∥ = 1.


— Pour tous vecteurs x, y ∈ Rn , le produit scalaire dérivé de la norme euclidienne est
noté x⊤ y et défini par :
n

X
x y := xi yi .
i=1

Il s’agit d’une forme bilinéaire symétrique définie positive. En particulier, on a :


y ⊤ x = x⊤ y.
— Il existe une famille libre et génératrice de Rn de taille n. Par exemple, tout vecteur
x ∈ Rn peut s’écrire :
n
X
x= xi e i ,
i=1

où ei = [0 · · · 0 1 0 · · · 0]⊤ est le ième vecteur de la base canonique (le coefficient


1 se trouve à la ième position).

Définition 2.1 (Sous-espace engendré). Soient x1 , . . . , xp des vecteurs de Rn . Le sous-espace


engendré par les vecteurs x1 , . . . , xp est le sous-espace vectoriel défini par :
( p
X
)
vect(x1 , . . . , xp ) := x = αi xi αi ∈ R ∀i .
i=1

Ce sous-espace est de dimension au plus min(n, p).

Définition 2.2 (Sous-espaces matriciels). Lorsque l’on travaille avec des matrices, on
s’intéresse généralement aux sous-espaces suivants.
Soit une matrice A ∈ Rm×n , on définit :
— Le noyau (ou kernel en anglais) de A :

ker(A) := {x ∈ Rn | Ax = 0m }

— L’image (ou range space) de A :

Im(A) := {y ∈ Rm | ∃x ∈ Rn , y = Ax}

La dimension de l’image est appelée rang de A, noté rang(A), et on a :

rang(A) ≤ min(m, n)

4
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Théorème 2.1.1 (Théorème du rang). Pour toute matrice A ∈ Rm×n , on a :

dim(ker(A)) + rang(A) = n

Définition 2.3 (Normes matricielles). On définit sur Rm×n deux normes importantes :
Soit A ∈ Rm×n ,

∥Ax∥

∥A∥ := maxn = max ∥Ax∥ (norme d’opérateur)


∥x∥

x∈R ∥x∥=1



 x̸=0




 qP
∥A∥ A2ij
P
:= (norme de Frobenius)

F 1≤i≤m 1≤j≤n

Nous terminons cette section par quelques définitions de sous-ensembles de matrices


carrées utiles dans ce cours.

Définition 2.4 (Matrice symétrique). Une matrice carrée A ∈ Rn×n est dite symétrique
si elle vérifie :
AT = A

Définition 2.5 (Matrice inversible). Une matrice carrée A ∈ Rn×n est dite inversible
s’il existe une matrice B ∈ Rn×n telle que :

BA = AB = In

où In désigne la matrice identité de Rn×n . Si elle existe, cette matrice B est unique, elle
est appelée l’inverse de A et on la note A−1 .

Définition 2.6 (Matrice (semi-)définie positive). Une matrice carrée A ∈ Rn×n est dite
semi-définie positive si elle est symétrique et :

∀x ∈ Rn , xT Ax ≥ 0.

Elle est dite définie positive si elle est semi-définie positive et que :

∀x ∈ Rn \ {0}, xT Ax > 0.

Définition 2.7 (Matrice orthogonale). Une matrice carrée P ∈ Rn×n est dite orthogonale
si P T = P −1 .
Par extension, on dira que Q ∈ Rm×n avec m ≤ n est orthogonale si QQT = Im (les
colonnes de Q sont donc orthonormées dans Rm ).
Si Q ∈ Rn×n est une matrice orthogonale, alors QT est également orthogonale.

On utilisera fréquemment la propriété des matrices orthogonales énoncée ci-dessous.

5
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Lemme 2.1. Soit une matrice A ∈ Rm×n et U ∈ Rm×m , V ∈ Rn×n des matrices
orthogonales (respectivement de Rm×m et Rn×n ). On a :

∥A∥ = ∥U A∥ = ∥AV ∥ et ∥A∥F = ∥U A∥F = ∥AV ∥F ,

c’est-à-dire que la multiplication par une matrice orthogonale ne modifie pas la norme
d’opérateur.

Valeurs propres et décomposition spectrale

Définition 2.8 (Valeur propre). Soit une matrice A ∈ Rn×n . On dit que λ ∈ R est une
valeur propre de A s’il existe v ∈ Rn , v ̸= 0n , tel que Av = λv.
Le vecteur v est appelé un vecteur propre associé à la valeur propre λ. L’ensemble des
valeurs propres de A s’appelle le spectre de A.
Le sous-espace engendré par les vecteurs propres associés à la même valeur propre
d’une matrice s’appelle un sous-espace propre. Sa dimension correspond à l’ordre de
multiplicité de la valeur propre relativement à la matrice.
Proposition 2.1. Pour toute matrice A ∈ Rn×n , on a les propriétés suivantes :
— La matrice A possède n valeurs propres complexes mais pas nécessairement réelles.
— Si la matrice A est semi-définie positive (respectivement définie positive), alors ses
valeurs propres sont réelles positives (respectivement strictement positives).
— Le noyau de A est engendré par les vecteurs propres associés à la valeur propre 0.
Théorème 2.1.2 (Théorème spectral). Toute matrice carrée A ∈ Rn×n symétrique admet
une décomposition dite spectrale de la forme :

A = P ΛP −1 ,

où P ∈ Rn×n est une matrice orthogonale, dont les colonnes p1 , . . . , pn forment une base
orthonormée de vecteurs propres, et Λ ∈ Rn×n est une matrice diagonale qui contient les
n valeurs propres de A, λ1 , . . . , λn , sur la diagonale.
Il est à noter que la décomposition spectrale n’est pas unique. En revanche, l’ensemble
des valeurs propres est unique, que l’on prenne en compte les ordres de multiplicité ou
non.
La décomposition spectrale définie dans le théorème ci-dessus est particulièrement
importante car elle permet de synthétiser l’information de A par son effet sur les vecteurs
pi .
Ainsi, lorsque |λi | ≫ 1, on aura ∥Api ∥ ≫ ∥pi ∥, et la matrice aura donc un effet expansif
dans la direction de pi (ou sa direction opposée lorsque λi < 0).
De même, si |λi | ≪ 1, la matrice aura un effet contractant dans la direction de pi : le
cas extrême est λi = 0, c’est-à-dire que pi ∈ ker(A) et la matrice ne conserve donc pas
d’information relative à pi .

6
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Géométriquement parlant, on voit ainsi que, pour tout vecteur x ∈ Rn décomposé


dans la base des pi que l’on multiplie par A, les composantes de ce vecteur associées aux
plus grandes valeurs propres seront augmentées, tandis que celles associées aux valeurs
propres de petite magnitude seront réduites (voire annihilées dans le cas d’une valeur
propre nulle).

2.1.2 Décomposition en valeurs singulières


La décomposition en valeurs singulières (ou SVD, pour Singular Value Decomposition)
est une technique fondamentale en analyse et compression de données, particulièrement
utile pour compresser des signaux audios, des images, etc.

Principe de la décomposition

Soit une matrice rectangulaire A ∈ Rm×n : dans le cas général, les dimensions de la
matrice diffèrent, et on ne peut donc pas parler de valeurs propres de la matrice A. On
peut en revanche considérer les deux matrices AT A ∈ Rn×n et AAT ∈ Rm×m .

Ces matrices sont symétriques réelles, et par conséquent diagonalisables. Par ailleurs,
elles sont fortement liées à la matrice A. Le lemme ci-dessous illustre quelques-unes des
propriétés de AT A ; des résultats similaires peuvent être démontrés pour AAT .

Lemme 2.2. Pour toute matrice A ∈ Rm×n , les propriétés suivantes sont vérifiées :
i) AT A est semi-définie positive ;
ii) AT A est symétrique ;
iii) ker(AT A) = ker(A) ;
iv) Im(AT A) = Im(AT ) ;
v) rang(AT A) = rang(A).

Ces résultats sont à la base de la construction de la décomposition en valeurs singulières,


dont on donne l’énoncé ci-dessous.

Théorème 2.1. (Décomposition en valeurs singulières) Toute matrice A ∈ Rm×n admet


une décomposition en valeurs singulières (SVD2 ) de la forme

A = U ΣV T ,

où U ∈ Rm×m est orthogonale (U T U = Im ), V ∈ Rn×n est orthogonale (V T V = In ) et


Σ ∈ Rm×n est telle que Σij = 0 si i ̸= j et Σii ≥ 0.
L’ensemble des valeurs {Σii } pour 1 ≤ i ≤ min{m, n}, noté {σ1 , . . . , σmin{m,n} } est
appelé ensemble des valeurs singulières de la matrice A. Les colonnes de V (resp.
de U ) sont appelées les vecteurs singuliers à droite (resp. à gauche) de A.

7
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Remarque 2.1. Comme dans le cas de la décomposition en valeurs propres, il n’y a pas
unicité de la décomposition en valeurs singulières, mais il y a unicité de l’ensemble des
valeurs singulières.

Exemple 2.1. La décomposition en valeurs singulières d’une matrice de R3×2 est de la


forme  
σ 0  ⊤
i 1
h  v1
A = u1 u2 u3   0 σ2  ⊤
 
v
0 0 | {z2 }
| {z }
U
| {z } V⊤
Σ

où σ1 ≥ 0, σ2 ≥ 0, les ui forment une base orthonormée de R3 et les vi forment une base


orthonormée de R2 .

2.2 Le calcul différentiel

2.2.1 Fonctions différentiables — Différentielle


On considère (E, ∥ · ∥E ) et (F, ∥ · ∥F ) deux espaces vectoriels normés sur K (où K = R
ou C), et f une fonction définie sur un ouvert U ⊂ E à valeurs dans F .

Définition 2.9. Soient f : U → F et x0 ∈ U . On dit que f est différentiable en x0 s’il


existe L ∈ L(E, F ) telle que

∀ε > 0, ∃η > 0, ∀h ∈ E, ∥h∥E < η ⇒ ∥f (x0 + h) − f (x0 ) − L(h)∥F < ε∥h∥E .

De façon équivalente, f est différentiable en x0 s’il existe L ∈ L(E, F ) telle que

1
lim (f (x0 + h) − f (x0 ) − L(h)) = 0. (2.1.1)
h→0E ∥h∥E

On écrira encore : f (x0 + h) = f (x0 ) + L(h) + o(h).

Proposition 2.2. Soient f : U → F et x0 ∈ U . Si f est différentiable en x0 , alors


l’application L est unique.
Elle est appelée différentielle de f en x0 et est notée Df (x0 ), ou encore df (x0 ), dfx0 ou
Dfx0 .

Proposition 2.3. Soient f, g : U → F et x0 ∈ U . Si f et g sont différentiables en x0 ,


alors f + g l’est aussi, et on a :

D(f + g)(x0 ) = Df (x0 ) + Dg(x0 ).

Proposition 2.4. Soient U ⊂ E, V ⊂ F des ouverts, f : U → F telle que f (U ) ⊂ V ,


g : V → G et x0 ∈ U .

8
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Si f est différentiable en x0 et g est différentiable en f (x0 ), alors la fonction g ◦f : U → G


est différentiable en x0 et on a :

D(g ◦ f )(x0 ) = Dg(f (x0 )) ◦ Df (x0 ).

2.2.2 Différenyielles partielles et gradients


Définition 2.10. Soient U ⊂ E = E1 × · · · × En , f : U → F et x = (x1 , . . . , xn ) ∈ U .
On dit que f admet une différentielle partielle en x par rapport à la i-ème variable si
l’application
fi (y) := f (x1 , . . . , xi−1 , y, xi+1 , . . . , xn )

définie au voisinage de xi ∈ Ei est différentiable au point xi .


On note Di f (x) = Dfi (xi ) ∈ L(Ei , F ) sa différentielle, et elle est appelée différentielle
partielle de f en x par rapport à la i-ème variable.

Proposition 2.5. Soient U ⊂ E = E1 × · · · × En , f : U → F et x = (x1 , . . . , xn ) ∈ U .


Si f est différentiable en x, alors f admet une différentielle partielle en x par rapport à
chacune des variables, et on a :

Di f (x)(hi ) = Df (x)(0, . . . , 0, hi , 0, . . . , 0),

où hi ∈ Ei et le vecteur (0, . . . , 0, hi , 0, . . . , 0) ∈ E a toutes ses composantes nulles sauf la


i-ème.

Proposition 2.6. Soit f : E1 × · · · × En → F une application n-linéaire continue. Alors


f est différentiable sur E1 × · · · × En et
n
X
Df (x1 , . . . , xn )(h1 , . . . , hn ) = f (x1 , . . . , xi−1 , hi , xi+1 , . . . , xn ).
i=1

En particulier, f admet des différentielles partielles par rapport à chaque variable et

Di f (x)(hi ) = f (x1 , . . . , xi−1 , hi , xi+1 , . . . , xn ).

Gradient d’une fonction

Définition 2.11. Soit f une fonction de Rd → R.


∂f
Le gradient de f , noté ∇x f , est le vecteur de composantes ∂xi
pour i = 1, 2, . . . , d :
 
∂f
 ∂x1  !⊤
 ∂f 
 ∂x2  ∂f ∂f ∂f
∇x f =  .  =
  , ,...,
 ..  ∂x1 ∂x2 ∂xd
 
∂f
∂xd

9
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

La norme euclidienne (ou ℓ2 ) du gradient est donnée par :


v !2
u d
uX ∂f
∥∇x f ∥2 = t
i=1 ∂xi

Exemple 2.2. Soit f (x1 , x2 ) = x21 cos(x2 ). Alors :


!
∂f ∂f  
∇x f = , = 2x1 cos(x2 ), −x21 sin(x2 )
∂x1 ∂x2

Hessienne d’une fonction

Définition 2.12. Soit f une fonction de Rd → R.


Le Hessienne de la fonction, noté ∇2x f , est la matrice des dérivées partielles secondes
de f , de taille d × d, définie par :
 
∂2f ∂2f ∂2f
 ∂x21 ∂x1 ∂x2
··· ∂x1 ∂xd 
 ∂2f ∂2f ∂2f 

 ∂x2 ∂x1 ∂x22
··· 
∂x2 ∂xd 
∇2x f =  .. .. .. .. 

 . . . . 

∂2f ∂2f ∂2f
 
∂xd ∂x1 ∂xd ∂x2
··· ∂x2d

Cette matrice est symétrique si f est de classe C 2 , c’est-à-dire :

∂ 2f ∂ 2f
=
∂xi ∂xj ∂xj ∂xi

Exemple 2.3. Soit la fonction f (x1 , x2 ) = x21 cos(x2 ).


Le gradient est donné par :
!
∂f ∂f  
∇x f = , = 2x1 cos(x2 ), −x21 sin(x2 )
∂x1 ∂x2

Le Hessienne est la matrice des dérivées secondes :


∂2f ∂2f
   
2
 ∂x2 1 ∂x1 ∂x2  2 cos(x2 ) −2x1 sin(x2 )
∇2x f = ∂ f ∂2f
=
∂x2 ∂x1 ∂x22
−2x1 sin(x2 ) −x21 cos(x2 )

2.3 Probabilités et statistiques

2.3.1 Rappels
L’univers, noté Ω, est l’ensemble des issues pouvant être obtenues lors d’une expérience
aléatoire.
Un événement A ⊆ Ω est un sous-ensemble des résultats possibles pour une expérience.

10
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

L’espace des probabilités, noté F, permet la mesure quantitative d’une expérience


aléatoire.
La mesure de probabilité est une fonction à valeurs réelles définie comme suit :

P :F →R

P (A) ≥ 0, ∀A ∈ F

P (Ω) = 1

Si A1 , A2 , . . . est une famille d’événements deux à deux disjoints, c’est-à-dire Ai ∩Aj =


∅ pour i ̸= j, alors on a : !
[ X
P Ai = P (Ai )
i i

Probabilités conditionnelles et théorème de Bayes

Soient A et B deux événements tels que P (B) ̸= 0, la probabilité conditionnelle


de A sachant B est définie par :

P (A ∩ B)
P (A | B) :=
P (B)

Théorème 2.2. Théorème de Bayes : En appliquant la définition de la probabilité conditionnelle,


on obtient :
P (B ∩ A) P (A ∩ B) P (B) · P (A | B)
P (B | A) = = =
P (A) P (A) P (A)
Dans le cas où l’on considère trois événements A, B, et C, on peut énoncer le théorème
de Bayes conditionné :

P (B | A, C) · P (A | C)
P (A | B, C) =
P (B | C)

Loi des probabilités totales

Soient B1 , . . . , Bn n évènements disjoints où l’union est l’univers. Alors pour tout


évènement A :
n
X n
X
P (A) = P (A ∩ Bi ) = P (A|Bi )P (Bi )
i=1 i=1

On peut aussi écrire le théorème de Bayes comme :

P (A|Bk )P (Bk )
P (Bk |A) = Pn
i=1 P (A|Bi )P (Bi )

11
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Indépendance

Deux évènements A et B sont indépendants si :

P (AB) = P (A)P (B)

On note A ⊥ B.
À partir de là, si A ⊥ B :

P (A ∩ B) P (A)P (B)
P (A|B) = = = P (A)
P (B) P (B)

Cela implique que si deux évènements sont indépendants alors observer un évènement
n’aura pas d’effets sur l’autre et inversement.
En général : A1 , . . . , An sont mutuellement indépendants si :
!
\ Y
P Ai = P (Ai )
i∈S i∈S

pour tout S ⊆ {1, . . . , n}

Variables aléatoires

X = k est l’évènement que la variable aléatoire X prend la valeur k.

Variables aléatoires discrètes :


— Val(X) est un espace.
— P (X = k) peut être non nul.

Variables aléatoires continues :


— Val(X) est un intervalle.
— P (X = k) = 0 pour tout k ; mais P (a ≤ X ≤ b) peut être non nul.

Fonction de masse

Prenons une variable aléatoire discrète X, une fonction de masse associe les valeurs
de X à une probabilité :
pX (x) := P (X = x)

Pour qu’une fonction de masse soit valide, il faut que :


X
pX (x) = 1
x∈Val(X)

12
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Fonction de répartition

Une fonction de répartition associe une variable aléatoire continue à une probabilité,
c’est-à-dire une fonction FX : R → [0, 1] :

FX (x) := P (X ≤ x)

Une fonction de répartition doit respecter les règles suivantes :

lim FX (x) = 0, lim FX (x) = 1


x→−∞ x→+∞

et si a ≤ b alors :
FX (a) ≤ FX (b)

On note aussi :
P (a ≤ X ≤ b) = FX (b) − FX (a).

Variable aléatoire à densité

Une variable aléatoire continue admet une fonction de densité, qui est la dérivée de
la fonction de répartition :
dFX (x)
fX (x) :=
dx
On a donc : Z b
P (a ≤ X ≤ b) = FX (b) − FX (a) = fX (x) dx
a

Une fonction de densité est valide si elle respecte les conditions suivantes :
— ZPour tout réel x, fX (x) ≥ 0 ;
+∞
— fX (x) dx = 1.
−∞
L’aire sous une courbe de densité doit donc être égale à 1.

Espérance

— Si X est une variable aléatoire discrète :


X
E[g(X)] := g(x) pX (x)
x∈Val(X)

— Si X est une variable aléatoire continue :


Z +∞
E[g(X)] := g(x) fX (x) dx
−∞

où g est une fonction à valeurs réelles arbitraire.

13
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

Propriétés

Pour toute constante a ∈ R et une fonction arbitraire f :

E[a] = a, E[af (X)] = a E[f (X)]

Linéarité de l’espérance : Soient n fonctions à valeurs réelles f1 (X), . . . , fn (X),


" n # n
X X
E fi (X) = E[fi (X)]
i=1 i=1

Variance

La variance d’une variable aléatoire X mesure la concentration de la distribution de


X autour de sa moyenne.
h i
Var(X) := E (X − E[X])2 = E[X 2 ] − (E[X])2

Propriétés de la variance Soit a une constante :

Var[a] = 0, Var[af (X)] = a2 Var[f (X)]

2.4 Optimisation

2.4.1 Introduction à l’optimisation mathématique


L’optimisation mathématique est la science qui consiste à trouver la meilleure solution
parmi un ensemble de choix possibles. Dans le contexte de l’IA, cela implique d’ajuster les
paramètres d’un modèle afin de minimiser une fonction de coût, qui mesure l’écart entre
les prédictions du modèle et les résultats réels. Plus le coût est faible, meilleures sont les
performances du modèle.
Une méthode permettant de trouver le minimum ou le maximum d’une fonction est
appelée algorithme d’optimisation. Il est utilisé en optimisation. Jusqu’à ce que le
minimum ou le maximum de la fonction de perte soit atteint, l’algorithme d’optimisation
modifie itérativement les paramètres du modèle.
La descente de gradient, la descente de gradient stochastique, Adam, Adagrad et
RMSProp sont quelques-unes des méthodes d’optimisation utilisables en apprentissage
automatique.

Fonctions de coût et Fonctions d’objectif


Au cœur de l’optimisation mathématique en intelligence artificielle (IA) se trouve le
concept de fonction de coût (ou fonction de perte). Cette fonction quantifie l’erreur

14
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

entre la sortie prévue d’un modèle d’IA et la sortie réelle. L’objectif de l’optimisation est
de minimiser cette erreur ; c’est pourquoi le terme « fonction objective » est également
utilisé pour décrire la fonction de coût dans les problèmes d’optimisation.
Par exemple, dans un modèle de régression linéaire, la fonction de coût pourrait être
l’erreur quadratique moyenne (EQM), qui mesure la moyenne des carrés des erreurs
entre les valeurs prédites et les valeurs réelles. Minimiser l’EQM permet d’obtenir la droite
la plus ajustée entre les points de données, ce qui est l’essence même de la régression
linéaire.

2.4.2 Descente de gradient


Nous considérons maintenant le problème de la recherche du minimum d’une fonction
réelle :
min
x
f (x)

où f : Rd → R est une fonction objectif qui modélise le problème d’apprentissage


automatique étudié. On suppose que la fonction f est différentiable, et qu’il est impossible
de trouver analytiquement une solution sous forme fermée. La descente de gradient est
un algorithme d’optimisation du premier ordre. Pour trouver un minimum local d’une
fonction à l’aide de la descente de gradient, on effectue des pas proportionnels à l’opposé
du gradient de la fonction au point courant.
Le gradient pointe dans la direction de la plus forte augmentation de la fonction La
montée la plus raide. Une autre intuition utile est de considérer l’ensemble des lignes
où la fonction prend une certaine valeur (f (x) = c pour une certaine valeur c ∈ R), connues
sous le nom de lignes de niveau. Le gradient pointe dans une direction orthogonale aux
lignes de niveau de la fonction que l’on souhaite optimiser.
Considérons maintenant des fonctions multivariées. Imagine une surface (décrite par la
fonction f (x)) avec une bille placée à un certain point x0 . Lorsque la bille est relâchée, elle
descendra la pente dans la direction de la descente la plus raide. La descente de gradient
exploite le fait que f (x0 ) diminue le plus rapidement si l’on se déplace depuis x0 dans la
direction du gradient négatif −(∇f (x0 ))⊤ de f au point x0 .
Nous supposons dans ce travail que les fonctions sont différentiables, et renvoyons le
lecteur à des cas plus généraux dans la section 7.4. Ainsi, si

x1 = x0 − γ(∇f (x0 ))⊤

Pour un petit pas γ ≥ 0, alors f (x1 ) ≤ f (x0 ). Remarquons que nous utilisons la transposée
du gradient, sans quoi les dimensions ne seraient pas compatibles.
Cette observation nous permet de définir un algorithme simple de descente de
gradient : si l’on souhaite trouver un optimum local f (x∗ ) d’une fonction f : Rn → R,
x 7→ f (x), on commence par une estimation initiale x0 des paramètres que l’on souhaite

15
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

optimiser, puis on itère selon la règle :

xi+1 = xi − γi (∇f (xi ))⊤

Pour une taille de pas γi appropriée, la suite f (x0 ) ≥ f (x1 ) ≥ . . . converge vers un
minimum local.

2.4.3 Descente de gradient avec momentum


La descente de gradient avec momentum est une méthode qui introduit un terme
supplémentaire permettant de mémoriser ce qui s’est passé lors de l’itération précédente.
Cette mémoire atténue les oscillations et adoucit les mises à jour du gradient.
Pour poursuivre l’analogie de la boule, le terme de momentum simule le comportement
d’une boule lourde qui résiste au changement de direction.

L’idée est de mettre en œuvre une mise à jour du gradient avec mémoire, sous forme
de moyenne glissante. La méthode se souvient de la mise à jour ∆xi à chaque itération i
et calcule l’itération suivante comme une combinaison linéaire du gradient courant et du
gradient précédent :

xi+1 = xi − γi ∇f (xi ) + α∆xi

où α ∈ [0, 1] est le coefficient de momentum.

Dans certains cas, on ne dispose que d’une approximation du gradient. Le terme de


momentum est alors particulièrement utile car il permet de lisser les estimations bruitées.
Une méthode efficace pour obtenir un gradient approximatif est celle de l’approximation
stochastique, que nous verrons dans la suite.

2.4.4 Descente de gradient stochastique (SGD)


Le calcul du gradient peut être très coûteux en temps. Cependant, il est souvent
possible de trouver une approximation « peu coûteuse » du gradient. Approximativement,
cette estimation reste utile tant qu’elle pointe dans à peu près la même direction que le
vrai gradient.
La descente de gradient stochastique (souvent abrégée en SGD) est une approximation
stochastique de la méthode de descente de gradient pour minimiser une fonction objectif
qui s’écrit comme une somme de fonctions différentiables. Le terme stochastique signifie ici
que l’on reconnaît ne pas connaître exactement le gradient, mais seulement une approximation
bruitée.
En contraignant la distribution de probabilité des gradients approximés, on peut
théoriquement garantir la convergence de SGD.

16
CHAPITRE 2. Outils mathématiques pour l’intelligence artificielle

En apprentissage automatique, étant donné n = 1, . . . , N points de données, on


considère souvent une fonction objectif de la forme :

N
X
L(θ) = Ln (θ)
n=1

où Ln (θ) représente la perte pour le nième exemple.


L’approximation du gradient consiste donc à estimer le gradient de L par le gradient
d’un seul exemple (ou d’un mini-lot), ce qui accélère considérablement les calculs. où θ est
le vecteur des paramètres d’intérêt, c’est-à-dire que l’on souhaite trouver θ qui minimise
L.

17
Chapitre 3

Historique de l’intelligence artificielle

3.1 Les prémices de l’intelligence artificielle (1940-1970)


L’intelligence artificielle a commencé il y a presque un siècle, notamment dans les
années 1940. À l’époque, l’interception et le décodage des messages revêtent une importance
capitale.
À l’aube de la Seconde Guerre mondiale, les Allemands utilisent une machine appelée
ENIGMA, ressemblant à une machine à écrire, pour protéger leurs messages secrets. Le
principe est simple : lorsqu’un opérateur appuie sur une touche, une diode va éclairer une
autre lettre, générant ainsi des milliards de combinaisons possibles. Il est donc impossible
de décoder le message sans disposer de la même machine avec les bons paramètres.
Pendant ce temps, les équipes britanniques analysent quotidiennement des dizaines de
messages codés et interceptés du côté allemand.
En 1936, Alan Turing publie un article fondateur du concept de machine de Turing.
Ses travaux attirent rapidement l’attention du gouvernement britannique, qui le recrute
au sein d’une équipe spécialisée dans le décryptage des communications.
Alan Turing identifie rapidement deux failles majeures dans le fonctionnement d’Enigma :
— Une lettre est systématiquement transformée en une autre.
— Les Allemands envoient à intervalles réguliers des messages dont le contenu peut
être deviné, comme par exemple le bulletin matinal de météo.
En identifiant un mot ayant une forte probabilité d’apparaître régulièrement, Alan
Turing augmente considérablement les chances de deviner les combinaisons permettant
de déchiffrer le message.
La découverte de Turing offre un avantage tactique et décisif au commandement
allié. En 1942, environ 40 000 messages sont interceptés et décryptés chaque mois par
les Britanniques. L’année suivante, ce chiffre grimpe à près de 80 000 communications
déchiffrées mensuellement. En s’inspirant d’un instrument électromécanique conçu par les
Polonais, Turing construit alors une machine métallique colossale de décryptage d’Enigma,
baptisée Victory.
Sans le travail d’Alan Turing, la Seconde Guerre mondiale aurait été prolongée

18
CHAPITRE 3. Historique de l’intelligence artificielle

de plusieurs mois, et le décryptage d’Enigma a sans aucun doute permis de sauver


d’innombrables vies.
Dans les années 50 : Alan Turing va se demander si une machine peut penser ? En
réalité, cette simple interrogation allait bouleverser le monde. Ceci a donné lieu au Test
de Turing. Ce test avait pour but de vérifier si une intelligence artificielle est capable
d’imiter une conversation humaine.
Dans les années 60 : Arthur Samuel a développé une intelligence artificielle capable de
jouer au jeu de dames en auto-apprentissage. C’était une révolution à l’époque, car c’était
la première fois qu’une intelligence artificielle a battu le champion du monde américain
dans ce domaine.
Dans les années 70 :Les investissements ont diminué, notamment en raison de l’optimisme
excessif dont les chercheurs ont fait preuve en sous-estimant les difficultés à obtenir les
résultats qu’ils promettaient. Cette période est connue aussi sous le nom de : l’hiver de
l’intelligence artificielle.

3.2 La seconde vague d’évolution de l’intelligence artificielle


(1980-2010)
Par la suite, le domaine de l’intelligence artificielle a connu une seconde vague d’évolution
à l’ère du Machine Learning et du Deep Learning.
Dans les années 80 :Il y avait la naissance du concept de Machine Learning qui est
un petit peu différent de la programmation ordinaire. Cette technique de programmation
utilise des probabilités statistiques pour donner aux ordinateurs la capacité d’apprendre
par eux-mêmes sans programmation explicite.
Dans les années 90 : IBM conçoit à l’aide du concept de machine learning, le logiciel
DEEP BLUE qui a battu KASPAROV, le champion du monde des échecs. Il faut noter
que Kasparov avait déjà gagné 4 à 2 face à ce superordinateur de IBM. Mais, IBM a ensuite
doublé la puissance de calcul et a perfectionné le logiciel pour cette seconde rencontre où
Deep Blue a pu remporter la partie. Avec la victoire de Deep Blue, l’intelligence artificielle
semble rattraper l’esprit humain dans un jeu considéré depuis toujours comme exigeant
de hautes capacités intellectuelles. Ceci était une nouvelle révolution avec le jeu des échecs
qui est plus complexe que le jeu de dames.
Dans les années 2000-2010 : Des nouveaux concepts de type « Learning » ont été
dérivés du concept de machine learning, mais beaucoup plus profonds avec la mise en
place de réseaux de neurones.
Cela a permis de répondre à des problématiques plus complexes, notamment dans les
années 2010, où l’entreprise DeepMind (rattachée plus tard en 2014 à Google) a développé
son logiciel ALPHA GO. Ce programme a pu battre le champion du monde du jeu
"Goban", considéré jusqu’à maintenant comme l’un des jeux de plateau les plus complexes
au monde.

19
CHAPITRE 3. Historique de l’intelligence artificielle

3.3 La troisième vague d’évolution de l’intelligence


artificielle (2020- )
Durant cette phase, il y avait une explosion des technologies qui ont contribué à
l’émergence de l’intelligence artificielle. On parle alors de la troisième phase de l’évolution
de l’intelligence artificielle ou encore l’ère de : Big Data, le Cloud et le GPU. Ainsi, le
concept du BIG DATA va fournir les mécanismes nécessaires à la récolte des données
massives, le GPU aidera à répartir la puissance de calcul et le Cloud permettra de
mutualiser l’ensemble des ressources.

Conclusion
Ce qu’on peut retenir c’est que l’IA n’est pas une technologie aussi récente même si ces
dernières années on en parle énormément. C’est une technologie qui a commencé il y a déjà
presque un siècle et qu’elle va prendre l’essor dans les années à venir avec l’explosion des
puissances de calcul et des données qu’on collecte chaque jour et l’avènement du concept
de l’intelligence générative.

20
Chapitre 4

Les algorithmes de l’intelligence


artificielle

4.1 Qu’est-ce qu’un algorithme d’IA ?


Les algorithmes d’IA sont un ensemble d’instructions ou de règles permettant aux
machines d’apprendre, d’analyser des données et de prendre des décisions en fonction de
ces connaissances. Ces algorithmes peuvent effectuer des tâches qui requièrent normalement
l’intelligence humaine, comme la reconnaissance de modèles, la compréhension du langage
naturel, la résolution de problèmes et la prise de décision.

Dans toute discussion sur les algorithmes d’IA, il est important de souligner également
l’importance d’utiliser les bonnes données dans la formation des algorithmes.

4.2 les alghorithes de base d’IA

4.2.1 les algorithmes d’apprentissage automatique supervisé


C’est un type d’IA dans lequel les modèles sont entraînés sur des ensembles de données
bien étiquetées, c’est-à-dire, on va donner au modèle un ensemble de données où il trouvera
une relation entre des caractéristiques et leurs étiquettes correspondantes. Lors de la phase
d’entraînement, ce genre de modèle s’efforce d’apprendre cette relation et d’utiliser les
paramètres ajustés dans les phases de prédiction.

Régression linéaire

La régression linéaire est un algorithme fondamental de l’apprentissage supervisé


utilisé pour prédire une variable quantitative à partir d’autres variables explicatives. Elle
cherche à établir une relation linéaire entre les variables d’entrée et la variable de sortie.
Lorsqu’il n’y a qu’une variable explicative, on parle de régression linéaire simple.

21
CHAPITRE 4. Les algorithmes de l’intelligence artificielle

En revanche, s’il y en a plusieurs, on parle de régression linéaire multiple. Dans le


contexte de l’intelligence artificielle, la régression linéaire est utilisée dans de nombreuses
applications, comme :
— La prédiction du prix d’un bien immobilier.
— L’estimation d’indicateurs médicaux à partir d’images (par exemple : mesurer
l’épaisseur rétinienne à partir de clichés de fonds d’œil).
— L’analyse de tendances économiques ou biologiques.

Un modèle de régression linéaire multiple est de la forme suivante :


p
X
y = β0 + βj xj + ε (**)
j=1

où :
— y est la variable à expliquer (à valeurs dans R) ;
— x1 , . . . , xp sont les variables explicatives (à valeurs dans R) ;
— ε est le terme d’erreur aléatoire du modèle ;
— β0 , β1 , . . . , βp sont les paramètres à estimer.

Pour n observations, on peut écrire le modèle de régression linéaire multiple sous la


forme :
p
X
y i = β0 + βj xij + εi pour i = 1, . . . , n (4.1)
j=1

où :
— εi est une variable aléatoire, non observée,
— xij est observé et non aléatoire,
— yi est observé et aléatoire.

On peut écrire matriciellement le modèle (**) de la manière suivante :

Y = Xβ + ε (***)

       
y 1 x11 . . . x1p β ε
 1    0  1
 y2  1 x21 . . . x2p  β1   ε2 
       
Y =
 ..  ,
 X = . .

... ,
..  β=
 ..  ,
 ε=
 .. 

 .   .. .. .   .  .
       
yn 1 xn1 . . . xnp βp εn

où :
— Y désigne le vecteur à expliquer de taille n,

22
CHAPITRE 4. Les algorithmes de l’intelligence artificielle

— X est la matrice explicative de taille n × (p + 1),


— ε est le vecteur d’erreurs de taille n.
D’un point de vue visuel, la régression linéaire s’applique lorsque les données d’entraînement
représentent un nuage de points. L’objectif est alors d’identifier la droite qui se rapproche
le plus possible de l’ensemble de points. Pour être sûr que cette droite soit la plus précise
possible, il convient de mesurer l’erreur quadratique moyenne (ou mean squared
error).
Pour estimer β = (β0 , β1 , . . . , βp ), on peut utiliser la méthode des moindres carrés
qui ne nécessite pas d’hypothèse supplémentaire sur la distribution de εi , contrairement
à la méthode du maximum de vraisemblance qui est fondée sur la normalité de εi .
On cherche β̂ ∈ Rp+1 qui minimise la somme des erreurs quadratiques :
On doit donc résoudre le problème d’optimisation suivant :
  2
n
X p
X
β̂ = arg min
p+1
yi − β0 + βj xij  (4.2)
β∈R
i=1 j=1

La valeur prédite ŷi est donnée par :


p
X
ŷi = β̂0 + β̂j xij (4.3)
j=1

Le résidu ε̂i est donné par :


ε̂i = yi − ŷi (4.4)

En notant xTi = (1, xi1 , . . . , xip ), la valeur prédite ŷi s’écrit :

ŷi = xTi β̂ (4.5)

Variable Y
Droite de régression

Variable X

Figure 4.1 – Illustration d’une régression linéaire simple.

23
CHAPITRE 4. Les algorithmes de l’intelligence artificielle

Machine à vecteur de support

L’algorithme des machines à vecteurs de support a été développé dans les années 90 par
le russe Vladimir Vapnik. Initialement, les SVM ont été développés comme un algorithme
de classification binaire supervisée. Il s’avère particulièrement efficace de par le fait qu’il
peut traiter des problèmes mettant en jeu de grands nombres de descripteurs, qu’il assure
une solution unique (pas de problèmes de minimum local comme pour les réseaux de
neurones) et il a fourni de bons résultats sur des problèmes réels .
L’algorithme sous sa forme initiale revient à chercher une frontière de décision linéaire
entre deux classes, mais ce modèle peut considérablement être enrichi en se projetant
dans un autre espace permettant d’augmenter la séparabilité des données. On peut alors
appliquer le même algorithme dans ce nouvel espace, ce qui se traduit par une frontière
de décision non linéaire dans l’espace initial.

4.2.2 les algorithmes d’apprentissage automatique non supervisé


C’est un type d’IA dans lequel, contrairement au type supervisé, les modèles sont
entraînés sur des données sans étiquettes, c’est-à-dire, les modèles doivent apprendre à
trouver des motifs ou des relations dans les données sans aucune connaissance à priori sur
les sorties attendues.

K-moyenes

4.2.3 les algorithmes d’apprentissage automatique par renforecement

C’est un type d’IA dans lequel le programme, appelé agent, agit dans un environnement
dynamique. L’agent apprécie l’état actuel de l’environnement et prend une décision (action)
en conséquence. S’il prend la bonne décision, il reçoit une récompense sinon il reçoit une
pénalité. C’est ainsi qu’il teste et améliore ses performances.

24
CHAPITRE 4. Les algorithmes de l’intelligence artificielle

Figure 4.2 – les algorithmes d’apprentissage automatique(Machine Learning)

4.3 Les réseaux de neurones

25

Vous aimerez peut-être aussi