0% ont trouvé ce document utile (0 vote)
87 vues45 pages

Introduction à la Régression Supervisée

Le document traite de l'apprentissage supervisé par régression, en se concentrant sur la régression linéaire simple et multiple, ainsi que sur les algorithmes associés comme la descente de gradient. Il explique les concepts de fonction coût, d'équation normale et les différentes applications de la régression dans des domaines tels que la prévision des prix immobiliers et des cours boursiers. Le document aborde également les avantages et inconvénients des méthodes de régression et de la descente de gradient dans le contexte de l'apprentissage automatique.

Transféré par

tasnim.mabrouki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
87 vues45 pages

Introduction à la Régression Supervisée

Le document traite de l'apprentissage supervisé par régression, en se concentrant sur la régression linéaire simple et multiple, ainsi que sur les algorithmes associés comme la descente de gradient. Il explique les concepts de fonction coût, d'équation normale et les différentes applications de la régression dans des domaines tels que la prévision des prix immobiliers et des cours boursiers. Le document aborde également les avantages et inconvénients des méthodes de régression et de la descente de gradient dans le contexte de l'apprentissage automatique.

Transféré par

tasnim.mabrouki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Apprentissage Supervisé - Régression

Année universitaire 2024-2025

1
Plan
1. Introduction
2. Régression Linéaire (Simple & Multiple features)
3. Fonction coût
4. Équation normale
5. Algorithme de descente de gradient

2
Introduction:

La régression est un type de problème d’apprentissage supervisé


où l’objectif est de prédire une variable continue à partir d’un
ensemble de données. y
variable
dépendante
Applications : La régression est utilisée dans divers (output)

domaines par exemple :


-Prédire les cours boursiers
-Estimer le prix de l'immobilier
-Prévoir la consommation énergétique x – variable indépendante (input)

Sortie : Le résultat d’un modèle de régression est une valeur


continue, par exemple un prix, une température, ou un taux de
croissance.
3
Andrew Ng
Exemple de problème de Régression
Estimer le prix d'une maison en fonction de sa superficie, du nombre de d’étages, du nombre de chambres et
de l'année de construction.

La régression est supervisée : la cible est fournie .


X: variable inépendante Y: Variable dépendante
Surface Nombre de Nombre Âge de la
(m²) chambres d'étages maison Prix (1000$)

Variable continue
(années)
x

200 5 1 45 460

130 3 2 40 232

140 3 2 30 315 La régression est le


80 2 1 36 178 processus de prédiction
150 ? d'une valeur continue.
3 2 30

Andrew Ng
Types de modèles de régression

Modèles de
1 feature Régression 2+ features

Simple Multiple

Linéaire Non- Non-


Linéaire
Linéaire Linéaire

5
Andrew Ng
Exemples d'algorithmes de régression
Régression ordinale

Régression de Poisson

Régression quantile rapide par forêt aléatoire

Régressions linéaire, polynomiale, Lasso, pas à pas, Ridge

Régression linéaire bayésienne

Régression par réseau de neurones

Régression par forêt d’arbres de décision

K plus proches voisins (KNN)

Régression par arbre de décision renforcé (Boosted decision tree regression)

6
Andrew Ng
Processus de régression

7
Andrew Ng
Régression Linéaire

Simple & Multiple features

8
Principe de la Régression linéaire
Le principe de la régression linéaire consiste à trouver
l'hyperplan (ou la droite dans le cas d’une seule variable)
qui minimise la différence (ou "erreur") entre les valeurs
prédites et les valeurs réelles dans les données
d’entraînement.
Y
Remarque : Cet hyperplan n'a pas besoin de passer
précisément par chaque point de données, mais il doit
minimiser autant que possible la somme des écarts entre
les points et l'hyperplan, ce qu’on appelle la somme des
carrés des erreurs.

Le but est donc de minimiser l’erreur globale pour X


obtenir un modèle qui prédit correctement de nouvelles
données.
Exemple: Simple features (une seule variable)
Surface (m²) Prix (en
milliers €)

200 460
130 232
140 315
80 178
150 ?

C’est l’équation de la droite de régression

10
Andrew Ng
Exemple: Multiple features
Âge de la maison
Surface Nombre de Nombre (années) Prix (MD)
chambres d'étages
y

200 5 1 45 460
130 3 2 40 232
140 3 2 30 315
80 2 1 36 178
150 3 2 30 ??
11
Andrew Ng
Hypothèse :
Précédemment :

Par exemple:

12
Andrew Ng
Régression linéaire multivariée: (Cas Général)

13
Andrew Ng
Régression linéaire

Fonction coût

14
Andrew Ng
Fonction coût
On définit la Loss Fonction 𝑱 comme étant la moyenne de toutes les erreurs :
𝑚
1
𝐽 (𝜃)= ∑ 𝑒𝑟𝑟𝑒𝑢𝑟 𝑖
2 𝑖=1
Avec exprime l’erreur 𝑖 entre le label 𝒚(𝒊) et la prédiction de l’observation 𝒙(𝒊)
notée .

Exemple: imaginez que le 10ième feature de votre


Dataset est un appartement dont = 80 𝑚2 et un prix
= 100 MD et que votre modèle linéaire simple

prédise un prix de h()=100,002 MD.


L’erreur pour cet exemple est donc :
=
=
Chaque prédiction s’accompagne d’une erreur.
On a donc m erreurs. 15
Comment choisir les paramètres du modèle ?
• Supponsons que θ0 = 0 → h(x) = θ1x

• Objectif: Trouver la Valeur de θ1 qui conduit à la Valeur minimale de J(θ1)

n=3 points de données d’entraînement


fonction coût

→ L'optimisation mathématique est donc un élément central de l'apprentissage


automatique. 16
Andrew Ng
Hypothèse :

Paramètres:

Fonction coût :

Déterminer qui minimise J !!

17
Andrew Ng
Régression Linéaire

Équation Normale

18
Andrew Ng
Étude de cas : Régression linéaire Simple
• Un ensemble d'entraînement 𝒟 = {(X(i), yi=(i)1,2,…,m
)}

• Sélection du modèle
h(x) = θ0 +
θ1x

• Paramètres: θ0, θ1
• Critère : Choisir ces deux paramètres de telle sorte que h(x(i)) soit
proche de y(i) pour notre ensemble de données d'entraînement

• Fonction de coût ou fonction objective :

J(θ , θ ) =

19
Andrew Ng
Test de la première dérivée

maximum local
décroissant

décroissant
croissant croissant

minimum local

minimum local

20
Andrew Ng
Gradient
• Le gradient englobe toutes les dérivées partielles d'une fonction à plusieurs
variables.

• Exemple :
x
x = [x 1 ] f(x) = xT x = x12 + x 2
2 2

∂f ( ) = 2
∂x1
∂f ( ) = 2
∂x2

∂f
∇f() = ∂x1 ] = 2x
=[
∂f 2x2
∂x2 2x1
21
Andrew Ng
Revenons à notre exemple précédent

• Rappel du problème de régression linéaire simple

n 2
1 ( (x(i) ) − (i) ) , h(x(i) ) = θ0 + θ1 (i)
J(θ , θ ) = 2 ∑
0
i= 1
1 y x
h
• Recherche de dérivées
partielles
n
∂J ∑ (i) (i)
∂θ = i=1 (h(x ) − y )
0 n
∂J ∑ (i) (i) (i)
∂θ = i= 1 (h(x ) − y )x
1

22
Andrew Ng
Étude de cas : Régression linéaire multiple
Exemples d’Entrainement et Modèle-Matrice et Vecteur:

23
Andrew Ng
Exemples:
Size (feet2) Number of Number of Age of home Price ($1000)
bedrooms floors (years)

1 2104 5 1 45 460
1 1416 3 2 40 232
1 1534 3 2 30 315
1 852 2 1 36 178

24
Andrew Ng
Relation Modèle et Coût de la Fonction

25
Andrew Ng
Détermination du Gradient de J (Séction Facultative)

26
Andrew Ng
Une solution sous forme fermée
• Les dérivées partielles sont toutes nulles à la valeur
minimale

1
2 (2X Xθ − 2X y) =
T T

0
XT Xθ = XT y

θ = (XT X)− 1XT y

• Cette expression est connue comme la solution de l'équation


normale du problème des moindres carrés

27
Andrew Ng
Avantages et Inconvénients de l'Équation
Normale en Machine Learning

Avantages Inconvénients
 Solution analytique directe, simplifiant
l'entraînement.
 Formulation intuitive et facile à implémenter.  Complexité Computationnelle : Le calcul de (XT X)
 Pas de taux d'apprentissage requis. est coûteux en temps pour de grandes matrices
 Fournit des solutions exactes si (XT X) est (complexité de (O(n^3)).
inversible.  Problèmes de Singularité : Nécessite que (XT X) soit
 Efficace pour les données de taille petite à inversible, avec un risque de multicolinéarité.
moyenne.  Sensibilité aux Valeurs Extrêmes : Fort impact des
valeurs aberrantes.
 Scalabilité : Moins adapté aux très grands
ensembles de données.
 Limitation aux Modèles Linéaires : Ne convient pas
aux modèles non linéaires.

28
Exercice (asynchrone) : Régression linéaire à l'aide de l'équation normale
• Générons des données d'apparence linéaire

29
Exercice (asynchrone) : Régression linéaire à l'aide de l'équation normale
• Entrainement

• Faisons des
prédictions

30
Exercice (asynchrone) : Régression linéaire avec Scikit-Learn

• Comment fonctionne la classe LinearRegression de


sklearn ?

31
Régression linéaire
Algorithme de descente de
gradient

32
Andrew Ng
Algorithme de descente de gradient

une estimation initiale de 𝜃.


• Lancer un algorithme de recherche (par exemple, un algorithme de descente de gradient) avec

• Mettre à jour 𝜃 de manière répétée pour réduire J( 𝜃), jusqu'à ce qu'elle converge vers le
minimum.

𝐽 ( 𝜃 )
• J est une fonction quadratique
convexe, qui possède donc un seul
minimum global. La descente de gradient
finit alors par converger vers le minimum
global.

• À chaque itération, cet algorithme


fait un pas dans la direction de la descente
la plus raide (direction du gradient). 33
Andrew Ng
Pour illustrer l’algorithme:

34
Andrew Ng
Algorithme de descente de gradient Nouvel algorithme :
Répéter
Précédemment (n=1):
Répéter
(mise à jour simultanée pour
)

(mise à jour simultanée )

35
Andrew Ng
Descente de gradient

 « Debugging » : Comment s'assurer que la


descente de gradient fonctionne correctement ?
 Comment choisir le taux d'apprentissage ?

36
Andrew Ng
S'assurer que la descente de gradient fonctionne correctement

J(𝜽) doit diminuer après Pour des valeurs suffisamment petites, doit
chaque itération diminuer à chaque itération.

Exemple de test de convergence


automatique :
Déclarer la convergence si
0 100 200 300 400
Nombre d'itérations diminue de moins de en une seule
itération. 37
Andrew Ng
S'assurer que la descente de gradient fonctionne correctement
Hyperparamètre !!
• Si le taux d'apprentissage est trop grand :
• Si est trop petite, la descente de gradient
peut être lente à converger. échec à trouver une bonne solution.

- Pour des valeurs suffisamment petites, doit diminuer à chaque itération.


38
Andrew Ng
Défis de l'utilisation de la descente de gradient

39
Andrew Ng
Descente de Gradient en Pratique: Mise à l'Échelle des
Variables (Feature Scaling)
Pourquoi la mise à l'échelle est-elle importante ? Bonne Pratique :
• Amélioration de la convergence .
- Appliquer les mêmes paramètres de mise à
• Éviter la dominance des grandes caractéristiques .
l’échelle: Utilisez les valeurs (moyenne, étendue,
Techniques de Mise à l'Échelle : écart-type) calculées sur l’ensemble d’entraînement
pour mettre à l’échelle l’ensemble de test.
- Gérer les variables catégoriques séparément : elles
ne doivent pas être mises à l’échelle comme les
variables continues.
- Utiliser des bibliothèques Python comme scikit-
learn pour une mise à l'échelle efficace (ex. :
StandardScaler, MinMaxScaler).

40
Implémentation de la descente de gradient
θ← θ− η
∇ J(θ)

C'est ce qu'on appelle la descente de gradient par


lots.

41
Andrew Ng
Descente de Gradient: Avantages et Inconvénients
Avantages
Inconvénients :
Évolutivité : Idéale pour les grands ensembles
de données, car elle évite le calcul de l’inverse Paramétrage Sensible : La descente de gradient
de matrices. À la place, elle ajuste les nécessite un réglage précis du taux
paramètres de manière progressive à chaque d'apprentissage. Un mauvais choix peut entraîner
itération, avec une complexité temporelle une convergence lente ou une divergence.
linéaire O(n). Convergence à des Minima Locaux : Pour les
Adaptée aux Modèles Complexes : Capable fonctions de coût non convexes, la descente de
de minimiser des fonctions de coût non gradient peut se bloquer dans des minima locaux.
linéaires, ce qui permet de travailler avec des
Bien que ce ne soit pas un problème pour la
modèles sophistiqués comme les réseaux de
régression linéaire (fonction convexe), c'est un
neurones.
inconvénient pour d'autres types de modèles.
Contrôle de la Vitesse de Convergence :Le
taux d'apprentissage permet de moduler la Calcul Itératif : La descente de gradient peut être
vitesse de convergence. Les algorithmes lente, surtout pour des modèles avec de nombreux
avancés (Adam, RMSprop) ajustent paramètres, car elle requiert de nombreuses
automatiquement ce taux pour optimiser la itérations pour converger.
performance.
42
Andrew Ng
Evaluation des modèles de régression (métriques)
• L'erreur absolue moyenne (Mean Absolute Error): MAE
Cette valeur mesure l'ampleur moyenne des erreurs entre les valeurs prédites et les valeurs réelles, sans tenir compte de la
direction de ces erreurs.

• L'erreur quadratique moyenne (Mean Squared Error): MSE


Cette valeur est déterminée en calculant la moyenne des différences au carré entre les valeurs réelles et les valeurs prédites.

• La racine de l'erreur quadratique moyenne (Root Mean Squared Error):


RMSE
Cette valeur est déterminée en calculant la racine carrée de la moyenne des différences au carré entre les valeurs réelles et les
valeurs prédites.

43
Andrew Ng
Evaluation des modèles de régression (métriques)
• le R-carré (R squared):
 Cette valeur mesure la proximité des données par rapport à la ligne de régression ajustée. Il est également
connu sous le nom de coefficient de détermination, ou de coefficient de détermination multiple pour la
régression multiple.

 Les valeurs de sont entre 0 et 1 dans le contexte de la régression linéaire:


 0 indique que le modèle n'explique aucune des variabilités des données de réponse autour de sa moyenne.
 1 indique que le modèle explique toute la variabilité des données de réponse autour de sa moyenne.

 Cependant, dans certains cas particuliers, comme les modèles de régression non linéaire ou les modèles mal
spécifiés, les valeurs de peuvent être négatives.

44
Andrew Ng
Derrière chaque avancée en
IA, se cache une équation
bien résolue.

45

Vous aimerez peut-être aussi