0% ont trouvé ce document utile (0 vote)
38 vues4 pages

TP 2 Proba Stats: 1 Jeux de Donn Ees

Transféré par

Mary Norssine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
38 vues4 pages

TP 2 Proba Stats: 1 Jeux de Donn Ees

Transféré par

Mary Norssine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 2 Proba Stats

Novembre 2024

Le but de ce TP est d’explorer les méthodes de régression linéaire.

1 Jeux de Données
Étudions l’ajustement affine, méthode qui consiste à rechercher la droite permettant
d’expliquer le comportement d’une variable statistique y comme étant une fonction affine
d’une autre variable statistique x. Dans ce TP, nous allons considérer les deux ensembles
de jeux de données suivants.

Données 1: Nuage de Points Aléatoires


Fonction utile: [Link]()

Nous souhaitons étudier la relation entre deux variables x et y, où y est défini par une
relation linéaire donnée :

y = α · x + β + ,
où :

• x ∈ [0, 1] est généré aléatoirement,

• α, β ∈ R sont des coefficients fixes (α = 1 et β = 0.3),

•  ∈ [0, 0.1] représente un bruit aléatoire ajouté à y.

Objectif: Générer 1000 points aléatoires (x, y), puis estimer les coefficients α et β à
partir des données simulées.

Données 2: Vente de Glaces


Nous souhaitons comprendre la relation entre la quantité de glaces vendues et la température
de midi sur un jour donné. Voici des données prélevées sur 12 jours (tableau 1).
Objectif: Trouver une relation linéaire entre la température t et les ventes de glaces
v. Par exemple, a, b ∈ R, tel que v = f (t) = at + b.

1
Température (°C) Ventes de glaces (€)
14.2 215
16.4 325
11.9 185
15.2 332
18.5 406
22.1 522
19.4 412
25.1 614
23.4 544
18.1 421
22.6 445
17.2 408

Table 1: Données des températures et des ventes de glaces.

2 Méthodes
2.1 Moindres carrés
Soit deux variables aléatoires, une variable à expliquer Y et une variable explicative
X. On dispose de n réalisations de ces variables. Soit le modèle de régression linéaire
yi = axi + b + i . i est le terme d’erreur. On recherche a et b, estimateurs des moindres
carrés ordinaires, les valeurs minimisant l’erreur totale :
n
X n
X
min S(a, b) = 2i = (yi − axi − b)2 .
a,b
i=1 i=1

Les estimateurs sont : P P P


n i x i y i − i xi i yi
â = P 2
P 2
,
n i xi − ( i xi )
P P
i yi xi
b̂ = − â i .
n n
Avec avoir calulé ces paramètres avec les données (training), on peut prédire :

ŷ = f (x) = âx + b̂.

2.2 Méthode d’optimisation


Pour un modèle décrit, on peut trouver ses paramètres comme des estimateurs à l’aide
de méthodes d’optimisation. La fonction coût équivalente à celle des moindres carrés est
donnée par :
n n
1 X 2 1 X
min J(a, b) = i = (axi + b − yi )2 .
a,b 2n i=1 2n i=1
Comme J est une fonction convexe, pour obtenir a et b, il suffit de résoudre l’équation
∇J = 0. Le gradient ∇J est donné par :
n
∂J 1X
= xi (axi + b − yi ),
∂a n i=1

2
n
∂J 1X
= (axi + b − yi ).
∂b n i=1
La méthode du gradient est une méthode itérative. Partant d’un point de départ, par
exemple a0 = b0 = 0, à chaque itération k > 0 on a

∂J(·, ak−1 )
ak = ak−1 − γ , (8)
∂ak−1
Idem pour bk .
γ est le taux d’apprentissage (learning rate). Le choix de la valeur de γ est crucial : elle
peut être constante ou ajustée dynamiquement au cours de l’exécution. Une valeur trop
grande pourrait faire diverger l’algorithme, tandis qu’une valeur trop petite ralentirait sa
convergence. Ici, nous choisirons de garder γ constant, dont la valeur appropriée est à
déterminer.
L’algorithme s’arrête lorsque |J(ak , bk ) − J(ak−1 , bk−1 )| < e−3 .

2.3 Bibliothèque Sklearn


Nous pouvons également utiliser la fonction LinearRegression() définie dans la bib-
liothèque sklearn.
from [Link] model import LinearRegression

3 Qualité des prédictions


3.1 RMSE
Le Root-Mean-Square Error (RMSE) est la racine de l’erreur quadratique moyenne entre
les valeurs observées Y et les valeurs estimées Ŷ :
r Pn
2
i=1 (ŷi − yi )
RMSE = .
n

3.2 Coefficient de détermination


Le coefficient de détermination (R2 ) mesure la qualité de l’ajustement d’un modèle de
régression. Il représente la proportion de la variance des données observées Y qui est
expliquée par le modèle. Sa valeur est comprise entre 0 (aucune variance expliquée) et 1
(ajustement parfait).
Pour calculer R2 , on utilise la formule suivante :
Pn 2
2 i=1 (ŷi − ȳ)
R = Pn 2
i=1 (yi − ȳ)

où : - ŷi sont les valeurs prédites, - yi sont les valeurs observées, - ȳ est la moyenne des
yi .

3
4 Questions
1. Implémentez toutes les méthodes dans section 2 et les mesures d’évaluation dans
section 3.

2. Affichez sur des graphiques les jeux de données (nuage de points généré aléatoirement
et données du tableau 1) et les approximations calculées par chaque modèle.

3. Quel est le modèle le plus précis ?

4. Quelles seront les ventes de glaces estimées pour des températures de 13, 20 et 27
°C ?

5. Supposons que le glacier a vendu 470€ quand la température était à 21°C. Combien
devrait-il faire de ventes pour des températures de 13, 20 et 27 °C ?

Vous aimerez peut-être aussi