0% ont trouvé ce document utile (0 vote)
12 vues3 pages

Resume Chp2

La régression linéaire est une méthode de prédiction d'un nombre à partir d'autres données, utilisant un modèle mathématique pour établir une relation entre les variables. Pour évaluer la performance du modèle, on utilise des métriques comme R² et RMSE, et la validation croisée permet d'obtenir des résultats plus fiables. La régularisation, via Ridge et Lasso, aide à prévenir le surapprentissage en pénalisant les coefficients trop grands et en sélectionnant les variables importantes.

Transféré par

tokyo123japan456
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
12 vues3 pages

Resume Chp2

La régression linéaire est une méthode de prédiction d'un nombre à partir d'autres données, utilisant un modèle mathématique pour établir une relation entre les variables. Pour évaluer la performance du modèle, on utilise des métriques comme R² et RMSE, et la validation croisée permet d'obtenir des résultats plus fiables. La régularisation, via Ridge et Lasso, aide à prévenir le surapprentissage en pénalisant les coefficients trop grands et en sélectionnant les variables importantes.

Transféré par

tokyo123japan456
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

### 🌟 **1. C’est quoi la régression ?

**

C’est une méthode pour **prédire un nombre** à partir d’autres


informations.
Par exemple :
> Prédire le **taux de glucose dans le sang** à partir de l’âge, du
poids, de l’IMC, etc.

On utilise un modèle appelé **régression linéaire**.

---

### 📐 **2. La base : y = a·x + b**

- **y** = ce qu’on veut prédire (ex: glucose)


- **x** = une caractéristique (ex: IMC)
- **a** = pente (à quel point y change quand x change)
- **b** = valeur de base (quand x = 0)

Le modèle cherche les meilleurs **a** et **b** pour que la droite colle
le mieux aux données.

---

### 🔍 **3. Comment choisir la "meilleure" droite ?**

On utilise une **fonction d’erreur** :


> On calcule la somme des **carrés des écarts** entre les vraies
valeurs et les prédictions.

C’est ce qu’on appelle **les moindres carrés (OLS)**.


L’objectif : **minimiser cette erreur**.

---

### 🧮 **4. Avec plusieurs caractéristiques → Régression multiple**

Au lieu d’une seule variable (ex: IMC), on peut en utiliser **plein** :


> **y = a₁·x₁ + a₂·x₂ + ... + aₙ·xₙ + b**

Exemple : prédire le glucose avec **IMC + âge + pression + diabète


(oui/non)**, etc.

Avec **scikit-learn**, c’est super simple :


```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train) # X = toutes les caractéristiques, y =
glucose
```

---

### 📊 **5. Comment évaluer le modèle ?**

Deux métriques principales :

- **R² (R-squared)** :
- Entre **0 et 1**.
- Plus c’est proche de **1**, mieux c’est.
- Ex: `R² = 0.35` → le modèle explique **35 %** de la variation du
glucose.

- **RMSE (Root Mean Squared Error)** :


- Erreur moyenne en **unités réelles** (ex: mg/dl de glucose).
- Plus c’est petit, mieux c’est.
- Ex: `RMSE = 24` → en moyenne, on se trompe de **24 unités**.

---

### 🔁 **6. Validation croisée (Cross-validation)**

Problème : si on fait un seul **train/test split**, le score peut


dépendre du **hasard** du découpage.

**Solution** : la **validation croisée** (ex: 5-fold ou 6-fold) :


- On divise les données en **5 ou 6 groupes**.
- On entraîne et teste **plusieurs fois**, en changeant à chaque fois
le groupe de test.
- On obtient **plusieurs scores** → on calcule la **moyenne** et
l’**intervalle de confiance**.

Résultat plus **fiable** et **représentatif** de la vraie performance.

---

### 🛑 **7. Problème : le surapprentissage (overfitting)**

Parfois, le modèle donne trop d’importance à certaines variables →


coefficients **énormes** → il **mémorise** les données au lieu
d’apprendre une règle générale.

→ Il marche bien sur les données d’entraînement… mais **mal sur de


nouvelles données**.

---

### 🛡️**8. Solution : la régularisation**


On **pénalise** les coefficients trop grands pour forcer le modèle à
rester simple.

#### Deux types :

| Type | Comment ça marche ? | Avantage |


|------|---------------------|--------|
| **Ridge** | Pénalise les **carrés** des coefficients | Réduit le
surapprentissage |
| **Lasso** | Pénalise les **valeurs absolues** des coefficients |
**Met à zéro** les coefficients inutiles → **sélectionne les variables
importantes** |

On choisit un paramètre **α (alpha)** :


- **α = 0** → pas de régularisation (risque de surapprentissage)
- **α trop grand** → modèle trop simple (sous-apprentissage)
- **α juste** → bon équilibre

---

### 📈 **9. Lasso pour comprendre les données**

Grâce à Lasso, on peut voir **quelles variables comptent vraiment**.


Exemple dans le fichier :
> La variable **"diabète (oui/non)"** a le plus gros coefficient →
c’est le **meilleur prédicteur** du taux de glucose.

On peut afficher ça avec un **graphique en barres** :


```python
plt.bar(noms_des_variables, coefficients_lasso)
```

---

### ✅ **En résumé (en 5 points)**

1. La **régression linéaire** prédit un nombre à partir d’autres


données.
2. On évalue le modèle avec **R²** et **RMSE**.
3. La **validation croisée** donne une meilleure idée de sa vraie
performance.
4. Le **surapprentissage** arrive quand les coefficients sont trop
grands.
5. **Ridge et Lasso** empêchent ça — et **Lasso** en plus **sélectionne
les bonnes variables**.

Vous aimerez peut-être aussi