0% ont trouvé ce document utile (0 vote)

12 vues3 pages

Resume Chp2

La régression linéaire est une méthode de prédiction d'un nombre à partir d'autres données, utilisant un modèle mathématique pour établir une relation entre les variables. Pour évaluer la performance du modèle, on utilise des métriques comme R² et RMSE, et la validation croisée permet d'obtenir des résultats plus fiables. La régularisation, via Ridge et Lasso, aide à prévenir le surapprentissage en pénalisant les coefficients trop grands et en sélectionnant les variables importantes.

Transféré par

tokyo123japan456

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

12 vues3 pages

Resume Chp2

Transféré par

tokyo123japan456

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

### 🌟 **1. C’est quoi la régression ?

C’est une méthode pour prédire un nombre à partir d’autres

informations.
Par exemple :
> Prédire le **taux de glucose dans le sang** à partir de l’âge, du
poids, de l’IMC, etc.

On utilise un modèle appelé régression linéaire.

---

### 📐 2. La base : y = a·x + b

- y = ce qu’on veut prédire (ex: glucose)

- **x** = une caractéristique (ex: IMC)
- **a** = pente (à quel point y change quand x change)
- **b** = valeur de base (quand x = 0)

Le modèle cherche les meilleurs **a** et **b** pour que la droite colle
le mieux aux données.

---

### 🔍 3. Comment choisir la "meilleure" droite ?

On utilise une fonction d’erreur :

> On calcule la somme des **carrés des écarts** entre les vraies
valeurs et les prédictions.

C’est ce qu’on appelle les moindres carrés (OLS).

L’objectif : **minimiser cette erreur**.

---

### 🧮 4. Avec plusieurs caractéristiques → Régression multiple

Au lieu d’une seule variable (ex: IMC), on peut en utiliser plein :

> **y = a₁·x₁ + a₂·x₂ + ... + aₙ·xₙ + b**

Exemple : prédire le glucose avec **IMC + âge + pression + diabète

(oui/non)**, etc.

Avec scikit-learn, c’est super simple :

```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train) # X = toutes les caractéristiques, y =
glucose
```

---

### 📊 5. Comment évaluer le modèle ?

Deux métriques principales :

- **R² (R-squared)** :
- Entre **0 et 1**.
- Plus c’est proche de **1**, mieux c’est.
- Ex: `R² = 0.35` → le modèle explique **35 %** de la variation du
glucose.

- RMSE (Root Mean Squared Error) :

- Erreur moyenne en **unités réelles** (ex: mg/dl de glucose).
- Plus c’est petit, mieux c’est.
- Ex: `RMSE = 24` → en moyenne, on se trompe de **24 unités**.

---

### 🔁 6. Validation croisée (Cross-validation)

Problème : si on fait un seul train/test split, le score peut

dépendre du **hasard** du découpage.

Solution : la validation croisée (ex: 5-fold ou 6-fold) :

- On divise les données en **5 ou 6 groupes**.
- On entraîne et teste **plusieurs fois**, en changeant à chaque fois
le groupe de test.
- On obtient **plusieurs scores** → on calcule la **moyenne** et
l’**intervalle de confiance**.

Résultat plus fiable et représentatif de la vraie performance.

---

### 🛑 7. Problème : le surapprentissage (overfitting)

Parfois, le modèle donne trop d’importance à certaines variables →

coefficients **énormes** → il **mémorise** les données au lieu
d’apprendre une règle générale.

→ Il marche bien sur les données d’entraînement… mais **mal sur de

nouvelles données**.

---

### 🛡️8. Solution : la régularisation

On **pénalise** les coefficients trop grands pour forcer le modèle à
rester simple.

#### Deux types :

| Type | Comment ça marche ? | Avantage |

|------|---------------------|--------|
| **Ridge** | Pénalise les **carrés** des coefficients | Réduit le
surapprentissage |
| **Lasso** | Pénalise les **valeurs absolues** des coefficients |
**Met à zéro** les coefficients inutiles → **sélectionne les variables
importantes** |

On choisit un paramètre α (alpha) :

- **α = 0** → pas de régularisation (risque de surapprentissage)
- **α trop grand** → modèle trop simple (sous-apprentissage)
- **α juste** → bon équilibre

---

### 📈 9. Lasso pour comprendre les données

Grâce à Lasso, on peut voir quelles variables comptent vraiment.

Exemple dans le fichier :
> La variable **"diabète (oui/non)"** a le plus gros coefficient →
c’est le **meilleur prédicteur** du taux de glucose.

On peut afficher ça avec un graphique en barres :

```python
plt.bar(noms_des_variables, coefficients_lasso)
```

---

### ✅ En résumé (en 5 points)

1. La régression linéaire prédit un nombre à partir d’autres

données.
2. On évalue le modèle avec **R²** et **RMSE**.
3. La **validation croisée** donne une meilleure idée de sa vraie
performance.
4. Le **surapprentissage** arrive quand les coefficients sont trop
grands.
5. **Ridge et Lasso** empêchent ça — et **Lasso** en plus **sélectionne
les bonnes variables**.

Vous aimerez peut-être aussi

10 Algorithmes ML pour Débutants en Data Science
Pas encore d'évaluation
10 Algorithmes ML pour Débutants en Data Science
1 page
Examen TP M1 2023 2024
Pas encore d'évaluation
Examen TP M1 2023 2024
3 pages
Seance5 Régression Simple
Pas encore d'évaluation
Seance5 Régression Simple
27 pages
Régression linéaire et moindres carrés
100% (1)
Régression linéaire et moindres carrés
9 pages
Examen Test Statistique
Pas encore d'évaluation
Examen Test Statistique
4 pages
Analyse de Régression et Ajustement
Pas encore d'évaluation
Analyse de Régression et Ajustement
13 pages
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
Pas encore d'évaluation
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
6 pages
Correction TD1
Pas encore d'évaluation
Correction TD1
8 pages
Regression HD
Pas encore d'évaluation
Regression HD
64 pages
(VF) Fiche de Révision V2
Pas encore d'évaluation
(VF) Fiche de Révision V2
20 pages
Régression multiple en biologie: analyse des données
Pas encore d'évaluation
Régression multiple en biologie: analyse des données
73 pages
Diabetes SVM
Pas encore d'évaluation
Diabetes SVM
11 pages
Lecture 4 - 2 - MA
Pas encore d'évaluation
Lecture 4 - 2 - MA
66 pages
Types d'apprentissage automatique expliqués
Pas encore d'évaluation
Types d'apprentissage automatique expliqués
5 pages
Machine Learning avec Scikit-learn
Pas encore d'évaluation
Machine Learning avec Scikit-learn
26 pages
Résumé Du Cours de Machine Learning
Pas encore d'évaluation
Résumé Du Cours de Machine Learning
7 pages
Sélection de modèles et régularisation en R
Pas encore d'évaluation
Sélection de modèles et régularisation en R
7 pages
Régression linéaire avec R : Guide pratique
Pas encore d'évaluation
Régression linéaire avec R : Guide pratique
6 pages
Régression Linéaire avec Scikit-Learn
Pas encore d'évaluation
Régression Linéaire avec Scikit-Learn
4 pages
Stat
Pas encore d'évaluation
Stat
6 pages
Tutoriel Scikit-learn pour Débutants
Pas encore d'évaluation
Tutoriel Scikit-learn pour Débutants
26 pages
Régression Linéaire Simple en Python
Pas encore d'évaluation
Régression Linéaire Simple en Python
11 pages
Ta 25 10 2022 - 042314
Pas encore d'évaluation
Ta 25 10 2022 - 042314
57 pages
Préparation au CC2 : Validation Croisée et Régularisation
Pas encore d'évaluation
Préparation au CC2 : Validation Croisée et Régularisation
47 pages
Code 3
Pas encore d'évaluation
Code 3
3 pages
Guide Complet sur l'Apprentissage Machine
Pas encore d'évaluation
Guide Complet sur l'Apprentissage Machine
26 pages
Modèle de régression linéaire expliqué
Pas encore d'évaluation
Modèle de régression linéaire expliqué
2 pages
DATA MINING Examen 2020 Corrigé 1
83% (6)
DATA MINING Examen 2020 Corrigé 1
6 pages
XG Boost
Pas encore d'évaluation
XG Boost
21 pages
CH 9 - Droite de Régression
Pas encore d'évaluation
CH 9 - Droite de Régression
11 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
Modèle linéaire en actuariat 2022-2023
Pas encore d'évaluation
Modèle linéaire en actuariat 2022-2023
49 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
Résolution Logistique : Descente de Gradient
Pas encore d'évaluation
Résolution Logistique : Descente de Gradient
18 pages
Cours de Statistique Appliquée en Master
Pas encore d'évaluation
Cours de Statistique Appliquée en Master
98 pages
Régression Linéaire et Incertitudes
Pas encore d'évaluation
Régression Linéaire et Incertitudes
4 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
183 pages
Modelisation Statistique ENSGMM
Pas encore d'évaluation
Modelisation Statistique ENSGMM
27 pages
Chap6 0notes
Pas encore d'évaluation
Chap6 0notes
10 pages
Modèles de Régression à l'Université de Caen
Pas encore d'évaluation
Modèles de Régression à l'Université de Caen
191 pages
Resultat Stat
Pas encore d'évaluation
Resultat Stat
3 pages
Résumé de l'économétrie de Régis Bourbonnais
Pas encore d'évaluation
Résumé de l'économétrie de Régis Bourbonnais
11 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Métriques de Régression en Data Science
Pas encore d'évaluation
Métriques de Régression en Data Science
27 pages
TP 2 Proba Stats: 1 Jeux de Donn Ees
Pas encore d'évaluation
TP 2 Proba Stats: 1 Jeux de Donn Ees
4 pages
Déterminants du diabète et modélisation
Pas encore d'évaluation
Déterminants du diabète et modélisation
24 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
20 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
63 pages
Régression Linéaire en Machine Learning
Pas encore d'évaluation
Régression Linéaire en Machine Learning
37 pages
Chap 3 Régression
100% (1)
Chap 3 Régression
17 pages
Cours de Data Mining en Statistiques Appliquées
100% (1)
Cours de Data Mining en Statistiques Appliquées
117 pages
La Regression
Pas encore d'évaluation
La Regression
3 pages
Polynome MCO RN
Pas encore d'évaluation
Polynome MCO RN
15 pages
Guide sur la régression linéaire
Pas encore d'évaluation
Guide sur la régression linéaire
18 pages
TD 2 ML Corr
Pas encore d'évaluation
TD 2 ML Corr
6 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
181 pages
Med Yassine Tanabene Rapport TP2
Pas encore d'évaluation
Med Yassine Tanabene Rapport TP2
13 pages
Thread Android
Pas encore d'évaluation
Thread Android
6 pages
ED Introduction
Pas encore d'évaluation
ED Introduction
16 pages
Thread en Java
Pas encore d'évaluation
Thread en Java
4 pages
chp3 Bi
Pas encore d'évaluation
chp3 Bi
36 pages
TD Ihm
100% (1)
TD Ihm
3 pages
chp2 Bi
Pas encore d'évaluation
chp2 Bi
21 pages
chp4 Bi
Pas encore d'évaluation
chp4 Bi
24 pages
Épreuve de Physique : Cycle de l'Eau
Pas encore d'évaluation
Épreuve de Physique : Cycle de l'Eau
12 pages
Architectur Parallèle
Pas encore d'évaluation
Architectur Parallèle
163 pages
Analyse des données statistiques descriptives
Pas encore d'évaluation
Analyse des données statistiques descriptives
6 pages
Analyse du Cisaillement et de la Torsion
Pas encore d'évaluation
Analyse du Cisaillement et de la Torsion
24 pages
Pondichery Savril 2001 Correction
Pas encore d'évaluation
Pondichery Savril 2001 Correction
6 pages
PL Lecon4 Papier
Pas encore d'évaluation
PL Lecon4 Papier
17 pages
Surcharge en Java : Concepts clés
Pas encore d'évaluation
Surcharge en Java : Concepts clés
5 pages
Lois de Newton et mouvements en physique
100% (1)
Lois de Newton et mouvements en physique
14 pages
Repères et Coordonnées Planes
Pas encore d'évaluation
Repères et Coordonnées Planes
4 pages
Commande Directe Du Couple Par Les Techn
Pas encore d'évaluation
Commande Directe Du Couple Par Les Techn
17 pages
Solutions Exercices 5 6 LaTeX Equations
Pas encore d'évaluation
Solutions Exercices 5 6 LaTeX Equations
3 pages
Mouvement de rotation : exercices pratiques
Pas encore d'évaluation
Mouvement de rotation : exercices pratiques
7 pages
Épreuve de Maths Terminale C
Pas encore d'évaluation
Épreuve de Maths Terminale C
2 pages
Axonométrique
Pas encore d'évaluation
Axonométrique
28 pages
Angles et Trigonométrie en Mathématiques
Pas encore d'évaluation
Angles et Trigonométrie en Mathématiques
1 page
Modélisation FreeCAD : TP N°3 Esquisse
Pas encore d'évaluation
Modélisation FreeCAD : TP N°3 Esquisse
22 pages
Triangle Rectangle et Cercle
Pas encore d'évaluation
Triangle Rectangle et Cercle
4 pages
262 Cours Detaille
Pas encore d'évaluation
262 Cours Detaille
25 pages
Chapitre 03 Cisaillement
Pas encore d'évaluation
Chapitre 03 Cisaillement
36 pages
Calcul des Facteurs d'Intensité de Contraintes
100% (1)
Calcul des Facteurs d'Intensité de Contraintes
8 pages
Topo 1 GC1 - GHR1
Pas encore d'évaluation
Topo 1 GC1 - GHR1
40 pages
Notions fondamentales des algorithmes
Pas encore d'évaluation
Notions fondamentales des algorithmes
46 pages
Examen d'Algorithmique et Programmation
Pas encore d'évaluation
Examen d'Algorithmique et Programmation
3 pages
Fichier Exercices Terminale Comp
Pas encore d'évaluation
Fichier Exercices Terminale Comp
77 pages
Filtrage collaboratif : méthodes et approches
Pas encore d'évaluation
Filtrage collaboratif : méthodes et approches
9 pages
4 - Correlation de Pearson
Pas encore d'évaluation
4 - Correlation de Pearson
14 pages
Mouvement Et Repos Resume de Cours 1
Pas encore d'évaluation
Mouvement Et Repos Resume de Cours 1
2 pages
Exercices d'Équations Différentielles L1
Pas encore d'évaluation
Exercices d'Équations Différentielles L1
6 pages
Statistiques Bivariées Simplifiées
Pas encore d'évaluation
Statistiques Bivariées Simplifiées
7 pages
Examen Mécanique Solides 2020/2021
Pas encore d'évaluation
Examen Mécanique Solides 2020/2021
7 pages