0% ont trouvé ce document utile (0 vote)

69 vues7 pages

Machine Learning (ML) : Scikit-Learn

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

69 vues7 pages

Machine Learning (ML) : Scikit-Learn

Transféré par

Baha Jbali

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning (ML)

TP5 : Régression Linéaire sur un cas réel avec Scikit-Learn

Dans le précédent TP, nous avons abordé les bases de la régression linéaire et de la descente
de gradient. Pour mettre en pratique cela, nous allons vous montrer pas à pas une application
concrète d’une régression linéaire sur un cas réel avec Scikit-Learn. Ainsi, on va pouvoir
appliquer les concepts que nous avons appris sur des données réelles.

Objectifs :
 Extraction des données depuis un lien web
 Créer une heatmap de la matrice de corrélation pour analyser les relations
entre les variables de l'ensemble de données
 Vous pouvez utiliser la bibliothèque scikit-learn pour construire et
entraîner un modèle.
 Évaluer la performance d'un modèle de régression linéaire en calculant des
métriques telles que le RMSE et le R² sur les ensembles d'entraînement et
de test.

Notion de base :
L’objectif principal du Machine Learning est de construire un bon modèle. Dans la pratique,
les Data Scientists utilisent le package sklearn, qui permet d’écrire un tel code en 4 lignes. Il
est la librairie qui contient toutes les fonctions de l’état de l’art du Machine Learning. On y
trouve les algorithmes les plus importants ainsi que diverses fonctions de pre-processing.

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

1
Exercice : Prédiction des prix des maisons à Boston
Vous avez à votre disposition un ensemble de données sur les prix des maisons à Boston.
L'objectif de cet exercice est de construire un modèle de régression linéaire pour prédire les
prix des maisons en fonction de certaines caractéristiques.

Etape 1 : Importer les librairies

1. Importez les bibliothèques nécessaires :

 Importez la bibliothèque NumPy pour effectuer des calculs numériques
efficaces
 Importez la bibliothèque [Link] pour créer des graphiques et
des visualisations
 Importez la bibliothèque Pandas pour manipuler et analyser des données
tabulaires (DataFrames)
 Importez la bibliothèque Seaborn pour créer des graphiques statistiques et
des visualisations de données

Code :

 scikit-learn :
 Importez la fonction train_test_split de la bibliothèque scikit-learn
(sklearn) pour diviser les données en ensembles d'entraînement et
de test
 Importez la classe StandardScaler de scikit-learn pour standardiser
les caractéristiques (mise à l'échelle)
 Importez la classe LinearRegression de scikit-learn pour créer un
modèle de régression linéaire
 Importez les fonctions mean_squared_error et r2_score de scikit-
learn pour évaluer la performance du modèle

Code :

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

2
Etape 2 : Extraction des données depuis un lien web
Nous allons prendre le dataset Boston Housing qui contient des informations sur différentes
maisons à Boston. Ce dataset contient 506 échantillons et 13 variables de features
(caractéristiques). L’objectif est de prédire la valeur du prix des maisons en utilisant les
features données.

2. Chargez les données du Boston Housing depuis l'URL :

[Link]

Code :

3. Combinez les données en un seul tableau (data) et les prix médians en un vecteur
(target)

Code :

4. Listez toutes les colonnes de la description

Code :

Etape 3 : Création du DataFrame de données

5. Créez un DataFrame ‘boston’ contenant les données

Code :

6. Affichez les 5 premières lignes du DataFrame

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

3
Résultat :

7. Ajoutez une colonne MEDV (Valeur médiane des maisons occupées par leur
propriétaire en 1 000 $) au DataFrame boston pour stocker les prix médians des
maisons

Code :

8. Affichez les 5 premières lignes du DataFrame

Résultat :

Etape 4 : Pré-traitement des données

Après avoir chargé les données, il est bon de vérifier s’il y a des valeurs manquantes dans les
données.
9. Vérifiez s'il y a des valeurs manquantes dans le DataFrame boston

Code :

10. Quesque vous remarqué ?

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI
4
Etape 5 : Analyse exploratoire des Données
Ensuite, nous créons une matrice de corrélation qui mesure les relations linéaires entre les
variables. La matrice de corrélation peut être créée à l’aide de la fonction .corr() sur un
DataFrame depuis la bibliothèque pandas. Nous utiliserons la fonction heatmap() de la
bibliothèque seaborn pour tracer la matrice de corrélation.

11. Calculez la matrice de corrélation entre toutes les caractéristiques du

DataFrame `boston`.
12. Affichez la matrice de corrélation sous forme d'une heatmap.
13. Écrivez un code en utilisant Matplotlib pour créer une figure de 10 par 8 pouces
qui affiche une heatmap de la matrice de corrélation de cet ensemble de données
14. Enregistrez la heatmap que vous avez créée sous le nom de fichier 'Matrice de
Corré[Link]' et affiche la heatmap sur votre écran.

Résultat :

Le coefficient de corrélation varie de -1 à 1. Si la valeur est proche de 1, cela signifie qu’il

existe une forte corrélation positive entre les deux variables. Lorsqu’il est proche de -1, les
variables ont une forte corrélation négative.

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

5
Etape 6 : Préparation des variables pour le modèle
 Pour entraîner un modèle de régression linéaire, nous sélectionnons les features qui ont
une forte corrélation avec notre variable cible MEDV. En regardant la matrice de
corrélation, nous pouvons voir que RM a une forte corrélation positive avec MEDV
(0,7) alors que LSTAT a une forte corrélation négative avec MEDV (-0,74).
 Un point important dans la sélection des features pour un modèle de régression linéaire
est de vérifier la multi-colinéarité. Les featuress RAD, TAX ont une corrélation de 0,91.
Ces paires de features sont fortement corrélées entre elles. Nous ne devrions donc pas
sélectionner ces deux features ensemble pour entraîner le modèle. Il en va de même pour
les features DIS et AGE qui ont une corrélation de -0,75.
Sur la base des observations ci-dessus, nous choisirons RM (nombre moyen de pièces par
logement) et LSTAT (statut inférieur de la population) comme features varient avec
MEDV.

15. Créez un DataFrame `X` contenant ces deux caractéristiques et un vecteur `Y`
contenant les prix médians.
16. Divisez les données en un ensemble d'entraînement (70%) et un ensemble de test
(30%) en utilisant `train_test_split` de scikit-learn.
17. Affichez les dimensions des ensembles d'entraînement et de test.

Code :

Etape 7 : Création et Entraînement du modèle

18. Nous utilisons la fonction LinearRegression de Scikit-learn pour entraîner notre
modèle sur l’ensemble d’entraînement.

Code :

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

6
Etape 8 : Évaluation du modèle
19. Évaluez la performance du modèle sur l'ensemble d'entraînement en calculant la
racine carrée de l'erreur quadratique moyenne (RMSE) et le coefficient de
détermination R².
20. Affichez ces métriques.

Code :

21. Évaluez la performance du modèle sur l'ensemble de test en calculant le RMSE

et le R².
22. Affichez ces métriques.
23. En utilisant la bibliothèque Seaborn, tracez un graphique de dispersion (scatter
plot) qui affiche Y_test sur l'axe des x (valeurs réelles) et y_test_predict sur l'axe
des y (valeurs prédites).

Code :

Dr. Mohamed HAYOUNI et Mlle. Fatma JEMAI

Vous aimerez peut-être aussi

TP5: Régression Linéaire Sur Un Cas Réel Avec Scikit-Learn: Etape 1: Importer Les Librairies
Pas encore d'évaluation
TP5: Régression Linéaire Sur Un Cas Réel Avec Scikit-Learn: Etape 1: Importer Les Librairies
4 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
TP Poly Regres 24 25
Pas encore d'évaluation
TP Poly Regres 24 25
3 pages
Resume Machine Learning
Pas encore d'évaluation
Resume Machine Learning
2 pages
Mini Projet Modele de Regression
Pas encore d'évaluation
Mini Projet Modele de Regression
3 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Tps Regression Machine Leraning
Pas encore d'évaluation
Tps Regression Machine Leraning
5 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
Analyse de Régression Linéaire
Pas encore d'évaluation
Analyse de Régression Linéaire
14 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
TP-regression Master QFM 2023
Pas encore d'évaluation
TP-regression Master QFM 2023
13 pages
TP1 24 25
Pas encore d'évaluation
TP1 24 25
8 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
Pas encore d'évaluation
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
Voix Off Lab02 Detaillee
Pas encore d'évaluation
Voix Off Lab02 Detaillee
3 pages
TP 2
Pas encore d'évaluation
TP 2
3 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
Pas encore d'évaluation
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
12 pages
TP 1regression
Pas encore d'évaluation
TP 1regression
4 pages
Objectifs:: TP3: Régression Linéaire, Multiple Et Polynomiale
Pas encore d'évaluation
Objectifs:: TP3: Régression Linéaire, Multiple Et Polynomiale
2 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
8 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
63 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
TD2 ML
Pas encore d'évaluation
TD2 ML
4 pages
TD4 - MLPreparation Des Données
Pas encore d'évaluation
TD4 - MLPreparation Des Données
5 pages
Rapport ML (1) COLETTE
Pas encore d'évaluation
Rapport ML (1) COLETTE
19 pages
TP - 2 - Énoncé - Version 1
Pas encore d'évaluation
TP - 2 - Énoncé - Version 1
3 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
2nd Project Notes
Pas encore d'évaluation
2nd Project Notes
5 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
TD Machine Regression Python
Pas encore d'évaluation
TD Machine Regression Python
3 pages
Régression Linéaire Multiple avec R et Python
Pas encore d'évaluation
Régression Linéaire Multiple avec R et Python
6 pages
Progres2019 5
Pas encore d'évaluation
Progres2019 5
44 pages
Rapport TP2: DOUMBIA Mohamed Et SIMOES Corentin 06-10-2024
Pas encore d'évaluation
Rapport TP2: DOUMBIA Mohamed Et SIMOES Corentin 06-10-2024
8 pages
Groupe2/4GM: Encadreurs: Date
Pas encore d'évaluation
Groupe2/4GM: Encadreurs: Date
36 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
Ai TP3 2024
Pas encore d'évaluation
Ai TP3 2024
6 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Abcd
Pas encore d'évaluation
Abcd
7 pages
Code
Pas encore d'évaluation
Code
4 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
TP2 A Rendre
Pas encore d'évaluation
TP2 A Rendre
5 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Résumé ML
Pas encore d'évaluation
Résumé ML
5 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
TP01 Régression Linéaire Multiple: Exercice 1: Laptops
Pas encore d'évaluation
TP01 Régression Linéaire Multiple: Exercice 1: Laptops
2 pages
Examen ML
Pas encore d'évaluation
Examen ML
6 pages
Exercices Data Science Complet
Pas encore d'évaluation
Exercices Data Science Complet
2 pages
Régression Linéaire : Prédiction de Salaire
Pas encore d'évaluation
Régression Linéaire : Prédiction de Salaire
5 pages
Cours
Pas encore d'évaluation
Cours
164 pages
TP6 SVM
Pas encore d'évaluation
TP6 SVM
4 pages
FR Tanagra Python StatsModels
Pas encore d'évaluation
FR Tanagra Python StatsModels
21 pages
DSBDL - Assn 08
Pas encore d'évaluation
DSBDL - Assn 08
5 pages
Lab2 Linearregression
Pas encore d'évaluation
Lab2 Linearregression
3 pages
Text
Pas encore d'évaluation
Text
3 pages
Atelier 4
Pas encore d'évaluation
Atelier 4
12 pages
Prédire les Prix Immobiliers à Boston
Pas encore d'évaluation
Prédire les Prix Immobiliers à Boston
4 pages
Activité 1 - Jeu Des 4 Familles
Pas encore d'évaluation
Activité 1 - Jeu Des 4 Familles
4 pages
Reglement Du Concours D'admission 23-24-5a76
Pas encore d'évaluation
Reglement Du Concours D'admission 23-24-5a76
3 pages
Correction Etude de Cas Xiaomi
Pas encore d'évaluation
Correction Etude de Cas Xiaomi
3 pages
DS 2023
100% (1)
DS 2023
2 pages
Rapport-Gestion de Ventes
Pas encore d'évaluation
Rapport-Gestion de Ventes
90 pages
Ch1 Analyse Et Spécification Des Besoins
Pas encore d'évaluation
Ch1 Analyse Et Spécification Des Besoins
6 pages
Psaume 121 : Confiance et Protection Divine
Pas encore d'évaluation
Psaume 121 : Confiance et Protection Divine
6 pages
Chapitre4LAT64 Automate-Converti
Pas encore d'évaluation
Chapitre4LAT64 Automate-Converti
7 pages
NEWTON
Pas encore d'évaluation
NEWTON
559 pages
Le Canal de La Peur
100% (3)
Le Canal de La Peur
179 pages
Transformateur Triphasé : Guide Essentiel
Pas encore d'évaluation
Transformateur Triphasé : Guide Essentiel
25 pages
Catalogue Retis-Solutions Se Cat
83% (6)
Catalogue Retis-Solutions Se Cat
248 pages
Analyse des Coûts de l'Entreprise Alpha
Pas encore d'évaluation
Analyse des Coûts de l'Entreprise Alpha
1 page
Matériaux du quotidien : classification et propriétés
Pas encore d'évaluation
Matériaux du quotidien : classification et propriétés
3 pages
Acetates Chap04 Differentes-Lignes A2015-2pp
Pas encore d'évaluation
Acetates Chap04 Differentes-Lignes A2015-2pp
79 pages
Notice Sulrid Sirop
Pas encore d'évaluation
Notice Sulrid Sirop
2 pages
Rapport - TP Loi NERNST
0% (1)
Rapport - TP Loi NERNST
6 pages
Probatoire 2024 Epreuve de Svteehb Serie C-Ti Republique Du Cameroun
Pas encore d'évaluation
Probatoire 2024 Epreuve de Svteehb Serie C-Ti Republique Du Cameroun
3 pages
Convertisseurs LED Puissance IP40 350-700mA
Pas encore d'évaluation
Convertisseurs LED Puissance IP40 350-700mA
2 pages
Les Mots Clés
Pas encore d'évaluation
Les Mots Clés
23 pages
Corps Causal Et Corps Grossier
Pas encore d'évaluation
Corps Causal Et Corps Grossier
5 pages
Bec 064448
Pas encore d'évaluation
Bec 064448
3 pages
Initiation Informatique: QCM et Études de Cas
Pas encore d'évaluation
Initiation Informatique: QCM et Études de Cas
6 pages
TD de PHY141
Pas encore d'évaluation
TD de PHY141
5 pages
3e - Synthèse Réseau
100% (2)
3e - Synthèse Réseau
4 pages
Sceptiscisme Rticle Critère
Pas encore d'évaluation
Sceptiscisme Rticle Critère
23 pages
Présentation SVT Docs
Pas encore d'évaluation
Présentation SVT Docs
5 pages
Evaluation de La Toxicité Aiguë de L'huile Essentielle De: Aeollanthus Pubescens Chez Les Rats Wistar
Pas encore d'évaluation
Evaluation de La Toxicité Aiguë de L'huile Essentielle De: Aeollanthus Pubescens Chez Les Rats Wistar
58 pages
PDF - Apprenez À Oublier Le Passé - Vivre Le Moment Présent - 1
Pas encore d'évaluation
PDF - Apprenez À Oublier Le Passé - Vivre Le Moment Présent - 1
2 pages
M103 Qualif Electricite Complet
Pas encore d'évaluation
M103 Qualif Electricite Complet
2 pages
Situation du secteur des assurances 2022
Pas encore d'évaluation
Situation du secteur des assurances 2022
15 pages
CReg Version Impression 13 - 01 - 2020 V4
Pas encore d'évaluation
CReg Version Impression 13 - 01 - 2020 V4
6 pages
Quiz Culture Générale: 20 Questions
Pas encore d'évaluation
Quiz Culture Générale: 20 Questions
4 pages
Introduction aux Réseaux de Petri
Pas encore d'évaluation
Introduction aux Réseaux de Petri
43 pages
2nde H9 - La Révolution Du Néolithique en Côte Divoire
Pas encore d'évaluation
2nde H9 - La Révolution Du Néolithique en Côte Divoire
9 pages
E1 Corrigé 2018
100% (2)
E1 Corrigé 2018
8 pages