0% ont trouvé ce document utile (0 vote)

67 vues6 pages

Examen ML

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

67 vues6 pages

Examen ML

Transféré par

Sayoba Gansane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Examen

Machine Learning avec scikit-learn

Une étude s'intéresse à l'efficacité énergétique d'immeubles résidentiels, en particulier les

besoins en chauffage et en climatisation, en fonction de caractéristiques architecturales comme
la surface des murs, la surface vitrée, l'orientation, etc..

Le jeu de données utilisé contient huit attributs décrivant ces caractéristiques concernant 768
immeubles et 2 attributs cibles : les charges de chauffage et les charges de climatisation de ces
immeubles.

L'objectif de l'exercice consiste à prédire les charges de chaque immeuble, en fonction des huit
premiers attributs.

Le jeu de données est à lire dans le fichier "ENB_data.csv". Notez que les colonnes sont
séparées par des ';'.

 Exécutez la cellule suivante pour importer les packages nécessaires à l'exercice.

 Chargez le fichier "ENB_data.csv" et effectuez un premier audit des données dans
un data frame df.

In [1]:

import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn import ensemble
from sklearn import svm
from sklearn import neighbors
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.ensemble import VotingClassifier

### Chargement du fichier "ENB_data.csv"

df = pd.read_csv("ENB_data.csv",sep=';')
df.head()
Out[1]:

 Analysez les corrélations entre toutes les variables de df.

 Quelles variables explicatives sont les plus corrélées aux deux variables cibles ?

In [2]:

### Analyse des corrélations entres les variables de df

df.corr()

# Les variables explicatives sont les plus corrélées aux deux variables cibles :
# overall_height, roof_area, relative_compactness, surface_area
Out[2]:
La suite consiste à présent à créer un modèle de classification optimal après regroupement des
immeubles en classes à partir des charges énergétiques totales (chauffage + climatisation).

 Créez une nouvelle colonne à df, appelée total_charges, totalisant pour chaque
immeuble les charges de chauffage et de climatisation.
 Dans une nouvelle variable charges_classes, découpez les immeubles en 4 classes
distinctes avec pour labels 0, 1, 2, 3 selon les 3 quantiles de la nouvelle variable crée.

Les quantiles d'une variable peuvent être trouvés grâce à la

méthode describe des pandas.Series ou à la fonction quantile
In [3]:

### Création de la colonne total_charges

df['total_charges']=df.heating_load + df.cooling_load

### découpage des immeubles en 4 classes distinctes

df['total_charges'].quantile([0.25,0.5,0.75])

df['charges_classes'] = pd.qcut(df['total_charges'], 4, labels=['0','1','2','3'])

df.head()
Out[3]:

 Stockez dans une variable data, les données explicatives uniquement.

 Séparez les données en un ensemble d'apprentissage et un ensemble de test (20%),
avec data comme données explicatives et charges_classes comme variable cible.
 Centrer et réduire les variables explicatives des deux échantillons de manière adéquate.
In [4]:

# Stockage dans une variable data, les données explicatives uniquement

to_drop = ['heating_load', 'cooling_load', 'total_charges', 'charges_classes']

data = df.drop(to_drop,axis=1)

target = df.charges_classes

#Séparation des données en deux ensembles d'entraînement et de test

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)

# Centrer et réduire les variables explicatives des deux échantillons de manière

adéquate

X_train_scaled = preprocessing.scale(X_train)
Dans la suite nous allons comparer plusieurs méthodes d'apprentissage. Pour chacune d'elles, il
conviendra d'explorer le périmètre des hyperparamètres suivant :

K-plus proches voisins. Hyperparamètre à régler :

 'n_neighbors' : 2 à 50.

SVM. Hyperparamètres à régler :

 kernel : 'rbf', 'linear'.

 C : 0.1 ; 1 ; 10 ; 50 .

RandomForest. Hyperparamètres à régler :

 'max_features': "sqrt", "log2", None

 'min_samples_split': Nombres pairs allant de 2 à 30.

Pour chaque algorithme mentionné ci-dessus:

 Sélectionnez les hyperparamètres sur l'échantillon d’apprentissage par validation croisée

 Affichez les hyperparamètres retenus
 Appliquez le modèle à l'ensemble de test, affichez la matrice de confusion et le score du
modèle sur ce dernier
 Quel modèle fournit la meilleure précision ?

K plus proches voisins

In [5]:
### K-plus proches voisins

score_minko = []
score_man = []
score_cheb = []

for k in range(2, 50):

knn = neighbors.KNeighborsClassifier(n_neighbors=k, metric='minkowski')
knn.fit(X_train, y_train)
score_minko.append(knn.score(X_test, y_test))

for k in range(2, 50):

knn = neighbors.KNeighborsClassifier(n_neighbors=k, metric='manhattan')
knn.fit(X_train, y_train)
score_man.append(knn.score(X_test, y_test))

for k in range(2, 50):

knn = neighbors.KNeighborsClassifier(n_neighbors=k, metric='chebyshev')
knn.fit(X_train, y_train)
score_cheb.append(knn.score(X_test, y_test));
In [6]:

### Insérez votre code ici

import matplotlib.pyplot as plt
%matplotlib inline

plt.plot(range(2, 50), score_minko, color='blue', linestyle='dashed', lw=2,

label='Minkowski')
plt.plot(range(2, 50), score_man, color='orange', linestyle='dashed', lw=2,
label='Manhattan')
plt.plot(range(2, 50), score_cheb, color='red', linestyle='dashed', lw=2,
label='Chebyshev')
plt.title('Score - valeur de K')
plt.xlabel('Valeur de K')
plt.ylabel('Accuracy')
plt.legend();

## Les distances de Minkowski et de Manhattan donnent de meilleures performances

lorsque k est petit (<10).
SVM
In [*]:

### SVM
clf = svm.SVC()

parametres = {'C':[0.1,1,10,50], 'kernel':['rbf','linear']}

grid_clf = model_selection.GridSearchCV(estimator=clf, param_grid=parametres)

grille = grid_clf.fit(X_train,y_train)

print(pd.DataFrame.from_dict(grille.cv_results_).loc[:,['params', 'mean_test_score']])
In [ ]:

### Le résultat est meilleur pour :

grid_clf.best_estimator_

Random Forest
In [ ]:
### Random Forest

from sklearn.model_selection import GridSearchCV

from sklearn.metrics import r2_score

model = ensemble.RandomForestClassifier( random_state=5, n_estimators= 700, n_jobs

= -1)
param_grid = {'max_features':['sqrt', 'log2'], 'min_samples_split' :range(2,30,2)}
grid_search_rf = GridSearchCV(model, param_grid, cv= 5,return_train_score=True)
grid_search_rf.fit(X_train, y_train)
train_r2_score=r2_score(y_train,grid_search_rf.predict(X_train))
test_r2_score=r2_score(y_test,grid_search_rf.predict(X_test))
output = output.append(pd.Series({'model':'Random Forest Regressor',
'train_r2_score':train_r2_score,'test_r2_score':test_r2_score}),ignore_index=True )

In [ ]:

### Le résultat est meilleur pour :

Vous aimerez peut-être aussi

Examens1 2016
100% (1)
Examens1 2016
3 pages
Resume Machine Learning
Pas encore d'évaluation
Resume Machine Learning
2 pages
Résumé ML
Pas encore d'évaluation
Résumé ML
5 pages
Resume ML
Pas encore d'évaluation
Resume ML
7 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
Projet Ia
Pas encore d'évaluation
Projet Ia
19 pages
TP3: Classification avec KNN, SVM et Arbre de Décision
100% (2)
TP3: Classification avec KNN, SVM et Arbre de Décision
16 pages
Prediction Du Churn Client
Pas encore d'évaluation
Prediction Du Churn Client
29 pages
TD2 KNN Classification
Pas encore d'évaluation
TD2 KNN Classification
12 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
Pas encore d'évaluation
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
14 pages
Progres2019 5
Pas encore d'évaluation
Progres2019 5
44 pages
Code
Pas encore d'évaluation
Code
4 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
Pas encore d'évaluation
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
21 pages
TP4 - KNN - EX1 K
Pas encore d'évaluation
TP4 - KNN - EX1 K
4 pages
TP4: Apprentissage Supervisé en IA
Pas encore d'évaluation
TP4: Apprentissage Supervisé en IA
5 pages
TP Classificateur KNN - Ipynb - Colab
Pas encore d'évaluation
TP Classificateur KNN - Ipynb - Colab
8 pages
Le Problème de Classification Avec Support Vector Machines (SVM)
Pas encore d'évaluation
Le Problème de Classification Avec Support Vector Machines (SVM)
4 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
TP4 ML
Pas encore d'évaluation
TP4 ML
3 pages
TD1 KNN Classification Algorithmique
Pas encore d'évaluation
TD1 KNN Classification Algorithmique
7 pages
TD - Tp1 Exercice III Rna
Pas encore d'évaluation
TD - Tp1 Exercice III Rna
7 pages
Validation croisée pour cancer du sein
Pas encore d'évaluation
Validation croisée pour cancer du sein
4 pages
TP4 - KNN VF 2022-2023
Pas encore d'évaluation
TP4 - KNN VF 2022-2023
4 pages
TP 1regression
Pas encore d'évaluation
TP 1regression
4 pages
Med Yassine Tanabene Rapport TP2
Pas encore d'évaluation
Med Yassine Tanabene Rapport TP2
13 pages
2nd Project Notes
Pas encore d'évaluation
2nd Project Notes
5 pages
Travaux Pratiques N°2: Travail À Faire
Pas encore d'évaluation
Travaux Pratiques N°2: Travail À Faire
2 pages
TP 1
Pas encore d'évaluation
TP 1
18 pages
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
TP4 ClassificationSupervisée Student
Pas encore d'évaluation
TP4 ClassificationSupervisée Student
11 pages
Corr TP2
Pas encore d'évaluation
Corr TP2
19 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
Importantaussi-Fr Tanagra Scikit Learn Decision Tree
Pas encore d'évaluation
Importantaussi-Fr Tanagra Scikit Learn Decision Tree
24 pages
TP RN Ensta 2018
Pas encore d'évaluation
TP RN Ensta 2018
20 pages
TP3 DM
Pas encore d'évaluation
TP3 DM
7 pages
Machine Learning (ML) : Scikit-Learn
Pas encore d'évaluation
Machine Learning (ML) : Scikit-Learn
7 pages
Le KNN
Pas encore d'évaluation
Le KNN
14 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
Traitement de données et prédiction de classes
Pas encore d'évaluation
Traitement de données et prédiction de classes
2 pages
TP1
Pas encore d'évaluation
TP1
8 pages
KNN et Mesures de Distance en Classification
Pas encore d'évaluation
KNN et Mesures de Distance en Classification
22 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
100% (1)
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
TP2KNN
Pas encore d'évaluation
TP2KNN
7 pages
TP6 SVM
Pas encore d'évaluation
TP6 SVM
4 pages
Tp2: Deep Learning: Tensorflow
Pas encore d'évaluation
Tp2: Deep Learning: Tensorflow
9 pages
Rapport ML (1) COLETTE
Pas encore d'évaluation
Rapport ML (1) COLETTE
19 pages
Algo de Classifications
Pas encore d'évaluation
Algo de Classifications
2 pages
Exam Machine Learning 2022
Pas encore d'évaluation
Exam Machine Learning 2022
4 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Analyse SVM, KNN et Régressions sur Données Patients
Pas encore d'évaluation
Analyse SVM, KNN et Régressions sur Données Patients
11 pages
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
Pas encore d'évaluation
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
3 pages
Outils Python Pour La Data Science (PDFDrive)
Pas encore d'évaluation
Outils Python Pour La Data Science (PDFDrive)
26 pages
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
10 pages
Validation croisée et réglage hyperparamètres
Pas encore d'évaluation
Validation croisée et réglage hyperparamètres
4 pages
Résumé Machine Learning&pandas&numpy
Pas encore d'évaluation
Résumé Machine Learning&pandas&numpy
26 pages
Examen Deep Learning VF Avec Correction
100% (12)
Examen Deep Learning VF Avec Correction
8 pages
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
100% (4)
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
237 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
Eugene Charniak - Introduction Au Deep Learning (2021) FR
100% (2)
Eugene Charniak - Introduction Au Deep Learning (2021) FR
173 pages
EX ML Corrigé CII-3-SSIR A B
83% (6)
EX ML Corrigé CII-3-SSIR A B
4 pages
Correction TD N°3 UML: Diagramme de Cas D'utilisation
82% (11)
Correction TD N°3 UML: Diagramme de Cas D'utilisation
5 pages
Machine Learning Avec Scikit-Learn
100% (3)
Machine Learning Avec Scikit-Learn
314 pages
Excercices Corrigés Réseau de Neurones
80% (10)
Excercices Corrigés Réseau de Neurones
5 pages
Cours Exercices Python
100% (2)
Cours Exercices Python
170 pages
DATA MINING Examen 2020 Corrigé 1
83% (6)
DATA MINING Examen 2020 Corrigé 1
6 pages
La Programmation Linéaire EXERCICES CORRIGES
83% (12)
La Programmation Linéaire EXERCICES CORRIGES
32 pages
TD de Révision ML
100% (1)
TD de Révision ML
7 pages
TD Réseau de Neurone
25% (4)
TD Réseau de Neurone
2 pages
Emmanuel Jakobowicz - Python Pour Le Data Scientist
100% (13)
Emmanuel Jakobowicz - Python Pour Le Data Scientist
300 pages
Apprendre Le ML en Une Semaine PDF
94% (17)
Apprendre Le ML en Une Semaine PDF
100 pages
Cours Python Complet
90% (10)
Cours Python Complet
150 pages
Cours L'IA Python 2022
100% (1)
Cours L'IA Python 2022
133 pages
Examen Corrigé Base de Données SGBD
100% (11)
Examen Corrigé Base de Données SGBD
5 pages
Guide Pratique: Débuter avec Python
100% (9)
Guide Pratique: Débuter avec Python
212 pages
Guide ML Python: Algorithmes et Installation
100% (3)
Guide ML Python: Algorithmes et Installation
181 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
TD Machine Learning
100% (5)
TD Machine Learning
4 pages
Solutions QCM Concours Informatique
90% (10)
Solutions QCM Concours Informatique
12 pages
Cours Payant Deep Learning
100% (1)
Cours Payant Deep Learning
24 pages
Exercices Et Corrigés BD - Chapitre 0
89% (9)
Exercices Et Corrigés BD - Chapitre 0
11 pages
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
Pas encore d'évaluation
Exercices en Apprentissage Supervis e Et Non Supervis e M2 SISE - Universit e Lyon 2 - 2018/2019
6 pages
Examen1+Solution Architecture Des Ordinateurs
88% (8)
Examen1+Solution Architecture Des Ordinateurs
7 pages
TP Poo Java 1 2 3 Avec Correction
100% (2)
TP Poo Java 1 2 3 Avec Correction
10 pages
QCM Informatique
90% (10)
QCM Informatique
26 pages
QCM Réseaux Informatique
67% (3)
QCM Réseaux Informatique
61 pages
StatsProbas TC2A TD4
Pas encore d'évaluation
StatsProbas TC2A TD4
29 pages
Classification Automatique E-commerce
Pas encore d'évaluation
Classification Automatique E-commerce
32 pages
Examen Clustering
Pas encore d'évaluation
Examen Clustering
15 pages
Classification Automatique des Produits
Pas encore d'évaluation
Classification Automatique des Produits
21 pages
Examen DA 101 - VF
100% (2)
Examen DA 101 - VF
8 pages
Valide Dolores 2 Presentation 10 06 2022
Pas encore d'évaluation
Valide Dolores 2 Presentation 10 06 2022
17 pages
02032015mauritanie Rapport Smart Decembre2014 Draft2
Pas encore d'évaluation
02032015mauritanie Rapport Smart Decembre2014 Draft2
61 pages
Techniques d'échantillonnage avancées
Pas encore d'évaluation
Techniques d'échantillonnage avancées
11 pages
Bank
Pas encore d'évaluation
Bank
19 pages
Modèle de Scoring Crédit et Dashboard
Pas encore d'évaluation
Modèle de Scoring Crédit et Dashboard
20 pages
Maîtrisez Power BI pour vos rapports
50% (4)
Maîtrisez Power BI pour vos rapports
1 page
03 Appli Matlab
Pas encore d'évaluation
03 Appli Matlab
53 pages
ENSAM Casablanca (API-2) - Analyse Numérique - Dérivation Numérique
Pas encore d'évaluation
ENSAM Casablanca (API-2) - Analyse Numérique - Dérivation Numérique
20 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
7 pages
CHEC Instabilite 2021
Pas encore d'évaluation
CHEC Instabilite 2021
3 pages
Gen AI
Pas encore d'évaluation
Gen AI
177 pages
Rapport Asservissement KOBEWO KCH
Pas encore d'évaluation
Rapport Asservissement KOBEWO KCH
71 pages
Sciences Industrielles 2025 DocReponse
Pas encore d'évaluation
Sciences Industrielles 2025 DocReponse
12 pages
TP 1
Pas encore d'évaluation
TP 1
3 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Tle A2 - 6 Statistique
Pas encore d'évaluation
Tle A2 - 6 Statistique
13 pages
Devoir en Temps Libre - Contrôle Optimal (FACULTATIF) : T X T X X R C T T
Pas encore d'évaluation
Devoir en Temps Libre - Contrôle Optimal (FACULTATIF) : T X T X X R C T T
2 pages
Épreuve de Mathématiques Générales: Xercice Points
Pas encore d'évaluation
Épreuve de Mathématiques Générales: Xercice Points
1 page
Résolution d'Équations Différentielles par Taylor et Runge-Kutta
Pas encore d'évaluation
Résolution d'Équations Différentielles par Taylor et Runge-Kutta
2 pages
TPn-3 Intégration Numérique
Pas encore d'évaluation
TPn-3 Intégration Numérique
4 pages
TP1 1
Pas encore d'évaluation
TP1 1
1 page
Econometrie Appliquee DIRECTION de LA PR
Pas encore d'évaluation
Econometrie Appliquee DIRECTION de LA PR
75 pages
Chapitre 1 Recursivité
Pas encore d'évaluation
Chapitre 1 Recursivité
10 pages
Professeur Benzine Rachid Cours Optimisation Sans Contraintes Tome1 PDF
Pas encore d'évaluation
Professeur Benzine Rachid Cours Optimisation Sans Contraintes Tome1 PDF
153 pages
Partie Méthodes D'ajustement
Pas encore d'évaluation
Partie Méthodes D'ajustement
22 pages
Rapport Article
Pas encore d'évaluation
Rapport Article
9 pages
Exercices2024 2025
Pas encore d'évaluation
Exercices2024 2025
16 pages
TD Hachage
Pas encore d'évaluation
TD Hachage
6 pages
Poly 3 TD Auto Sans Corr
Pas encore d'évaluation
Poly 3 TD Auto Sans Corr
20 pages
Introduction au Traitement du Signal
Pas encore d'évaluation
Introduction au Traitement du Signal
31 pages
GMC Workshop SQL
Pas encore d'évaluation
GMC Workshop SQL
65 pages
Examen QCM en Recherche Opérationnelle
100% (1)
Examen QCM en Recherche Opérationnelle
47 pages
Chap1 - Méthodes Numériques L2 Acad, TDH, HSI
Pas encore d'évaluation
Chap1 - Méthodes Numériques L2 Acad, TDH, HSI
43 pages
Cours 2010 LINMA2450
Pas encore d'évaluation
Cours 2010 LINMA2450
1 page
Partiel 0708
Pas encore d'évaluation
Partiel 0708
2 pages
Master 1 VA SujetCorrigéBarème 1
Pas encore d'évaluation
Master 1 VA SujetCorrigéBarème 1
3 pages