0% ont trouvé ce document utile (0 vote)

26 vues4 pages

Metrics Lab

Ce lab consiste à évaluer des modèles de classification binaire sur un dataset de critiques de films en utilisant des métriques telles que l'accuracy, la précision, le rappel, le F1 Score, la matrice de confusion, et la courbe ROC avec AUC. Les participants apprendront à utiliser TF-IDF pour vectoriser le texte et à entraîner un modèle de régression logistique pour évaluer ses performances. Le lab nécessite Python 3.x et des bibliothèques comme scikit-learn, pandas, matplotlib et seaborn.

Transféré par

safaekarkach28

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

26 vues4 pages

Metrics Lab

Transféré par

safaekarkach28

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Lab : Évaluation des modèles ML & utilisation de TF-IDF

Objectif :
Appliquer les métriques suivantes sur un jeu de données textuel (classification
binaire) :
 Accuracy
 Precision, Recall, F1 Score
 Matrice de confusion
 Courbe ROC & AUC
 TF-IDF
Comprendre également quand utiliser chacune de ces métriques.

Contexte du Lab
Vous allez travailler sur un dataset de critiques de films (IMDB Dataset ) avec deux
classes : positive ou négative. Vous utiliserez TF-IDF pour vectoriser le texte,
entraîner un modèle simple (comme Logistic Regression), puis évaluer ses
performances à l’aide des différentes métriques.

Environnement requis :
 Python 3.x
 Bibliothèques : scikit-learn , pandas , matplotlib , seaborn

 Jupyter Notebook ou Google Colab

Étapes du Lab
1. Chargement du dataset
import pandas as pd

# Charger le dataset (exemple)

df = pd.read_csv("IMDB_Dataset.csv")

# Afficher les premières lignes

print([Link]())
2. Prétraitement du texte
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# Encoder les labels (sentiment)

df['sentiment'] = df['sentiment'].map({'positive': 1,
'negative': 0})

# Division en X et y
X = df['review']
y = df['sentiment']

# Vectorisation avec TF-IDF

vectorizer = TfidfVectorizer(stop_words='english',
max_features=5000)
X_tfidf = vectorizer.fit_transform(X)

# Division en ensemble d'entraînement et de test

X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y,
test_size=0.2, random_state=42)

✅ Explication de TF-IDF :
Permet
de ………………………………………………………………………………………………………………
………………………………………………………………………………………………………………….

3. Entraînement d’un modèle (régression logistique)

from sklearn.linear_model import LogisticRegression

# Entraîner le modèle
model = LogisticRegression()
[Link](X_train, y_train)

# Prédiction
y_pred = [Link](X_test)
y_proba = model.predict_proba(X_test)[:, 1]

4. Calcul des métriques

a) Accuracy
3
from [Link] import accuracy_score
acc = accuracy_score(y_test, y_pred)
print(f"Accuracy: {acc:.4f}")
❓ Quand l’utiliser ?
………………………………………………………………………………………………………….

b) Precision, Recall, F1 Score

python
from [Link] import precision_score, recall_score,
f1_score

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1 Score: {f1:.4f}")
💡 Utilité :

 Precision : Quand on veut ………………………………………………………………….

 Recall : Quand …………………………………………………………………….. …………
 F1 Score : Bon compromis quand le dataset est ………………………………………….

c) Matrice de confusion
python
from [Link] import confusion_matrix
import seaborn as sns
import [Link] as plt

cm = confusion_matrix(y_test, y_pred)
[Link](cm, annot=True, fmt="d", cmap="Blues")
[Link]('Prédictions')
[Link]('Vérités')
[Link]("Matrice de confusion")
[Link]()
📌 Interprétation :
…………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………..
.

d) Courbe ROC et AUC

from [Link] import roc_curve, auc

fpr, tpr, thresholds = roc_curve(y_test, y_proba)

roc_auc = auc(fpr, tpr)
[Link](fpr, tpr, label=f'ROC Curve (AUC = {roc_auc:.2f})')
[Link]([0, 1], [0, 1], 'k--') # ligne diagonale
[Link]('False Positive Rate')
[Link]('True Positive Rate')
[Link]('ROC Curve')
[Link]()
[Link]()
[Link]()
🎯 Utilité :

 ROC montre………………………………………………………………………………….
 AUC donne une mesure globale de ………………………………………………………
 Utile quand …………………………………………………………………………………..

Questions de compréhension
1. Pourquoi l’accuracy peut être trompeuse sur un dataset déséquilibré ?

2. Dans quel cas privilégiez-vous le recall plutôt que la precision ?

3. À quoi sert la matrice de confusion ?

4. Quelle est la différence entre Bag-of-Words et TF-IDF ?

5. Qu’est-ce que l’AUC et pourquoi est-elle importante ?

Conclusion du TP
Ce TP permet de :
 …………………………………………………. ;;
 ……………………………………………………
 …………………………………………………..
 ……………………………………………………..

Vous aimerez peut-être aussi

TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Activité 3
Pas encore d'évaluation
Activité 3
3 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
TD Math
Pas encore d'évaluation
TD Math
5 pages
TP6 SVM
Pas encore d'évaluation
TP6 SVM
4 pages
PYTHON Intélligence Artif
Pas encore d'évaluation
PYTHON Intélligence Artif
9 pages
Analyse Prédictive des Élections et Discours Présidentiels
Pas encore d'évaluation
Analyse Prédictive des Élections et Discours Présidentiels
26 pages
Med Yassine Tanabene Rapport TP2
Pas encore d'évaluation
Med Yassine Tanabene Rapport TP2
13 pages
Atelier 2 Machine Learning
Pas encore d'évaluation
Atelier 2 Machine Learning
5 pages
Rapport ML (1) COLETTE
Pas encore d'évaluation
Rapport ML (1) COLETTE
19 pages
Projet Ia
Pas encore d'évaluation
Projet Ia
19 pages
TD2 KNN Classification
Pas encore d'évaluation
TD2 KNN Classification
12 pages
Évaluer les Modèles de Machine Learning
Pas encore d'évaluation
Évaluer les Modèles de Machine Learning
51 pages
TP - ROC-SVM - AFD - Ipynb - Colab
Pas encore d'évaluation
TP - ROC-SVM - AFD - Ipynb - Colab
2 pages
TP3: Classification avec KNN, SVM et Arbre de Décision
100% (2)
TP3: Classification avec KNN, SVM et Arbre de Décision
16 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
TP2 A Rendre
Pas encore d'évaluation
TP2 A Rendre
5 pages
Titanic Machine Learning
Pas encore d'évaluation
Titanic Machine Learning
13 pages
TP3 DM
Pas encore d'évaluation
TP3 DM
7 pages
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
Pas encore d'évaluation
TP2 - Apprentissage Supervisé (Heart Disease Dataset) : Objectifs Pédagogiques
6 pages
Évaluez Un Algorithme de Classification Qui Retourne Des Valeurs Binaires - Evaluez Les Performances D'un Modele de Machine Learning - OpenClassrooms
Pas encore d'évaluation
Évaluez Un Algorithme de Classification Qui Retourne Des Valeurs Binaires - Evaluez Les Performances D'un Modele de Machine Learning - OpenClassrooms
5 pages
ATraiter TDTP2
Pas encore d'évaluation
ATraiter TDTP2
4 pages
TP1
Pas encore d'évaluation
TP1
8 pages
Examen ML: Questions et TP
Pas encore d'évaluation
Examen ML: Questions et TP
3 pages
TP RN Ensta 2018
Pas encore d'évaluation
TP RN Ensta 2018
20 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
TP4 ClassificationSupervisée Student
Pas encore d'évaluation
TP4 ClassificationSupervisée Student
11 pages
1
Pas encore d'évaluation
1
6 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
Corr TP2
Pas encore d'évaluation
Corr TP2
19 pages
IFT6390 Programming Midterm
Pas encore d'évaluation
IFT6390 Programming Midterm
16 pages
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
Pas encore d'évaluation
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
14 pages
Exercice Random Forest Classification Bayesienne
Pas encore d'évaluation
Exercice Random Forest Classification Bayesienne
5 pages
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
10 pages
Projet IA MameCheikhSylla - IbraKoundoul
Pas encore d'évaluation
Projet IA MameCheikhSylla - IbraKoundoul
19 pages
tp1 Deepl
Pas encore d'évaluation
tp1 Deepl
5 pages
TP1 Perceptron
Pas encore d'évaluation
TP1 Perceptron
5 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
Rapport Projet IA
100% (1)
Rapport Projet IA
3 pages
Travaux Pratiques N°2: Travail À Faire
Pas encore d'évaluation
Travaux Pratiques N°2: Travail À Faire
2 pages
TP Scoring
Pas encore d'évaluation
TP Scoring
5 pages
Ai TP3 2024
Pas encore d'évaluation
Ai TP3 2024
6 pages
Atelier 4
Pas encore d'évaluation
Atelier 4
12 pages
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
Pas encore d'évaluation
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
21 pages
Examen Data Science 01
100% (3)
Examen Data Science 01
11 pages
TP2 SVM 2
Pas encore d'évaluation
TP2 SVM 2
3 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Résumé Deep Learning
Pas encore d'évaluation
Résumé Deep Learning
15 pages
Configuration Spark pour ML avec PySpark
Pas encore d'évaluation
Configuration Spark pour ML avec PySpark
4 pages
Classification et Réseaux Neurones
Pas encore d'évaluation
Classification et Réseaux Neurones
4 pages
Resume ML
Pas encore d'évaluation
Resume ML
7 pages
TP 4
Pas encore d'évaluation
TP 4
4 pages
Atelier 3
Pas encore d'évaluation
Atelier 3
3 pages
Perfamance
Pas encore d'évaluation
Perfamance
5 pages
Méthodes Supervisées : KNN, SVM, Arbres et Forêts
Pas encore d'évaluation
Méthodes Supervisées : KNN, SVM, Arbres et Forêts
4 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Rapport sur l'Arbre de Décision en IA
Pas encore d'évaluation
Rapport sur l'Arbre de Décision en IA
2 pages
Tp2: Deep Learning: Tensorflow
Pas encore d'évaluation
Tp2: Deep Learning: Tensorflow
9 pages
TP 1 Bis
Pas encore d'évaluation
TP 1 Bis
2 pages
TP 3 - Suite - PAAS
Pas encore d'évaluation
TP 3 - Suite - PAAS
7 pages
Clustering Hiérarchique: Des Similitudes Entre Les Clients
Pas encore d'évaluation
Clustering Hiérarchique: Des Similitudes Entre Les Clients
11 pages
Support IA
Pas encore d'évaluation
Support IA
155 pages
SAP - Controleur Interne Central
Pas encore d'évaluation
SAP - Controleur Interne Central
3 pages
Enjeux du développement durable mondial
Pas encore d'évaluation
Enjeux du développement durable mondial
3 pages
Motifs de Recrutement d'Agents Non Titulaires
Pas encore d'évaluation
Motifs de Recrutement d'Agents Non Titulaires
2 pages
AREF Casablanca
Pas encore d'évaluation
AREF Casablanca
34 pages
Maladies Endocriniennes: Diabète Insipide et Sucré
Pas encore d'évaluation
Maladies Endocriniennes: Diabète Insipide et Sucré
98 pages
Convertisseurs Forward Et Alimentations À Découpage
Pas encore d'évaluation
Convertisseurs Forward Et Alimentations À Découpage
7 pages
Massage Yoni
Pas encore d'évaluation
Massage Yoni
107 pages
Mystère du Blue Waffle Dévoilé
Pas encore d'évaluation
Mystère du Blue Waffle Dévoilé
1 page
Morphologie Externe Du Coeur, Péricarde Et Rapports
Pas encore d'évaluation
Morphologie Externe Du Coeur, Péricarde Et Rapports
90 pages
10 Conseils Pour Sortir de Sa Zone de Confort
Pas encore d'évaluation
10 Conseils Pour Sortir de Sa Zone de Confort
1 page
Cours Traitement Des Dechets Hospitaliers Support Du Cours
Pas encore d'évaluation
Cours Traitement Des Dechets Hospitaliers Support Du Cours
33 pages
Etude Diagnostic Du Syteme de Retraite de Ladministration Publique Camerounaise
Pas encore d'évaluation
Etude Diagnostic Du Syteme de Retraite de Ladministration Publique Camerounaise
100 pages
Guide Conception Des Locaux en Boulangérie
Pas encore d'évaluation
Guide Conception Des Locaux en Boulangérie
12 pages
Recette Tiramisu Authentique Facile
100% (1)
Recette Tiramisu Authentique Facile
2 pages
Ensoleillement
Pas encore d'évaluation
Ensoleillement
20 pages
Imagerie 1IRSG
Pas encore d'évaluation
Imagerie 1IRSG
27 pages
Les Syndromes de Condensation Pulmonaire
Pas encore d'évaluation
Les Syndromes de Condensation Pulmonaire
8 pages
velomalalaMandimbiarisoaN CH M2 09
Pas encore d'évaluation
velomalalaMandimbiarisoaN CH M2 09
87 pages
Voyage Culinaire Coréen Chez HANURI
Pas encore d'évaluation
Voyage Culinaire Coréen Chez HANURI
12 pages
Pelvimétrie
Pas encore d'évaluation
Pelvimétrie
29 pages
Préparation du sel de Mohr en laboratoire
Pas encore d'évaluation
Préparation du sel de Mohr en laboratoire
7 pages
Wa0009
Pas encore d'évaluation
Wa0009
59 pages
Ann Afr Vol 6 n0 4 Saint Paul 0704141
Pas encore d'évaluation
Ann Afr Vol 6 n0 4 Saint Paul 0704141
80 pages
Escargot
Pas encore d'évaluation
Escargot
48 pages
Analyse du marché des détergents en Tunisie
Pas encore d'évaluation
Analyse du marché des détergents en Tunisie
34 pages
SERIE 2nde SVT FACTEURS BIOTIQUES 4
Pas encore d'évaluation
SERIE 2nde SVT FACTEURS BIOTIQUES 4
2 pages
Confiance en Dieu : Guérison et Espoir
Pas encore d'évaluation
Confiance en Dieu : Guérison et Espoir
4 pages
Étudiants L2 SFM admis en L3 avec crédits
Pas encore d'évaluation
Étudiants L2 SFM admis en L3 avec crédits
9 pages
ECN 230 Diagnostic Coma Non Traumatique
Pas encore d'évaluation
ECN 230 Diagnostic Coma Non Traumatique
9 pages
Manuel Russe Retex Combat
100% (1)
Manuel Russe Retex Combat
49 pages