Atelier6 - TextMining 1

Ce document décrit un atelier de manipulation de texte axé sur la classification de messages en utilisant des modèles de Machine Learning. Il inclut des étapes pour charger un dataset de cyberharcèlement, nettoyer les données, créer des matrices TF et TF-IDF, et évaluer les modèles KNN et SVM. Le travail implique également un ajustement des hyperparamètres et une comparaison des résultats pour différentes configurations de n-grams.

Transféré par

fatimaezzahra.zahnoune

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

24 vues1 page

Atelier6 - TextMining 1

Transféré par

fatimaezzahra.zahnoune

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

IA – Machine Learning

Machine Learning

Atelier 6 : Manipulation du texte (1)

Objectif :

L'objectif de ce TP est de tester plusieurs modèles de classification sur du texte. Pour cela, on
considère le dataset [Link] (récupéré à partir du github partagé) contenant 1413
messages ayant chacun un label indiquant s'il s'agit d'un bullying (1) ou non (0).

Travail à faire :

1. Utiliser pandas pour charger le dataset dans un DataFrame

2. Afficher les colonnes du DataFrame
3. Afficher la structure du dataframe pour avoir une idée sur le nombre de messages
4. Afficher les 3 premiers messages
5. Afficher le nombre de messages de chaque classe
6. Dans une variable corpus récupérer les messages nettoyés
(colonne transformed_Message)
7. Dans une variable labels récupérer les labels des messages
8. Créer les matrices TF et TF-IDF. Fixer le nombre maximum de features à 100, les
tokens à considérer sont les mots.
9. Utiliser KNN et SVM avec les hyperparamètres par défaut pour faire l'entraînement et
l'évaluation
10. Calculer le score chaque modèle (Vous pouvez consulter [Link]
[Link]/stable/modules/model_evaluation.html#scoring-parameter pour la liste des
métriques d'évaluation)
11. Faire le fine tuning des algorithmes précédents en utilisant GridSearchCV, et
comparer les nouveaux scores avec les scores précédents.
A. Pour SVM, considérer les paramètres suivants : 'C': [0.1,1, 10, 100], 'gamma':
[1,0.1,0.01,0.001],'kernel': ['rbf', 'poly', 'sigmoid']
B. Pour KNN, considérer les paramètres suivants : 'n_neighbors': (1,10, 2),
'leaf_size': (20,40,1), 'p': (1,2), 'weights': ('uniform', 'distance'), 'metric':
('minkowski', 'chebyshev')
12. Refaire les question 8. à 9. pour les bigram et trigram
13. Résumer dans le tableau ci-dessous, la comparaison des différents résultats trouvés.

Unigram Bigram Trigram

KNN ? ? ?
SVM ? ? ?

madani.a@[Link]

Vous aimerez peut-être aussi

Analyse de sentiments avec TF-IDF et Word2Vec
Pas encore d'évaluation
Analyse de sentiments avec TF-IDF et Word2Vec
10 pages
Introduction aux bibliothèques IA en TP1
Pas encore d'évaluation
Introduction aux bibliothèques IA en TP1
5 pages
Analyse des sentiments avec Transformers
Pas encore d'évaluation
Analyse des sentiments avec Transformers
5 pages
Classification avec KNN et SVM en Python
100% (2)
Classification avec KNN et SVM en Python
16 pages
Coder un système de recommandation en Python
Pas encore d'évaluation
Coder un système de recommandation en Python
17 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
TP Machine Learning : KNN et Naïve Bayes
Pas encore d'évaluation
TP Machine Learning : KNN et Naïve Bayes
12 pages
Système de recommandation de films
100% (1)
Système de recommandation de films
4 pages
PYTHON Intélligence Artif
Pas encore d'évaluation
PYTHON Intélligence Artif
9 pages
Chatbot IA : Automatisation et Modélisation
Pas encore d'évaluation
Chatbot IA : Automatisation et Modélisation
2 pages
Travail Pratique 3
Pas encore d'évaluation
Travail Pratique 3
17 pages
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
Appc Final A17
Pas encore d'évaluation
Appc Final A17
1 page
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
tp1 2022
Pas encore d'évaluation
tp1 2022
4 pages
Création d'un Pare-feu Intelligent avec ML
Pas encore d'évaluation
Création d'un Pare-feu Intelligent avec ML
5 pages
Architecture CC1
Pas encore d'évaluation
Architecture CC1
2 pages
TP02
Pas encore d'évaluation
TP02
2 pages
Correction QST Examen NLP 1
Pas encore d'évaluation
Correction QST Examen NLP 1
9 pages
Signification de "mutable" en Python
Pas encore d'évaluation
Signification de "mutable" en Python
5 pages
SVM pour classifier fruits et salaires
Pas encore d'évaluation
SVM pour classifier fruits et salaires
4 pages
Examen d'Intelligence Artificielle 2021
Pas encore d'évaluation
Examen d'Intelligence Artificielle 2021
7 pages
SVM et Réseaux Neuronaux en Python
Pas encore d'évaluation
SVM et Réseaux Neuronaux en Python
13 pages
Apprentissage Automatique : Projets IA Sénégal
Pas encore d'évaluation
Apprentissage Automatique : Projets IA Sénégal
19 pages
Metrics Lab
Pas encore d'évaluation
Metrics Lab
4 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
Entraînement de modèles KNN avec Iris
Pas encore d'évaluation
Entraînement de modèles KNN avec Iris
18 pages
Introduction à la classification supervisée
Pas encore d'évaluation
Introduction à la classification supervisée
20 pages
Rapport Projet IA
100% (1)
Rapport Projet IA
3 pages
Analyse des modèles de classification ML
Pas encore d'évaluation
Analyse des modèles de classification ML
2 pages
EF ML TekUP 22-23
100% (1)
EF ML TekUP 22-23
4 pages
Module06 Machine Learning 2 Seminar Sujet
Pas encore d'évaluation
Module06 Machine Learning 2 Seminar Sujet
13 pages
Classification Tweets Catastrophes
Pas encore d'évaluation
Classification Tweets Catastrophes
14 pages
Classification supervisée en Machine Learning
Pas encore d'évaluation
Classification supervisée en Machine Learning
11 pages
Tp2 Intelligence Artificielle
Pas encore d'évaluation
Tp2 Intelligence Artificielle
2 pages
Prédiction Météo avec Naive Bayes
Pas encore d'évaluation
Prédiction Météo avec Naive Bayes
8 pages
Introduction au SVM en Machine Learning
Pas encore d'évaluation
Introduction au SVM en Machine Learning
8 pages
Atelier IA : Machine Learning avec Iris
Pas encore d'évaluation
Atelier IA : Machine Learning avec Iris
5 pages
tp2 DL
Pas encore d'évaluation
tp2 DL
10 pages
Introduction au Deep Learning avec Keras
Pas encore d'évaluation
Introduction au Deep Learning avec Keras
15 pages
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
7.1. TP Reconnaissance de Chiffres Avec Scikit-Learn - Outils Numériques Avancés en Mécanique
10 pages
TP3 DM
Pas encore d'évaluation
TP3 DM
7 pages
Classification Naïve des Sentiments Textuels
Pas encore d'évaluation
Classification Naïve des Sentiments Textuels
5 pages
Transformation de données en ML et DL
Pas encore d'évaluation
Transformation de données en ML et DL
3 pages
Cheat Sheet NLP : spaCy et Techniques
Pas encore d'évaluation
Cheat Sheet NLP : spaCy et Techniques
5 pages
Apprentissage supervisé avec Python
Pas encore d'évaluation
Apprentissage supervisé avec Python
3 pages
Examen de Text Mining - Master TIC 2019
Pas encore d'évaluation
Examen de Text Mining - Master TIC 2019
2 pages
TP1 FR
Pas encore d'évaluation
TP1 FR
7 pages
Atelier5 - Pandas
Pas encore d'évaluation
Atelier5 - Pandas
1 page
Examen d'Ingénierie Informatique 2023
Pas encore d'évaluation
Examen d'Ingénierie Informatique 2023
3 pages
Examen Developpement Cross Platform
100% (1)
Examen Developpement Cross Platform
3 pages
TP Big Data
Pas encore d'évaluation
TP Big Data
11 pages
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
Pas encore d'évaluation
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
9 pages
TP Chaînes de Caractères Python
Pas encore d'évaluation
TP Chaînes de Caractères Python
12 pages
MRF 4em Planif MS Project M. Damaan
Pas encore d'évaluation
MRF 4em Planif MS Project M. Damaan
3 pages
Contrôle IA 2021/2022 - Algorithmes Génétique et Fourmis
Pas encore d'évaluation
Contrôle IA 2021/2022 - Algorithmes Génétique et Fourmis
2 pages
Planification Projet MS Project 2023/24
Pas encore d'évaluation
Planification Projet MS Project 2023/24
3 pages
MRF 4em Planif MS Project M. Damaan
Pas encore d'évaluation
MRF 4em Planif MS Project M. Damaan
3 pages
Cahier Des Charges
Pas encore d'évaluation
Cahier Des Charges
4 pages
Architecture Client/Serveur et Protocoles
Pas encore d'évaluation
Architecture Client/Serveur et Protocoles
34 pages