0% ont trouvé ce document utile (0 vote)

18 vues5 pages

Data Mining 2

L'Exploratory Data Analysis (EDA) est une étape essentielle du data mining qui permet de transformer des données brutes en informations exploitables en identifiant des motifs et des anomalies. Les objectifs de l'EDA incluent la compréhension du dataset, le guidage du prétraitement et la préparation à la sélection du modèle, avec des techniques adaptées pour différents types de variables. Le processus d'EDA comprend plusieurs étapes systématiques, telles que l'inspection des données, l'analyse univariée, la détection des valeurs manquantes et l'analyse de corrélation, utilisant divers outils pour faciliter l'exploration des données.

Transféré par

hrvenana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

18 vues5 pages

Data Mining 2

Transféré par

hrvenana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Notes de cours : Exploration des données et Data Mining

Introduction
L’Exploratory Data Analysis (EDA) est une étape cruciale dans le processus de data
mining. Elle comble l’écart entre les données brutes et les informations exploitables.
L’EDA se concentre sur l’identification des motifs (patterns), la détection des anomalies et
la synthèse des caractéristiques clés du dataset, servant souvent de base pour choisir les
techniques de data mining appropriées.

Objectifs de l’EDA dans le Data Mining

1. Comprendre le Dataset
o Explorer les distributions des variables, les relations et la structure des
données.
Par exemple, votre dataset contient-il des valeurs numériques ou des
étiquettes catégoriques ? Comprendre ces caractéristiques influence les
choix de prétraitement et d’analyse.
2. Guider le Prétraitement
o Prendre des décisions sur le nettoyage, la transformation et la réduction du
dataset.
Par exemple, si une colonne contient de nombreuses valeurs manquantes,
vous pourriez décider d’imputer ces valeurs ou de supprimer la colonne.
3. Préparation à la Sélection du Modèle
o Identifier les caractéristiques ou les motifs qui suggèrent des algorithmes
potentiels.
Par exemple, une forte relation linéaire entre des variables pourrait indiquer
qu’une régression est appropriée.

Types de Variables et Leur Traitement

1. Variables Numériques
o Les variables numériques peuvent être continues (ex. : taille, poids) ou
discrètes (ex. : comptages).

o Des techniques comme la transformation logarithmique ou la

standardisation peuvent rendre les variables plus faciles à interpréter ou à
comparer.
Exemple : La standardisation implique de soustraire la moyenne et de diviser
par l’écart type.
2. Variables Catégoriques
o Les variables nominales n’ont pas d’ordre intrinsèque (ex. : couleurs), tandis
que les variables ordinales ont un ordre significatif (ex. : classements).

o Les méthodes d’encodage comme le one-hot encoding ou le label encoding

sont utilisées pour convertir ces variables en format numérique.
3. Variables Temporelles (Time-Series)
o Ces variables sont indexées par le temps et présentent souvent des
tendances ou des variations saisonnières.

o L’analyse des données temporelles nécessite un prétraitement spécifique,

comme le traitement des timestamps manquants.
4. Données Haute-Dimensionnalité
o Les données haute-dimensionnalité contiennent souvent des variables
redondantes ou non pertinentes.

o Des techniques comme le Principal Component Analysis (PCA) peuvent

simplifier ces données pour l’analyse.

Étapes de l’EDA
L’EDA implique une exploration systématique du dataset pour identifier les motifs et les
anomalies. Voici 15 étapes à considérer:
1. Aperçu du Dataset
o Objectif : Comprendre la structure, la taille et la nature des données.

o Détails : Commencez par inspecter les premières lignes (head()) et la

structure des données (str()) pour vérifier les noms des colonnes, les types
de données et la disposition générale.

o Outils : str(), glimpse(), dim(), colnames(), head(), tail().

2. Statistiques Résumées
o Objectif : Obtenir un aperçu des distributions et des plages des variables.

o Détails : Les statistiques résumées comme la moyenne, la médiane et la

plage peuvent révéler si les variables sont asymétriques ou contiennent des
valeurs extrêmes.

o Outils : summary(), Hmisc::describe(), skimr::skim().

3. Inspection des Types de Données
o Objectif : Identifier les variables numériques, catégoriques et temporelles.

o Détails : Les types de données orientent les décisions pour la visualisation

et le prétraitement. Les données numériques peuvent nécessiter une mise à
l’échelle, tandis que les données catégoriques doivent être encodées.

o Outils : sapply(data, class), dlookr::diagnose().

4. Analyse Univariée des Variables Numériques
o Objectif : Examiner les distributions, la tendance centrale et la dispersion.

o Détails : Les histogrammes montrent les formes de distribution, tandis que

les boxplots mettent en évidence les outliers.

o Outils : hist(), boxplot(), density().

5. Analyse Univariée des Variables Catégoriques
o Objectif : Analyser les fréquences et les proportions.

o Détails : Visualisez les fréquences des catégories à l’aide de diagrammes en

barres. Par exemple, un diagramme circulaire peut montrer la proportion des
différents types de clients.

o Outils : table(), ggplot2 (geom_bar()).

6. Nettoyage des Données et Inspection des Valeurs Manquantes
o Objectif : Détecter et visualiser les valeurs manquantes.

o Détails : Comprendre l’étendue des données manquantes. Si une colonne a

90 % de valeurs manquantes, elle pourrait ne pas être utile.

o Outils : [Link](), naniar::vis_miss(), mice.

7. Détection des Outliers
o Objectif : Identifier et gérer les valeurs extrêmes.

o Détails : Utilisez des boxplots pour détecter les outliers. Les points de levier
élevés en régression ou les clusters éloignés en classification peuvent
indiquer des anomalies.

o Outils : boxplot(), car::outlierTest(), Mahalanobis().

8. Analyse de Corrélation
o Objectif : Évaluer les relations entre les variables numériques.
o Détails : Une matrice de corrélation peut identifier des variables
linéairement reliées. Les corrélations élevées peuvent suggérer des
variables redondantes.

o Outils : cor(), corrplot.

9. Scatterplots pour les Relations
o Objectif : Visualiser les relations entre deux variables.

o Détails : Les scatterplots peuvent révéler des clusters ou des tendances.

Par exemple, un scatterplot entre l’âge et le revenu pourrait montrer que les
individus plus âgés gagnent davantage.

o Outils : plot(), ggplot2 (geom_point()).

10. Exploration des Relations Non Linéaires
o Objectif : Détecter les tendances et motifs non linéaires.

o Détails : Les relations non linéaires, comme les tendances quadratiques ou

exponentielles, nécessitent des approches de modélisation spécifiques.

o Outils : geom_smooth().
11. Analyse de l’Équilibre des Classes
o Objectif : Examiner les distributions dans les problèmes de classification.

o Détails : Pour les datasets déséquilibrés, visualisez la proportion de chaque

classe avec des diagrammes en barres.

o Outils : table(), ggplot2 (geom_bar()).

12. Feature Engineering et Transformations
o Objectif : Identifier la nécessité de la mise à l’échelle, de l’encodage ou des
transformations.

o Détails : Par exemple, appliquer une transformation logarithmique à des

données asymétriques peut améliorer les performances du modèle.

o Outils : scale(), caret::preProcess().

13. Analyse de Réduction de Dimensionnalité
o Objectif : Explorer les motifs dans les données haute-dimensionnalité.

o Détails : Le PCA peut réduire le nombre de variables tout en conservant la

majorité des informations.
o Outils : prcomp().
14. Exploration des Séries Temporelles
o Objectif : Analyser les tendances et la saisonnalité dans les données
temporelles.

o Détails : Utilisez la décomposition des séries temporelles pour séparer les

composantes de tendance, de saisonnalité et résiduelle.

o Outils : forecast::decompose(), lubridate.

15. Rapports Automatisés d’EDA
o Objectif : Générer des résumés d’EDA complets et reproductibles.

o Détails : Des outils comme DataExplorer peuvent générer des rapports

automatiques, économisant du temps.

o Outils : DataExplorer::create_report(), inspectdf.

Exercice :
Explorez les outils R mentionnés dans ce cours en utilisant les données de votre projet du
cours sur la visualisation de données. L'objectif est de vous familiariser avec ces outils
d'exploration des données. Appuyez-vous sur des recherches en ligne pour approfondir
leur utilité et maximiser votre compréhension.

Vous aimerez peut-être aussi

Exploration Des Données - V2
Pas encore d'évaluation
Exploration Des Données - V2
14 pages
Différentes Phases de L' Analyse
Pas encore d'évaluation
Différentes Phases de L' Analyse
3 pages
Analyse Exploratoire de Donn - Es
Pas encore d'évaluation
Analyse Exploratoire de Donn - Es
22 pages
Data Exploration DIT
Pas encore d'évaluation
Data Exploration DIT
21 pages
Analyse de Données
100% (1)
Analyse de Données
109 pages
Atelier Recap Abdelkader
Pas encore d'évaluation
Atelier Recap Abdelkader
17 pages
Data Mining
Pas encore d'évaluation
Data Mining
17 pages
Guide Complet de L'analyse Exploratoire Des Données Structurées Sur Les Données Structurées
Pas encore d'évaluation
Guide Complet de L'analyse Exploratoire Des Données Structurées Sur Les Données Structurées
11 pages
Data Mining et Machine Learning
Pas encore d'évaluation
Data Mining et Machine Learning
34 pages
Support+du+cours+Mr +Ibourk+Jrs+1
Pas encore d'évaluation
Support+du+cours+Mr +Ibourk+Jrs+1
75 pages
Data Analyst
Pas encore d'évaluation
Data Analyst
9 pages
Chap2 4 1
Pas encore d'évaluation
Chap2 4 1
53 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
31 pages
Analyse Exploratoire Détaillée Des Données Exploratoires
Pas encore d'évaluation
Analyse Exploratoire Détaillée Des Données Exploratoires
19 pages
Analyse ACP pour débutants en R
Pas encore d'évaluation
Analyse ACP pour débutants en R
29 pages
Fiche de Révision - Process & Methodologie de L'analyse
Pas encore d'évaluation
Fiche de Révision - Process & Methodologie de L'analyse
2 pages
IntroductionADD Partie 1
Pas encore d'évaluation
IntroductionADD Partie 1
20 pages
Data Exploration Préparation French
Pas encore d'évaluation
Data Exploration Préparation French
22 pages
Détection Fraude Carte Bancaire IA
Pas encore d'évaluation
Détection Fraude Carte Bancaire IA
7 pages
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
Pas encore d'évaluation
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
5 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
159 pages
12 Projets Pour Devenir Data Analyst
Pas encore d'évaluation
12 Projets Pour Devenir Data Analyst
24 pages
Chapitre1-Introduction Analyse de Donne
Pas encore d'évaluation
Chapitre1-Introduction Analyse de Donne
59 pages
Data Mining 01
Pas encore d'évaluation
Data Mining 01
8 pages
IoT Et Big Data
Pas encore d'évaluation
IoT Et Big Data
11 pages
1-Syllabus de Formation de DATA ANALYST PDF
Pas encore d'évaluation
1-Syllabus de Formation de DATA ANALYST PDF
2 pages
Eda 1741543129
Pas encore d'évaluation
Eda 1741543129
10 pages
Introduction à l'Analyse de Données
Pas encore d'évaluation
Introduction à l'Analyse de Données
15 pages
Analyse de données d'enquêtes avec R
Pas encore d'évaluation
Analyse de données d'enquêtes avec R
797 pages
Data Science Consulting by Slidesgo
Pas encore d'évaluation
Data Science Consulting by Slidesgo
8 pages
Cours Statistiques Appliquées À Gestion ESCA Séance 4 V2
Pas encore d'évaluation
Cours Statistiques Appliquées À Gestion ESCA Séance 4 V2
227 pages
Maîtriser l'Analyse de Données
Pas encore d'évaluation
Maîtriser l'Analyse de Données
51 pages
Seance 1
Pas encore d'évaluation
Seance 1
26 pages
Cours Data Mining
Pas encore d'évaluation
Cours Data Mining
60 pages
Les BIB
Pas encore d'évaluation
Les BIB
11 pages
Cours Complet - de La Statistique Au Deep Learning - PROGRAMME
Pas encore d'évaluation
Cours Complet - de La Statistique Au Deep Learning - PROGRAMME
33 pages
Guide d'analyse de données avec R
Pas encore d'évaluation
Guide d'analyse de données avec R
499 pages
Main
Pas encore d'évaluation
Main
217 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Guide Pour Mon Projet de Data Analyst
100% (2)
Guide Pour Mon Projet de Data Analyst
21 pages
Analyse R (Complet)
Pas encore d'évaluation
Analyse R (Complet)
1 397 pages
Chapitre1 Add
Pas encore d'évaluation
Chapitre1 Add
26 pages
Data Exploration - Les Clés Pour Bien Analyser Ses Données
Pas encore d'évaluation
Data Exploration - Les Clés Pour Bien Analyser Ses Données
7 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
Analyse de Données avec Python
100% (1)
Analyse de Données avec Python
46 pages
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
Pas encore d'évaluation
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
9 pages
Data Mining
Pas encore d'évaluation
Data Mining
15 pages
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
Pas encore d'évaluation
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
56 pages
Data Exploration&Pretreatment
Pas encore d'évaluation
Data Exploration&Pretreatment
85 pages
Introduction Stata
Pas encore d'évaluation
Introduction Stata
20 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Analyser Des Données Avec R
Pas encore d'évaluation
Analyser Des Données Avec R
172 pages
Datavisualisation: Une Image Vaut Mille Mots
Pas encore d'évaluation
Datavisualisation: Une Image Vaut Mille Mots
16 pages
Analyse exploratoire des données EDA
Pas encore d'évaluation
Analyse exploratoire des données EDA
48 pages
Guide de l'Analyse de Données
Pas encore d'évaluation
Guide de l'Analyse de Données
70 pages
EDA et Visualisation des Données en Python
Pas encore d'évaluation
EDA et Visualisation des Données en Python
46 pages
Machine Learning: Concepts Clés
Pas encore d'évaluation
Machine Learning: Concepts Clés
34 pages
Présentation SIS 0G3
Pas encore d'évaluation
Présentation SIS 0G3
37 pages
CBASE1
Pas encore d'évaluation
CBASE1
2 pages
Sujet 11
Pas encore d'évaluation
Sujet 11
4 pages
Liste des secrétaires comptables
Pas encore d'évaluation
Liste des secrétaires comptables
2 pages
Sujet N°12
Pas encore d'évaluation
Sujet N°12
1 page
Ma Partie VF
Pas encore d'évaluation
Ma Partie VF
3 pages
Cours - SIS - 0licence S5
Pas encore d'évaluation
Cours - SIS - 0licence S5
3 pages
Chanteurs et Albums: Brassens, Ferré, Brel, Juliette
Pas encore d'évaluation
Chanteurs et Albums: Brassens, Ferré, Brel, Juliette
3 pages
Commerce Extérieur
Pas encore d'évaluation
Commerce Extérieur
30 pages
Comptabilité Nationale
Pas encore d'évaluation
Comptabilité Nationale
37 pages
Analyse du Dendrogramme de Clustering
Pas encore d'évaluation
Analyse du Dendrogramme de Clustering
3 pages
Optimisation de la Qualité des Enquêtes
Pas encore d'évaluation
Optimisation de la Qualité des Enquêtes
9 pages
Code d'importation et exportation SH8
Pas encore d'évaluation
Code d'importation et exportation SH8
25 pages
Loi de Khi-deux et Probabilités
Pas encore d'évaluation
Loi de Khi-deux et Probabilités
2 pages
Classeur 1
Pas encore d'évaluation
Classeur 1
3 pages
Chapitre 6
Pas encore d'évaluation
Chapitre 6
8 pages
Modèles Logit et Probit Multivariés
Pas encore d'évaluation
Modèles Logit et Probit Multivariés
82 pages
Exp Fil D - Attente
Pas encore d'évaluation
Exp Fil D - Attente
2 pages
Présentation GIGARCH
Pas encore d'évaluation
Présentation GIGARCH
36 pages
Chimie Organique - MPC2 - 2014 - NITIEMA Y.S.
Pas encore d'évaluation
Chimie Organique - MPC2 - 2014 - NITIEMA Y.S.
192 pages
DMO1304 - Analyse Longitudinale - Nuptialité - LPAS
Pas encore d'évaluation
DMO1304 - Analyse Longitudinale - Nuptialité - LPAS
12 pages
Document GIGARCH
Pas encore d'évaluation
Document GIGARCH
12 pages
Échantillonnage Migration Burkina 2009
Pas encore d'évaluation
Échantillonnage Migration Burkina 2009
19 pages
Plan d'échantillonnage enquête migration 2009
Pas encore d'évaluation
Plan d'échantillonnage enquête migration 2009
12 pages
Fiches de Recolte de Données 1
Pas encore d'évaluation
Fiches de Recolte de Données 1
280 pages
Analyse des Ménages et Habitations en Afrique
Pas encore d'évaluation
Analyse des Ménages et Habitations en Afrique
8 pages
Pésentation - UE - Histoire&Utilité de La Statistique Sociale - ECU1 - PR Kobiané-1
100% (1)
Pésentation - UE - Histoire&Utilité de La Statistique Sociale - ECU1 - PR Kobiané-1
18 pages
Silga TP
Pas encore d'évaluation
Silga TP
12 pages
H&u SS
Pas encore d'évaluation
H&u SS
10 pages
Analyse Démographique : Taux Bruts et Quotients
Pas encore d'évaluation
Analyse Démographique : Taux Bruts et Quotients
27 pages
New TD N°4-Sécurité-Informatique
Pas encore d'évaluation
New TD N°4-Sécurité-Informatique
2 pages
Devoir en Temps Libre - Contrôle Optimal (FACULTATIF) : T X T X X R C T T
Pas encore d'évaluation
Devoir en Temps Libre - Contrôle Optimal (FACULTATIF) : T X T X X R C T T
2 pages
03 Appli Matlab
Pas encore d'évaluation
03 Appli Matlab
53 pages
Cours Recherche Opérationnelle Analyse Post-Optimale Solveur Plne
Pas encore d'évaluation
Cours Recherche Opérationnelle Analyse Post-Optimale Solveur Plne
59 pages
Examen QCM en Recherche Opérationnelle
100% (1)
Examen QCM en Recherche Opérationnelle
47 pages
Cours AUT AS M1 SNL PDF
Pas encore d'évaluation
Cours AUT AS M1 SNL PDF
12 pages
Épreuve de Mathématiques Générales: Xercice Points
Pas encore d'évaluation
Épreuve de Mathématiques Générales: Xercice Points
1 page
Professeur Benzine Rachid Cours Optimisation Sans Contraintes Tome1 PDF
Pas encore d'évaluation
Professeur Benzine Rachid Cours Optimisation Sans Contraintes Tome1 PDF
153 pages
Théorie des graphes en CPGE
Pas encore d'évaluation
Théorie des graphes en CPGE
4 pages
Tle A2 - 6 Statistique
Pas encore d'évaluation
Tle A2 - 6 Statistique
13 pages
Erreurs de spécification en économétrie
Pas encore d'évaluation
Erreurs de spécification en économétrie
4 pages
Exercices2024 2025
Pas encore d'évaluation
Exercices2024 2025
16 pages
Rapport Asservissement KOBEWO KCH
Pas encore d'évaluation
Rapport Asservissement KOBEWO KCH
71 pages
AAN Part
Pas encore d'évaluation
AAN Part
2 pages
Econometrie Appliquee DIRECTION de LA PR
Pas encore d'évaluation
Econometrie Appliquee DIRECTION de LA PR
75 pages
Poly 3 TD Auto Sans Corr
Pas encore d'évaluation
Poly 3 TD Auto Sans Corr
20 pages
Master 1 VA SujetCorrigéBarème 1
Pas encore d'évaluation
Master 1 VA SujetCorrigéBarème 1
3 pages
Expose 1
Pas encore d'évaluation
Expose 1
7 pages
Introduction au Traitement du Signal
Pas encore d'évaluation
Introduction au Traitement du Signal
31 pages
Chapitre IV ENTROPIE
Pas encore d'évaluation
Chapitre IV ENTROPIE
10 pages
Seuillage par hystérésis en traitement d'images
Pas encore d'évaluation
Seuillage par hystérésis en traitement d'images
2 pages
Chapitre 1 - Calcul Des Probabilitã©s (Rappels)
Pas encore d'évaluation
Chapitre 1 - Calcul Des Probabilitã©s (Rappels)
26 pages
Cours de Recherche Opérationnelle 2
Pas encore d'évaluation
Cours de Recherche Opérationnelle 2
25 pages
Modèles Linéaires et CAPM: Estimations et Tests
Pas encore d'évaluation
Modèles Linéaires et CAPM: Estimations et Tests
7 pages
Séries TD Systeme Reseau Telecom
Pas encore d'évaluation
Séries TD Systeme Reseau Telecom
16 pages
Théorie de la Dualité en Économie
Pas encore d'évaluation
Théorie de la Dualité en Économie
5 pages
Chapitre 3 Le Modèle de Régression Linéaire Multiple
Pas encore d'évaluation
Chapitre 3 Le Modèle de Régression Linéaire Multiple
105 pages
Résolution d'Équations Différentielles par Taylor et Runge-Kutta
Pas encore d'évaluation
Résolution d'Équations Différentielles par Taylor et Runge-Kutta
2 pages
Révision Sept11
Pas encore d'évaluation
Révision Sept11
4 pages
Fiche de TD3 Recherche Opérationnel Et Combinatoire - Corrigé
Pas encore d'évaluation
Fiche de TD3 Recherche Opérationnel Et Combinatoire - Corrigé
5 pages