Introduction générale au processus de Data Mining (Fouille de Données)
1.1 Historique et motivations du Processus du Data Mining :
Le DataMining (fouille de données) est un nouveau paradigme qui repose sur la
constatation que des informations utiles se cachent dans les données. D’où :
Données+ Traitements (DM) Nouvelles informations
Objectifs du Data Mining :
- découvrir des connaissances cachées qui peuvent aider à comprendre ces
données, c.à.d. Comprendre le comportement actuel des données.
- à prédire le comportement des données futures.
Ce domaine est lié aux concepts de BDDs, Entrepôt de Données (Data WareHouse)
et d’ECD (Extraction de Connaissances dans les Données) (KDD : Knowledge
Discovery in Data).
Le Data Mining vit le jour au début des années 90. Ce paradigme stipule que :
'Des connaissances utiles sont enfuies dans les données'.
1.2 Typologie des processus de Data mining en fonction la nature des données :
a. Définition : Data Mining des données Structurées :
- C’est le Data Mining des BDDs ou Données Structurées.
- Premier type de DM qui a le premier vu le jour
- Populaire
- Motivé par le cas célèbre du « Panier de la ménagère » ou « Tickets de Caisse ».
Introduction générale au processus de Data Mining (Fouille de Données)
b. Définition : Data Mining des données Non-Structurées (Multimédia):
C’est le Data Mining des données Multimédias :
- Les images
- Le texte
- Les signaux et time series (séries temporelles)
- Les vidéos
- Les données audio (voix, parole, son, musique, etc.)
- Les Pages WEB et les réseaux sociaux
- Les séquences de données Biologiques (ADN)
- Etc.
C'est-à-dire, des données :
- Non caractérisées
- Plus complexes par leurs contenus pour la tâche de caractérisation
- Non structurées dans des BDDs
- Plus volumineuses
Ce type de Data mining implique aussi le Big data (voire plus loin).
- Plus difficile : Données non caractérisées.
- La caractérisation utilise des Features extraites des données ;
- Images : Couleur, Texture, Forme,
- Texte : Statistiques, corrélations,
- Time series et Signaux : Domaines Fréquentiel, Wavelets (Ondelettes),
- Etc.
1.3 Définitions du Data Mining :
a. Définition1 [Fayyad et al. 1995] : Le DM est un processus itératif et
interactif, par lequel on extrait des connaissances :
- Nouvelles
Introduction générale au processus de Data Mining (Fouille de Données)
- Utiles
- Compréhensibles
- Valide dans le temps
Concernant la nature de ce processus :
- Itératif
- Interactif
b. Définition2 [TUFFERY, 2014]: Le data mining est l’ensemble des méthodes
scientifiques destinées à l’exploration et l’analyse de grandes bases de
données informatiques en vue de détecter dans ces données
- des profils-type (pattern, motifs, régularité)
- des comportements récurrents (répétitifs, périodiques)
- des règles régissant ces données
- des tendances inconnues (non fixées a priori),
- des structures particulières restituant de façon concise l’essentiel de
l’information utile pour l’aide à la décision.
Tous ces éléments constituent de la "connaissance" extraites des données.
1.4 Outils du DM:
Le datamining utilise/combine des outils de :
a. Statistiques
b. Intelligence artificielle
c. Reconnaissance des formes
d. Analyse des données
e. Recherche de l'Information
f. Et Autres domaines plus spécifiques
Introduction générale au processus de Data Mining (Fouille de Données)
1.5 Définition ECD (Extraction des connaissances dans les données), KDD
(Knowledge Discovery in Data)
Le processus du DM est au fait une étape d'un processus plus grand : L'ECD. Voici
un schema générique pour ce procéssus.
Fig.1.1 Processus du KDD - DataMining
De façon résumée, le processus du KDD comprend les étapes suivantes :
a. Nettoyage des données,
b. Intégration des données,
c. Sélection des données à analyser/modéliser
d. Application des techniques du DM, selon le besoin
e. Analyse des résultats obtenus.
1.6 Entrepôt de données (Data Warehouse) et technologie de l’entreposage
(Data Warehousing) :
a. Définition : Entrepôt de données : Un entrepôt de données est une base
de données regroupant plusieurs bases de données opérationnelles
relatives à un organisme particulier. Cette base contiendra toutes
Introduction générale au processus de Data Mining (Fouille de Données)
données émanant des bases de données de l'organisme de façon
homogène et unifiée afin de pouvoir effectuer les étapes du DM dessus.
b. Technologie de Gestion des Entrepôts de données: DataWarhousing
Technology :
Cette partie du KDD inclut:
- Nettoyage des données - data cleaning
- Integration des données - data integration:
- Sélection de données – Data selection:
- Analyse et traitement en-ligne - on-line analytical processing (OLAP),
OLAP :
Résumé des données – data summarization,
Transformation des données (standardisation, etc.)
Visualisation des données:
1.7 Big Data : C’est le Mining de données de tailles extrêmement grandes. Mais
plus que cela, il exige la règle des 5V :
V1 : Volume (des données)
V2 : Vitesse
V3 : Variété :
V4 : Véracité :
V5 : Valeur
1.8 Exemples de connaissances extraites dans des cas pratiques:
– Accord de Crédit .
– Optimisation du nombre de places dans les avions, hôtels.
– Organisation des rayonnages dans les super Marchés.
– Diagnostic médical.
– Classification des emails.
– Moteur de recherche sur internet.
Introduction générale au processus de Data Mining (Fouille de Données)
– Fouille du texte, en général.
– Fouille des séries temporelles (time series mining) .
1.9 Typologie des tâches du processus de fouille des données
a. Les méthodes descriptives (ou exploratoires des données) :
b. Les méthodes prédictives (ou explicatives des données):