0% ont trouvé ce document utile (0 vote)
79 vues6 pages

RChapitre 1 Intro DM

Ce document introduit le processus de data mining en décrivant son historique, ses objectifs et définitions. Il explique également les types de données traitées, les outils utilisés et donne des exemples d'applications pratiques.

Transféré par

Bouznad Houssem Eddine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues6 pages

RChapitre 1 Intro DM

Ce document introduit le processus de data mining en décrivant son historique, ses objectifs et définitions. Il explique également les types de données traitées, les outils utilisés et donne des exemples d'applications pratiques.

Transféré par

Bouznad Houssem Eddine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction générale au processus de Data Mining (Fouille de Données)

1.1 Historique et motivations du Processus du Data Mining :

Le DataMining (fouille de données) est un nouveau paradigme qui repose sur la

constatation que des informations utiles se cachent dans les données. D’où :

Données+ Traitements (DM)  Nouvelles informations

Objectifs du Data Mining :

- découvrir des connaissances cachées qui peuvent aider à comprendre ces

données, c.à.d. Comprendre le comportement actuel des données.

- à prédire le comportement des données futures.

Ce domaine est lié aux concepts de BDDs, Entrepôt de Données (Data WareHouse)

et d’ECD (Extraction de Connaissances dans les Données) (KDD : Knowledge

Discovery in Data).

Le Data Mining vit le jour au début des années 90. Ce paradigme stipule que :

'Des connaissances utiles sont enfuies dans les données'.

1.2 Typologie des processus de Data mining en fonction la nature des données :

a. Définition : Data Mining des données Structurées :

- C’est le Data Mining des BDDs ou Données Structurées.

- Premier type de DM qui a le premier vu le jour

- Populaire

- Motivé par le cas célèbre du « Panier de la ménagère » ou « Tickets de Caisse ».


Introduction générale au processus de Data Mining (Fouille de Données)

b. Définition : Data Mining des données Non-Structurées (Multimédia):

C’est le Data Mining des données Multimédias :

- Les images

- Le texte

- Les signaux et time series (séries temporelles)

- Les vidéos

- Les données audio (voix, parole, son, musique, etc.)

- Les Pages WEB et les réseaux sociaux

- Les séquences de données Biologiques (ADN)

- Etc.

C'est-à-dire, des données :

- Non caractérisées

- Plus complexes par leurs contenus pour la tâche de caractérisation

- Non structurées dans des BDDs

- Plus volumineuses

Ce type de Data mining implique aussi le Big data (voire plus loin).

- Plus difficile : Données non caractérisées.

- La caractérisation utilise des Features extraites des données ;

- Images : Couleur, Texture, Forme,

- Texte : Statistiques, corrélations,

- Time series et Signaux : Domaines Fréquentiel, Wavelets (Ondelettes),

- Etc.

1.3 Définitions du Data Mining :

a. Définition1 [Fayyad et al. 1995] : Le DM est un processus itératif et

interactif, par lequel on extrait des connaissances :

- Nouvelles
Introduction générale au processus de Data Mining (Fouille de Données)

- Utiles

- Compréhensibles

- Valide dans le temps

Concernant la nature de ce processus :

- Itératif

- Interactif

b. Définition2 [TUFFERY, 2014]: Le data mining est l’ensemble des méthodes

scientifiques destinées à l’exploration et l’analyse de grandes bases de

données informatiques en vue de détecter dans ces données

- des profils-type (pattern, motifs, régularité)

- des comportements récurrents (répétitifs, périodiques)

- des règles régissant ces données

- des tendances inconnues (non fixées a priori),

- des structures particulières restituant de façon concise l’essentiel de

l’information utile pour l’aide à la décision.

Tous ces éléments constituent de la "connaissance" extraites des données.

1.4 Outils du DM:

Le datamining utilise/combine des outils de :

a. Statistiques

b. Intelligence artificielle

c. Reconnaissance des formes

d. Analyse des données

e. Recherche de l'Information

f. Et Autres domaines plus spécifiques


Introduction générale au processus de Data Mining (Fouille de Données)

1.5 Définition ECD (Extraction des connaissances dans les données), KDD

(Knowledge Discovery in Data)

Le processus du DM est au fait une étape d'un processus plus grand : L'ECD. Voici

un schema générique pour ce procéssus.

Fig.1.1 Processus du KDD - DataMining

De façon résumée, le processus du KDD comprend les étapes suivantes :

a. Nettoyage des données,

b. Intégration des données,

c. Sélection des données à analyser/modéliser

d. Application des techniques du DM, selon le besoin

e. Analyse des résultats obtenus.

1.6 Entrepôt de données (Data Warehouse) et technologie de l’entreposage

(Data Warehousing) :

a. Définition : Entrepôt de données : Un entrepôt de données est une base

de données regroupant plusieurs bases de données opérationnelles

relatives à un organisme particulier. Cette base contiendra toutes


Introduction générale au processus de Data Mining (Fouille de Données)

données émanant des bases de données de l'organisme de façon

homogène et unifiée afin de pouvoir effectuer les étapes du DM dessus.

b. Technologie de Gestion des Entrepôts de données: DataWarhousing

Technology :

Cette partie du KDD inclut:

- Nettoyage des données - data cleaning

- Integration des données - data integration:

- Sélection de données – Data selection:

- Analyse et traitement en-ligne - on-line analytical processing (OLAP),

OLAP :

 Résumé des données – data summarization,

 Transformation des données (standardisation, etc.)

 Visualisation des données:

1.7 Big Data : C’est le Mining de données de tailles extrêmement grandes. Mais

plus que cela, il exige la règle des 5V :

V1 : Volume (des données)

V2 : Vitesse

V3 : Variété :

V4 : Véracité :

V5 : Valeur

1.8 Exemples de connaissances extraites dans des cas pratiques:

– Accord de Crédit .

– Optimisation du nombre de places dans les avions, hôtels.

– Organisation des rayonnages dans les super Marchés.

– Diagnostic médical.

– Classification des emails.

– Moteur de recherche sur internet.


Introduction générale au processus de Data Mining (Fouille de Données)

– Fouille du texte, en général.

– Fouille des séries temporelles (time series mining) .

1.9 Typologie des tâches du processus de fouille des données

a. Les méthodes descriptives (ou exploratoires des données) :

b. Les méthodes prédictives (ou explicatives des données):

Vous aimerez peut-être aussi