0% ont trouvé ce document utile (0 vote)

79 vues6 pages

RChapitre 1 Intro DM

Ce document introduit le processus de data mining en décrivant son historique, ses objectifs et définitions. Il explique également les types de données traitées, les outils utilisés et donne des exemples d'applications pratiques.

Transféré par

Bouznad Houssem Eddine

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

79 vues6 pages

RChapitre 1 Intro DM

Transféré par

Bouznad Houssem Eddine

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction générale au processus de Data Mining (Fouille de Données)

1.1 Historique et motivations du Processus du Data Mining :

Le DataMining (fouille de données) est un nouveau paradigme qui repose sur la

constatation que des informations utiles se cachent dans les données. D’où :

Données+ Traitements (DM)  Nouvelles informations

Objectifs du Data Mining :

- découvrir des connaissances cachées qui peuvent aider à comprendre ces

données, c.à.d. Comprendre le comportement actuel des données.

- à prédire le comportement des données futures.

Ce domaine est lié aux concepts de BDDs, Entrepôt de Données (Data WareHouse)

et d’ECD (Extraction de Connaissances dans les Données) (KDD : Knowledge

Discovery in Data).

Le Data Mining vit le jour au début des années 90. Ce paradigme stipule que :

'Des connaissances utiles sont enfuies dans les données'.

1.2 Typologie des processus de Data mining en fonction la nature des données :

a. Définition : Data Mining des données Structurées :

- C’est le Data Mining des BDDs ou Données Structurées.

- Premier type de DM qui a le premier vu le jour

- Populaire

- Motivé par le cas célèbre du « Panier de la ménagère » ou « Tickets de Caisse ».

Introduction générale au processus de Data Mining (Fouille de Données)

b. Définition : Data Mining des données Non-Structurées (Multimédia):

C’est le Data Mining des données Multimédias :

- Les images

- Le texte

- Les signaux et time series (séries temporelles)

- Les vidéos

- Les données audio (voix, parole, son, musique, etc.)

- Les Pages WEB et les réseaux sociaux

- Les séquences de données Biologiques (ADN)

- Etc.

C'est-à-dire, des données :

- Non caractérisées

- Plus complexes par leurs contenus pour la tâche de caractérisation

- Non structurées dans des BDDs

- Plus volumineuses

Ce type de Data mining implique aussi le Big data (voire plus loin).

- Plus difficile : Données non caractérisées.

- La caractérisation utilise des Features extraites des données ;

- Images : Couleur, Texture, Forme,

- Texte : Statistiques, corrélations,

- Time series et Signaux : Domaines Fréquentiel, Wavelets (Ondelettes),

- Etc.

1.3 Définitions du Data Mining :

a. Définition1 [Fayyad et al. 1995] : Le DM est un processus itératif et

interactif, par lequel on extrait des connaissances :

- Nouvelles
Introduction générale au processus de Data Mining (Fouille de Données)

- Utiles

- Compréhensibles

- Valide dans le temps

Concernant la nature de ce processus :

- Itératif

- Interactif

b. Définition2 [TUFFERY, 2014]: Le data mining est l’ensemble des méthodes

scientifiques destinées à l’exploration et l’analyse de grandes bases de

données informatiques en vue de détecter dans ces données

- des profils-type (pattern, motifs, régularité)

- des comportements récurrents (répétitifs, périodiques)

- des règles régissant ces données

- des tendances inconnues (non fixées a priori),

- des structures particulières restituant de façon concise l’essentiel de

l’information utile pour l’aide à la décision.

Tous ces éléments constituent de la "connaissance" extraites des données.

1.4 Outils du DM:

Le datamining utilise/combine des outils de :

a. Statistiques

b. Intelligence artificielle

c. Reconnaissance des formes

d. Analyse des données

e. Recherche de l'Information

f. Et Autres domaines plus spécifiques

Introduction générale au processus de Data Mining (Fouille de Données)

1.5 Définition ECD (Extraction des connaissances dans les données), KDD

(Knowledge Discovery in Data)

Le processus du DM est au fait une étape d'un processus plus grand : L'ECD. Voici

un schema générique pour ce procéssus.

Fig.1.1 Processus du KDD - DataMining

De façon résumée, le processus du KDD comprend les étapes suivantes :

a. Nettoyage des données,

b. Intégration des données,

c. Sélection des données à analyser/modéliser

d. Application des techniques du DM, selon le besoin

e. Analyse des résultats obtenus.

1.6 Entrepôt de données (Data Warehouse) et technologie de l’entreposage

(Data Warehousing) :

a. Définition : Entrepôt de données : Un entrepôt de données est une base

de données regroupant plusieurs bases de données opérationnelles

relatives à un organisme particulier. Cette base contiendra toutes

Introduction générale au processus de Data Mining (Fouille de Données)

données émanant des bases de données de l'organisme de façon

homogène et unifiée afin de pouvoir effectuer les étapes du DM dessus.

b. Technologie de Gestion des Entrepôts de données: DataWarhousing

Technology :

Cette partie du KDD inclut:

- Nettoyage des données - data cleaning

- Integration des données - data integration:

- Sélection de données – Data selection:

- Analyse et traitement en-ligne - on-line analytical processing (OLAP),

OLAP :

 Résumé des données – data summarization,

 Transformation des données (standardisation, etc.)

 Visualisation des données:

1.7 Big Data : C’est le Mining de données de tailles extrêmement grandes. Mais

plus que cela, il exige la règle des 5V :

V1 : Volume (des données)

V2 : Vitesse

V3 : Variété :

V4 : Véracité :

V5 : Valeur

1.8 Exemples de connaissances extraites dans des cas pratiques:

– Accord de Crédit .

– Optimisation du nombre de places dans les avions, hôtels.

– Organisation des rayonnages dans les super Marchés.

– Diagnostic médical.

– Classification des emails.

– Moteur de recherche sur internet.

Introduction générale au processus de Data Mining (Fouille de Données)

– Fouille du texte, en général.

– Fouille des séries temporelles (time series mining) .

1.9 Typologie des tâches du processus de fouille des données

a. Les méthodes descriptives (ou exploratoires des données) :

b. Les méthodes prédictives (ou explicatives des données):

Vous aimerez peut-être aussi

Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
88 pages
Cours
Pas encore d'évaluation
Cours
58 pages
Cours Big Data&Data Scinece - PPSX
Pas encore d'évaluation
Cours Big Data&Data Scinece - PPSX
22 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Applications et méthodologie du Data Mining
Pas encore d'évaluation
Applications et méthodologie du Data Mining
81 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Complement DM.2
Pas encore d'évaluation
Complement DM.2
158 pages
Introduction au Data Mining et ses enjeux
Pas encore d'évaluation
Introduction au Data Mining et ses enjeux
26 pages
Introduction au Data Mining et KDD
Pas encore d'évaluation
Introduction au Data Mining et KDD
44 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
Techniques et enjeux du Data Mining
Pas encore d'évaluation
Techniques et enjeux du Data Mining
15 pages
Introduction au Data Mining et ses Méthodes
Pas encore d'évaluation
Introduction au Data Mining et ses Méthodes
74 pages
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
Pas encore d'évaluation
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
13 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
Introduction au Data Mining et ses Méthodes
Pas encore d'évaluation
Introduction au Data Mining et ses Méthodes
25 pages
Chapitre 1 Introduction Au Data Mining
Pas encore d'évaluation
Chapitre 1 Introduction Au Data Mining
8 pages
Cours Data
Pas encore d'évaluation
Cours Data
35 pages
Méthodologies classiques en Data Science
Pas encore d'évaluation
Méthodologies classiques en Data Science
27 pages
Ch2 Data Mining
Pas encore d'évaluation
Ch2 Data Mining
61 pages
Cours de Data Mining en Master 2
Pas encore d'évaluation
Cours de Data Mining en Master 2
20 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
Introduction au datamining et ses méthodes
100% (1)
Introduction au datamining et ses méthodes
23 pages
Cours DM Afef Kacem 1 427
Pas encore d'évaluation
Cours DM Afef Kacem 1 427
214 pages
Introduction au Data Mining et ECD
Pas encore d'évaluation
Introduction au Data Mining et ECD
6 pages
Concepts et Techniques du Data Mining
Pas encore d'évaluation
Concepts et Techniques du Data Mining
30 pages
Introduction au Data Mining et KDD
Pas encore d'évaluation
Introduction au Data Mining et KDD
18 pages
Techniques de Datamining en Cours
Pas encore d'évaluation
Techniques de Datamining en Cours
19 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
17 pages
Résumé Courtd DM 1
Pas encore d'évaluation
Résumé Courtd DM 1
17 pages
Cours DM Afef Kacem Math Séance1
Pas encore d'évaluation
Cours DM Afef Kacem Math Séance1
57 pages
Fiche IA
Pas encore d'évaluation
Fiche IA
38 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Méthode Non Supervisé:: Définition DM
Pas encore d'évaluation
Méthode Non Supervisé:: Définition DM
19 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Sid Partie2
Pas encore d'évaluation
Sid Partie2
13 pages
Cours de Data Mining en Master Analytics
Pas encore d'évaluation
Cours de Data Mining en Master Analytics
37 pages
Chap1 DM
Pas encore d'évaluation
Chap1 DM
68 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
37 pages
Introduction au Data Mining et ses Techniques
Pas encore d'évaluation
Introduction au Data Mining et ses Techniques
10 pages
Introduction au Data Mining et ses Techniques
Pas encore d'évaluation
Introduction au Data Mining et ses Techniques
10 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Cours Datamining: Techniques et Processus
100% (1)
Cours Datamining: Techniques et Processus
49 pages
Ok Cours-Data-Mining M2 SITW 2022 2023
100% (1)
Ok Cours-Data-Mining M2 SITW 2022 2023
325 pages
Cours Fouille de DonnÃes L2 BI 2024
Pas encore d'évaluation
Cours Fouille de DonnÃes L2 BI 2024
31 pages
Data Mining
Pas encore d'évaluation
Data Mining
11 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
6 pages
DM Cours
100% (5)
DM Cours
325 pages
Mon Rapport de Stage Modifier
Pas encore d'évaluation
Mon Rapport de Stage Modifier
54 pages
Chapitre 01
Pas encore d'évaluation
Chapitre 01
12 pages
Bydlowski 2004 Transparence Psychique de La Grossesse Et Dette de Vie
Pas encore d'évaluation
Bydlowski 2004 Transparence Psychique de La Grossesse Et Dette de Vie
9 pages
Annexe3 - Liste Des Restaurants Touristiques Independants Classes - 2018
Pas encore d'évaluation
Annexe3 - Liste Des Restaurants Touristiques Independants Classes - 2018
14 pages
Rapport SNCC Kalifor
Pas encore d'évaluation
Rapport SNCC Kalifor
12 pages
Cas Clinique Pancreatite Chronique
Pas encore d'évaluation
Cas Clinique Pancreatite Chronique
18 pages
Étude de la loi de Boyle-Mariotte
Pas encore d'évaluation
Étude de la loi de Boyle-Mariotte
4 pages
DM 6g1c1 Nairobi Lagos
Pas encore d'évaluation
DM 6g1c1 Nairobi Lagos
3 pages
La Cuisine Brigade: Par Auguste Escoffier
Pas encore d'évaluation
La Cuisine Brigade: Par Auguste Escoffier
31 pages
TP Telematique
Pas encore d'évaluation
TP Telematique
13 pages
Biomécanique du Sport: TD et Corrections
Pas encore d'évaluation
Biomécanique du Sport: TD et Corrections
31 pages
FDS Duotex
Pas encore d'évaluation
FDS Duotex
8 pages
La Loi 113-13
Pas encore d'évaluation
La Loi 113-13
35 pages
Couleurs en français : vocabulaire essentiel
Pas encore d'évaluation
Couleurs en français : vocabulaire essentiel
5 pages
Titration de L'acide Nitrique
Pas encore d'évaluation
Titration de L'acide Nitrique
3 pages
Bettina de Pauw - Entretien
Pas encore d'évaluation
Bettina de Pauw - Entretien
6 pages
Tous Les Produits Jumia Côte D'ivoire
Pas encore d'évaluation
Tous Les Produits Jumia Côte D'ivoire
1 page
Exercices Statistique 3e Sunudaara
Pas encore d'évaluation
Exercices Statistique 3e Sunudaara
1 page
Dictees Ce2
Pas encore d'évaluation
Dictees Ce2
6 pages
Méthodologie Du Recueil D'informations
100% (3)
Méthodologie Du Recueil D'informations
212 pages
Iso Frances
Pas encore d'évaluation
Iso Frances
2 pages
Series de Fourier
Pas encore d'évaluation
Series de Fourier
11 pages
Corrigé des exercices sur les suites et intégrales
Pas encore d'évaluation
Corrigé des exercices sur les suites et intégrales
14 pages
Les Principaux Moyens de Reconnaissance
Pas encore d'évaluation
Les Principaux Moyens de Reconnaissance
16 pages
Cours de Dietetique 3e HTN Corrigé
Pas encore d'évaluation
Cours de Dietetique 3e HTN Corrigé
85 pages
Séparateurs d'huile : technologie et installation
Pas encore d'évaluation
Séparateurs d'huile : technologie et installation
2 pages
Examen de Métrologie et Statistiques
Pas encore d'évaluation
Examen de Métrologie et Statistiques
8 pages
Activites de Langue 4 Les Indicateurs Spatio Temporels
Pas encore d'évaluation
Activites de Langue 4 Les Indicateurs Spatio Temporels
3 pages
BOKY
100% (1)
BOKY
38 pages
1997 BMW 540i 4.4L MFI DOHC 8cyl Guides de Réparation de Segments de Piston
Pas encore d'évaluation
1997 BMW 540i 4.4L MFI DOHC 8cyl Guides de Réparation de Segments de Piston
5 pages