0% ont trouvé ce document utile (0 vote)
157 vues102 pages

Introduction à la fouille de données

Le document introduit le sujet de la fouille de données. Il présente les motivations de la fouille de données, notamment le problème de l'explosion des données et le besoin d'extraire des informations cachées. Le document décrit également l'évolution historique des bases de données.

Transféré par

Šməì Ĺĕ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
157 vues102 pages

Introduction à la fouille de données

Le document introduit le sujet de la fouille de données. Il présente les motivations de la fouille de données, notamment le problème de l'explosion des données et le besoin d'extraire des informations cachées. Le document décrit également l'évolution historique des bases de données.

Transféré par

Šməì Ĺĕ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction

Fouille de données

Introduction à la fouille de données

M. Ledmi
m_ledmi@[Link]
Département d’Informatique Khenchela

2020/2021

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Plan

1 Introduction

2 Fouille de données
Tâches de fouille de données

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Vous êtes ici

1 Introduction

2 Fouille de données

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Problème de l’explosion de données !

Les outils automatiques de collecte de données font que les bases


de données contiennent énormément de données.
Plusieurs sources de données :
Entrepôts du Web : ex. Google, youtube.
Réseaux sociaux et hébergement de documents : ex. Facebook, gmail.
e-commerce : Achats dans les supermarchés, transactions de cartes bancaires

Beaucoup de données mais peu de connaissances !


Difficulté d’accès à l’information.
Trop de pistes à explorer.
M. Ledmi Introduction à la fouille de données
Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Motivation : Le besoin crée l’invention

Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Evolution des Bases de Données

1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Evolution des Bases de Données

1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Evolution des Bases de Données

1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Evolution des Bases de Données

1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Donnée

Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Donnée

Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Donnée

Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.

Exemple :
Il fait 15° dans cette pièce.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Information

Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Information

Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Information

Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.

Exemple :
les données précédentes sont interprétées de la manière suivante :
Il fait froid dans cette pièce.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Connaissance

Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Connaissance

Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Concept-clé : Connaissance

Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion

Exemple :
Pour avoir chaud, il suffit de monter le chauffage.

M. Ledmi Introduction à la fouille de données


Introduction
Fouille de données

Quelques références bibliographiques

Data Mining : Concepts and techniques,


Auteur :Jiawei Han & Micheline Kamber,
Edition : Morgan Kaufmann, 2000.
Fouille de données, Notes de cours,
Auteur : Ph. PREUX, Université de Lille 3
Lien : http:\[Link]/~ppreux/fouille

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Vous êtes ici

1 Introduction

2 Fouille de données
Tâches de fouille de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

La révolution numérique a rendu l’information facile à être


capturer, traiter, stocker,
distribuer et transmettre.
Progrès et utilisation des technologies informatiques dans les différents
domaines de la vie,
Grandes quantités de données diverses continueront d’être collectées et
stockées dans les bases de données.
Si la quantité d’informations double tous les mois, la taille et le
nombre de bases de données augmente probablement à un rythme
similaire.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

La révolution numérique a rendu l’information facile à être


capturer, traiter, stocker,
distribuer et transmettre.
Progrès et utilisation des technologies informatiques dans les différents
domaines de la vie,
Grandes quantités de données diverses continueront d’être collectées et
stockées dans les bases de données.
Si la quantité d’informations double tous les mois, la taille et le
nombre de bases de données augmente probablement à un rythme
similaire.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

La révolution numérique a rendu l’information facile à être


capturer, traiter, stocker,
distribuer et transmettre.
Progrès et utilisation des technologies informatiques dans les différents
domaines de la vie,
Grandes quantités de données diverses continueront d’être collectées et
stockées dans les bases de données.
Si la quantité d’informations double tous les mois, la taille et le
nombre de bases de données augmente probablement à un rythme
similaire.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

La révolution numérique a rendu l’information facile à être


capturer, traiter, stocker,
distribuer et transmettre.
Progrès et utilisation des technologies informatiques dans les différents
domaines de la vie,
Grandes quantités de données diverses continueront d’être collectées et
stockées dans les bases de données.
Si la quantité d’informations double tous les mois, la taille et le
nombre de bases de données augmente probablement à un rythme
similaire.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

La révolution numérique a rendu l’information facile à être


capturer, traiter, stocker,
distribuer et transmettre.
Progrès et utilisation des technologies informatiques dans les différents
domaines de la vie,
Grandes quantités de données diverses continueront d’être collectées et
stockées dans les bases de données.
Si la quantité d’informations double tous les mois, la taille et le
nombre de bases de données augmente probablement à un rythme
similaire.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

L’extraction des connaissances à partir de ce grand volume est un défi :


Plus on a de données,
Plus il est difficile d’en tirer de la connaissance.
La fouille de données est une tentative
Explorer et d’analyser cet énorme volume de données afin d’y
découvrir de l’information implicite.
Règles d’association, une classification ou une segmentation de
population.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

L’extraction des connaissances à partir de ce grand volume est un défi :


Plus on a de données,
Plus il est difficile d’en tirer de la connaissance.
La fouille de données est une tentative
Explorer et d’analyser cet énorme volume de données afin d’y
découvrir de l’information implicite.
Règles d’association, une classification ou une segmentation de
population.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

L’extraction des connaissances à partir de ce grand volume est un défi :


Plus on a de données,
Plus il est difficile d’en tirer de la connaissance.
La fouille de données est une tentative
Explorer et d’analyser cet énorme volume de données afin d’y
découvrir de l’information implicite.
Règles d’association, une classification ou une segmentation de
population.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

L’extraction des connaissances à partir de ce grand volume est un défi :


Plus on a de données,
Plus il est difficile d’en tirer de la connaissance.
La fouille de données est une tentative
Explorer et d’analyser cet énorme volume de données afin d’y
découvrir de l’information implicite.
Règles d’association, une classification ou une segmentation de
population.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Introduction

L’extraction des connaissances à partir de ce grand volume est un défi :


Plus on a de données,
Plus il est difficile d’en tirer de la connaissance.
La fouille de données est une tentative
Explorer et d’analyser cet énorme volume de données afin d’y
découvrir de l’information implicite.
Règles d’association, une classification ou une segmentation de
population.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.

Valide : vérifiée par des experts du domaine et correcte dans le


futur.
Nouveau : Ce qui est recherché est non prévisible, inconnu.
Utile : utilisé pour prendre des décisions.
Compréhensible : significatif et facile à comprendre.
M. Ledmi Introduction à la fouille de données
Introduction
Tâches de fouille de données
Fouille de données

Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.

Valide : vérifiée par des experts du domaine et correcte dans le


futur.
Nouveau : Ce qui est recherché est non prévisible, inconnu.
Utile : utilisé pour prendre des décisions.
Compréhensible : significatif et facile à comprendre.
M. Ledmi Introduction à la fouille de données
Introduction
Tâches de fouille de données
Fouille de données

Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.

Valide : vérifiée par des experts du domaine et correcte dans le


futur.
Nouveau : Ce qui est recherché est non prévisible, inconnu.
Utile : utilisé pour prendre des décisions.
Compréhensible : significatif et facile à comprendre.
M. Ledmi Introduction à la fouille de données
Introduction
Tâches de fouille de données
Fouille de données

Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.

Valide : vérifiée par des experts du domaine et correcte dans le


futur.
Nouveau : Ce qui est recherché est non prévisible, inconnu.
Utile : utilisé pour prendre des décisions.
Compréhensible : significatif et facile à comprendre.
M. Ledmi Introduction à la fouille de données
Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

1. La compréhension du domaine Evaluation


Interprétation
d’application : Connaîssances

Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
Sélection

Collecte Entrepôts
Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

1. La compréhension du domaine Evaluation


Interprétation
d’application : Connaîssances

Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
Sélection

Collecte Entrepôts
Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

1. La compréhension du domaine Evaluation


Interprétation
d’application : Connaîssances

Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
2. Extractions des données cibles : Sélection

Collecte Entrepôts
Sélection d’un ensemble de données. Nettoyage de données
Integration
Concentrer sur un sous-ensemble de
variables.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

1. La compréhension du domaine Evaluation


Interprétation
d’application : Connaîssances

Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
2. Extractions des données cibles : Sélection

Collecte Entrepôts
Sélection d’un ensemble de données. Nettoyage de données
Integration
Concentrer sur un sous-ensemble de
variables.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

3. Prétraitements des données : Evaluation


Interprétation

améliore la qualité des données. Connaîssances

Fouille
augmente l’efficacité de l’extraction. de données
Modèles

Nettoyage : normalisation, suppression Transformation


du bruit , manipulation des données Sélection

manquantes. Collecte Entrepôts


Nettoyage de données
Integration
Intégration : multiples ensembles de
données hétérogènes.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

3. Prétraitements des données : Evaluation


Interprétation

améliore la qualité des données. Connaîssances

Fouille
augmente l’efficacité de l’extraction. de données
Modèles

Nettoyage : normalisation, suppression Transformation


du bruit , manipulation des données Sélection

manquantes. Collecte Entrepôts


Nettoyage de données
Integration
Intégration : multiples ensembles de
données hétérogènes.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

3. Prétraitements des données : Evaluation


Interprétation

améliore la qualité des données. Connaîssances

Fouille
augmente l’efficacité de l’extraction. de données
Modèles

Nettoyage : normalisation, suppression Transformation


du bruit , manipulation des données Sélection

manquantes. Collecte Entrepôts


Nettoyage de données
Integration
Intégration : multiples ensembles de
données hétérogènes.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

3. Prétraitements des données : Evaluation


Interprétation

améliore la qualité des données. Connaîssances

Fouille
augmente l’efficacité de l’extraction. de données
Modèles

Nettoyage : normalisation, suppression Transformation


du bruit , manipulation des données Sélection

manquantes. Collecte Entrepôts


Nettoyage de données
Integration
Intégration : multiples ensembles de
données hétérogènes.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles

Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles

Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles

Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
5. Interprétation : Interprétation
Connaîssances

Interprétation des modèles découverts, Fouille


de données
Modèles
Visualisation possible des modèles
extraits. Transformation
Sélection

Evaluer les modèles extraits pour Collecte Entrepôts


Nettoyage de données
identifier les modèles utiles pour Integration

l’utilisateur.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
5. Interprétation : Interprétation
Connaîssances

Interprétation des modèles découverts, Fouille


de données
Modèles
Visualisation possible des modèles
extraits. Transformation
Sélection

Evaluer les modèles extraits pour Collecte Entrepôts


Nettoyage de données
identifier les modèles utiles pour Integration

l’utilisateur.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
5. Interprétation : Interprétation
Connaîssances

Interprétation des modèles découverts, Fouille


de données
Modèles
Visualisation possible des modèles
extraits. Transformation
Sélection

Evaluer les modèles extraits pour Collecte Entrepôts


Nettoyage de données
identifier les modèles utiles pour Integration

l’utilisateur.
Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
Interprétation
Connaîssances
6. Utilisation des connaissances Fouille
de données
découvertes : Modèles

Intégration de ces connaissances dans Transformation


Sélection
des systèmes performants,
Collecte Entrepôts
Mettre à la disposition des décideurs. Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Schéma de l’ECD

Evaluation
Interprétation
Connaîssances
6. Utilisation des connaissances Fouille
de données
découvertes : Modèles

Intégration de ces connaissances dans Transformation


Sélection
des systèmes performants,
Collecte Entrepôts
Mettre à la disposition des décideurs. Nettoyage de données
Integration

Sources de données

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Tâches de fouille de données

Classées en deux catégories

Tâches descriptives
caractérisent les propriétés des données contenues dans un ensemble de
données de cibles.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Tâches de fouille de données

Classées en deux catégories

Tâches descriptives
caractérisent les propriétés des données contenues dans un ensemble de
données de cibles.

Tâches prédictives
effectuent une induction sur les données actuelles afin de faire des pré-
dictions.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Classification

Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Classification

Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.

Le modèle est établi en se basant sur l’analyse d’un ensemble de


données d’apprentissage.
il est utilisé pour prédire la classe d’objets dont la classe est
inconnue.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Classification

Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.

Le modèle est établi en se basant sur l’analyse d’un ensemble de


données d’apprentissage.
il est utilisé pour prédire la classe d’objets dont la classe est
inconnue.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.

Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.

Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.

Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Réseau de neurones

Un réseau de neurones est généralement une collection de neurones :


des unités de traitement,
des connexions pondérées entre les unités.

f3 f7 Classe A
Age f1
f4 f8 Classe B
Revenu f2
f5 f9 Classe C

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Réseau de neurones

Un réseau de neurones est généralement une collection de neurones :


des unités de traitement,
des connexions pondérées entre les unités.

f3 f7 Classe A
Age f1
f4 f8 Classe B
Revenu f2
f5 f9 Classe C

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Autres classifieurs

Les modèles probabilistes qui calculent les probabilités pour des


hypothèses basées sur le théorème de Bayes.
Les classifieurs plus proches voisins, qui calculent la distance minimale
à partir d’instances ou de prototypes.
Les règles de classification

Age(X,’Jeune’) ET Revenu(X,’Elevé’) → Classe(X,’A’)


Age(X,’Jeune’) ET Revenu(X,’Bas’) → Classe(X,’B’)
Age(X,’Senior’) → Classe(X,’C ’)

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Autres classifieurs

Les modèles probabilistes qui calculent les probabilités pour des


hypothèses basées sur le théorème de Bayes.
Les classifieurs plus proches voisins, qui calculent la distance minimale
à partir d’instances ou de prototypes.
Les règles de classification

Age(X,’Jeune’) ET Revenu(X,’Elevé’) → Classe(X,’A’)


Age(X,’Jeune’) ET Revenu(X,’Bas’) → Classe(X,’B’)
Age(X,’Senior’) → Classe(X,’C ’)

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Autres classifieurs

Les modèles probabilistes qui calculent les probabilités pour des


hypothèses basées sur le théorème de Bayes.
Les classifieurs plus proches voisins, qui calculent la distance minimale
à partir d’instances ou de prototypes.
Les règles de classification

Age(X,’Jeune’) ET Revenu(X,’Elevé’) → Classe(X,’A’)


Age(X,’Jeune’) ET Revenu(X,’Bas’) → Classe(X,’B’)
Age(X,’Senior’) → Classe(X,’C ’)

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la classification

Identification de signature des documents sensibles (correspondance,


aucune correspondance).
Identification d’empreinte digitale numérique dans des applications de
sécurité (correspondance, aucune correspondance).
Attribuer un crédit bancaire considérant de la qualité de la clientèle,
et les possibilités financières (bon, moyen, mauvais).
L’efficacité du traitement d’un médicament en présence d’un ensemble
de maladies symptômes (bon, moyen, mauvais).

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la classification

Identification de signature des documents sensibles (correspondance,


aucune correspondance).
Identification d’empreinte digitale numérique dans des applications de
sécurité (correspondance, aucune correspondance).
Attribuer un crédit bancaire considérant de la qualité de la clientèle,
et les possibilités financières (bon, moyen, mauvais).
L’efficacité du traitement d’un médicament en présence d’un ensemble
de maladies symptômes (bon, moyen, mauvais).

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la classification

Identification de signature des documents sensibles (correspondance,


aucune correspondance).
Identification d’empreinte digitale numérique dans des applications de
sécurité (correspondance, aucune correspondance).
Attribuer un crédit bancaire considérant de la qualité de la clientèle,
et les possibilités financières (bon, moyen, mauvais).
L’efficacité du traitement d’un médicament en présence d’un ensemble
de maladies symptômes (bon, moyen, mauvais).

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la classification

Identification de signature des documents sensibles (correspondance,


aucune correspondance).
Identification d’empreinte digitale numérique dans des applications de
sécurité (correspondance, aucune correspondance).
Attribuer un crédit bancaire considérant de la qualité de la clientèle,
et les possibilités financières (bon, moyen, mauvais).
L’efficacité du traitement d’un médicament en présence d’un ensemble
de maladies symptômes (bon, moyen, mauvais).

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Segmentation( Clustering)

La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Segmentation( Clustering)

La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Segmentation( Clustering)

La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Segmentation( Clustering)

La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Approches de clustering

Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la segmentation

La reconnaissance de formes et le traitement d’images.


Analyse des données spatiales : créer des cartes thématiques dans les
systèmes d’information géographique (SIG).
Bioinformatique : la détermination des groupes de signatures à partir
d’une base de données de gènes.
Web : clustering des fichiers log pour découvrir des modèles d’accès
similaires.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la segmentation

La reconnaissance de formes et le traitement d’images.


Analyse des données spatiales : créer des cartes thématiques dans les
systèmes d’information géographique (SIG).
Bioinformatique : la détermination des groupes de signatures à partir
d’une base de données de gènes.
Web : clustering des fichiers log pour découvrir des modèles d’accès
similaires.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la segmentation

La reconnaissance de formes et le traitement d’images.


Analyse des données spatiales : créer des cartes thématiques dans les
systèmes d’information géographique (SIG).
Bioinformatique : la détermination des groupes de signatures à partir
d’une base de données de gènes.
Web : clustering des fichiers log pour découvrir des modèles d’accès
similaires.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Exemples d’application de la segmentation

La reconnaissance de formes et le traitement d’images.


Analyse des données spatiales : créer des cartes thématiques dans les
systèmes d’information géographique (SIG).
Bioinformatique : la détermination des groupes de signatures à partir
d’une base de données de gènes.
Web : clustering des fichiers log pour découvrir des modèles d’accès
similaires.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association

Une règle d’association A ⇒ B peut être identifié lorsque le support et la


confiance de la règle sont largement supérieurs aux seuils respectifs.
Le support de la règle d’association est le rapport entre le nombre de
transactions contenant à la fois A et B sur le nombre total de
transactions dans la base de données.
La confiance de la règle d’association est la proportion du nombre de
transactions contenant à la fois A et B sur le nombre total de
transactions contenant A.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association

Une règle d’association A ⇒ B peut être identifié lorsque le support et la


confiance de la règle sont largement supérieurs aux seuils respectifs.
Le support de la règle d’association est le rapport entre le nombre de
transactions contenant à la fois A et B sur le nombre total de
transactions dans la base de données.
La confiance de la règle d’association est la proportion du nombre de
transactions contenant à la fois A et B sur le nombre total de
transactions contenant A.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association

Par exemple, la règle :


Age(X, 20..29)∧ revenu(X, 40000..49000) ⇒ achète(X , “Ordinatur portable”)
( support 2%, confiance 60%)
signifie que :
2% des clients sont âgés de 20 à 29 ans ayant un revenu compris entre
40.000 et 49.000 et ont achetés un ordinateur portable.
Il y a une probabilité de 60% qu’un client dans cet intervalle d’âge et
de revenu va acheter un ordinateur portable.

M. Ledmi Introduction à la fouille de données


Introduction
Tâches de fouille de données
Fouille de données

Règles d’association

Par exemple, la règle :


Age(X, 20..29)∧ revenu(X, 40000..49000) ⇒ achète(X , “Ordinatur portable”)
( support 2%, confiance 60%)
signifie que :
2% des clients sont âgés de 20 à 29 ans ayant un revenu compris entre
40.000 et 49.000 et ont achetés un ordinateur portable.
Il y a une probabilité de 60% qu’un client dans cet intervalle d’âge et
de revenu va acheter un ordinateur portable.

M. Ledmi Introduction à la fouille de données

Vous aimerez peut-être aussi