Introduction à la fouille de données
Introduction à la fouille de données
Fouille de données
M. Ledmi
m_ledmi@[Link]
Département d’Informatique Khenchela
2020/2021
Plan
1 Introduction
2 Fouille de données
Tâches de fouille de données
1 Introduction
2 Fouille de données
Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).
Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).
Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).
Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).
Solution !
Par analogie à la recherche des pépites d’or dans un gisement, la fouille
de données vise à :
Extraire des informations cachées par analyse globale ;
Découvrir des modèles (“patterns”) difficiles à percevoir car :
Le volume de données est très grand
Le nombre de variables à considérer est important
Ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier).
1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB
1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB
1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB
1
JAN Historique
1960s : Collecte des données, création des BD’s.
1970s : Modèle et SGBD’s relationnels, SQL, transactions.
1980s : Modèles de données et SGBD’s avancés (relationnel
étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s : Data mining et data warehousing, BD’s multimédia, BD’s
sur le WEB
Concept-clé : Donnée
Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.
Concept-clé : Donnée
Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.
Concept-clé : Donnée
Donnée
Une donnée est le résultat direct d’une mesure.
Elle peut être collectée par un outil de supervision, par une
personne ou être déjà présente dans une base de données par ex.
Une donnée seule ne permet pas de prendre une décision sur une
action à lancer.
Exemple :
Il fait 15° dans cette pièce.
Concept-clé : Information
Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.
Concept-clé : Information
Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.
Concept-clé : Information
Information
Une information est une donnée à laquelle un sens et une interprétation
ont été donnés.
Une information permet à un responsable opérationnel de prendre
une décision (d’échelle locale ou à petite échelle) sur une action à
mener.
Exemple :
les données précédentes sont interprétées de la manière suivante :
Il fait froid dans cette pièce.
Concept-clé : Connaissance
Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion
Concept-clé : Connaissance
Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion
Concept-clé : Connaissance
Connaissance
La connaissance est le résultat d’une réflexion sur les informations ana-
lysées en se basant sur :
ses expériences, ses idées, ses valeurs.
les avis d’autres personnes consultées pour l’occasion
Exemple :
Pour avoir chaud, il suffit de monter le chauffage.
1 Introduction
2 Fouille de données
Tâches de fouille de données
Introduction
Introduction
Introduction
Introduction
Introduction
Introduction
Introduction
Introduction
Introduction
Introduction
Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.
Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.
Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.
Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.
Fouille de données
Data mining
L’extraction des connaissances à partir des données est un processus
non trivial d’identification des modèles valides, nouveaux, potentielle-
ment utiles et au final compréhensibles, à partir de données.
Schéma de l’ECD
Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
Sélection
Collecte Entrepôts
Nettoyage de données
Integration
Sources de données
Schéma de l’ECD
Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
Sélection
Collecte Entrepôts
Nettoyage de données
Integration
Sources de données
Schéma de l’ECD
Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
2. Extractions des données cibles : Sélection
Collecte Entrepôts
Sélection d’un ensemble de données. Nettoyage de données
Integration
Concentrer sur un sous-ensemble de
variables.
Sources de données
Schéma de l’ECD
Fouille
Connaissance a priori, de l’application. de données
Modèles
Connaissance des objectifs à atteindre.
Transformation
2. Extractions des données cibles : Sélection
Collecte Entrepôts
Sélection d’un ensemble de données. Nettoyage de données
Integration
Concentrer sur un sous-ensemble de
variables.
Sources de données
Schéma de l’ECD
Fouille
augmente l’efficacité de l’extraction. de données
Modèles
Schéma de l’ECD
Fouille
augmente l’efficacité de l’extraction. de données
Modèles
Schéma de l’ECD
Fouille
augmente l’efficacité de l’extraction. de données
Modèles
Schéma de l’ECD
Fouille
augmente l’efficacité de l’extraction. de données
Modèles
Schéma de l’ECD
Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles
Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration
Sources de données
Schéma de l’ECD
Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles
Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration
Sources de données
Schéma de l’ECD
Evaluation
Interprétation
Connaîssances
4. Fouille de données : correspond à l’une Fouille
de données
ou plusieurs des tâches : Modèles
Classification, Transformation
Sélection
Clustering,
Collecte Entrepôts
Règles d’association , . . . etc. Nettoyage de données
Integration
Sources de données
Schéma de l’ECD
Evaluation
5. Interprétation : Interprétation
Connaîssances
l’utilisateur.
Sources de données
Schéma de l’ECD
Evaluation
5. Interprétation : Interprétation
Connaîssances
l’utilisateur.
Sources de données
Schéma de l’ECD
Evaluation
5. Interprétation : Interprétation
Connaîssances
l’utilisateur.
Sources de données
Schéma de l’ECD
Evaluation
Interprétation
Connaîssances
6. Utilisation des connaissances Fouille
de données
découvertes : Modèles
Sources de données
Schéma de l’ECD
Evaluation
Interprétation
Connaîssances
6. Utilisation des connaissances Fouille
de données
découvertes : Modèles
Sources de données
Tâches descriptives
caractérisent les propriétés des données contenues dans un ensemble de
données de cibles.
Tâches descriptives
caractérisent les propriétés des données contenues dans un ensemble de
données de cibles.
Tâches prédictives
effectuent une induction sur les données actuelles afin de faire des pré-
dictions.
Classification
Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.
Classification
Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.
Classification
Classification :
La classification (appelée aussi apprentissage supervisé) est le processus
de recherche d’un modèle (ou une fonction) qui décrit et distingue des
classes de données ou des concepts.
Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.
Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B
Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.
Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B
Arbre de décision
Un arbre de décision est un organigramme ayant une structure
arborescente où :
Chaque noeud représente un test sur une valeur d’attribut,
Chaque branche représente un résultat de test, et
Les feuilles représentent des classes.
Age ?
Jeune Senior
Revenu ? Classe C
Elevé Bas
Classe A Classe B
Réseau de neurones
f3 f7 Classe A
Age f1
f4 f8 Classe B
Revenu f2
f5 f9 Classe C
Réseau de neurones
f3 f7 Classe A
Age f1
f4 f8 Classe B
Revenu f2
f5 f9 Classe C
Autres classifieurs
Autres classifieurs
Autres classifieurs
Segmentation( Clustering)
La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.
Segmentation( Clustering)
La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.
Segmentation( Clustering)
La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.
Segmentation( Clustering)
La segmentation se rapporte à la
catégorisation d’un ensemble d’objets de
données dans des clusters.
Elle est aussi appelée classification non
supervisée.
Un cluster est une collection d’objets de
données :
Similaires les uns aux autres dans le même
segment,
Différents des objets dans d’autres segments.
Approches de clustering
Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.
Approches de clustering
Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.
Approches de clustering
Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.
Approches de clustering
Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.
Approches de clustering
Méthode de partitionnement :
Créer un partitionnement initial.
Utiliser une stratégie de contrôle itérative
pour l’optimiser.
Approches de clustering
Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.
Approches de clustering
Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.
Approches de clustering
Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.
Approches de clustering
Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.
Approches de clustering
Méthodes hiérarchiques :
Construire une hiérarchie de clusters (appelé
dendrogramme),
Non seulement un partitionnement unique
des objets.
Utiliser une condition de terminaison. (ex.
Nombre de clusters).
Méthodes basées sur la densité : utiliser les
fonctions de densité de voisinage.
Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,
Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,
Règles d’association
La fouille de règles d’association se rapporte à la découverte des relations
entre les attributs d’un ensemble de données appelé souvent ensemble des
transactions.
Une transaction est l’ensemble des articles achetés ensemble par les
clients.
Une règle est normalement exprimée sous la forme A ⇒ B, où A et B
sont des ensembles d’attributs de l’ensemble de données. Cela
implique que les transactions qui contiennent A contiennent B avec
une grande probabilité.
La règle peut s’écrire sous une autre forme :
SI <certaines conditions satisfaites > ALORS <prédire les valeurs
pour certains autres attributs>,
Règles d’association
Règles d’association
Règles d’association
Règles d’association