Data mining
C1: Généralités sur le Data mining
Dr. Gomis
L3 AS/ ENSAE
25 novembre 2023
Data mining 2
Plan
Définition et Origines du Data mining
Data mining et Statistique
Domaines d’applications du data mining
Les tâches du Data mining
Références
Dr. Gomis Data mining 2
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances
I Besoin d’une analyse automatisée de données massives
Dr. Gomis Data mining 3
Data mining 3
Définition et Origines du Data mining
Introduction
I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances
I Besoin d’une analyse automatisée de données massives
I Découverte de connaissances à partir de données
Dr. Gomis Data mining 3
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Dr. Gomis Data mining 4
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
Dr. Gomis Data mining 4
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
Dr. Gomis Data mining 4
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision
Dr. Gomis Data mining 4
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision
I passer d’une décision basée sur des hypothèses construites de
manière empirique
Dr. Gomis Data mining 4
Data mining 4
Définition et Origines du Data mining
Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision
I passer d’une décision basée sur des hypothèses construites de
manière empirique
I à une décision basée sur des hypothèses vérifiées quantitativement
Dr. Gomis Data mining 4
Data mining 5
Définition et Origines du Data mining
Découverte des connaissances
Le Data mining n’est qu’une partie (cruciale) du processus de
découverte des connaissances [ ?]
Dr. Gomis Data mining 5
Data mining 6
Définition et Origines du Data mining
Origines du Data mining
Le terme "Knowledge Discovery in Databases" [Gregory
Piatetsky-Shapiro, 1989]
Le terme "data mining" est né dans la communauté des bases de
données en 1990
Dr. Gomis Data mining 6
Data mining 7
Définition et Origines du Data mining
Processus de Data mining
CRISP-DM : Cross Industry Standard Process for Data Mining
Dr. Gomis Data mining 7
Data mining 8
Définition et Origines du Data mining
Processus de Data mining
Phase 1 : Compréhension du métier
Dr. Gomis Data mining 8
Data mining 8
Définition et Origines du Data mining
Processus de Data mining
Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité
Dr. Gomis Data mining 8
Data mining 8
Définition et Origines du Data mining
Processus de Data mining
Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité
I Évaluer la situation
Dr. Gomis Data mining 8
Data mining 8
Définition et Origines du Data mining
Processus de Data mining
Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité
I Évaluer la situation
I Déterminer les objectifs (de l’entreprise)
Dr. Gomis Data mining 8
Data mining 9
Définition et Origines du Data mining
Processus de Data mining
Phase 2 : Compréhension des données
Dr. Gomis Data mining 9
Data mining 9
Définition et Origines du Data mining
Processus de Data mining
Phase 2 : Compréhension des données
I Acquisition des données
Identifier les sources de données, collecter et intégrer les données
Dr. Gomis Data mining 9
Data mining 9
Définition et Origines du Data mining
Processus de Data mining
Phase 2 : Compréhension des données
I Acquisition des données
Identifier les sources de données, collecter et intégrer les données
I Exploration des données
Comprendre la nature des données et effectuer une analyse
préliminaire
Dr. Gomis Data mining 9
Data mining 10
Définition et Origines du Data mining
Processus de Data mining
Phase 3 : Préparation des données
Dr. Gomis Data mining 10
Data mining 10
Définition et Origines du Data mining
Processus de Data mining
Phase 3 : Préparation des données
I Traiter les problèmes de qualité (nettoyage, etc.)
Dr. Gomis Data mining 10
Data mining 10
Définition et Origines du Data mining
Processus de Data mining
Phase 3 : Préparation des données
I Traiter les problèmes de qualité (nettoyage, etc.)
I Sélectionner les caractéristiques à utiliser
Dr. Gomis Data mining 10
Data mining 10
Définition et Origines du Data mining
Processus de Data mining
Phase 3 : Préparation des données
I Traiter les problèmes de qualité (nettoyage, etc.)
I Sélectionner les caractéristiques à utiliser
I Traiter les données pour la modélisation
Effectuer tous les pré-traitements nécessaires (transformation, etc.)
Dr. Gomis Data mining 10
Data mining 11
Définition et Origines du Data mining
Processus de Data mining
Phase 4 : Modélisation
Dr. Gomis Data mining 11
Data mining 11
Définition et Origines du Data mining
Processus de Data mining
Phase 4 : Modélisation
I Déterminer le type de problème
Dr. Gomis Data mining 11
Data mining 11
Définition et Origines du Data mining
Processus de Data mining
Phase 4 : Modélisation
I Déterminer le type de problème
I Sélectionner les techniques de modélisation
Dr. Gomis Data mining 11
Data mining 11
Définition et Origines du Data mining
Processus de Data mining
Phase 4 : Modélisation
I Déterminer le type de problème
I Sélectionner les techniques de modélisation
I Construire un modèle
Dr. Gomis Data mining 11
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite
Phase 6 : Déploiement
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite
Phase 6 : Déploiement
I Produire un rapport final
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite
Phase 6 : Déploiement
I Produire un rapport final
I Déployer le modèle
Dr. Gomis Data mining 12
Data mining 12
Définition et Origines du Data mining
Processus de Data mining
Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite
Phase 6 : Déploiement
I Produire un rapport final
I Déployer le modèle
I Surveiller le modèle
Dr. Gomis Data mining 12
Data mining 13
Data mining et Statistique
Data mining plus complexe
I Les méthodes de data mining sont certainement plus complexes
que celles de la statistique descriptive élémentaire [ ?].
Dr. Gomis Data mining 13
Data mining 13
Data mining et Statistique
Data mining plus complexe
I Les méthodes de data mining sont certainement plus complexes
que celles de la statistique descriptive élémentaire [ ?].
I Elles s’appuient sur des outils d’intelligence artificielle (réseaux de
neurones), sur la théorie de l’information (arbres de décision) et,
surtout, sur la statistique inférentielle et l’analyse "classique" des
données (analyse factorielle, clustering, analyse discriminante...) [ ?]
Dr. Gomis Data mining 13
Data mining 14
Data mining et Statistique
Statistique
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Data mining
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Data mining
I Des millions d’individus
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Data mining
I Des millions d’individus
I Des centaines de variables
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Data mining
I Des millions d’individus
I Des centaines de variables
I Données recueillies sans étude préalable
Dr. Gomis Data mining 14
Data mining 14
Data mining et Statistique
Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire
Data mining
I Des millions d’individus
I Des centaines de variables
I Données recueillies sans étude préalable
I Nécessité d’une puissance de calculs (GPU, TPU)
Dr. Gomis Data mining 14
Data mining 15
Domaines d’applications du data mining
Applications du Data mining
I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
Dr. Gomis Data mining 15
Data mining 15
Domaines d’applications du data mining
Applications du Data mining
I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
Dr. Gomis Data mining 15
Data mining 15
Domaines d’applications du data mining
Applications du Data mining
I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins
Dr. Gomis Data mining 15
Data mining 15
Domaines d’applications du data mining
Applications du Data mining
I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins
I Les organisations qui filtrent, sélectionnent et interprètent le mieux
les données vont avoir plus de chances pour survivre [ ?]
Dr. Gomis Data mining 15
Data mining 15
Domaines d’applications du data mining
Applications du Data mining
I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins
I Les organisations qui filtrent, sélectionnent et interprètent le mieux
les données vont avoir plus de chances pour survivre [ ?]
I ...
Dr. Gomis Data mining 15
Data mining 16
Domaines d’applications du data mining
Le data mining par secteur d’activité
Dr. Gomis Data mining 16
Data mining 17
Les tâches du Data mining
Tâches descriptives ou prédictives
En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
Dr. Gomis Data mining 17
Data mining 17
Les tâches du Data mining
Tâches descriptives ou prédictives
En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions
Dr. Gomis Data mining 17
Data mining 17
Les tâches du Data mining
Tâches descriptives ou prédictives
En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions
Dr. Gomis Data mining 17
Data mining 17
Les tâches du Data mining
Tâches descriptives ou prédictives
En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions
Dr. Gomis Data mining 17
Data mining 18
Les tâches du Data mining
Exploration descriptive
Dr. Gomis Data mining 18
Data mining 19
Les tâches du Data mining
Exploration prédictive
Dr. Gomis Data mining 19
Data mining 20
Références
Max Bramer. Principles of Data mining. Third Edition, Springer, 2016
Charu C. Aggarwal. Data Mining : The Textbook, springer, 2015
Cesar Perez Lopez. DATA MINING. The CRISP-DM METHODOLOGY.
The CLEM language and IBM SPSS MODELER
Dr. Gomis Data mining 20
Data mining 21
Références
Fin du chapitre
Merci de votre attention
Dr. Gomis Data mining 21