0% ont trouvé ce document utile (0 vote)
15 vues68 pages

Chap1 DM

Le document présente une introduction au Data mining, définissant ses origines, ses processus et ses applications dans divers domaines. Il souligne l'importance de l'analyse automatisée des données massives à l'ère numérique, ainsi que la nécessité de limiter la subjectivité humaine dans le processus décisionnel. Le Data mining est décrit comme une étape cruciale dans le processus de découverte de connaissances à partir de données.

Transféré par

Faical Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
15 vues68 pages

Chap1 DM

Le document présente une introduction au Data mining, définissant ses origines, ses processus et ses applications dans divers domaines. Il souligne l'importance de l'analyse automatisée des données massives à l'ère numérique, ainsi que la nécessité de limiter la subjectivité humaine dans le processus décisionnel. Le Data mining est décrit comme une étape cruciale dans le processus de découverte de connaissances à partir de données.

Transféré par

Faical Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data mining

C1: Généralités sur le Data mining

Dr. Gomis
L3 AS/ ENSAE

25 novembre 2023
Data mining 2

Plan

Définition et Origines du Data mining

Data mining et Statistique

Domaines d’applications du data mining

Les tâches du Data mining

Références

Dr. Gomis Data mining 2


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances
I Besoin d’une analyse automatisée de données massives

Dr. Gomis Data mining 3


Data mining 3
Définition et Origines du Data mining

Introduction

I À l’ère du numérique
I La vie quotidienne des gens
I La découverte scientifique
I Pourquoi le Data Mining ?
I Croissance explosive des données
(KB, MB, GB, TB, PB, EB, ZB, YB)
I Noyés dans les données et affamés de connaissances
I Besoin d’une analyse automatisée de données massives
I Découverte de connaissances à partir de données

Dr. Gomis Data mining 3


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]

Dr. Gomis Data mining 4


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts

Dr. Gomis Data mining 4


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel

Dr. Gomis Data mining 4


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision

Dr. Gomis Data mining 4


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision
I passer d’une décision basée sur des hypothèses construites de
manière empirique

Dr. Gomis Data mining 4


Data mining 4
Définition et Origines du Data mining

Introduction
Qu’est que le Data mining ?
Le Data mining (fouille de données) est l’étude de la collecte, du
nettoyage, du traitement, de l’analyse et de l’obtention de
renseignements utiles à partir de données [ ?]
Intérêts
I Tirer parti des informations historisées disponibles autour d’une
problématique de recherche ou d’un cas industriel
I Limiter la subjectivité humaine dans le processus de décision
I passer d’une décision basée sur des hypothèses construites de
manière empirique
I à une décision basée sur des hypothèses vérifiées quantitativement
Dr. Gomis Data mining 4
Data mining 5
Définition et Origines du Data mining

Découverte des connaissances

Le Data mining n’est qu’une partie (cruciale) du processus de


découverte des connaissances [ ?]
Dr. Gomis Data mining 5
Data mining 6
Définition et Origines du Data mining

Origines du Data mining

Le terme "Knowledge Discovery in Databases" [Gregory


Piatetsky-Shapiro, 1989]
Le terme "data mining" est né dans la communauté des bases de
données en 1990
Dr. Gomis Data mining 6
Data mining 7
Définition et Origines du Data mining

Processus de Data mining


CRISP-DM : Cross Industry Standard Process for Data Mining

Dr. Gomis Data mining 7


Data mining 8
Définition et Origines du Data mining

Processus de Data mining


Phase 1 : Compréhension du métier

Dr. Gomis Data mining 8


Data mining 8
Définition et Origines du Data mining

Processus de Data mining


Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité

Dr. Gomis Data mining 8


Data mining 8
Définition et Origines du Data mining

Processus de Data mining


Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité

I Évaluer la situation

Dr. Gomis Data mining 8


Data mining 8
Définition et Origines du Data mining

Processus de Data mining


Phase 1 : Compréhension du métier
I Définir le problème ou l’opportunité

I Évaluer la situation
I Déterminer les objectifs (de l’entreprise)
Dr. Gomis Data mining 8
Data mining 9
Définition et Origines du Data mining

Processus de Data mining

Phase 2 : Compréhension des données

Dr. Gomis Data mining 9


Data mining 9
Définition et Origines du Data mining

Processus de Data mining

Phase 2 : Compréhension des données


I Acquisition des données
Identifier les sources de données, collecter et intégrer les données

Dr. Gomis Data mining 9


Data mining 9
Définition et Origines du Data mining

Processus de Data mining

Phase 2 : Compréhension des données


I Acquisition des données
Identifier les sources de données, collecter et intégrer les données
I Exploration des données
Comprendre la nature des données et effectuer une analyse
préliminaire

Dr. Gomis Data mining 9


Data mining 10
Définition et Origines du Data mining

Processus de Data mining

Phase 3 : Préparation des données

Dr. Gomis Data mining 10


Data mining 10
Définition et Origines du Data mining

Processus de Data mining

Phase 3 : Préparation des données


I Traiter les problèmes de qualité (nettoyage, etc.)

Dr. Gomis Data mining 10


Data mining 10
Définition et Origines du Data mining

Processus de Data mining

Phase 3 : Préparation des données


I Traiter les problèmes de qualité (nettoyage, etc.)
I Sélectionner les caractéristiques à utiliser

Dr. Gomis Data mining 10


Data mining 10
Définition et Origines du Data mining

Processus de Data mining

Phase 3 : Préparation des données


I Traiter les problèmes de qualité (nettoyage, etc.)
I Sélectionner les caractéristiques à utiliser
I Traiter les données pour la modélisation
Effectuer tous les pré-traitements nécessaires (transformation, etc.)

Dr. Gomis Data mining 10


Data mining 11
Définition et Origines du Data mining

Processus de Data mining


Phase 4 : Modélisation

Dr. Gomis Data mining 11


Data mining 11
Définition et Origines du Data mining

Processus de Data mining


Phase 4 : Modélisation
I Déterminer le type de problème

Dr. Gomis Data mining 11


Data mining 11
Définition et Origines du Data mining

Processus de Data mining


Phase 4 : Modélisation
I Déterminer le type de problème
I Sélectionner les techniques de modélisation

Dr. Gomis Data mining 11


Data mining 11
Définition et Origines du Data mining

Processus de Data mining


Phase 4 : Modélisation
I Déterminer le type de problème
I Sélectionner les techniques de modélisation
I Construire un modèle

Dr. Gomis Data mining 11


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite

Phase 6 : Déploiement

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite

Phase 6 : Déploiement
I Produire un rapport final

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite

Phase 6 : Déploiement
I Produire un rapport final
I Déployer le modèle

Dr. Gomis Data mining 12


Data mining 12
Définition et Origines du Data mining

Processus de Data mining

Phase 5 : Évaluation
I Évaluer la performance du modèle
I Évaluer les résultats du modèle par rapport aux critères de réussite

Phase 6 : Déploiement
I Produire un rapport final
I Déployer le modèle
I Surveiller le modèle

Dr. Gomis Data mining 12


Data mining 13
Data mining et Statistique

Data mining plus complexe

I Les méthodes de data mining sont certainement plus complexes


que celles de la statistique descriptive élémentaire [ ?].

Dr. Gomis Data mining 13


Data mining 13
Data mining et Statistique

Data mining plus complexe

I Les méthodes de data mining sont certainement plus complexes


que celles de la statistique descriptive élémentaire [ ?].
I Elles s’appuient sur des outils d’intelligence artificielle (réseaux de
neurones), sur la théorie de l’information (arbres de décision) et,
surtout, sur la statistique inférentielle et l’analyse "classique" des
données (analyse factorielle, clustering, analyse discriminante...) [ ?]

Dr. Gomis Data mining 13


Data mining 14
Data mining et Statistique

Statistique

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Data mining

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Data mining
I Des millions d’individus

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Data mining
I Des millions d’individus
I Des centaines de variables

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Data mining
I Des millions d’individus
I Des centaines de variables
I Données recueillies sans étude préalable

Dr. Gomis Data mining 14


Data mining 14
Data mining et Statistique

Statistique
I Quelques centaines d’individus
I Quelques variables
I Fortes hypothèses sur les lois statistiques
I Importance accordée au calcul
I Échantillon aléatoire

Data mining
I Des millions d’individus
I Des centaines de variables
I Données recueillies sans étude préalable
I Nécessité d’une puissance de calculs (GPU, TPU)
Dr. Gomis Data mining 14
Data mining 15
Domaines d’applications du data mining

Applications du Data mining


I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée

Dr. Gomis Data mining 15


Data mining 15
Domaines d’applications du data mining

Applications du Data mining


I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.

Dr. Gomis Data mining 15


Data mining 15
Domaines d’applications du data mining

Applications du Data mining


I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins

Dr. Gomis Data mining 15


Data mining 15
Domaines d’applications du data mining

Applications du Data mining


I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins
I Les organisations qui filtrent, sélectionnent et interprètent le mieux
les données vont avoir plus de chances pour survivre [ ?]

Dr. Gomis Data mining 15


Data mining 15
Domaines d’applications du data mining

Applications du Data mining


I Certains supermarchés exploitent les données sur les transactions
de leurs clients pour optimiser le ciblage des clients à forte valeur
ajoutée
I Prédire la probabilité de défaut de paiement pour les demandes de
prêts à la consommation en améliorant la capacité à prédire les
mauvais prêts.
I Prédire la probabilité que les patients atteints de cancer répondent
à la chimiothérapie, réduisant ainsi les coûts des soins de santé
sans affecter la qualité des soins
I Les organisations qui filtrent, sélectionnent et interprètent le mieux
les données vont avoir plus de chances pour survivre [ ?]
I ...
Dr. Gomis Data mining 15
Data mining 16
Domaines d’applications du data mining

Le data mining par secteur d’activité

Dr. Gomis Data mining 16


Data mining 17
Les tâches du Data mining

Tâches descriptives ou prédictives


En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données

Dr. Gomis Data mining 17


Data mining 17
Les tâches du Data mining

Tâches descriptives ou prédictives


En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions

Dr. Gomis Data mining 17


Data mining 17
Les tâches du Data mining

Tâches descriptives ou prédictives


En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions

Dr. Gomis Data mining 17


Data mining 17
Les tâches du Data mining

Tâches descriptives ou prédictives


En général, les tâches de fouilles de données peuvent être classées en
deux catégories : descriptives et prédictives.
I Les tâches d’exploration descriptives caractérisent les propriétés
générales des données dans la base de données
I Les tâches d’exploration prédictive effectuent des inférences sur les
données actuelles afin de faire des prédictions

Dr. Gomis Data mining 17


Data mining 18
Les tâches du Data mining

Exploration descriptive

Dr. Gomis Data mining 18


Data mining 19
Les tâches du Data mining

Exploration prédictive

Dr. Gomis Data mining 19


Data mining 20
Références

Max Bramer. Principles of Data mining. Third Edition, Springer, 2016

Charu C. Aggarwal. Data Mining : The Textbook, springer, 2015

Cesar Perez Lopez. DATA MINING. The CRISP-DM METHODOLOGY.


The CLEM language and IBM SPSS MODELER

Dr. Gomis Data mining 20


Data mining 21
Références

Fin du chapitre

Merci de votre attention

Dr. Gomis Data mining 21

Vous aimerez peut-être aussi