Année universitaire 2020/2021
Introduction
Data Mining
FBR.2020-2020.ISG Tunis.
1
Introduction
Données Informations
Information présentée Une information est
sous forme une donnée à laquelle
conventionnelle, un sens et une
en vue d'être traitée interprétation ont été
donnés
Connaissances
Règles utilisant les
informations et les
données pour en
déduire d'autres
2
Introduction
3
Plan
• Motivation: Pourquoi le Data mining?
• Ce qu’est le Data mining?
• Data Mining: Sur quels types de données?
• Fonctionnalités du Data mining
• Intérêt des motifs (patterns)
• Classification des systèmes de Data mining
• Problèmes rencontrés
4
Motivation
Problème de l’explosion de données
Les outils automatiques de collecte de données font que les Bases de Données
(BD’s) contiennent énormément de données (Ex: La base de données des
transactions d’un super marché).
« Les volumes de données vont augmenter d’un facteur trente d’ici à 2025 pour
atteindre 35 zettaoctets (1021) au niveau mondial », affirme Sébastien Verger
5
Motivation
Motivation: Le besoin crée l’invention
Beaucoup de données mais peu de connaissances !
Solution: Data warehousing et data mining
Data warehousing et OLAP (On Line Analytical Processing)
Extraction de connaissances intéressantes (règles, régularités, patterns,
contraintes) à partir de données
6
Qu’est-ce que le data mining ?
Data mining :
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données.
Autres appellations:
• ECD (Extraction de Connaissances à partir de Données)
• KDD (Knowledge Discovery from Databases)
• Analyse de données/patterns, business intelligence,
fouille de données, etc …
7
Qu’est-ce que le data mining ?
Le data mining est
• l’ensemble des méthodes scientifiques
• destinées à l’exploration et l’analyse
• de (souvent) grandes bases de données informatiques
• en vue de détecter dans ces données des profils-type, des
comportements récurrents, des règles, des liens, des tendances
inconnues (non fixées a priori), des structures particulières
restituant de façon concise l’essentiel de l’information utile
• pour l’aide a la décision
Selon le MIT, le data mining est l’une des 10 technologies
emergentes qui changeront le monde au XXIe siecle
8
Qu’est-ce que le data mining ?
Le data mining est l’extraction des informations cachées dans des
bases de données volumineuses.
Comment ?
Utilisant des techniques d’analyse et d’apprentissage automatique et
des logiciels spécialisés.
9
Qu’est-ce que le data mining ?
Les 2 types de méthodes de data mining
• Les méthodes descriptives (recherche de patterns ):
o visent a mettre en évidence des informations présentes mais cachées par
le volume des données (c’est le cas des segmentations de clientèle et des
recherches d’associations de produits sur les tickets de caisse)
o réduisent, résument, synthétisent les données.
o il n’y a pas de variable a expliquer
• Les méthodes prédictives (modélisation) :
o visent a extrapoler de nouvelles informations a partir des informations
présentes.
o expliquent les données
o il y a une variable a expliquer 10
Pourquoi faire ?
Analyse de données et aide à la décision
• Analyse de marché
• Marketing ciblé, gestion des relations client, analyse des
achats des clients, ventes croisées, segmentation du marché
• Analyse de risque
• Détection de fraudes
Autres Applications
• Text mining : news groups, emails, documents Web.
• Optimisation des requêtes
11
Exemple Data mining
Analyse de marché et management
Les sources de données à analyser ?
Transactions avec carte de crédit, carte de fidélité, sondages
Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les mêmes
caractéristiques. Pour chaque groupe, adopter une démarche marketing
particulière
Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
12
Exemple Data mining
Applications
L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
L’analyse de données médicales :
Support pour la recherche
L’analyse de données financières :
Prédire l’évolution des actions
Organismes de crédit (dresser des profils de clients)
13
Exemple Data mining
Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de datamining pour
retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les accidents et les
remboursements
Blanchiment d’argent: détecter les transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)
14
Exemple Data mining
Applications
Demande de crédit bancaire:
• Célibataire ou marié?
• En retraite?
• Intervalle de salaire?
15
Exemple Data mining
16
Processus général du ECD
Le processus ECD (Extraction de connaissances à partir de données)
KDD – Knowledge discovery in Databases
• Graphes d'Induction
• Echantillonnage • Réseaux de neurones • Tests statistiques
• Préparation des données • Analyse discriminante • Re-échantillonnage
• Visualisation des données • Régression logistique
17
Processus du ECD
Data mining: étape clé dans Evaluation de patterns
l’extraction de connaissances
Data Mining
Données intéressantes
Data Warehouse Sélection
Nettoyage de données
Intégration
Bases de données ou fichiers
18
Etapes du Processus ECD
1. Comprendre le domaine d’application
2. Création d’un ensemble de données (sélection)
3. Nettoyage et pré-traitement des données (peut prendre 60% de l’effort)
4. Choix des fonctionnalités du data mining
• classification, consolidation, régression, association, clustering.
5. Choix de(s) l’algorithme(s) d’extraction
6. Datamining: Recherche des motifs (patterns) intéressants
7. Evaluation des Patterns et présentation
• visualisation, transformation, suppression des patterns redondants, etc.
8. Utilisation de la connaissance extraite
19
Architecture typique d’un système de Data Mining
Interface graphique
Evaluation des motifs
Module Data mining
Base de
BD ou Datawarehouse connaissances
Nettoyage & intégration Filtrage
Data
BD’s Warehouse
20
Data Mining: sur quels types de données
• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
o BD’s objet et objet-relationnelles
o BD’s spatiales
o Séries temporelles
o BD’s Textes et multimedia
o BD’s Hétérogènes
o WWW 21
Data Mining: Confluence de
plusieurs Disciplines
Technologie BD Statistique
Informatique
Apprentissage Data Mining Visualisation
Théorie de l’information Autres
Disciplines
22
Classification des systèmes
• Fonctionnalité générale
Data mining descriptif
Data mining prédictif
• Différentes vues, différentes classifications
Types de BD’s à fouiller
Types de connaissances à découvrir
Types de techniques utilisées
• Application ciblée
23
Classification des systèmes
BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active,
spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, clustering, statistiques,
visualisation, réseaux de neurones, arbre de décision, SVM etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, …
24
Problématiques
Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des experts
Langages de requête et data mining ad-hoc
Expression et visualisation des résultats
Prise en compte des données incomplètes ou avec bruit
Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …
25
Résumé
• Data Mining: Découverte de motifs intéressants à partir de grandes
quantités de données
• Une évolution naturelle de la technologie des SGBD, très demandée
par diverses applications
• Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
• La fouille peut se faire sur différents types d’entrepôts de données
• Fonctionnalités: discrimination, association, classification,
Clustering, analyse de tendances, etc.
• Classification de SDM
• Problématiques du data Mining
26