Cours Data mining
Master ID & PPDE
2020-2021
Pr. A. ELOUARDIGHI
[email protected]Architecture générale d’un Système décisionnel
Cours Datamining
Chapitre 1: Introduction Datamining
Définition et processus de Datamining
Tâches et les techniques de Datamining
Chapitre 2: Les techniques prédictives supervisées
Les techniques de régression et de classification
Validation des techniques prédictives
TD et études de cas en classification et régression
Chapitre 3: Les techniques descriptives non supervisées
Les techniques de segmentation
Les techniques d’association
TD et études de cas en segmentation et règles d’association
INTRODUCTION DATAMINING
PLAN
Définition du Datamining
Exemples d’applications
Description du processus de Datamining
Tâches et Techniques de Datamining
Exemples d’outils de Datamining
Introduction Datamining
Définition de Datamining
Vocabulaire:
Extraction de connaissances dans les données (ECD) ou Knowledge
discovery in DataBases (KDD) Fouille de données ou Datamining
Définition:
« Le terme Datamining correspond à l’ensemble des techniques et des
méthodes, qui à partir des données, permettant d’obtenir des connaissances
exploitable ».
Connaissance(s)
Données Processus
Introduction Datamining
Convergence de plusieurs disciplines
Datamining
Introduction Datamining
Exemples d’applications
Marketing: Ciblage, Fidélisation, Relation client… .
Gestion et analyse des marchés : Profils des consommateurs, modèle
d ’achat
Gestion et analyse de risque: Assurances, Banques …
Détection de fraudes : Télécommunications, utilisation des cartes
bancaires...
Gestion de stocks : Quand commander un produit, quelle quantité
demander
Introduction Datamining
Exemple
Entreprise : banque
Activité : Les prêts
Problème : accepter ou refuser une demande de crédit ?
Solution actuelle : évaluation de la solvabilité du client sur base de critères
définis par des gestionnaires expérimentés
Solution Datamining: Analyser la solvabilité observée lors des anciens
crédits
Anciens crédits Datamining Modèle (s)
Introduction Datamining
Anciens crédit
Introduction Datamining
Modélisation (Application d’une technique de Datamining)
Introduction Datamining
Modélisation (Application d’une technique de Datamining)
Introduction Datamining
Application du modèle sur de nouveaux clients
Mode de Catégorie Possède une
Profession Rang
rémunération d’âge carte
Hebdomadaire Jeune Cadre Oui
Mensuelle Agé Direction Oui
?
Mensuelle Moyen Cadre Oui
Introduction Datamining
Le processus de Datamining
Data
Collecte,
Préparation Mining
Nettoyage, Base de
des données Données
Intégration données d’apprentissage
Vérification & Modèles
Sources de Evaluation
données
Introduction Datamining
Processus de Data Mining
Compréhension du problème
Détermination des objectives et l’utilité de la connaissance
Production d’un plan de projet
Compréhension des données
Accès aux données (Format de stockage de données)
Description et l’exploration des données
Vérification de la qualité des données
Action sur les données
Nettoyage des données, données manquantes, données abérantes
Sélection de données: Base d’apprentissage et base de test.
Introduction Datamining
Processus de Data Mining
Recherche du modèle
Sélection de techniques de modélisation
Création de modèle utilisant la base d’apprentissage
Visualiser, évaluer et interpréter les modèles découverts
Explorer le modèle
Analyser la qualité du modèle utilisant la base de test
Introduction Datamining
Paramètres d’un processus DM
Technique(s) ?
Format, Type ?
Données Data Tâche ?
Mining
d’apprentissage
Type de
Modèles représentation ?
Introduction Datamining
Les différents formats de variables
Les différents formats de variables:
N.B: Le choix d’une technique de datamining peut dépendre du type des
données utilisées
Introduction Datamining
Deux grandes familles de méthodes
Méthodes prédictives ou supervisées
Méthodes descriptives ou non supervisées
Introduction Datamining
Les méthodes prédictives
Appelées aussi les méthodes supervisées
Exiges des variables d’entrées (inputs) et une variable de sortie
(output)
Deux grandes sous familles: Classification ou Régression
N.B: Il y a des méthodes qui font parti des deux familles: classification
ou régression
Introduction Datamining
Les méthodes prédictives: Classification
Classification: consiste à affecter chaque individu de la population
à une classe, parmi plusieurs classes prédéfinies
On parle aussi de discrimination ou scoring
La variable de sortie est non numérique
Classification Bi-classes si la variable de sortie prend que 2 valeurs,
Multi-classe si elle prend plusieurs valeurs (>2)
Exemples de méthodes de classification:
K plus proches voisins
Les arbres de décision et les forêts aléatoires
La régression logistique: Binaire, Multinomiale
Introduction Datamining
Les méthodes prédictive : Régression
Régression: consiste à estimer la valeur d’une variable continue en
fonction de d’autres variables,
La variable de sortie est continue
Exemple de méthodes régression:
La régression linéaire
K plus proches voisins
Les forêts aléatoires
Introduction Datamining
Les méthodes descriptives
Visent à mettre en évidence des informations présentes mais
cachées par le volume des données
Apprentissage non supervisé: Il n’y a pas de variable « cible » à
prédire
Trois sous familles: Segmentation, Association, Analyse factorielle
Introduction Datamining
Les méthodes descriptives
La segmentation ou clustering: Trouver dans l’espace de travail des
groupes homogènes d’individus ou de variables
Techniques de segmentation: K-means
Association: Trouver des règles d’association entre un ensemble
d’éléments avec un bon niveau de probabilité
Techniques d’association: Apriori, GRI
Analyse factorielle: Projection du nuage de points sur un espace de
dimension inférieure pour obtenir une visualisation de l’ensemble des
liaisons entre variables tout en minimisant la perte d’information
Techniques factorielles: ACP, AFC, AFCM
Introduction Datamining
Exemple d’outils et langages de programmation pour
Datamining
WEKA (Waikato Environment for Knowledge Analysis)
http://www.cs.waikato.ac.nz/ml/weka/
TANAGRA
http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html
RapidMiner
http://rapid-i.com/
R
http://www.r-project.org/
Python
https://www.python.org/
Introduction Datamining