0% ont trouvé ce document utile (0 vote)
298 vues25 pages

Introduction au Data Mining et Techniques

Le document présente un cours sur le datamining. Il introduit les concepts clés du datamining comme les tâches, techniques et processus. Il décrit ensuite certaines techniques prédictives supervisées comme la classification et la régression ainsi que des techniques descriptives non supervisées comme la segmentation et l'association.

Transféré par

Hajar Hajar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
298 vues25 pages

Introduction au Data Mining et Techniques

Le document présente un cours sur le datamining. Il introduit les concepts clés du datamining comme les tâches, techniques et processus. Il décrit ensuite certaines techniques prédictives supervisées comme la classification et la régression ainsi que des techniques descriptives non supervisées comme la segmentation et l'association.

Transféré par

Hajar Hajar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Data mining

Master ID & PPDE


2020-2021
Pr. A. ELOUARDIGHI
[email protected]
Architecture générale d’un Système décisionnel
Cours Datamining

 Chapitre 1: Introduction Datamining


 Définition et processus de Datamining
 Tâches et les techniques de Datamining

 Chapitre 2: Les techniques prédictives supervisées


 Les techniques de régression et de classification
 Validation des techniques prédictives
 TD et études de cas en classification et régression

 Chapitre 3: Les techniques descriptives non supervisées


 Les techniques de segmentation

 Les techniques d’association

 TD et études de cas en segmentation et règles d’association


INTRODUCTION DATAMINING
PLAN

 Définition du Datamining

 Exemples d’applications

 Description du processus de Datamining

 Tâches et Techniques de Datamining

 Exemples d’outils de Datamining

Introduction Datamining
Définition de Datamining

 Vocabulaire:
Extraction de connaissances dans les données (ECD) ou Knowledge
discovery in DataBases (KDD) Fouille de données ou Datamining
 Définition:
« Le terme Datamining correspond à l’ensemble des techniques et des
méthodes, qui à partir des données, permettant d’obtenir des connaissances
exploitable ».

Connaissance(s)
Données Processus

Introduction Datamining
Convergence de plusieurs disciplines

Datamining

Introduction Datamining
Exemples d’applications

 Marketing: Ciblage, Fidélisation, Relation client… .


 Gestion et analyse des marchés : Profils des consommateurs, modèle
d ’achat
 Gestion et analyse de risque: Assurances, Banques …
 Détection de fraudes : Télécommunications, utilisation des cartes
bancaires...
 Gestion de stocks : Quand commander un produit, quelle quantité
demander

Introduction Datamining
Exemple

 Entreprise : banque
 Activité : Les prêts
 Problème : accepter ou refuser une demande de crédit ?
 Solution actuelle : évaluation de la solvabilité du client sur base de critères
définis par des gestionnaires expérimentés
 Solution Datamining: Analyser la solvabilité observée lors des anciens
crédits

Anciens crédits Datamining Modèle (s)

Introduction Datamining
Anciens crédit

Introduction Datamining
Modélisation (Application d’une technique de Datamining)

Introduction Datamining
Modélisation (Application d’une technique de Datamining)

Introduction Datamining
Application du modèle sur de nouveaux clients

Mode de Catégorie Possède une


Profession Rang
rémunération d’âge carte

Hebdomadaire Jeune Cadre Oui

Mensuelle Agé Direction Oui


?
Mensuelle Moyen Cadre Oui

Introduction Datamining
Le processus de Datamining

Data
Collecte,
Préparation Mining
Nettoyage, Base de
des données Données
Intégration données d’apprentissage

Vérification & Modèles


Sources de Evaluation
données

Introduction Datamining
Processus de Data Mining

Compréhension du problème
 Détermination des objectives et l’utilité de la connaissance
 Production d’un plan de projet

Compréhension des données


 Accès aux données (Format de stockage de données)
 Description et l’exploration des données
 Vérification de la qualité des données

Action sur les données


 Nettoyage des données, données manquantes, données abérantes
 Sélection de données: Base d’apprentissage et base de test.

Introduction Datamining
Processus de Data Mining

Recherche du modèle
 Sélection de techniques de modélisation
 Création de modèle utilisant la base d’apprentissage

Visualiser, évaluer et interpréter les modèles découverts


 Explorer le modèle
 Analyser la qualité du modèle utilisant la base de test

Introduction Datamining
Paramètres d’un processus DM

Technique(s) ?
Format, Type ?

Données Data Tâche ?


Mining
d’apprentissage

Type de
Modèles représentation ?

Introduction Datamining
Les différents formats de variables

Les différents formats de variables:

N.B: Le choix d’une technique de datamining peut dépendre du type des


données utilisées
Introduction Datamining
Deux grandes familles de méthodes

 Méthodes prédictives ou supervisées

 Méthodes descriptives ou non supervisées

Introduction Datamining
Les méthodes prédictives

 Appelées aussi les méthodes supervisées

 Exiges des variables d’entrées (inputs) et une variable de sortie


(output)

 Deux grandes sous familles: Classification ou Régression

 N.B: Il y a des méthodes qui font parti des deux familles: classification
ou régression

Introduction Datamining
Les méthodes prédictives: Classification

 Classification: consiste à affecter chaque individu de la population


à une classe, parmi plusieurs classes prédéfinies
 On parle aussi de discrimination ou scoring
 La variable de sortie est non numérique

 Classification Bi-classes si la variable de sortie prend que 2 valeurs,


Multi-classe si elle prend plusieurs valeurs (>2)
 Exemples de méthodes de classification:
 K plus proches voisins
 Les arbres de décision et les forêts aléatoires
 La régression logistique: Binaire, Multinomiale

Introduction Datamining
Les méthodes prédictive : Régression

 Régression: consiste à estimer la valeur d’une variable continue en


fonction de d’autres variables,

 La variable de sortie est continue

 Exemple de méthodes régression:

 La régression linéaire
K plus proches voisins
Les forêts aléatoires

Introduction Datamining
Les méthodes descriptives

 Visent à mettre en évidence des informations présentes mais


cachées par le volume des données

 Apprentissage non supervisé: Il n’y a pas de variable « cible » à


prédire

 Trois sous familles: Segmentation, Association, Analyse factorielle

Introduction Datamining
Les méthodes descriptives

 La segmentation ou clustering: Trouver dans l’espace de travail des


groupes homogènes d’individus ou de variables
 Techniques de segmentation: K-means
 Association: Trouver des règles d’association entre un ensemble
d’éléments avec un bon niveau de probabilité
 Techniques d’association: Apriori, GRI
 Analyse factorielle: Projection du nuage de points sur un espace de
dimension inférieure pour obtenir une visualisation de l’ensemble des
liaisons entre variables tout en minimisant la perte d’information
 Techniques factorielles: ACP, AFC, AFCM

Introduction Datamining
Exemple d’outils et langages de programmation pour
Datamining

 WEKA (Waikato Environment for Knowledge Analysis)


 http://www.cs.waikato.ac.nz/ml/weka/

 TANAGRA
 http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html

 RapidMiner
 http://rapid-i.com/

R
 http://www.r-project.org/

 Python
 https://www.python.org/

Introduction Datamining

Vous aimerez peut-être aussi