0% ont trouvé ce document utile (0 vote)
46 vues91 pages

Data Mining

Le document présente une introduction aux techniques de Data Mining, qui consiste à analyser de grandes quantités de données pour identifier des tendances et des corrélations. Il aborde également les différents types de données, le processus de Data Mining, et des exemples d'applications dans divers secteurs tels que la finance, le marketing et le sport. Enfin, il souligne l'importance de l'extraction de connaissances à partir de bases de données pour améliorer la prise de décision stratégique.

Transféré par

samirathatchade
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues91 pages

Data Mining

Le document présente une introduction aux techniques de Data Mining, qui consiste à analyser de grandes quantités de données pour identifier des tendances et des corrélations. Il aborde également les différents types de données, le processus de Data Mining, et des exemples d'applications dans divers secteurs tels que la finance, le marketing et le sport. Enfin, il souligne l'importance de l'extraction de connaissances à partir de bases de données pour améliorer la prise de décision stratégique.

Transféré par

samirathatchade
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

Introduction aux techniques DataMining


Type des données & Prétraitement
Processus Data mining

A.Lyazidi ([email protected]) DataMining 1 / 91


Table of Contents
1 Introduction
2 KDD: Knowledge Discovery in Databases
3 Data Mining
4 Type de techniques de Data Mining
5 Types de données
6 Processus Data Mining
7 Prétraitement des données
8 Mesures d’évaluation

A.Lyazidi ([email protected]) DataMining 2 / 91


Introduction

Data Mining
- Technique d’analyse de données qui consiste à analyser de
grandes quantités de données pour y déceler des tendances

- But : repérer des corrélations ou des schémas au sein d’une


masse de données brutes

- Permet d’observer des liens entre des phénomènes apparemment


distincts et mettre ces conclusions au service d’une stratégie.

A.Lyazidi ([email protected]) DataMining 3 / 91


Utilisation
Le Data Mining est aujourd’hui appliqué dans une grande variété
de secteurs d’activité :
Recherche scientifique
Marketing
Education
Finance
Santé
...

- Permet d’analyser une grande quantité d’informations et de


résoudre des problèmes avec une rapidité spectaculaire (lié par
définition au Big Data).

- Formuler des prédictions et ajuster des stratégie future

A.Lyazidi ([email protected]) DataMining 4 / 91


Exemples
Exemple 1 : Lutte contre la fraude fiscale
- L’administration fiscale française utilise le Data Mining depuis
2014 pour l’aider dans sa traque des fraudeurs du fisc.
L’expérience a permis d’augmenter sa collecte d’impôts. Sur les
trois premiers trimestres de 2019, l’État avait enregistré 40% de
hausse par rapport à la somme collectée à la même date l’année
d’avant.

- Pour parvenir à ce résultat, l’administration fiscale a mis en


place un système de croisement des données des particuliers et des
professionnels. Le traitement automatisé et le recoupement de
données collectées auprès des contribuables ont permis de déceler
des fraudes passées inaperçues.

*Finances, Bourses, Assurances, Crédits


A.Lyazidi ([email protected]) DataMining 5 / 91
Exemple 2 : Les performances sportives
- Certaines équipes (Football, Basketball, ...) utilisent le Data
Mining pour améliorer le jeu de leurs joueurs. Les mouvements
des joueurs et les éléments du match sont enregistrés grâce à des
systèmes de suivi vidéo.

- Les analystes des équipes collectent et analysent une très grosse


quantité de données : les résultats antérieurs, les forces et les
faiblesses des équipes, les mouvements des joueurs, le déroulement
des matchs, ... Et grâce aux techniques de Data Mining, ces
mégadonnées livrent des conclusions sur les performances des
joueurs et des pronostics pour les matchs futurs.

*Paris Spostifs

A.Lyazidi ([email protected]) DataMining 6 / 91


Exemple 3 : Les super-marchés
- Les super-marchés et distributeurs utilisent le Data Mining pour
répondre aux attentes des clients. L’outil permet d’analyser
(parfois en temps réel) des mégadonnées pour avoir un rapide
aperçu des requêtes des clients.

Par exemple, grâce au Data Mining, ils parvienent à identifier les


heures, jours et mois de pointe. Ces informations permettent
d’optimiser le temps de travail des employés et la composition des
équipes, les livraisons, les shifts, ...

Les résultats permettent d’optimiser le fonctionnement et de


personnaliser l’expérience client : Répartition des rayons et
caisses, approvisionnement, assortiment des produits,
combinaisons, ...

*Marketing, Logistique
A.Lyazidi ([email protected]) DataMining 7 / 91
Exemple détaillé : Demande de crédit bancaire immo.
- Critères de bases :
Célibataire ou marié ?
Salarié, étudiant, commerçant, retraité ?
Intervalle de salaire, d’age
Propriétés acquises
Historique de comptes, de comportements financiers, ...

Homme (30), marié, salarié (7 ans), 2 enfants, propriétaire d’une


voiture, compte stable depuis les 5 dernières années, ...

Homme (45), divorcé, salarié (20 ans), 4 enfants à charge, aucune


propriété, compte toujours à découvert durant les 5 dernières
années, ...

A.Lyazidi ([email protected]) DataMining 8 / 91


Exemple détaillé : Stock de produits
- Cout d’achat
- Cout de stockage
- Possible arret d’activité/Retour des produits sans gains
- ...

Marketing : Liquidation, Promotion, Combinaisons, ...

A.Lyazidi ([email protected]) DataMining 9 / 91


Exemple détaillé : Elements de réseaux sociaux
- Cout de développement
- Cout de stockage des données (serveurs)
- Cout de maintenance et mises à jour
- ...

Satisfaction utilisateur (fidélisation → consommation) :


- Marketing ciblé (utilisateurs et créateurs)
- Optimisation d’utilisation

A.Lyazidi ([email protected]) DataMining 10 / 91


KDD: Knowledge Discovery in Databases

KDD : Knowledge Discovery in Databases


KDD = Extraction de Connaissances à partir des Données

Processus (semi)-automatique d’extraction de connaissances à


partir de bases de données où les connaissances sont :
valides
non connues a priori
potentiellement utiles

A.Lyazidi ([email protected]) DataMining 11 / 91


KDD: Knowledge Discovery in Databases

A.Lyazidi ([email protected]) DataMining 12 / 91


KDD: Knowledge Discovery in Databases

A.Lyazidi ([email protected]) DataMining 13 / 91


Motivations (1)

Explosion des données


- Masse importante de données (millions de milliards
d’instances) : quantité qui double tous les 20 mois → BDDs très
larges.

- Données multi-dimensionnelles (milliers d’attributs) : BDDs


denses non exploitables par les méthodes d’analyse classiques.

- Collecte de masses importantes de données (rythme de


Gbytes/heure)

- Besoin de traitement en temps réel de ces données pour un


meilleur rendement

A.Lyazidi ([email protected]) DataMining 14 / 91


Motivations (2)

Améliorer la productivité
- Forte pression due à la concurrence du marché

- Brièveté du cycle de vie des produits

- Besoin de prendre des décisions stratégiques efficaces :


Exploiter le vécu (données historiques) pour prédire le futur et
anticiper le marché

A.Lyazidi ([email protected]) DataMining 15 / 91


Motivations (3)

Croissance en coût
- Croissance en puissance/coût des machines capables :
de supporter de gros volumes de données
d’exécuter le processus intensif d’exploration

A.Lyazidi ([email protected]) DataMining 16 / 91


Motivations (4)
Supports hétérogènes
- Diversification des appareils intélligents et connectés utilisés
- Collecte de toute sorte de données, avec toute forme possible

A.Lyazidi ([email protected]) DataMining 17 / 91


Data Mining

Définition
Un processus permettant l’extraction de connaissances et
découverte de règle, relations, corrélations et/ou dépendances
sous la forme de modèles à partir de grandes masses de données

Modèles
Ces modèles peuvent être de nature :
Descriptive : permettant d’expliquer le comportement
actuel des données
Prédictive : comportement futur des données

A.Lyazidi ([email protected]) DataMining 18 / 91


Data Mining

Data Science : vocabulaire associé


- Reconnaissance des formes (pattern recognition)
- Apprentissage automatique (machine learning)
- Intelligence artificielle
- Fouille de données (data mining)
- Statistiques

Liaison avec des domaines différents, avec des intersections plus


ou moins grandes

A.Lyazidi ([email protected]) DataMining 19 / 91


Data Mining
La rencontre de plusieurs disciplines
- BDDs : Règles d’associations, ...
- Statistique : Régression, Maximum de vraisemblance, ...
- ML, DL & IA : Analyse discriminante, Apprentissage, Réseau de
neurone, ...

A.Lyazidi ([email protected]) DataMining 20 / 91


Data Mining : Positionnement

A.Lyazidi ([email protected]) DataMining 21 / 91


Data Mining vs Big data

Data Mining Big Data


Relation vs Volume travaille sur la relation entre se concentre sur un très grand vol-
les données ume de données non structurées
technique vs Concept une méthode scientifique un concept (voir un environ-
d’extraction nement)
Typologie de données des données structurées travaille sur des données com-
plexes et non structurées
Décision vs Prédiction un outil d’aide à la décision analyse de macro-statistiques
précis sur une question qui permettent d’établir des
prédictions basées sur un grand
volume de données

A.Lyazidi ([email protected]) DataMining 22 / 91


Data Mining vs BI

Data Mining BI
Volume Utiliser des ensembles de données Utilisation de grands ensembles de
de plus petite taille données pour trouver des informa-
tions
Style Utilise l’intelligence de calcul et Utilise le suivi des métriques pour
des algorithmes pour découvrir des obtenir des informations
modèles utiles
Résultat Donne des réponses à des questions Fournit des informations qui peu-
particulières vent aider à la prise de décision

A.Lyazidi ([email protected]) DataMining 23 / 91


Data Mining : Exemple d’application

Problématique
Un éditeur vend 5 sortes de magazines : sport, voiture, maison,
musique, cinéma.

Objectif
Il veut étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus à ses clients habituels.

A.Lyazidi ([email protected]) DataMining 24 / 91


Data Mining : Exemple d’application
Questions prédictives
1) Combien de personnes ont pris un abonnement à une magazine
de cinéma cette année ?

2) A-t-on vendu plus d’abonnement de magazines de sport cette


année que l’année dernière ?

3) Est-ce que les acheteurs de magazines de musique sont aussi


amateurs de cinéma ?

4) Quelles sont les caractéristiques principales des lecteurs de


magazine de cinéma ?

5) Peut-on prévoir les pertes de client et prévoir des mesures pour


les diminuer ?
A.Lyazidi ([email protected]) DataMining 25 / 91
Data Mining : Exemple d’application
Question Solution
Q1 Requête SQL à partir des données opérationnelles suf-
fit (les tables concernées suffisamment indexées)
Q2 Nécessite de garder toutes les dates de souscription,
même pour les abonnements résiliés: Requêtes multi-
dimensionnelles de type OLAP
Q3 - Exemple simplifié de problème où l’on demande si les
données vérifient une règle.
- Réponse formulée par une valeur estimant la proba-
bilité que la règle soit vraie.
- Utilisation d’outils statistiques/probabilités.
*Q4 *Question ouverte : il s’agit de trouver une règle et
non plus de la vérifier ou de l’utiliser
*Q5 *Question ouverte : il faut disposer d’indicateurs
comme durée d’abonnement, délai de paiement, ...
A.Lyazidi ([email protected]) DataMining 26 / 91
Data Mining : Exemple d’application

Synthèse
→ C’est pour ce type de questions que sont mis en œuvre les
outils de fouille de données.

Il ne s’agit pas de (re)trouver une information (somme, moyenne,


nombre de fois, ...) ou de confirmer une chose qui s’est passée,
mais de trouver (potentiellement) si une action peut être faite et
avec quelle estimation de réussite.

A.Lyazidi ([email protected]) DataMining 27 / 91


Data Mining : Domaine d’application

- Entreprise et Relation Clients : création de profils clients,


ciblage de clients potentiels et nouveaux marchés

- Bio-informatique : analyse du génome, ADN, ...

- Médecine : diagnostic, traitement, ...

- Internet : spam, e-commerce, détection d’intrusion, Sécurité

- Gestion et analyse de risque : Assurances, Banques, Fraud

- App : Web mining, Text mining, Web scraping

A.Lyazidi ([email protected]) DataMining 28 / 91


Data Mining : Exemple E-commerce

Targeting
- Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs

- Faire du ”targeting” lors de la visite d’un client potentiel

Systèmes de recommandation
Opportunité : les clients notent les produits ! Comment tirer
profit de ces données pour proposer des produits à un autre client

Solutions : technique de filtrage collaboratif pour regrouper les


clients ayant les mêmes ”goûts”.

A.Lyazidi ([email protected]) DataMining 29 / 91


Data Mining : Exemple E-commerce

- Classifier (Classes/kluster) : groupes d’utilisateurs (visiteur ou


profil) avec les mêmes qualités, comportement, envies, idées, ...

- Suivre et mettre à jour cette classification régulièrement.

- Création de pattern pré-définis pour considérer chaque


utilisateur selon un chemin/une possibilité (Arbre de décision)

A.Lyazidi ([email protected]) DataMining 30 / 91


Data Mining : Exemple Commerce

Différent Targeting

Différents filtres

Différents critères

Différentes opportunités

Même solution/technique

A.Lyazidi ([email protected]) DataMining 31 / 91


Data Mining : Divers Exemples

- Plateforme de réseaux sociaux :


Text Mining : Traitement de commentaires
Profile Mining : Suggestion de personnes/pages
Behavior Mining : Injéction de contenu
...

- Plateforme de vidéos :
Behavior & Profile Mining : Suggestion de vidéos/films/séries

A.Lyazidi ([email protected]) DataMining 32 / 91


Data Mining : Type de techniques
Nettoyage et préparation des données
Etape essentielle du processus d’exploration des données.
- Les données insignifiantes et peu fiables en raison de leur qualité.
- Faire confiance aux données, aux résultats de leurs analyses et à
l’action qui découle de ces résultats.

Les données brutes → nettoyées et formatées → exploitables dans


différentes méthodes d’analyse.

*Etapes de modélisation des données, de transformation, de migration


des données, d’ETL et ELT, d’intégration des données et d’agrégation.

C’est une étape nécessaire pour comprendre les caractéristiques et les


attributs de base des données afin de déterminer leur meilleur usage.

A.Lyazidi ([email protected]) DataMining 33 / 91


Data Mining : Type de techniques

Classification
- Les techniques d’exploration de données à des fins de
classification impliquent l’analyse de divers attributs associés à
différents types de données.

- Une fois que les entreprises ont identifié les principales


caractéristiques de ces types de données, elles peuvent les classer
ou les catégoriser en fonction.

→ Définir des classes de sorties précises

A.Lyazidi ([email protected]) DataMining 34 / 91


Data Mining : Type de techniques
Association
- L’association est une technique d’exploration de données liée
aux statistiques. Elle permet d’indiquer lorsque certaines données
(ou évènements identifiés dans les données) sont liées à d’autres
données ou évènements data-driven.

- Elle est similaire au concept statistique de corrélation. Cela


signifie que l’analyse des données indique qu’il existe une relation
(forte ou faible) entre deux évènements.

Exemples :
Commande de burgers s’accompagne fréquemment de frites.
Visite d’une page suivi souvent d’une action précise
...
A.Lyazidi ([email protected]) DataMining 35 / 91
Data Mining : Type de techniques

Regroupement (clustering)
- Le clustering est une technique d’analytics qui repose sur des
approches visuelles pour bien appréhender les données.

- Les mécanismes de clustering utilisent des graphiques pour


montrer où se situe la distribution des données par rapport à
différents types de mesures.

- Les approches graphiques sont idéales pour l’analytics de


regroupement. Grâce aux graphiques et clustering en particulier,
les utilisateurs disposent d’un aperçu visuel pour identifier les
tendances qui sont pertinentes par rapport à leurs objectifs.

A.Lyazidi ([email protected]) DataMining 36 / 91


Data Mining : Type de techniques

Régression
- Les techniques de régression sont utiles pour identifier la nature
de la relation entre les variables dans un ensemble de données.

- Ces relations peuvent être causales dans certains cas, ou


simplement corrélées dans d’autres. La régression est une
technique simple de test en boı̂te blanche, qui permet de révéler
clairement comment les variables sont liées.

- Les techniques de régression sont utilisées dans certains aspects


de la prévision et de la modélisation des données.

Exemples : Ventes immo, Actions de bourses, ...

A.Lyazidi ([email protected]) DataMining 37 / 91


Data Mining : Type de techniques

Prédiction
- La prédiction est un aspect très puissant du data mining, qui
représente l’une des quatre branches de l’analytics. L’analytics
prédictif utilise les modèles établis grâce aux données actuelles ou
historiques pour les étendre à l’avenir.

- Il existe différentes façons d’utiliser l’analytics prédictif. Parmi


les plus avancées se trouvent le machine learning et l’intelligence
artificielle. Cependant, l’analytics prédictif ne dépend pas
nécessairement de ces techniques : il peut également être facilité
par des algorithmes plus simples.

A.Lyazidi ([email protected]) DataMining 38 / 91


Data Mining : Type de techniques
Arbres de décision
- Les arbres de décision sont un type spécifique de modèle prédictif qui
permet aux entreprises d’exploiter efficacement leurs données.
Techniquement, un arbre de décision fait partie du machine learning,
mais il est plus connu sous le nom de test en boı̂te blanche en raison de
sa nature extrêmement simple.

Un arbre de décision permet aux utilisateurs de comprendre clairement


comment les entrées de données affectent les sorties.

*Lorsque différents modèles d’arbres de décision sont combinés, ils


créent des modèles d’analytics prédictif connus sous le nom de random
forest. Les modèles de random forest complexes sont considérés comme
des techniques de machine learning en boı̂te noire, car il n’est pas
toujours facile de comprendre les sorties en fonction des entrées.
A.Lyazidi ([email protected]) DataMining 39 / 91
Data Mining : Type de techniques

Techniques statistiques
- Les différents modèles d’analytics sont basés sur des concepts
statistiques, qui génèrent des valeurs digitales applicables à des
objectifs métier spécifiques. Par exemple, les réseaux de neurones
utilisent des statistiques complexes basées sur différents poids et
mesures pour déterminer si une image est un objet 1 ou un objet
2 dans les systèmes de reconnaissance d’image.

- Les modèles statistiques représentent l’une des deux branches


principales de l’intelligence artificielle. Les modèles de certaines
techniques statistiques sont statiques, tandis que d’autres
impliquant des techniques de machine learning s’améliorent avec
le temps.

A.Lyazidi ([email protected]) DataMining 40 / 91


Data Mining : Type de techniques

Réseaux de neurones
- Un réseau de neurones est un type spécifique de modèle de
machine learning, souvent utilisé avec l’intelligence artificielle et le
deep learning. Nommés ainsi car ils présentent différentes couches
qui ressemblent à la façon dont les neurones fonctionnent dans le
cerveau humain, les réseaux de neurones sont l’un des modèles de
machine learning les plus précis utilisés aujourd’hui.

Un outil puissant pour l’exploration de données : certains modèles


de réseaux de neurones sont incroyablement complexes. Il est
souvent difficile de comprendre comment un réseau neuronal a
déterminé un résultat donné.

A.Lyazidi ([email protected]) DataMining 41 / 91


Data Mining : Type de techniques

Data warehousing
- Le data warehousing est une partie importante du processus
d’exploration de données (data mining).

- Aujourd’hui, il existe des data warehouses cloud et des data


warehouses semi-structurés et non structurés comme Hadoop.

- Nombreuses approches modernes permettent de fournir une


analyse approfondie et en temps réel des données.

A.Lyazidi ([email protected]) DataMining 42 / 91


Data Mining : Type de techniques

Machine learning et intelligence artificielle


- Le machine learning et l’intelligence artificielle (IA) représentent
certains des développements les plus avancés en matière
d’exploration de données.

- Les formes avancées de machine learning offrent des prévisions


très précises lorsque l’on travaille avec des données à grande
échelle : vision par ordinateur, reconnaissance vocale, analyse de
texte à l’aide du traitement automatique des langues.

Ces techniques d’exploration de données sont pertinentes pour


déterminer la valeur de données semi-structurées et non
structurées.

A.Lyazidi ([email protected]) DataMining 43 / 91


Data Mining : Types de données

Les données peuvent être vues comme une collection d’objets


(enregistrements) et leurs attributs

- Un attribut est une propriété et ou une caractéristique de


l’objet (Exemple: température, poids, ...)
*L’attribut est également appelé caractéristique, variable, champ

- Un ensemble d’attributs décrit un objet


*L’objet est également appelé enregistrement, observation, entité
ou instance

A.Lyazidi ([email protected]) DataMining 44 / 91


Data Mining : Types de données

A.Lyazidi ([email protected]) DataMining 45 / 91


Data Mining : Types de données
Quantitative
Somme
Moyenne
Intervalles
Ratio

Qualitative
Nominale : catégorielle, expriment une qualité comme le
sexe, le métier, le nom, la catégorie, ...
Ordinale : désigne des rangs, grandeurs, classements
▶ peu, moyen, beaucoup, énormément
▶ favorable, neutre, défavorable

A.Lyazidi ([email protected]) DataMining 46 / 91


Data Mining : Exemple de données

Données de transaction

A.Lyazidi ([email protected]) DataMining 47 / 91


Data Mining : Exemple de données

Graph data

A.Lyazidi ([email protected]) DataMining 48 / 91


Data Mining : Exemple de données

Données de séquence génétique

A.Lyazidi ([email protected]) DataMining 49 / 91


Data Mining : Exemple de données

Données spatio-temporelles

A.Lyazidi ([email protected]) DataMining 50 / 91


Processus Data Mining

A.Lyazidi ([email protected]) DataMining 51 / 91


Processus Data Mining

1. Définition du problème
Quel est le but de l’analyse, que recherche-t-on ?
Quels sont les objectifs ?
Comment traduire le problème en une question pouvant servir
de sujet d’enquête pour cet outil d’analyse bien spécifique ?

→ Se souvenir que l’on travaille à partir des données existantes, la


question doit être ciblée selon les données disponibles.

A.Lyazidi ([email protected]) DataMining 52 / 91


Processus Data Mining

2. Collecte et prétraitement des données


Analyser que des données ”propres” et consolidées.
Supprimer de l’analyse les données de qualité douteuse.
Souvent, les données méritent d’être retravaillées.
S’assurer que la quantité de données soit suffisante pour
éviter de fausser les résultats.

→ La phase de collecte nécessite le plus grand soin

A.Lyazidi ([email protected]) DataMining 53 / 91


Processus Data Mining

3. Choix du modèle d’analyse


Choisir l’algorithme d’analyse convenable.
Valider le choix d’analyse sur plusieurs jeux d’essais en
variant les échantillons.
Une première évaluation peut conduire à reprendre les étapes
1 ou 2.

A.Lyazidi ([email protected]) DataMining 54 / 91


Processus Data Mining

3. Choix du modèle d’analyse


Modèles prédictifs : Utilisent les données existantes et des
résultats connus sur ces données pour développer des modèles
capables de prédire les valeurs d’autres données.
Exemple: Prédire les clients qui ne rembourseront pas leur
crédit.

Modèles descriptifs : Proposent des descriptions de données


pour aider à la prise de décision.
Exemple: Donner les critères des clients qui risquent de ne
pas rembourser un crédit.

A.Lyazidi ([email protected]) DataMining 55 / 91


Processus Data Mining

A.Lyazidi ([email protected]) DataMining 56 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Classification
La variable décisionnelle est qualitative :
Un dossier de crédit peut être classifié : BON ou MAUVAIS
Un patient peut présenter un fort risque de maladie cardiaque
La Classification a pour objectifs :
Détecter les variables possédant un lien fort avec la variable décisionnelle
Construire un modèle de classification liant ces variables à la décision
Plusieurs méthodes et techniques pour classifier :
Arbre de décision
Forêts Aléatoires (random forest) : Composition de plusieurs Arbres de
décision
K-NN k-nearest neighbor
A.Lyazidi ([email protected]) DataMining 57 / 91
Processus Data Mining

A.Lyazidi ([email protected]) DataMining 58 / 91


Processus Data Mining

A.Lyazidi ([email protected]) DataMining 59 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Classification
Exemple d’arbre de décision

A.Lyazidi ([email protected]) DataMining 60 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Classification


- La variable ”ensoleillement” est la première variable utilisée
(variable de segmentation).

- Sur le deuxième niveau, par exemple pour ”soleil”, on couvre 5


observations correspondant aux individus 1, 2, 3, 4, 5, la
distribution de fréquence nous indique qu’il y a 2 ”jouer = oui” et
3 ”jouer = non”

- Continuer avec un autre niveau, en faisant le calcul sur un autre


critère ”humidité”, ”température” ou ”Vent”.

A.Lyazidi ([email protected]) DataMining 61 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Classification


Exemple de K-NN (k-nearest neighbor) : prédir si un nouveau
client achètera un téléphone de Type A ou B, en fonction de
certaines caractéristiques comme l’âge et le revenu.

Client ID Âge Revenu Type de téléphone


1 25 40k A
2 30 50k A
3 35 60k A
4 45 70k B
5 50 80k B
6 55 90k B

A.Lyazidi ([email protected]) DataMining 62 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Classification
Étapes :
- Préparer les données : Organiser les données des clients existants.

- Calculer les distances entre le nouveau client et les clients existants à l’aide
de la distance euclidienne (exemple : Âge = 40 ans, Revenu = 65k)

- Déterminer les voisins les plus proches en fonction de ces distances : 1 -


Client 3 (7.07, Type A) 2 - Client 4 (7.07, Type B) 3 - Client 2 (18.03, Type
A) 4 - Client 5 (18.03, Type B) 5 - Client 1 (29.15, Type A) 6 - Client 6
(29.15, Type B)

- Classer le nouveau client en fonction de la majorité des voisins :


Si K = 3, on prend les 3 premiers clients les plus proches, donc le résultat
sera de 2/3 pour le type A et 1/3 pour le type B.

A.Lyazidi ([email protected]) DataMining 63 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Classification


K-NN : A prendre en considération :
Que se passe-t-il si on choisit une autre valeur de K, par exemple
K=5?
Comment l’algorithme KNN se comporte-t-il avec des données
ayant plus de dimensions (plus de caractéristiques) ?
Comment gérer la mise à l’échelle (normalisation) des
caractéristiques lorsqu’elles ont des unités très différentes ?

A.Lyazidi ([email protected]) DataMining 64 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Régression


La variable décisionnelle est quantitative :
Prédire les tendances salariales la prochaine année
Prédire le meilleur pourcentage de réduction de coûts
La régression a pour objectifs :
Détecter les variables possédant un lien fort avec la variable cible
Construire un modèle prédictif avec l’ensemble des variables pertinentes
afin de prédire la variable d’intérêt
Régression Linéaire :
Méthode des moindres carrés (sous forme de fonctions)
Meilleurs prédicteurs

A.Lyazidi ([email protected]) DataMining 65 / 91


Processus Data Mining

A.Lyazidi ([email protected]) DataMining 66 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Régression


Exemple :
Taille (cm) Poids (kg)
150 50
160 55
170 65
180 72
190 80

- Construction d’une fonction de prédiction de poids à base de


taille (Poids=a×Taille+b)
- Prédire le poids pour une taille donnée (Exemple 175cm donne
68.5 kg)

A.Lyazidi ([email protected]) DataMining 67 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Segmentation
Aucune variable décisionnelle
Les variables d’entrées servent à créer des groupes homogènes
Les individus de chaque groupe se ressemblent le plus
Les groupes d’appartenances obtenus se distinguent le plus
La Segmentation a pour objectifs :
Trouver les variables métiers influençant la répartition en groupes
Affecter les individus à leurs nouveaux groupes d’appartenance
Plusieurs méthodes et techniques pour segmenter :
Partionnement : k-means
Hiérarchique : CAH (Classification ascendante hiérarchique)

A.Lyazidi ([email protected]) DataMining 68 / 91


Processus Data Mining

A.Lyazidi ([email protected]) DataMining 69 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Segmentation


Exemple de K-means :
- Données d’initialisation : [1, 2, 3, 6, 7, 9, 10, 15, 20]
- Besoin : 3 classes

1) Affectation aléatoire (1 élément)


2) Calcul de moyennes
3) Affectation des éléments restants (par distance)
4) Recalcul de moyennes et réaffectation jusqu’à stabilisation du
modèle

Test : ajouter de nouveaux éléments (4, 40)

A.Lyazidi ([email protected]) DataMining 70 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Association
- Les règles d’association sont utilisées pour trouver des corrélations et
des co-occurrences entre des ensembles de données.

- Elles sont utilisées pour expliquer des modèles dans des


données provenant de référentiels d’informations indépendants, tels
que des bases de données relationnelles et des bases de données
transactionnelles.

* L’exploration de règles d’association basée sur les contraintes vise


généralement à extraire des règles d’association qui satisfont les
contraintes spécifiées par l’utilisateur, où l’antécédent et le conséquent
des règles sont des ensembles d’éléments fréquents qui satisfont les
contraintes spécifiées par l’utilisateur.

A.Lyazidi ([email protected]) DataMining 71 / 91


Processus Data Mining
3. Choix du modèle d’analyse : Association
Exemple médical : les symptômes associés pour une maladie
précise

A.Lyazidi ([email protected]) DataMining 72 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Association


Exemple détaillé : Recherche des articles les plus/moins associés

Un magasin a enregistré les achats de plusieurs clients et souhaite


analyser quelles associations de produits sont fréquentes dans les
transactions pour organiser ses promotions et ses étagères.
L’analyse de base sur les transactions (paniers d’achat).

A.Lyazidi ([email protected]) DataMining 73 / 91


Processus Data Mining

3. Choix du modèle d’analyse : Association


Transaction Produits achetés
1 Pain, Lait, Beurre
2 Pain, Lait
3 Lait, Beurre
4 Pain, Lait, Fromage
5 Pain, Beurre
6 Lait, Fromage

- Calculer le support, la confiance, et le lift

A.Lyazidi ([email protected]) DataMining 74 / 91


Processus Data Mining
Support : d’un itemset (ensemble de produits) est le pourcentage de
transactions contenant cet ensemble :
Support de Pain = 4/6, Support de Lait = 4/6,
Support de Pain, Lait = 3/6, Support de Pain, Beurre = 2/6,
etc...

Confiance : probabilité qu’un client achète le conséquent, sachant qu’il a


déjà acheté l’antécédent :
Confiance de Pain → Lait = 0.50/0.67 = 0.75
Confiance de Pain → Beurre = 0.33/0.67 = 0.50
etc...

Lift : compare la confiance avec la probabilité de base d’acheter le produit


(support).Permet de savoir si la présence du produit antécédent augmente la
probabilité d’acheter le produit conséquent, ou si c’est juste dû au hasard :
Lift de Pain → Lait = 0.75/0.67 = 1.12
Lift de Pain → Beurre = 0.50/0.50 = 1
etc...
A.Lyazidi ([email protected]) DataMining 75 / 91
Processus Data Mining

Résultats
- Un lift de 1.12 signifie que la présence de pain dans un panier
augmente légèrement la probabilité d’acheter du lait par rapport à
une transaction aléatoire.

- Un lift de 1 indique que la présence de pain ne change pas la


probabilité d’acheter du beurre (aucune corrélation particulière).

A.Lyazidi ([email protected]) DataMining 76 / 91


Processus Data Mining

4. Evaluation des résultats


- Observer et exploiter les résultats.

- Pour affiner l’analyse, reprendre les étapes 1, 2 ou 3 si les


résultats s’avéraient insatisfaisants.

* C’est à dire que les résultats ne sont pas en phase avec les
objectifs fixés à l’étape 1.

A.Lyazidi ([email protected]) DataMining 77 / 91


Processus Data Mining

5. Formalisation et diffusion
- Les résultats sont formalisés pour être diffuser.

- Incorporation de ces connaissances dans d’autres systèmes pour


d’autres actions.

- Mesurer l’effet de ces connaissances sur le système, vérifier et


résoudre les conflits possibles avec les connaissances antérieures.

A.Lyazidi ([email protected]) DataMining 78 / 91


Prétraitement des données

Soit l’ensemble de données suivant auquel une technique data


mining va être appliqué pour répondre à une question stratégique
pour l’entreprise

A.Lyazidi ([email protected]) DataMining 79 / 91


Prétraitement des données

Corrections des doublons, des erreurs de saisie

A.Lyazidi ([email protected]) DataMining 80 / 91


Prétraitement des données

Intégrité de domaine

A.Lyazidi ([email protected]) DataMining 81 / 91


Prétraitement des données

Information manquante :
Cas où les champs ne contiennent aucune donnée.
Parfois intéressant de conserver ces enregistrements car
l’absence d’information peut être informative (e.g. fraude).

A.Lyazidi ([email protected]) DataMining 82 / 91


Prétraitement des données

Représentation horizontale ou éclatée (verticale)

A.Lyazidi ([email protected]) DataMining 83 / 91


Prétraitement des données

Pourquoi prétraiter les données ?


Données réelles souvent :
Incomplètes : valeurs manquantes, données simplifiées
Bruitées : erreurs et exceptions
Incohérentes : nommage, codage

Résultats de la fouille dépendent de la qualité des données

A.Lyazidi ([email protected]) DataMining 84 / 91


Prétraitement des données

Principales étapes dans le prétraitement

A.Lyazidi ([email protected]) DataMining 85 / 91


Prétraitement des données
Suppression :
Ignorer/supprimer les cas avec des données manquantes
Peu efficace quand le pourcentage de valeurs manquantes est
élevé

Tolérance :
Stratégie de traitement internes dans lesquelles l’analyse est
effectuée directement, en utilisant les ensembles de données
avec des données manquantes.

Imputation :
Stratégie pour remplir le données manquantes d’un ensemble
de données (moyenne, médiane, valeur par défaut, valeur
fréquente, valeur probable, valeur estimée, ...)
A.Lyazidi ([email protected]) DataMining 86 / 91
Prétraitement des données
Exemple : Suppression des exceptions par Clustering
- Supprimer les éléments distantes
- Réentrainer le modèle pour plus de précision

A.Lyazidi ([email protected]) DataMining 87 / 91


Prétraitement des données

Normalisation
- Normaliser certains attributs numériques afin qu’ils varient dans
une plage plus petite

- Ex: Normaliser l’attribut Age pour qu’il varie entre 0 et 1.

- Méthode de normalisation :
min-max
z-score
mise à l’échelle décimale

A.Lyazidi ([email protected]) DataMining 88 / 91


Mesures d’évaluation

Construction d’un modèle DataMining


1) Diviser les données en ensemble d’apprentissage et ensembles
de test

2) Construire le modèle DM en utilisant l’ensemble


d‘apprentissage

3) Evaluer le modèle en utilisant l’ensemble de test

A.Lyazidi ([email protected]) DataMining 89 / 91


Mesures d’évaluation

A.Lyazidi ([email protected]) DataMining 90 / 91


Mesures d’évaluation

Qualités attendues d’un modèle DataMining


Précision Le taux d’erreur, proportion d’individus mal
classés doit être le plus bas possible
Robustesse Le modèle doit dépendre peu que possible de
l’échantillon d’apprentissage et se généraliser à
d’autres échantillons
Concision Les règles du modèle doivent être aussi simples
et aussi peu nombreuses que possible
Rapidité de Apprentissage rapide pour affinement du
calcul modèle
Paramétrage Pouvoir pondérer les erreurs de classement

A.Lyazidi ([email protected]) DataMining 91 / 91

Vous aimerez peut-être aussi