0% ont trouvé ce document utile (0 vote)

46 vues91 pages

Data Mining

Le document présente une introduction aux techniques de Data Mining, qui consiste à analyser de grandes quantités de données pour identifier des tendances et des corrélations. Il aborde également les différents types de données, le processus de Data Mining, et des exemples d'applications dans divers secteurs tels que la finance, le marketing et le sport. Enfin, il souligne l'importance de l'extraction de connaissances à partir de bases de données pour améliorer la prise de décision stratégique.

Transféré par

samirathatchade

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues91 pages

Data Mining

Transféré par

samirathatchade

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

Introduction aux techniques DataMining

Type des données & Prétraitement
Processus Data mining

A.Lyazidi ([email protected]) DataMining 1 / 91

Table of Contents
1 Introduction
2 KDD: Knowledge Discovery in Databases
3 Data Mining
4 Type de techniques de Data Mining
5 Types de données
6 Processus Data Mining
7 Prétraitement des données
8 Mesures d’évaluation

A.Lyazidi ([email protected]) DataMining 2 / 91

Introduction

Data Mining
- Technique d’analyse de données qui consiste à analyser de
grandes quantités de données pour y déceler des tendances

- But : repérer des corrélations ou des schémas au sein d’une

masse de données brutes

- Permet d’observer des liens entre des phénomènes apparemment

distincts et mettre ces conclusions au service d’une stratégie.

A.Lyazidi ([email protected]) DataMining 3 / 91

Utilisation
Le Data Mining est aujourd’hui appliqué dans une grande variété
de secteurs d’activité :
Recherche scientifique
Marketing
Education
Finance
Santé
...

- Permet d’analyser une grande quantité d’informations et de

résoudre des problèmes avec une rapidité spectaculaire (lié par
définition au Big Data).

- Formuler des prédictions et ajuster des stratégie future

A.Lyazidi ([email protected]) DataMining 4 / 91

Exemples
Exemple 1 : Lutte contre la fraude fiscale
- L’administration fiscale française utilise le Data Mining depuis
2014 pour l’aider dans sa traque des fraudeurs du fisc.
L’expérience a permis d’augmenter sa collecte d’impôts. Sur les
trois premiers trimestres de 2019, l’État avait enregistré 40% de
hausse par rapport à la somme collectée à la même date l’année
d’avant.

- Pour parvenir à ce résultat, l’administration fiscale a mis en

place un système de croisement des données des particuliers et des
professionnels. Le traitement automatisé et le recoupement de
données collectées auprès des contribuables ont permis de déceler
des fraudes passées inaperçues.

*Finances, Bourses, Assurances, Crédits

A.Lyazidi ([email protected]) DataMining 5 / 91
Exemple 2 : Les performances sportives
- Certaines équipes (Football, Basketball, ...) utilisent le Data
Mining pour améliorer le jeu de leurs joueurs. Les mouvements
des joueurs et les éléments du match sont enregistrés grâce à des
systèmes de suivi vidéo.

- Les analystes des équipes collectent et analysent une très grosse

quantité de données : les résultats antérieurs, les forces et les
faiblesses des équipes, les mouvements des joueurs, le déroulement
des matchs, ... Et grâce aux techniques de Data Mining, ces
mégadonnées livrent des conclusions sur les performances des
joueurs et des pronostics pour les matchs futurs.

*Paris Spostifs

A.Lyazidi ([email protected]) DataMining 6 / 91

Exemple 3 : Les super-marchés
- Les super-marchés et distributeurs utilisent le Data Mining pour
répondre aux attentes des clients. L’outil permet d’analyser
(parfois en temps réel) des mégadonnées pour avoir un rapide
aperçu des requêtes des clients.

Par exemple, grâce au Data Mining, ils parvienent à identifier les

heures, jours et mois de pointe. Ces informations permettent
d’optimiser le temps de travail des employés et la composition des
équipes, les livraisons, les shifts, ...

Les résultats permettent d’optimiser le fonctionnement et de

personnaliser l’expérience client : Répartition des rayons et
caisses, approvisionnement, assortiment des produits,
combinaisons, ...

*Marketing, Logistique
A.Lyazidi ([email protected]) DataMining 7 / 91
Exemple détaillé : Demande de crédit bancaire immo.
- Critères de bases :
Célibataire ou marié ?
Salarié, étudiant, commerçant, retraité ?
Intervalle de salaire, d’age
Propriétés acquises
Historique de comptes, de comportements financiers, ...

Homme (30), marié, salarié (7 ans), 2 enfants, propriétaire d’une

voiture, compte stable depuis les 5 dernières années, ...

Homme (45), divorcé, salarié (20 ans), 4 enfants à charge, aucune

propriété, compte toujours à découvert durant les 5 dernières
années, ...

A.Lyazidi ([email protected]) DataMining 8 / 91

Exemple détaillé : Stock de produits
- Cout d’achat
- Cout de stockage
- Possible arret d’activité/Retour des produits sans gains
- ...

Marketing : Liquidation, Promotion, Combinaisons, ...

A.Lyazidi ([email protected]) DataMining 9 / 91

Exemple détaillé : Elements de réseaux sociaux
- Cout de développement
- Cout de stockage des données (serveurs)
- Cout de maintenance et mises à jour
- ...

Satisfaction utilisateur (fidélisation → consommation) :

- Marketing ciblé (utilisateurs et créateurs)
- Optimisation d’utilisation

A.Lyazidi ([email protected]) DataMining 10 / 91

KDD: Knowledge Discovery in Databases

KDD : Knowledge Discovery in Databases

KDD = Extraction de Connaissances à partir des Données

Processus (semi)-automatique d’extraction de connaissances à

partir de bases de données où les connaissances sont :
valides
non connues a priori
potentiellement utiles

A.Lyazidi ([email protected]) DataMining 11 / 91

KDD: Knowledge Discovery in Databases

A.Lyazidi ([email protected]) DataMining 12 / 91

KDD: Knowledge Discovery in Databases

A.Lyazidi ([email protected]) DataMining 13 / 91

Motivations (1)

Explosion des données

- Masse importante de données (millions de milliards
d’instances) : quantité qui double tous les 20 mois → BDDs très
larges.

- Données multi-dimensionnelles (milliers d’attributs) : BDDs

denses non exploitables par les méthodes d’analyse classiques.

- Collecte de masses importantes de données (rythme de

Gbytes/heure)

- Besoin de traitement en temps réel de ces données pour un

meilleur rendement

A.Lyazidi ([email protected]) DataMining 14 / 91

Motivations (2)

Améliorer la productivité
- Forte pression due à la concurrence du marché

- Brièveté du cycle de vie des produits

- Besoin de prendre des décisions stratégiques efficaces :

Exploiter le vécu (données historiques) pour prédire le futur et
anticiper le marché

A.Lyazidi ([email protected]) DataMining 15 / 91

Motivations (3)

Croissance en coût
- Croissance en puissance/coût des machines capables :
de supporter de gros volumes de données
d’exécuter le processus intensif d’exploration

A.Lyazidi ([email protected]) DataMining 16 / 91

Motivations (4)
Supports hétérogènes
- Diversification des appareils intélligents et connectés utilisés
- Collecte de toute sorte de données, avec toute forme possible

A.Lyazidi ([email protected]) DataMining 17 / 91

Data Mining

Définition
Un processus permettant l’extraction de connaissances et
découverte de règle, relations, corrélations et/ou dépendances
sous la forme de modèles à partir de grandes masses de données

Modèles
Ces modèles peuvent être de nature :
Descriptive : permettant d’expliquer le comportement
actuel des données
Prédictive : comportement futur des données

A.Lyazidi ([email protected]) DataMining 18 / 91

Data Mining

Data Science : vocabulaire associé

- Reconnaissance des formes (pattern recognition)
- Apprentissage automatique (machine learning)
- Intelligence artificielle
- Fouille de données (data mining)
- Statistiques

Liaison avec des domaines différents, avec des intersections plus

ou moins grandes

A.Lyazidi ([email protected]) DataMining 19 / 91

Data Mining
La rencontre de plusieurs disciplines
- BDDs : Règles d’associations, ...
- Statistique : Régression, Maximum de vraisemblance, ...
- ML, DL & IA : Analyse discriminante, Apprentissage, Réseau de
neurone, ...

A.Lyazidi ([email protected]) DataMining 20 / 91

Data Mining : Positionnement

A.Lyazidi ([email protected]) DataMining 21 / 91

Data Mining vs Big data

Data Mining Big Data

Relation vs Volume travaille sur la relation entre se concentre sur un très grand vol-
les données ume de données non structurées
technique vs Concept une méthode scientifique un concept (voir un environ-
d’extraction nement)
Typologie de données des données structurées travaille sur des données com-
plexes et non structurées
Décision vs Prédiction un outil d’aide à la décision analyse de macro-statistiques
précis sur une question qui permettent d’établir des
prédictions basées sur un grand
volume de données

A.Lyazidi ([email protected]) DataMining 22 / 91

Data Mining vs BI

Data Mining BI
Volume Utiliser des ensembles de données Utilisation de grands ensembles de
de plus petite taille données pour trouver des informa-
tions
Style Utilise l’intelligence de calcul et Utilise le suivi des métriques pour
des algorithmes pour découvrir des obtenir des informations
modèles utiles
Résultat Donne des réponses à des questions Fournit des informations qui peu-
particulières vent aider à la prise de décision

A.Lyazidi ([email protected]) DataMining 23 / 91

Data Mining : Exemple d’application

Problématique
Un éditeur vend 5 sortes de magazines : sport, voiture, maison,
musique, cinéma.

Objectif
Il veut étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus à ses clients habituels.

A.Lyazidi ([email protected]) DataMining 24 / 91

Data Mining : Exemple d’application
Questions prédictives
1) Combien de personnes ont pris un abonnement à une magazine
de cinéma cette année ?

2) A-t-on vendu plus d’abonnement de magazines de sport cette

année que l’année dernière ?

3) Est-ce que les acheteurs de magazines de musique sont aussi

amateurs de cinéma ?

4) Quelles sont les caractéristiques principales des lecteurs de

magazine de cinéma ?

5) Peut-on prévoir les pertes de client et prévoir des mesures pour

les diminuer ?
A.Lyazidi ([email protected]) DataMining 25 / 91
Data Mining : Exemple d’application
Question Solution
Q1 Requête SQL à partir des données opérationnelles suf-
fit (les tables concernées suffisamment indexées)
Q2 Nécessite de garder toutes les dates de souscription,
même pour les abonnements résiliés: Requêtes multi-
dimensionnelles de type OLAP
Q3 - Exemple simplifié de problème où l’on demande si les
données vérifient une règle.
- Réponse formulée par une valeur estimant la proba-
bilité que la règle soit vraie.
- Utilisation d’outils statistiques/probabilités.
*Q4 *Question ouverte : il s’agit de trouver une règle et
non plus de la vérifier ou de l’utiliser
*Q5 *Question ouverte : il faut disposer d’indicateurs
comme durée d’abonnement, délai de paiement, ...
A.Lyazidi ([email protected]) DataMining 26 / 91
Data Mining : Exemple d’application

Synthèse
→ C’est pour ce type de questions que sont mis en œuvre les
outils de fouille de données.

Il ne s’agit pas de (re)trouver une information (somme, moyenne,

nombre de fois, ...) ou de confirmer une chose qui s’est passée,
mais de trouver (potentiellement) si une action peut être faite et
avec quelle estimation de réussite.

A.Lyazidi ([email protected]) DataMining 27 / 91

Data Mining : Domaine d’application

- Entreprise et Relation Clients : création de profils clients,

ciblage de clients potentiels et nouveaux marchés

- Bio-informatique : analyse du génome, ADN, ...

- Médecine : diagnostic, traitement, ...

- Internet : spam, e-commerce, détection d’intrusion, Sécurité

- Gestion et analyse de risque : Assurances, Banques, Fraud

- App : Web mining, Text mining, Web scraping

A.Lyazidi ([email protected]) DataMining 28 / 91

Data Mining : Exemple E-commerce

Targeting
- Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs

- Faire du ”targeting” lors de la visite d’un client potentiel

Systèmes de recommandation
Opportunité : les clients notent les produits ! Comment tirer
profit de ces données pour proposer des produits à un autre client

Solutions : technique de filtrage collaboratif pour regrouper les

clients ayant les mêmes ”goûts”.

A.Lyazidi ([email protected]) DataMining 29 / 91

Data Mining : Exemple E-commerce

- Classifier (Classes/kluster) : groupes d’utilisateurs (visiteur ou

profil) avec les mêmes qualités, comportement, envies, idées, ...

- Suivre et mettre à jour cette classification régulièrement.

- Création de pattern pré-définis pour considérer chaque

utilisateur selon un chemin/une possibilité (Arbre de décision)

A.Lyazidi ([email protected]) DataMining 30 / 91

Data Mining : Exemple Commerce

Différent Targeting

Différents filtres

Différents critères

Différentes opportunités

Même solution/technique

A.Lyazidi ([email protected]) DataMining 31 / 91

Data Mining : Divers Exemples

- Plateforme de réseaux sociaux :

Text Mining : Traitement de commentaires
Profile Mining : Suggestion de personnes/pages
Behavior Mining : Injéction de contenu
...

- Plateforme de vidéos :
Behavior & Profile Mining : Suggestion de vidéos/films/séries

A.Lyazidi ([email protected]) DataMining 32 / 91

Data Mining : Type de techniques
Nettoyage et préparation des données
Etape essentielle du processus d’exploration des données.
- Les données insignifiantes et peu fiables en raison de leur qualité.
- Faire confiance aux données, aux résultats de leurs analyses et à
l’action qui découle de ces résultats.

Les données brutes → nettoyées et formatées → exploitables dans

différentes méthodes d’analyse.

*Etapes de modélisation des données, de transformation, de migration

des données, d’ETL et ELT, d’intégration des données et d’agrégation.

C’est une étape nécessaire pour comprendre les caractéristiques et les

attributs de base des données afin de déterminer leur meilleur usage.

A.Lyazidi ([email protected]) DataMining 33 / 91

Data Mining : Type de techniques

Classification
- Les techniques d’exploration de données à des fins de
classification impliquent l’analyse de divers attributs associés à
différents types de données.

- Une fois que les entreprises ont identifié les principales

caractéristiques de ces types de données, elles peuvent les classer
ou les catégoriser en fonction.

→ Définir des classes de sorties précises

A.Lyazidi ([email protected]) DataMining 34 / 91

Data Mining : Type de techniques
Association
- L’association est une technique d’exploration de données liée
aux statistiques. Elle permet d’indiquer lorsque certaines données
(ou évènements identifiés dans les données) sont liées à d’autres
données ou évènements data-driven.

- Elle est similaire au concept statistique de corrélation. Cela

signifie que l’analyse des données indique qu’il existe une relation
(forte ou faible) entre deux évènements.

Exemples :
Commande de burgers s’accompagne fréquemment de frites.
Visite d’une page suivi souvent d’une action précise
...
A.Lyazidi ([email protected]) DataMining 35 / 91
Data Mining : Type de techniques

Regroupement (clustering)
- Le clustering est une technique d’analytics qui repose sur des
approches visuelles pour bien appréhender les données.

- Les mécanismes de clustering utilisent des graphiques pour

montrer où se situe la distribution des données par rapport à
différents types de mesures.

- Les approches graphiques sont idéales pour l’analytics de

regroupement. Grâce aux graphiques et clustering en particulier,
les utilisateurs disposent d’un aperçu visuel pour identifier les
tendances qui sont pertinentes par rapport à leurs objectifs.

A.Lyazidi ([email protected]) DataMining 36 / 91

Data Mining : Type de techniques

Régression
- Les techniques de régression sont utiles pour identifier la nature
de la relation entre les variables dans un ensemble de données.

- Ces relations peuvent être causales dans certains cas, ou

simplement corrélées dans d’autres. La régression est une
technique simple de test en boı̂te blanche, qui permet de révéler
clairement comment les variables sont liées.

- Les techniques de régression sont utilisées dans certains aspects

de la prévision et de la modélisation des données.

Exemples : Ventes immo, Actions de bourses, ...

A.Lyazidi ([email protected]) DataMining 37 / 91

Data Mining : Type de techniques

Prédiction
- La prédiction est un aspect très puissant du data mining, qui
représente l’une des quatre branches de l’analytics. L’analytics
prédictif utilise les modèles établis grâce aux données actuelles ou
historiques pour les étendre à l’avenir.

- Il existe différentes façons d’utiliser l’analytics prédictif. Parmi

les plus avancées se trouvent le machine learning et l’intelligence
artificielle. Cependant, l’analytics prédictif ne dépend pas
nécessairement de ces techniques : il peut également être facilité
par des algorithmes plus simples.

A.Lyazidi ([email protected]) DataMining 38 / 91

Data Mining : Type de techniques
Arbres de décision
- Les arbres de décision sont un type spécifique de modèle prédictif qui
permet aux entreprises d’exploiter efficacement leurs données.
Techniquement, un arbre de décision fait partie du machine learning,
mais il est plus connu sous le nom de test en boı̂te blanche en raison de
sa nature extrêmement simple.

Un arbre de décision permet aux utilisateurs de comprendre clairement

comment les entrées de données affectent les sorties.

*Lorsque différents modèles d’arbres de décision sont combinés, ils

créent des modèles d’analytics prédictif connus sous le nom de random
forest. Les modèles de random forest complexes sont considérés comme
des techniques de machine learning en boı̂te noire, car il n’est pas
toujours facile de comprendre les sorties en fonction des entrées.
A.Lyazidi ([email protected]) DataMining 39 / 91
Data Mining : Type de techniques

Techniques statistiques
- Les différents modèles d’analytics sont basés sur des concepts
statistiques, qui génèrent des valeurs digitales applicables à des
objectifs métier spécifiques. Par exemple, les réseaux de neurones
utilisent des statistiques complexes basées sur différents poids et
mesures pour déterminer si une image est un objet 1 ou un objet
2 dans les systèmes de reconnaissance d’image.

- Les modèles statistiques représentent l’une des deux branches

principales de l’intelligence artificielle. Les modèles de certaines
techniques statistiques sont statiques, tandis que d’autres
impliquant des techniques de machine learning s’améliorent avec
le temps.

A.Lyazidi ([email protected]) DataMining 40 / 91

Data Mining : Type de techniques

Réseaux de neurones
- Un réseau de neurones est un type spécifique de modèle de
machine learning, souvent utilisé avec l’intelligence artificielle et le
deep learning. Nommés ainsi car ils présentent différentes couches
qui ressemblent à la façon dont les neurones fonctionnent dans le
cerveau humain, les réseaux de neurones sont l’un des modèles de
machine learning les plus précis utilisés aujourd’hui.

Un outil puissant pour l’exploration de données : certains modèles

de réseaux de neurones sont incroyablement complexes. Il est
souvent difficile de comprendre comment un réseau neuronal a
déterminé un résultat donné.

A.Lyazidi ([email protected]) DataMining 41 / 91

Data Mining : Type de techniques

Data warehousing
- Le data warehousing est une partie importante du processus
d’exploration de données (data mining).

- Aujourd’hui, il existe des data warehouses cloud et des data

warehouses semi-structurés et non structurés comme Hadoop.

- Nombreuses approches modernes permettent de fournir une

analyse approfondie et en temps réel des données.

A.Lyazidi ([email protected]) DataMining 42 / 91

Data Mining : Type de techniques

Machine learning et intelligence artificielle

- Le machine learning et l’intelligence artificielle (IA) représentent
certains des développements les plus avancés en matière
d’exploration de données.

- Les formes avancées de machine learning offrent des prévisions

très précises lorsque l’on travaille avec des données à grande
échelle : vision par ordinateur, reconnaissance vocale, analyse de
texte à l’aide du traitement automatique des langues.

Ces techniques d’exploration de données sont pertinentes pour

déterminer la valeur de données semi-structurées et non
structurées.

A.Lyazidi ([email protected]) DataMining 43 / 91

Data Mining : Types de données

Les données peuvent être vues comme une collection d’objets

(enregistrements) et leurs attributs

- Un attribut est une propriété et ou une caractéristique de

l’objet (Exemple: température, poids, ...)
*L’attribut est également appelé caractéristique, variable, champ

- Un ensemble d’attributs décrit un objet

*L’objet est également appelé enregistrement, observation, entité
ou instance

A.Lyazidi ([email protected]) DataMining 44 / 91

Data Mining : Types de données

A.Lyazidi ([email protected]) DataMining 45 / 91

Data Mining : Types de données
Quantitative
Somme
Moyenne
Intervalles
Ratio

Qualitative
Nominale : catégorielle, expriment une qualité comme le
sexe, le métier, le nom, la catégorie, ...
Ordinale : désigne des rangs, grandeurs, classements
▶ peu, moyen, beaucoup, énormément
▶ favorable, neutre, défavorable

A.Lyazidi ([email protected]) DataMining 46 / 91

Data Mining : Exemple de données

Données de transaction

A.Lyazidi ([email protected]) DataMining 47 / 91

Data Mining : Exemple de données

Graph data

A.Lyazidi ([email protected]) DataMining 48 / 91

Data Mining : Exemple de données

Données de séquence génétique

A.Lyazidi ([email protected]) DataMining 49 / 91

Data Mining : Exemple de données

Données spatio-temporelles

A.Lyazidi ([email protected]) DataMining 50 / 91

Processus Data Mining

A.Lyazidi ([email protected]) DataMining 51 / 91

Processus Data Mining

1. Définition du problème
Quel est le but de l’analyse, que recherche-t-on ?
Quels sont les objectifs ?
Comment traduire le problème en une question pouvant servir
de sujet d’enquête pour cet outil d’analyse bien spécifique ?

→ Se souvenir que l’on travaille à partir des données existantes, la

question doit être ciblée selon les données disponibles.

A.Lyazidi ([email protected]) DataMining 52 / 91

Processus Data Mining

2. Collecte et prétraitement des données

Analyser que des données ”propres” et consolidées.
Supprimer de l’analyse les données de qualité douteuse.
Souvent, les données méritent d’être retravaillées.
S’assurer que la quantité de données soit suffisante pour
éviter de fausser les résultats.

→ La phase de collecte nécessite le plus grand soin

A.Lyazidi ([email protected]) DataMining 53 / 91

Processus Data Mining

3. Choix du modèle d’analyse

Choisir l’algorithme d’analyse convenable.
Valider le choix d’analyse sur plusieurs jeux d’essais en
variant les échantillons.
Une première évaluation peut conduire à reprendre les étapes
1 ou 2.

A.Lyazidi ([email protected]) DataMining 54 / 91

Processus Data Mining

3. Choix du modèle d’analyse

Modèles prédictifs : Utilisent les données existantes et des
résultats connus sur ces données pour développer des modèles
capables de prédire les valeurs d’autres données.
Exemple: Prédire les clients qui ne rembourseront pas leur
crédit.

Modèles descriptifs : Proposent des descriptions de données

pour aider à la prise de décision.
Exemple: Donner les critères des clients qui risquent de ne
pas rembourser un crédit.

A.Lyazidi ([email protected]) DataMining 55 / 91

Processus Data Mining

A.Lyazidi ([email protected]) DataMining 56 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Classification
La variable décisionnelle est qualitative :
Un dossier de crédit peut être classifié : BON ou MAUVAIS
Un patient peut présenter un fort risque de maladie cardiaque
La Classification a pour objectifs :
Détecter les variables possédant un lien fort avec la variable décisionnelle
Construire un modèle de classification liant ces variables à la décision
Plusieurs méthodes et techniques pour classifier :
Arbre de décision
Forêts Aléatoires (random forest) : Composition de plusieurs Arbres de
décision
K-NN k-nearest neighbor
A.Lyazidi ([email protected]) DataMining 57 / 91
Processus Data Mining

A.Lyazidi ([email protected]) DataMining 58 / 91

Processus Data Mining

A.Lyazidi ([email protected]) DataMining 59 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Classification
Exemple d’arbre de décision

A.Lyazidi ([email protected]) DataMining 60 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Classification

- La variable ”ensoleillement” est la première variable utilisée
(variable de segmentation).

- Sur le deuxième niveau, par exemple pour ”soleil”, on couvre 5

observations correspondant aux individus 1, 2, 3, 4, 5, la
distribution de fréquence nous indique qu’il y a 2 ”jouer = oui” et
3 ”jouer = non”

- Continuer avec un autre niveau, en faisant le calcul sur un autre

critère ”humidité”, ”température” ou ”Vent”.

A.Lyazidi ([email protected]) DataMining 61 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Classification

Exemple de K-NN (k-nearest neighbor) : prédir si un nouveau
client achètera un téléphone de Type A ou B, en fonction de
certaines caractéristiques comme l’âge et le revenu.

Client ID Âge Revenu Type de téléphone

1 25 40k A
2 30 50k A
3 35 60k A
4 45 70k B
5 50 80k B
6 55 90k B

A.Lyazidi ([email protected]) DataMining 62 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Classification
Étapes :
- Préparer les données : Organiser les données des clients existants.

- Calculer les distances entre le nouveau client et les clients existants à l’aide
de la distance euclidienne (exemple : Âge = 40 ans, Revenu = 65k)

- Déterminer les voisins les plus proches en fonction de ces distances : 1 -

Client 3 (7.07, Type A) 2 - Client 4 (7.07, Type B) 3 - Client 2 (18.03, Type
A) 4 - Client 5 (18.03, Type B) 5 - Client 1 (29.15, Type A) 6 - Client 6
(29.15, Type B)

- Classer le nouveau client en fonction de la majorité des voisins :

Si K = 3, on prend les 3 premiers clients les plus proches, donc le résultat
sera de 2/3 pour le type A et 1/3 pour le type B.

A.Lyazidi ([email protected]) DataMining 63 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Classification

K-NN : A prendre en considération :
Que se passe-t-il si on choisit une autre valeur de K, par exemple
K=5?
Comment l’algorithme KNN se comporte-t-il avec des données
ayant plus de dimensions (plus de caractéristiques) ?
Comment gérer la mise à l’échelle (normalisation) des
caractéristiques lorsqu’elles ont des unités très différentes ?

A.Lyazidi ([email protected]) DataMining 64 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Régression

La variable décisionnelle est quantitative :
Prédire les tendances salariales la prochaine année
Prédire le meilleur pourcentage de réduction de coûts
La régression a pour objectifs :
Détecter les variables possédant un lien fort avec la variable cible
Construire un modèle prédictif avec l’ensemble des variables pertinentes
afin de prédire la variable d’intérêt
Régression Linéaire :
Méthode des moindres carrés (sous forme de fonctions)
Meilleurs prédicteurs

A.Lyazidi ([email protected]) DataMining 65 / 91

Processus Data Mining

A.Lyazidi ([email protected]) DataMining 66 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Régression

Exemple :
Taille (cm) Poids (kg)
150 50
160 55
170 65
180 72
190 80

- Construction d’une fonction de prédiction de poids à base de

taille (Poids=a×Taille+b)
- Prédire le poids pour une taille donnée (Exemple 175cm donne
68.5 kg)

A.Lyazidi ([email protected]) DataMining 67 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Segmentation
Aucune variable décisionnelle
Les variables d’entrées servent à créer des groupes homogènes
Les individus de chaque groupe se ressemblent le plus
Les groupes d’appartenances obtenus se distinguent le plus
La Segmentation a pour objectifs :
Trouver les variables métiers influençant la répartition en groupes
Affecter les individus à leurs nouveaux groupes d’appartenance
Plusieurs méthodes et techniques pour segmenter :
Partionnement : k-means
Hiérarchique : CAH (Classification ascendante hiérarchique)

A.Lyazidi ([email protected]) DataMining 68 / 91

Processus Data Mining

A.Lyazidi ([email protected]) DataMining 69 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Segmentation

Exemple de K-means :
- Données d’initialisation : [1, 2, 3, 6, 7, 9, 10, 15, 20]
- Besoin : 3 classes

1) Affectation aléatoire (1 élément)

2) Calcul de moyennes
3) Affectation des éléments restants (par distance)
4) Recalcul de moyennes et réaffectation jusqu’à stabilisation du
modèle

Test : ajouter de nouveaux éléments (4, 40)

A.Lyazidi ([email protected]) DataMining 70 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Association
- Les règles d’association sont utilisées pour trouver des corrélations et
des co-occurrences entre des ensembles de données.

- Elles sont utilisées pour expliquer des modèles dans des

données provenant de référentiels d’informations indépendants, tels
que des bases de données relationnelles et des bases de données
transactionnelles.

* L’exploration de règles d’association basée sur les contraintes vise

généralement à extraire des règles d’association qui satisfont les
contraintes spécifiées par l’utilisateur, où l’antécédent et le conséquent
des règles sont des ensembles d’éléments fréquents qui satisfont les
contraintes spécifiées par l’utilisateur.

A.Lyazidi ([email protected]) DataMining 71 / 91

Processus Data Mining
3. Choix du modèle d’analyse : Association
Exemple médical : les symptômes associés pour une maladie
précise

A.Lyazidi ([email protected]) DataMining 72 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Association

Exemple détaillé : Recherche des articles les plus/moins associés

Un magasin a enregistré les achats de plusieurs clients et souhaite

analyser quelles associations de produits sont fréquentes dans les
transactions pour organiser ses promotions et ses étagères.
L’analyse de base sur les transactions (paniers d’achat).

A.Lyazidi ([email protected]) DataMining 73 / 91

Processus Data Mining

3. Choix du modèle d’analyse : Association

Transaction Produits achetés
1 Pain, Lait, Beurre
2 Pain, Lait
3 Lait, Beurre
4 Pain, Lait, Fromage
5 Pain, Beurre
6 Lait, Fromage

- Calculer le support, la confiance, et le lift

A.Lyazidi ([email protected]) DataMining 74 / 91

Processus Data Mining
Support : d’un itemset (ensemble de produits) est le pourcentage de
transactions contenant cet ensemble :
Support de Pain = 4/6, Support de Lait = 4/6,
Support de Pain, Lait = 3/6, Support de Pain, Beurre = 2/6,
etc...

Confiance : probabilité qu’un client achète le conséquent, sachant qu’il a

déjà acheté l’antécédent :
Confiance de Pain → Lait = 0.50/0.67 = 0.75
Confiance de Pain → Beurre = 0.33/0.67 = 0.50
etc...

Lift : compare la confiance avec la probabilité de base d’acheter le produit

(support).Permet de savoir si la présence du produit antécédent augmente la
probabilité d’acheter le produit conséquent, ou si c’est juste dû au hasard :
Lift de Pain → Lait = 0.75/0.67 = 1.12
Lift de Pain → Beurre = 0.50/0.50 = 1
etc...
A.Lyazidi ([email protected]) DataMining 75 / 91
Processus Data Mining

Résultats
- Un lift de 1.12 signifie que la présence de pain dans un panier
augmente légèrement la probabilité d’acheter du lait par rapport à
une transaction aléatoire.

- Un lift de 1 indique que la présence de pain ne change pas la

probabilité d’acheter du beurre (aucune corrélation particulière).

A.Lyazidi ([email protected]) DataMining 76 / 91

Processus Data Mining

4. Evaluation des résultats

- Observer et exploiter les résultats.

- Pour affiner l’analyse, reprendre les étapes 1, 2 ou 3 si les

résultats s’avéraient insatisfaisants.

* C’est à dire que les résultats ne sont pas en phase avec les
objectifs fixés à l’étape 1.

A.Lyazidi ([email protected]) DataMining 77 / 91

Processus Data Mining

5. Formalisation et diffusion
- Les résultats sont formalisés pour être diffuser.

- Incorporation de ces connaissances dans d’autres systèmes pour

d’autres actions.

- Mesurer l’effet de ces connaissances sur le système, vérifier et

résoudre les conflits possibles avec les connaissances antérieures.

A.Lyazidi ([email protected]) DataMining 78 / 91

Prétraitement des données

Soit l’ensemble de données suivant auquel une technique data

mining va être appliqué pour répondre à une question stratégique
pour l’entreprise

A.Lyazidi ([email protected]) DataMining 79 / 91

Prétraitement des données

Corrections des doublons, des erreurs de saisie

A.Lyazidi ([email protected]) DataMining 80 / 91

Prétraitement des données

Intégrité de domaine

A.Lyazidi ([email protected]) DataMining 81 / 91

Prétraitement des données

Information manquante :
Cas où les champs ne contiennent aucune donnée.
Parfois intéressant de conserver ces enregistrements car
l’absence d’information peut être informative (e.g. fraude).

A.Lyazidi ([email protected]) DataMining 82 / 91

Prétraitement des données

Représentation horizontale ou éclatée (verticale)

A.Lyazidi ([email protected]) DataMining 83 / 91

Prétraitement des données

Pourquoi prétraiter les données ?

Données réelles souvent :
Incomplètes : valeurs manquantes, données simplifiées
Bruitées : erreurs et exceptions
Incohérentes : nommage, codage

Résultats de la fouille dépendent de la qualité des données

A.Lyazidi ([email protected]) DataMining 84 / 91

Prétraitement des données

Principales étapes dans le prétraitement

A.Lyazidi ([email protected]) DataMining 85 / 91

Prétraitement des données
Suppression :
Ignorer/supprimer les cas avec des données manquantes
Peu efficace quand le pourcentage de valeurs manquantes est
élevé

Tolérance :
Stratégie de traitement internes dans lesquelles l’analyse est
effectuée directement, en utilisant les ensembles de données
avec des données manquantes.

Imputation :
Stratégie pour remplir le données manquantes d’un ensemble
de données (moyenne, médiane, valeur par défaut, valeur
fréquente, valeur probable, valeur estimée, ...)
A.Lyazidi ([email protected]) DataMining 86 / 91
Prétraitement des données
Exemple : Suppression des exceptions par Clustering
- Supprimer les éléments distantes
- Réentrainer le modèle pour plus de précision

A.Lyazidi ([email protected]) DataMining 87 / 91

Prétraitement des données

Normalisation
- Normaliser certains attributs numériques afin qu’ils varient dans
une plage plus petite

- Ex: Normaliser l’attribut Age pour qu’il varie entre 0 et 1.

- Méthode de normalisation :
min-max
z-score
mise à l’échelle décimale

A.Lyazidi ([email protected]) DataMining 88 / 91

Mesures d’évaluation

Construction d’un modèle DataMining

1) Diviser les données en ensemble d’apprentissage et ensembles
de test

2) Construire le modèle DM en utilisant l’ensemble

d‘apprentissage

3) Evaluer le modèle en utilisant l’ensemble de test

A.Lyazidi ([email protected]) DataMining 89 / 91

Mesures d’évaluation

A.Lyazidi ([email protected]) DataMining 90 / 91

Mesures d’évaluation

Qualités attendues d’un modèle DataMining

Précision Le taux d’erreur, proportion d’individus mal
classés doit être le plus bas possible
Robustesse Le modèle doit dépendre peu que possible de
l’échantillon d’apprentissage et se généraliser à
d’autres échantillons
Concision Les règles du modèle doivent être aussi simples
et aussi peu nombreuses que possible
Rapidité de Apprentissage rapide pour affinement du
calcul modèle
Paramétrage Pouvoir pondérer les erreurs de classement

A.Lyazidi ([email protected]) DataMining 91 / 91

Vous aimerez peut-être aussi

Partitionnement des données marketing
Pas encore d'évaluation
Partitionnement des données marketing
25 pages
Partie 1 Chapitre 1
Pas encore d'évaluation
Partie 1 Chapitre 1
23 pages
ChI Data Mining - Versionre
Pas encore d'évaluation
ChI Data Mining - Versionre
31 pages
DataMining CIPMA SAV2 SupportDeCours
Pas encore d'évaluation
DataMining CIPMA SAV2 SupportDeCours
73 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Data Mining : Concepts et Avantages
Pas encore d'évaluation
Data Mining : Concepts et Avantages
45 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Chapitre6 Intelligence Artificielle
Pas encore d'évaluation
Chapitre6 Intelligence Artificielle
32 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Introduction au Data Mining
100% (1)
Introduction au Data Mining
29 pages
DM Cours
100% (5)
DM Cours
325 pages
Data Mining
Pas encore d'évaluation
Data Mining
11 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Cours Datamining P1
Pas encore d'évaluation
Cours Datamining P1
18 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Ok Cours-Data-Mining M2 SITW 2022 2023
100% (1)
Ok Cours-Data-Mining M2 SITW 2022 2023
325 pages
Chapitre 6 IA
Pas encore d'évaluation
Chapitre 6 IA
32 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Cours de Data Mining 2024-2025
Pas encore d'évaluation
Cours de Data Mining 2024-2025
115 pages
Support de Cours Data Mining CRM
Pas encore d'évaluation
Support de Cours Data Mining CRM
85 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
44 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Intro Data Minig2
Pas encore d'évaluation
Intro Data Minig2
25 pages
1 Data Mining
Pas encore d'évaluation
1 Data Mining
74 pages
Data Mining (Partie 1)
Pas encore d'évaluation
Data Mining (Partie 1)
56 pages
Sid Partie2
Pas encore d'évaluation
Sid Partie2
13 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Introduction Au Data Mining
Pas encore d'évaluation
Introduction Au Data Mining
102 pages
Data Mining 01
Pas encore d'évaluation
Data Mining 01
8 pages
Data Mining
Pas encore d'évaluation
Data Mining
44 pages
Notions de Base Data Mining
Pas encore d'évaluation
Notions de Base Data Mining
102 pages
Data Mining
Pas encore d'évaluation
Data Mining
34 pages
Datamining: Clé de l'Intelligence Économique
100% (1)
Datamining: Clé de l'Intelligence Économique
13 pages
Cours
Pas encore d'évaluation
Cours
43 pages
Data Mining: Décisions Commerciales
Pas encore d'évaluation
Data Mining: Décisions Commerciales
14 pages
Data Mining
Pas encore d'évaluation
Data Mining
3 pages
Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
06 - Introduction Au DM
Pas encore d'évaluation
06 - Introduction Au DM
24 pages
DATA Mining 2 2 2024
Pas encore d'évaluation
DATA Mining 2 2 2024
16 pages
Cours de Dataming
Pas encore d'évaluation
Cours de Dataming
16 pages
Data Mining Final
Pas encore d'évaluation
Data Mining Final
192 pages
Introduction à la Business Intelligence et Data Science
Pas encore d'évaluation
Introduction à la Business Intelligence et Data Science
47 pages
Chapitre 1 A
Pas encore d'évaluation
Chapitre 1 A
102 pages
Data Mining: Clé de l'Entreprise Moderne
Pas encore d'évaluation
Data Mining: Clé de l'Entreprise Moderne
16 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
Rapport Tic
Pas encore d'évaluation
Rapport Tic
10 pages
Rapport Tic
Pas encore d'évaluation
Rapport Tic
10 pages
Document
Pas encore d'évaluation
Document
35 pages
Chap1 DM
Pas encore d'évaluation
Chap1 DM
68 pages
Applications et méthodologie du Data Mining
Pas encore d'évaluation
Applications et méthodologie du Data Mining
81 pages
2-Intro Ds From DM To BD PDF
Pas encore d'évaluation
2-Intro Ds From DM To BD PDF
67 pages
Exercices de Contrôle de Production Et Maîtrise Statistique Des Procédés (MSP)
Pas encore d'évaluation
Exercices de Contrôle de Production Et Maîtrise Statistique Des Procédés (MSP)
19 pages
Description Quantique de L Atome Orbitales Atomiques Exercices
Pas encore d'évaluation
Description Quantique de L Atome Orbitales Atomiques Exercices
4 pages
Exo Transfert Thermiq-Sami
Pas encore d'évaluation
Exo Transfert Thermiq-Sami
6 pages
Fiche Orga 2 - Formation D'une Orbitale Moléculaire - 115942
Pas encore d'évaluation
Fiche Orga 2 - Formation D'une Orbitale Moléculaire - 115942
2 pages
Gestion Électronique des Documents : Fonctionnalités et Avantages
Pas encore d'évaluation
Gestion Électronique des Documents : Fonctionnalités et Avantages
1 page
Chapitre 1 Presentation Des Bases de Donnees.
Pas encore d'évaluation
Chapitre 1 Presentation Des Bases de Donnees.
6 pages
Lutilisation de Linformatique Dans Le Domaine de Gestion
Pas encore d'évaluation
Lutilisation de Linformatique Dans Le Domaine de Gestion
9 pages
Cours L2. Architecture 2
Pas encore d'évaluation
Cours L2. Architecture 2
39 pages
Sci6005 A2020 c5 Notes Cours
Pas encore d'évaluation
Sci6005 A2020 c5 Notes Cours
28 pages
SGBD Oracle
Pas encore d'évaluation
SGBD Oracle
27 pages
Maîtriser J2EE pour Applications Pro
Pas encore d'évaluation
Maîtriser J2EE pour Applications Pro
3 pages
QCM : Concepts Clés du Cloud Computing
100% (1)
QCM : Concepts Clés du Cloud Computing
4 pages
TD Sig - l2 Géologie-L3 Pepe-Au 24-25
Pas encore d'évaluation
TD Sig - l2 Géologie-L3 Pepe-Au 24-25
71 pages
Rapport TP: Introduction à Emu8086
Pas encore d'évaluation
Rapport TP: Introduction à Emu8086
8 pages
Rapport de Stage: Évolution Lenova Biig Data
Pas encore d'évaluation
Rapport de Stage: Évolution Lenova Biig Data
55 pages
Comprendre Les Différences Entre Data Science - IA Et Big Data - Concepts Clés
Pas encore d'évaluation
Comprendre Les Différences Entre Data Science - IA Et Big Data - Concepts Clés
17 pages
Cybersécurité
Pas encore d'évaluation
Cybersécurité
79 pages
Introduction aux systèmes d'exploitation
0% (1)
Introduction aux systèmes d'exploitation
2 pages
ÉVALUATION EN INFORMATIQUE CLASSE DE 5e PREMIER TRIMESTRE.
Pas encore d'évaluation
ÉVALUATION EN INFORMATIQUE CLASSE DE 5e PREMIER TRIMESTRE.
1 page
Partie 4-Cours
Pas encore d'évaluation
Partie 4-Cours
98 pages
Copie de Activité 1a
Pas encore d'évaluation
Copie de Activité 1a
3 pages
Geomatics
Pas encore d'évaluation
Geomatics
20 pages
Enib Infos1 Chap1
Pas encore d'évaluation
Enib Infos1 Chap1
32 pages
CV Soglo Eric Developpeur
Pas encore d'évaluation
CV Soglo Eric Developpeur
8 pages
Modele Grille de Compétences
Pas encore d'évaluation
Modele Grille de Compétences
1 page
2eme Cycle Informatique Logiciels Et Réseaux
Pas encore d'évaluation
2eme Cycle Informatique Logiciels Et Réseaux
2 pages
Les Moteurs de Recherche Sémantique
Pas encore d'évaluation
Les Moteurs de Recherche Sémantique
4 pages
Chap1 Crypto Jo
Pas encore d'évaluation
Chap1 Crypto Jo
38 pages
Digitalisation de La Profession Comptable Copie 3
Pas encore d'évaluation
Digitalisation de La Profession Comptable Copie 3
7 pages
Chapitre 2 Sécurité
Pas encore d'évaluation
Chapitre 2 Sécurité
175 pages
Cours 16 43
Pas encore d'évaluation
Cours 16 43
28 pages
Cours l2 LMD Merise 2023 SMM
Pas encore d'évaluation
Cours l2 LMD Merise 2023 SMM
145 pages
Rapport de Stage Delegation CH
Pas encore d'évaluation
Rapport de Stage Delegation CH
26 pages
Literatura e Texto Eletronico
Pas encore d'évaluation
Literatura e Texto Eletronico
23 pages