100% ont trouvé ce document utile (1 vote)
219 vues148 pages

Cours de Datamining 2024-2025

Transféré par

elimrany.issam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
219 vues148 pages

Cours de Datamining 2024-2025

Transféré par

elimrany.issam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Cours Datamining
Année académique 2024-2025
Pr. A. ELOUARDIGHI
[Link]@[Link]

Pr. A. ELOUARDIGHI
Présentation Générale
2

Définition
✓ Datamining : Fouille de données

Objectif
✓ Extraction des connaissances à partir d’une base de données

Comment ?

✓ Implémentation d’un processus de découverte de connaissances

Pr. A. ELOUARDIGHI
Processus de découverte de connaissance
3

Pr. A. ELOUARDIGHI
Plan Cours Datamining
4

❑ Chapitre 1: Introduction Datamining


✓ Définition et processus de Datamining
✓ Tâches et les techniques de Datamining
✓ Exemples d’outils et langage pour des projets Datamining

❑ Chapitre 2 : Exploration et préparation des données


✓ Exploration visuelle et statistique des données
✓ Détection des valeurs manquantes et aberrantes
✓ Stratégies pour les données aberrantes et manquantes
✓ Analyse des relations entre les données
✓ Feature Engineering ou Ingénierie des caractéristiques
✓ TP: Exploration et préparation des données

Pr. A. ELOUARDIGHI
Plan Cours Datamining
5

❑ Chapitre 3: Les techniques prédictives supervisées


✓ Les techniques de régression et de classification
✓ Validation des techniques prédictives
✓ TD / TP Classification & Régression

❑ Chapitre 4: Les techniques descriptives non supervisées


✓ Les techniques de segmentation

✓ TD / TP Segmentation

Pr. A. ELOUARDIGHI
Connaissances requises
6

✓ Connaissances en statistique
➢ Statistiques descriptives

✓ Connaissances en algèbre linéaire


➢ Calcul vectoriel et matriciel

✓ Langage de programmation: Python


➢ Les bases de programmation orienté objet

➢ Un environnement de programmation : Jupyter Notebook, Colab …

Pr. A. ELOUARDIGHI
Connaissances et compétences à acquérir
7

✓ Elaboration des projets de Datamining

✓ Maitrise du processus de préparation et de modélisation

✓ Utilisation et paramétrage des principaux algorithmes et


méthodes de Datamining

✓ Analyse et interprétation des modèles développés

Pr. A. ELOUARDIGHI
8

Chapitre 1:
INTRODUCTION DATAMINING

Pr. A. ELOUARDIGHI
PLAN
9

❑ Définition du datamining

❑ Exemples d’applications

❑ Les phases d’un projet de datamining

❑ Les Tâches et techniques de datamining

❑ Exemples de plateformes et d’outils pour le datamining

Pr. A. ELOUARDIGHI
Définition de Datamining
10

❑ Vocabulaire:
Extraction de connaissances dans les données (ECD) ou Knowledge
Discovery in DataBases (KDD) Fouille de données ou Datamining.
❑ Définition:
« Le terme Datamining correspond à l’ensemble des techniques et des
méthodes, qui à partir des données, permettant d’obtenir des connaissances
exploitable ».

Connaissance
Données Processus

Pr. A. ELOUARDIGHI
Convergence de plusieurs disciplines
11

Datamining

Pr. A. ELOUARDIGHI
Exemples d’applications
12

✓ Marketing: Ciblage, Fidélisation, Relation client… .

✓ Gestion et analyse des marchés : Profils des consommateurs, modèle d ’achat

✓ Gestion et analyse de risque: Assurances, Banques …

✓ Détection de fraudes : Télécommunications, utilisation des cartes bancaires...

✓ Gestion de stocks : Quand commander un produit, quelle quantité demander,

Pr. A. ELOUARDIGHI
Exemple
13

✓ Entreprise : banque
✓ Activité : Les prêts
✓ Problème : accepter ou refuser une demande de crédit ?
✓ Solution actuelle : évaluation de la solvabilité du client sur base de critères
définis par des gestionnaires expérimentés
✓ Solution Datamining: Analyser la solvabilité observée lors des anciens
crédits

Anciens crédits Datamining Modèle (s)

Pr. A. ELOUARDIGHI
Anciens crédit

Pr. A. ELOUARDIGHI
Modélisation utilisant les arbres de décision
15

Pr. A. ELOUARDIGHI
Modélisation utilisant la régression logistique
16

Pr. A. ELOUARDIGHI
Application du modèle sur de nouveaux clients
12

Mode de Catégorie Possède une


Profession Rang
rémunération d’âge carte

Hebdomadaire Jeune Cadre Oui

Mensuelle Agé Direction Oui


?
Mensuelle Moyen Cadre Oui

Pr. A. ELOUARDIGHI
Méthodologie de datamining
12

✓ La méthode CRISP-DM (Cross Industry Standard Process for Data Mining) a


été développée par IBM pour réaliser des projets de Datamining.

✓ Elle reste aujourd’hui la seule méthodologie utilisable efficacement pour tous


projets datamining.

✓ La méthode CRISP-DM se décompose en 6 étapes allant de la compréhension


du problème métier au déploiement et la mise en production.

Pr. A. ELOUARDIGHI
Cycle de vie d'un projet de datamining
12

Pr. A. ELOUARDIGHI
Les phases d’un projet de datamining
20

❑ Compréhension du problème
✓ Détermination des objectives et l’utilité de la connaissance
✓ Production d’un plan de projet
❑ Compréhension des données
✓ Identifier les données nécessaires
✓ Description et Exploration des données
✓ Vérification de la qualité des données
❑ Préparer les données
✓ Nettoyage des données: Données manquantes, données aberrantes
(Outliers)…
✓ Recodage (Features Engineering) rendre les données exploitable par les
algorithmes qui seront utilisés,
✓ Réduction de la dimensionnalité
✓ Partition de données en base d’apprentissage et base de test.

Pr. A. ELOUARDIGHI
Les phases d’un projet de datamining
21

❑ Modélisation
✓ C’est la phase de datamining proprement dite.
✓ La modélisation comprend le choix, le paramétrage des différents algorithmes.
✓ Création des modèles utilisant la base d’apprentissage

❑Evaluation
✓ Cette phase vise à vérifier le(s) modèle(s) ou les connaissances obtenues afin
de s’assurer qu’ils répondent aux objectifs formulés au début du projet

❑Le déploiement
✓ Il s’agit de l’étape finale du processus.
✓ Son objectif est de mettre la connaissance obtenue par la modélisation, dans
une forme adaptée, et l’intégrer au processus de prise de décision.

Pr. A. ELOUARDIGHI
Paramètres d’un processus datamining
22

Technique(s) ?
Format, Type de données ?

Données Data Tâche ?


Mining
d’apprentissage

Type de
Modèles représentation ?

Pr. A. ELOUARDIGHI
Les différents types et formats de données
23

Remarque important:
✓ L’exploration, la préparation , le choix d’une technique de datamining
et l’évaluation dépendent du type et du format des données utilisées.
Pr. A. ELOUARDIGHI
Deux grandes familles de méthodes
24

❑ Méthodes prédictives ou supervisées

❑ Méthodes descriptives ou non supervisées

Pr. A. ELOUARDIGHI
Les méthodes prédictives
25

❑ Appelées aussi les méthodes supervisées


❑ Exiges des variables d’entrées (inputs) et une variable de sortie (output)
❑ Deux grandes sous familles: Classification ou Régression
❑ N.B: Il y a des méthodes qui font parti des deux familles: classification ou
régression

Pr. A. ELOUARDIGHI
Les méthodes prédictives: Classification
26

❑ Classification: consiste à affecter chaque individu de la population à une


classe, parmi plusieurs classes prédéfinies
✓ On parle aussi de discrimination ou scoring
✓ La variable de sortie est non numérique

❑ Classification Bi-classes si la variable de sortie prend que 2 valeurs, Multi-


classe si elle prend plusieurs valeurs (>2)

❑ Exemples de méthodes de classification:


✓ Les arbres de décision et les forêts aléatoires
✓ La régression logistique
✓ Les K-proches voisins (KNN)
✓ Les réseaux de neurones

Pr. A. ELOUARDIGHI
Les méthodes prédictive : Régression
27

❑ Régression: consiste à estimer la valeur d’une variable continue en


fonction de d’autres variables

✓ La variable de sortie est continue

❑ Exemple de méthodes régression:


✓ La régression linéaire
✓ Les arbres de décision et les forêts aléatoires
✓ Les réseaux de neurones
✓ Les K-proches voisins

Pr. A. ELOUARDIGHI
Les méthodes descriptives
28

❑ Visent à mettre en évidence des informations présentes mais cachées par le


volume des données

❑ Apprentissage non supervisé: Il n’y a pas de variable « cible » à prédire


❑ Trois sous familles: Segmentation, Association, Analyse factorielle

Pr. A. ELOUARDIGHI
Les méthodes descriptives
29

❑ La segmentation: nommé aussi ou clustering: Trouver dans l’espace de travail


des groupes homogènes d’individus ou de variables
✓ Technique de segmentation: K-means
❑ Association: Trouver des règles d’association entre un ensemble d’éléments
avec un bon niveau de probabilité
✓ Technique d’association: Apriori
❑ Analyse factorielle: Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons entre
variables tout en minimisant la perte d’information
✓ Techniques factorielles: ACP, AFC, AFCM

Pr. A. ELOUARDIGHI
Exemple de plateformes et langages
pour le datamining
30

Pr. A. ELOUARDIGHI
Langages pour le datamining
31

[Link]

✓ Python est un langage de programmation orienté objet facile à apprendre et


open source.
✓ Python dispose de nombreuses librairies pour le prétraitement, l’analyse, la
visualisation, le machine learning.
✓ Python fonctionne sur une grande variété de plates-formes, comme
LINUX, Windows et MacOS.

Pr. A. ELOUARDIGHI
Langages pour le datamining
32

[Link]

✓ Le langage R est le principal outil d’analyse statistique et la modélisation


de données.
✓ R fonctionne sur une grande variété de plates-formes, comme LINUX,
Windows et MacOS.

Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
33

[Link]

✓ SAS est un environnement et un langage de programmation pour la


manipulation de données. C’est un pionnier dans le domaine de l’analyse.
✓ En 2011, SAS a lancé plusieurs produits et modules pour l’analyse Web,
les médias sociaux et le marketing.

Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
34

[Link]

✓ RapidMiner est une plateforme intégrée de datamining développée par la


société du même nom.
✓ RapidMiner effectue l’analyse prédictive et d’autres analyses avancées
telles que l’exploration de données, l’analyse de texte, l’apprentissage
automatique.

Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
35

[Link]

✓ Weka (Waikato Environment for Knowledge Analysis) est une collection


d'algorithmes d'apprentissage automatique pour les tâches d'exploration de
données.
✓ Il contient des méthodes pour la préparation des données, la classification,
la régression, le clustering, l'exploration de règles d'association et la
visualisation

Pr. A. ELOUARDIGHI
Plateformes et outils pour le datamining
36

[Link]

✓ Tanagra est un logiciel gratuit d'exploration de données destiné à


l’enseignement et à la recherche.
✓ Il implémente une série de méthodes de datamining issues du domaine de
la statistique exploratoire, de l'analyse de données, de l’apprentissage
automatique et des bases de données.

Pr. A. ELOUARDIGHI
37

Chapitre 2:
Exploration et préparation des données

Pr. A. ELOUARDIGHI
PLAN
38

➢Introduction à l’exploration et la préparation des données


➢Exploration visuelle et statistique des données
➢Nettoyage des données
➢Analyse des relations entre les données
➢Feature Engineering ou Ingénierie des caractéristiques
➢TP: Exploration et préparation des données

Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
39

➢Une grande quantité de données est produite à chaque instant


dans n’importe quels secteurs d’activités.
➢Les données peuvent être de diverses formes : texte, chiffres,
images, vidéos, etc…
➢Dans leur structure brute, ces données sont difficile à exploiter
pour en tirer des connaissances
➢L’exploration et la préparation des données est une étape
importante en data mining au cours de laquelle les données sont
prétraitées nettoyées et transformées dans un format exploitable.
➢On peut passer jusqu’à 80 % du temps à explorer et préparer les
données.

Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
40

➢ Les types de données

➢ La préparation dépendre du type des données utilisées

Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
41

➢Les problèmes rencontrés lors de l’exploration des données:


✓ Des doublons
✓ Des variables non pertinentes
✓ Des variables incorrectement typées
✓ Des valeurs manquantes,
✓ Des valeurs aberrantes,
✓ Des erreurs typographiques qui peuvent conduire à des caractères spéciaux
comme : ! @$
✓ etc…

Pr. A. ELOUARDIGHI
Introduction à l’exploration et préparation des
données
42

➢L’exploration et la préparation des données est un processus où un


nombre de techniques sont utilisées pour :
✓ Extraire des variables importantes et filtrer les variables inutiles
✓ Identifier les valeurs aberrantes, les valeurs manquantes
✓ Nettoyer les données
✓ Analyser la présence ou de l’absence de relation entre les variables
✓ Créer et transformer des variables
✓ Etc…
➢Dans ce processus on peut utiliser des méthodes graphiques ou
non graphiques.
➢ Chaque méthode peut être appliquée à une variable / colonne
(univariée) ou à une combinaison de variables / colonnes
(multivariée).
Pr. A. ELOUARDIGHI
Exploration visuelle et statistique des donnée
43

❑ Collecte et Accès aux données


➢ Charger à partir d’un fichiers format texte ou tabulaire (CSV,
JSON, Excel, Text …)
➢ Charger à partir d’une base de données
➢ Collecter à partir des sources Web (Web scraping)
➢Collecter en temps réel (stremming)
❑ Les données doivent être structurées sous format:
(Individus * Variables)

Pr. A. ELOUARDIGHI
Exploration visuelle et statistique des donnée
44

❑ Exploration des données


➢Vérifier les informations sur les données
✓ Nombre de lignes, de colonnes
✓ Type des données
➢Exploration visuelle et statistique des données
✓ Comprendre la structure des données
✓ Fourni des aides sur la façon de traiter les données
➢Vérifier la qualité des données
✓ Données dupliquées
✓ Détection des données manquantes, aberrantes (outliers)

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
45

❑ Données manquantes
➢ Les données manquantes sont l’un des problèmes les plus courants
qu’on rencontrer lors de la préparation des données.
➢ Les valeurs manquantes peuvent être dues à :
✓ Des erreurs humaines,
✓ Des interruptions du flux de données,
✓ Des préoccupations relatives à la protection de la vie privée,
✓ Etc...

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
46

❑ Stratégies pour les données manquantes


➢ Les données manquantes affectent les performances des modèles de
datamining.
➢ La solution la plus simple est de supprimer les lignes ou les
colonnes contenant des valeurs manquantes.
➢ Solutions qui peuvent avoir des inconvénients:
✓ Supprimer les lignes contenant des valeurs manquantes risques de
diminuer l’échantillon des données
✓ Supprimer des colonnes risques d’exclure des variables importantes
➢ Il n’y a pas de seuil optimal de suppression, mais on peut utiliser
70% comme valeur. Supprimer les lignes ou les colonnes qui ont
plus de 70% de valeurs manquantes

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
47

❑ Stratégies pour les données manquantes


➢ Il existe de nombreuses façons et techniques pour gérer les données
manquantes.
➢ Le choix de la technique dépend du type de variables : Numériques
ou catégorielles.
➢ L’imputation ou le remplacement est l’option la plus préférable à la
suppression, car elle préserve la taille des données.

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
48

❑ Stratégies pour les données manquantes numérique


✓ Remplacer les valeurs manquantes par la moyenne, le mode ou la
médiane.
✓ Estimer les valeurs manquantes en utilisant un modèle d’apprentissage
automatique

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données manquantes
49

❑ Stratégies pour les données manquantes catégorielles


➢Remplacer les valeurs manquantes par la classe la plus
populaire/fréquente/modale.
➢Encodage et remplacement : Dans cette méthode on encode les
valeurs, puis on remplace les valeurs manquantes par la moyenne,
le mode ou la médiane.
➢Estimer les valeurs manquantes en utilisant un modèle
d’apprentissage automatique

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
50

❑ Données aberrantes (Outliers)


➢ Une valeur aberrante est une valeur extrêmement élevée ou
extrêmement faible dans l’ensemble de données.
➢ Les valeurs aberrantes peuvent être le résultat d’une erreur lors de la
collecte des données ou simplement une indication de la variance
dans les données.
➢ Les valeurs aberrantes peuvent fausser et induire en erreur le
processus de découvert de connaissance.

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
51

❑ Données aberrantes (Outliers)


➢ Exemples: Performance d’une équipe de cricket:

➢ A partir des données ci-dessus, tous les joueurs ont marqué plus de 300
sauf le Player3 qui a marqué 10.
➢ Ce chiffre peut être juste une erreur de frappe ou il montre que le
Player3 a une très faible performance , donc, a besoin d’améliorations.

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
52

❑ Détection des données aberrantes


➢ Pour détecter les valeurs aberrantes on peut utiliser:
✓ Des méthodes mathématiques
✓ Des méthode de visualisation (les plus utilisées)
➢ On distinct des méthodes de détection des valeurs aberrantes
Univarié et Multivarié.
➢ Pour les méthodes univariées, nous regardons la distribution d’une
valeur dans un espace unique.
➢ Dans le cas multivarié les valeurs aberrantes peuvent être trouvées
dans un espace de n-dimension (de n-caractéristiques).

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
53

❑ Détection des valeurs aberrantes avec des méthodes de


visualisation:
➢ Boîte à moustaches (box plot)
✓ Un graphique en boîte représente des groupes de données numériques à
travers leurs quartiles (25%, 50% et 75%)

✓ Les valeurs aberrantes peuvent être représentées par des points


individuels à l’extérieur du graphique
Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
54

❑ Détection des valeurs aberrantes avec des méthodes de


visualisation
➢ Boîte à moustaches est utilisée uniquement avec une variable pour
détecter les valeurs aberrantes.
➢ On peut utiliser le diagramme de dispersion pour détecter les valeurs
aberrantes.
➢ Un diagramme de dispersion est un diagramme affichant les valeurs
de deux variables pour un ensemble de données.

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
55

❑ Détection des valeurs aberrantes avec des méthodes de


visualisation

➢ Les points les plus éloignés peuvent être considérer comme des
valeurs aberrante (coins supérieur et inférieur)

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
56

❑ Détection des valeurs aberrantes avec des méthodes


mathématiques
➢ Le graphique boîte à moustache affiche les données et les valeurs
aberrantes (forme des données),
➢ Mais afin d’obtenir une liste des valeurs aberrantes, nous devrons
utiliser les formules mathématiques et récupérer les données
aberrantes.
➢ Il y’a plusieurs méthodes statistiques pour la détection des valeurs
aberrantes, parmi les quelles il y’a le Z-Score et l’IQR (Interquartile
Range).

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
57

❑ Détection des valeurs aberrantes avec la méthode IQR


➢ Le graphique en boîte à moustache utilise la méthode IQR pour
afficher les données et les valeurs aberrantes.
✓ IQR = Q3 – Q2
✓ On filtre les individus dont la caractéristique est inférieur à (Q1-1.5*IQR)
ou supérieur à (Q3+1.5*IQR)

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
58

❑ Détection des valeurs aberrantes avec la méthode Z-score


➢ Z-score redimensionne et centre (Normalise) les données.

➢ Les points de données qui sont beaucoup trop éloignés de zéro (centre)
seront traités comme des valeurs aberrantes.
➢ Dans la plupart des cas, un seuil de 3 ou de -3 est utilisé
➢ Les ponts dont la valeur du Z-score supérieure à 3 ou inférieure à -3
seront identifiées comme des valeurs aberrantes.

Pr. A. ELOUARDIGHI
Nettoyage des données: Les données aberrantes
59

❑ Stratégies pour les données aberrantes


➢ Il existe de nombreuses façons et techniques pour gérer les données
aberrantes, parmi les stratégies utilisées:
✓ La suppression des individus aberrants
✓ Remplacer les valeurs aberrantes par les valeurs non aberrantes les plus
proches (Winsorising)

Pr. A. ELOUARDIGHI
Analyse des relations entre les données
60

❑ Analyse des relations entre variable numérique


➢Test de corrélation
➢Des diagrammes de dispersion
➢Des cartes de corrélation entre les différents attributs.
❑ Analyse des liaisons entre variables catégorielles
➢ Test de chi-deux

Pr. A. ELOUARDIGHI
Feature Engineering ou Ingénierie des
caractéristiques
61

❑ Présentation
➢ Feature Engineering ou Ingénierie des caractéristiques est l’une des
compétences les plus importantes nécessaires en data mining et le
Machine Learning.
➢ Il a une influence majeure sur la performance des modèles de data
mining et même sur la qualité des informations obtenues lors de
l’analyse exploratoire des données.

Pr. A. ELOUARDIGHI
Feature Engineering
62

❑ Qu’est-ce que Feature Engineering ?


➢ Le Feature Engineering est le processus consistant à créer des
caractéristiques (variables) qui font fonctionner correctement et
efficacement les algorithmes de data mining.
➢ L’objectif est d’extraire des caractéristiques importantes des
données brutes et de les transformer en formats adaptés pour le data
mining.

Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
63

❑ Données catégorielles
➢ Les données catégorielles sont des caractéristiques qui peuvent
prendre des valeurs à partir d’un ensemble limité
➢ On distingue deux types de caractéristiques catégorielles :
✓ Caractéristiques catégorielles ordinales ont des modalités (valeurs)
ordonnées. Exemple: la température d’un liquide (Chaud, Tiède, Froid).
✓ Caractéristiques catégorielles non ordonnées appelée aussi
caractéristiques nominales: ce type de caractéristique n’a pas d’ordre
spécifique. Exemple : Couleur (Noire, Blanc, Gris).

Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
64

❑ Stratégie des données catégorielles


➢ Les méthodes de data mining ne peuvent pas fonctionner avec des
caractéristiques catégorielles
➢ Ces caractéristiques doivent être converties en formes numériques
avant de pouvoir être utilisées.
➢ Le processus de conversion des caractéristiques catégorielles en
forme numérique est appelé l’encodage.
➢ Il existe de nombreux types d’encodage pour les caractéristiques
ordinales ou nominales.

Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
65

❑ Encodage des étiquettes


➢ Cette approche est très simple et consiste à associer chaque modalité
d’une caractéristique catégorielle à un nombre.
➢ Exemple: encodage d’une caractéristique nominale « Type de pont ».

Pont (Texte) Pont(Numérique)


Arch 0
Beam 1
Truss 2
Cantilever 3
Tied Arche 4
Suspension 5
Cable 6
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
66

❑ Encodage des étiquettes


➢ Problème de l’ encodage des étiquettes c’est l’introduction d’une
relation / comparaison entre les données numérique
➢ Dans le précédent exemple, il n’existe pas de relation entre les
différents types de ponts.
➢ Un algorithme pourra donner plus de poids à «Câble» qui a le code le
plus élevé qu'au type de pont «Arch» qui a le poids le plus faible.

Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
67

❑ Encodage des étiquettes


➢ Si les classes d’une caractéristique catégorielle sont ordinales et que
les valeurs uniques sont petites, on peut assigner manuellement des
étiquettes qui ont une certaine forme d’ordre.
➢ Exemple: Variable ordinale « Niveau de sécurité »

Niveau de sécurité Niveau de sécurité


(Texte) (Numérique)

None 0
Low 1
Medium 2
High 3
Very-High 4
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
68

❑ Encodage One-Hot
➢ L’encodage One-Hot utilise des valeurs binaires pour représenter les
classes. L’encodeur One-Hot crée une caractéristique par classe, et
devient inefficace si le nombre de classes dans la caractéristique
catégorielle est grand.

Pont
Pont(Texte) Ach Beam Truss Cantilever Tied Arche SuspensionCable
(Numérique)
Arch 0 1 0 0 0 0 0 0
Beam 1 0 1 0 0 0 0 0
Truss 2 0 0 1 0 0 0 0
Cantilever 3 0 0 0 1 0 0 0
Tied Arche 4 0 0 0 0 1 0 0
Suspension 5 0 0 0 0 0 1 0
Cable 6 0 0 0 0 0 0 1
Pr. A. ELOUARDIGHI
Feature Engineering des données catégorielles
69

❑ Schéma de codage Dummy


➢ Le schéma de codage dummy est similaire au schéma de codage one-
hot, sauf que dans le cas du schéma de codage Dummy, lorsqu'il est
appliqué sur une caractéristique catégorielle avec m étiquettes
distinctes, nous obtenons m - 1 caractéristiques binaires.

Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
70

❑ Présentation
➢ Les données numériques représentent généralement des données sous
la forme de valeurs scalaires représentant des observations, des
enregistrements ou des mesures.
➢ Les données numériques peuvent être représentées sous forme d’un
vecteur de valeurs où chaque valeur peut représenter une
caractéristique spécifique.
➢ Les entiers et les flottants sont les types de données numériques les
plus courants et les plus largement utilisés pour les données
numériques continues.

Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
71

❑ Transformation logarithmique
➢ La transformation log permet de centrer (ou en termes statistiques de
distribuer normalement) les données.
➢ Cette stratégie permet à la plupart des méthodes de data mining de
mieux fonctionner.
➢ Les transformations logarithmiques sont principalement effectuées
sur des distributions asymétriques.
➢ Les caractéristiques peuvent être inclinées à gauche ou à droite.
L'asymétrie peut être facilement vérifiée par visualisation.

Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
72

❑ Transformation logarithmique

Direction Négative Direction positive


Mode>Médiane> Moyenne Moyenne>Médiane> Mode
𝑀𝑜𝑦𝑒𝑛𝑛𝑒−𝑀é𝑑𝑖𝑎𝑛𝑒
𝐴𝑠𝑦𝑚é𝑡𝑟𝑖𝑒 =
𝐸𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒
Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
73

❑ Normalisation
➢ Également appelée mise à l'échelle min-max ou normalisation min-
max, c'est la méthode qui consiste à redimensionner la plage de
caractéristiques pour les mettre à l'échelle en [0, 1]
➢ Cette transformation ne change pas la distribution de la
caractéristique, les effets des valeurs aberrantes augmentent.
➢ Par conséquent, avant la normalisation, il est recommandé de traiter
les valeurs aberrantes.

Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
74

❑ Standardisation
➢ Standardisation (ou normalisation z-score) permet d’évaluer les
valeurs tout en tenant compte de l’écart-type.
➢ Cela réduit l’effet des valeurs aberrantes dans les caractéristiques.

μ: la moyenne
σ: l’écart-type

➢ Elle est un préalable important à l’application de certains algorithmes


de clustering (k-means) car elle égalise le poids de chaque variable
➢ A l’inverse, elle n’a pas d’utilité pour certains algorithmes comme les
arbres de décisions

Pr. A. ELOUARDIGHI
Feature Engineering des données numériques
75

❑ Transformation polynomiale
➢ Les caractéristiques polynomiales créent des interactions entre les
caractéristiques.
➢ Ils permettent de capturer les relations entre les variables
indépendantes et peuvent aider à réduire le biais d’une méthode de
data mining.
➢ Nous pouvons créer manuellement des caractéristiques polynomiales
en ajoutant, multipliant ou divisant simplement les caractéristiques
entre elles.

Pr. A. ELOUARDIGHI
76

TP Exploratoire et préparation des


données

Pr. A. ELOUARDIGHI
77

Chapitre 3:
Les méthodes prédictives supervisées

Pr. A. ELOUARDIGHI
PLAN
78

❑ Les méthodes de régression


✓ Régression linéaire
✓ Simulation pratique

❑ Les méthodes de classification


✓ Régression logistique
✓ Les Arbres de décision
✓ Validation des méthodes prédictives
✓ Simulation pratique

Pr. A. ELOUARDIGHI
79

Les méthodes de Régression

Pr. A. ELOUARDIGHI
Régression linéaire multiple
80

✓ La régression linéaire multiple est un modèle permettant d’estimer une


variable numérique continue Y en fonction de variables numériques
continues Xi.
✓ La variable Y est souvent appelée variable dépendante, réponse,
objective, à expliquer.
✓ Les variables Xi sont souvent appelées variables indépendantes,
explicatives, d’entrées
✓ Toutes les variables considérées doivent être numériques.
✓ Le modèle cherché est de la forme:
Y = β0+ β1 X1 + ………+ βp Xp

β0, β1, …., βp les coefficients du modèle à déterminer

Pr. A. ELOUARDIGHI
Objectif

✓ Déterminer les coefficients β0, β1, …., βp de telle manière que


l’erreur suivante:

✓ Qui correspond à la différence entre la valeur réelle de Y et de Ŷ


estimé

✓ Ces coefficients sont estimées par la méthode des moindres carrés

81
Pr. A. ELOUARDIGHI
Interprétation des paramètres du modèle de
régression
82

✓ Le coefficient de régression indique dans quelle mesure la


valeur de la variable dépendante varie avec la variation de la
valeur de la variable indépendante (variable explicative), tout en
maintenant les autres variables explicatives constantes.
✓ Dans l’équation: Y = β0+ β1 X1 + …..…+ βp Xp
✓ le coefficient β1 correspond à la variation de β1 unités de Y par
la variation d'une unité de X1
✓ La constante ( nommé aussi l'intercept) est la valeur obtenue de
la variables dépendante, lorsque les variables indépendantes
valent zéro.

Pr. A. ELOUARDIGHI
Les méthodes de régression multiple
83

❑ Lorsque le nombre de variables explicatives est grand, dont plusieurs


ne sont pas importantes,

❑ Il devient nécessaire de disposer de méthodes de sélection


automatique des variables les plus pertinentes

❑ Les méthodes les plus utilisées sont les méthodes pas à pas.

✓ A chaque pas, des variables sont introduites ou éliminées du modèle

Pr. A. ELOUARDIGHI
Qualité d’ajustement d’un modèle de régression
84

❑ Le coefficient de corrélation R ou de détermination R2 permettent de


mesurer la qualité d’ajustement d’un modèle de régression

✓ Le coefficient de corrélation multiple -1≤R≤ 1, mesure la force de


liaison entre la variable objective et les variables explicatives.

✓ Le coefficient de détermination 0 ≤ R2 ≤1, représente la part expliqué


par le modèle

✓ Le modèle est d’autant plus bonne que la valeur de R2 ou la valeur


absolue de R, est proche de 1

Pr. A. ELOUARDIGHI
85

Simulation

Pr. A. ELOUARDIGHI
86

Les méthodes de classification

Pr. A. ELOUARDIGHI
Problématiques
87

❑ Exemples

✓ Décision d’allocation d’un prêt à un client en fonction de ses


caractéristiques personnelles : salaire, âge, type d’emploi…
✓ Probabilité de répondre à un courrier publicitaire en fonction de ses
caractéristiques personnelles. (technique très utilisée en marketing
direct)
✓ Risque de développer une maladie cardiaque en fonction de l’âge, du
niveau de cholestérol, du poids, du fait d’être fumeur…
✓ Probabilité pour une personne de posséder son propre logement en
fonction du revenu, de l’âge, du nombre d’enfants,…

Pr. A. ELOUARDIGHI
Problématiques
88

✓ Dans ces exemples, la variable Y à modéliser est binaire à 2 niveaux:


➢ Décision d’allocation d’un prêt
➢ Probabilité de répondre à un courrier publicitaire
➢ Risque de développer une maladie cardiaque
➢ Probabilité pour une personne de posséder son propre logement
✓ Les méthodes de régression ne peuvent s’appliquer dans ces cas.
✓ Les méthodes de classification permettent de modéliser une réponse binaire
Y(0, 1) en fonction de variables explicatives.

Pr. A. ELOUARDIGHI
89

Classification par Régression Logistique

Pr. A. ELOUARDIGHI
La régression logistique
90

❑ La régression logistique permet de modéliser une réponse binaire Y(0, 1) en


fonction de variables explicatives.

❑ On modélise la probabilité que l’événement survienne.

❑ L’objectif adapté à cette situation est de chercher à expliquer les


probabilités :

π = P(Yi=1) ou 1- π = P(Yi=0), avec P compris ente 0 et 1

Pr. A. ELOUARDIGHI
Principe du modèle
91

❑ L’idée est de faire intervenir une fonction réelle G définie de [0, 1] dans
IR et donc de chercher un modèle linéaire de la forme :
G(π)=Xi*βi
❑ Il existe de nombreuses fonctions, qui sont candidates pour remplir ce
rôle, la plus utilisée est la fonction logit définie par :

G ( ) = log it ( ) = ln
1− 

❑ La régression logistique est basée sur la transformation logit. Le modèle


utilisé est :
log it ( ) = ln

=Xi =
exp( X i )
i
1− 
1 + exp( X  )
i

i i

Pr. A. ELOUARDIGHI
Estimation des paramètres

❑ La méthode des moindres carrés n’est pas applicable dans ce


contexte

❑ On applique la méthode de maximum de vraisemblance.

❑ Le modèle estimé s’écrit donc :


 p

p exp  +  * X i 
log it ( ) =  +    
0 i
i =1
X i  =
0 i
 p

 + * X
i =1
1 + exp 
i
 0
i =1
i

92
Pr. A. ELOUARDIGHI
Régression logistique multinomiale

❑ La régression logistique multinomiale est une extension de la


régression logistique binaire dans le cas où la variable
dépendante possède plus de deux modalités .
❑ Le modèle estimé s’écrit donc :
exp(  X i  i j ) 1
 = =
1+  exp(  X i  i
j ) 1 +  exp( X i  i j )
j  j* j  j*

Pour tout jj* Pour tout j=j*

J* variable de référence (généralement la dernière modalité)

93
Pr. A. ELOUARDIGHI
Les méthodes de régression logistique
94

❑ Lorsque le nombre de variables explicatives est grand, il devient


nécessaire de disposer de méthodes de sélection automatique des
variables.

❑ La régression logistique utilise les mêmes techniques de sélection


des variables que la régression multiple.

Pr. A. ELOUARDIGHI
Interprétation des coefficients d’un modèle
de régression logistique
95

❑ Dans une régression linéaire simple, les coefficients de régression


indiquent la variation de la variable dépendante avec la variation
d’une unité de la valeur de la variable indépendante, tout en
maintenant les autres variables explicatives constantes (pentes
partielles).

❑ Pour la régression logistique, l'interprétation est similaire, à


l'exception du fait que le changement n'est pas linéaire.

❑ Ainsi, si la variable explicative augmente d’une unité, la cote de


Y=1 augmente d'un facteur de 𝑒 𝛽 .
Pr. A. ELOUARDIGHI
Interprétation des coefficients d’un modèle de
régression logistique
96

❑ Pour l’exemple du risque de développer la maladie cardiaque en


fonction de l’âge, le coefficient de régression logistique de la
variable âge est : 0,11

❑ Pour une augmentation d’une année de l’âge, le risque de


développer la maladie cardiaque augmente de 𝑒 0,11 = 1,11 fois

Pr. A. ELOUARDIGHI
97

Classification par Arbres de décision

Pr. A. ELOUARDIGHI
Les arbres de décision
98

❑ Arbre = Représentation graphique d’une procédure de classification


❑ Classification supervisée: Variable de sortie non numérique
❑ Sortie de résultats sous la forme de règles logiques:
✓ "SI telles conditions sur telles variables sont satisfaites ALORS le cas
appartient à telle classe".
❑ Un arbre de décision est un arbre où :
✓ Nœud interne est un attribut
✓ Branche d’un nœud est un test sur un attribut
✓ Feuilles est une classe donnée

Pr. A. ELOUARDIGHI
Exemple d’arbre de décision

Les feuilles et les règles prédictives de l’arbre:


Feuille Nœud 2:
Si Sex=female
Si Class=3rd no
Feuille Nœud 3:
Si Sex=female
Si Classe=(1st, 2nd, crew) yes
Feuille Nœud 4
Si Sex=male no

Pour classer un nouveau cas: suivre le chemin


partant de la racine (nœud initial) à une feuille de
l'arbre en effectuant les différents tests à chaque
nœud.
Pr. A. ELOUARDIGHI
Exemple d’algorithme
100

❑ C5.0 (Quinlan 93)

✓ Utilise le Gain information pour développer l’arbre

❑ CART (Classification and Regression Tree) (Breiman 84)

✓ Utilise le Coefficient de Gini de l'Impureté pour développer l’arbre

❑ CHAID (Chi-squared Automatic Interaction Detection)

✓ Utilise le test de χ2 ( khi-deux) pour développer l’arbre

Pr. A. ELOUARDIGHI
Avantages des Arbres de décision
101

❑ Compréhensible pour tout utilisateur (lisibilité du résultat – règles - arbre)

❑ Tout type de données

❑ Attributs apparaissent dans l’ordre de pertinence

✓ Tâche de pré-traitement (sélection d’attributs)

❑ Méthode disponibles dans la plupart des environnements de data mining

Pr. A. ELOUARDIGHI
Inconvénients des Arbres de décision
102

❑ Sensibles au nombre de classes : performances se dégradent

❑ Evolutivité dans le temps : si les données évoluent dans le temps, il


est nécessaire de relance la phase d’apprentissage

❑ Altérnative: Les forêts aléatoires (ensemble d’arbres de décision)

Pr. A. ELOUARDIGHI
103

Simulation

Pr. A. ELOUARDIGHI
104

Validation des modèles prédictifs

Pr. A. ELOUARDIGHI
Validation des modèles prédictifs
105

❑ Action par laquelle on tente d'estimer les performances futures d'un modèle
qui vient d'être construit sur un jeu de données.

❑ On dit aussi que l'on évalue ses capacités de généralisation.

❑ Évaluer les performances d’un modèle de prédiction est primordial:

✓ Pour savoir si le modèle est globalement significatif.

✓ Pour se donner une idée des performances en déploiement (Généralisation).

✓ Pour comparer plusieurs modèles candidats.

❑ Le taux d’erreur est un indicateur synthétique pertinent.

Pr. A. ELOUARDIGHI
Erreur d’apprentissage et de généralisation
106

❑ Erreur d'apprentissage?
✓ C’est l’erreur obtenu utilisant le même ensemble d’apprentissage
✓ Cette erreur ne dit absolument rien sur les performances de l'algorithme sur de
nouvelles données
❑ Erreur de généralisation
✓ L'erreur de généralisation = l'erreur calculée sur de nouvelles données
✓ Les données doivent être partagées en 2 ensembles: base d’apprentissage et
base de test
✓ Il est donc possible de calculer l'erreur de généralisation avec l'ensemble de
test

Pr. A. ELOUARDIGHI
Validation d’un modèle
107

❑ Validation par échantillonnage aléatoire

✓ L'utilisation d'un ensemble de test aléatoirement choisis.

✓ Les proportions les plus utilisé: 80% pour l’apprentissage, 20% pour les tests.

✓ Valable si la taille de l’échantillon est très grand (>1000)

Pr. A. ELOUARDIGHI
Validation d’un modèle
108

❑ Validation croisé

✓ On divise l’ensemble de données en K échantillons (valeur par défaut: 10).

✓ On sélectionne un des K échantillons comme ensemble de test et les K-1


autres échantillons constitueront l'ensemble d’apprentissage.

✓ L’opération est répéter K fois.

✓ La moyenne des K erreurs est calculée pour estimer l’erreur de prédiction.

Pr. A. ELOUARDIGHI
Validation croisée
109

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de régression
110

✓ Mean Absolut Error (MAE): La moyenne des erreurs absolues

✓ Mean Squared Error (MSE): L’erreur quadratique moyenne

✓ Root Mean Squared Error (RMSE): La racine de MSE

➢ la valeur de sortie réelle


➢ la valeur prédite

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de classification

111

✓ Dans le cas d’un problème de classification, l’analyse de la qualité d’un


modèle en utilisant seulement la justesse (accuracy) de classification, ne
permet pas d’avoir une vue d’ensemble sur ses performances.

✓ Une matrice de confusion est utilisée pour analyser les performances d’un
modèle de classification sur un ensemble de données test pour lesquelles les
valeurs réelles sont connues.

✓ La matrice de confusion fournit un résumé des résultats prédictifs d’un modèle


de classification.

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
112

✓ Principe : confronter la vraie valeur avec la prédiction

✓ Cas de deux classe Y(Positive, Negative),

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
113

✓ Vrai positif (VP): Prédiction est positive, la valeur réelle est effectivement positive.
➢ Exemple : Prédiction correct du médecin que le patient est diabétique.

✓ Vrai négatif (VN): La prédiction est négative, et la valeur réelle est négative.
➢ Exemple : Prédiction correct du médecin que le patient n'est pas diabétique.

✓ Faux positif (FP): La prédiction est positive, mais la valeur réelle est négative.
➢ Exemple: Prédiction du médecin que le patients est diabétique alors qu'il ne l'est pas.

✓ Faux négatif (FN): La prédiction est négative, mais la valeur réelle est positive.
➢ Exemple: Prédiction du médecin que le patient n'est pas diabétique alors qu'il l'est .

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
114

✓ Accuracy (Taux de correcte ou taux des biens classés) : La moyenne


des valeurs situées dans la « diagonale principale » de la matrice de
confusion.

✓ Sensibilité ou Rappel (Taux VP) : La sensibilité ou le rappel est


défini comme le rapport entre le nombre total de classes positives
correctement classées et le nombre total de classes positives. La
sensibilité doit être élevée.

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
115

✓ Spécificité (Taux VN): La spécificité est définie comme le rapport entre


le nombre total de classes négatives correctement classées et le nombre
total de classes négatives. La spécificité doit être élevée.

✓ Précision : La précision est définie comme le rapport entre le nombre


total de classes positives correctement classées et le nombre total de
classes positives prévues.. La précision doit être élevée.

Pr. A. ELOUARDIGHI
Métriques d'évaluation d’un modèle de
classification
116

✓ F-score ou F1-score: Il est difficile de comparer deux modèles avec une


précision et un rappel différents. Pour les rendre comparables, on utilise F-
Score. C’est la moyenne harmonique de précision et de rappel. Par rapport à
la moyenne arithmétique, la moyenne harmonique sanctionne plus les
valeurs extrêmes. F-score doit être élevé.

Pr. A. ELOUARDIGHI
Evaluation d’un modèle de classification par
Courbe de ROC
117

❑ Une courbe de ROC (Receiver Operating Characteristics) représente le


compromis entre les bénéfices et les pertes
✓ Bénéfices = (Vrais Positifs, la sensibilité)
✓ Pertes = (Faux Positifs, 1-Spécificité)

Pr. A. ELOUARDIGHI
Evaluation d’un modèle de classification par
Courbe de ROC
118

❑ Aire sous la courbe de ROC

Aire Prédiction
1 Parfaite
0,9 Excellente
0,8 Bonne
0,7 Médiocre
0,6 Faible
0,5 Aléatoire
<0,5 Pire que l’aléatoire

Pr. A. ELOUARDIGHI
Sélection d’un algorithme
119

❑ Quelques questions clés à se poser pour le choix d’un algorithme :

✓ Quelle est la taille et la nature des données ?

✓ Que souhait-on réaliser avec modèle développé ?

✓ Quelle doit être la précision du modèle développé ?

✓ De combien de temps disposons-nous pour développer le modèle ?

✓ Dans quelle mesure le modèle doit-il être interprétable ou compréhensible ?

✓ Le modèle dispose-t-il une capacité de réglage automatique des hyperparamètres ?

Pr. A. ELOUARDIGHI
120

Simulation

Pr. A. ELOUARDIGHI
121

Chapitre 4:
Les méthodes descriptives non
supervisée

Pr. A. ELOUARDIGHI
PLAN
122

❑ Segmentation, Clustering ou Classification


automatique

✓ La méthode des K-means

✓ Simulation pratique

Pr. A. ELOUARDIGHI
Principe de la segmentation
123

Pr. A. ELOUARDIGHI
Définition
124

✓ Segmentation (Clustering): Processus qui partitionne un ensemble de


données en sous-classes (clusters) ayant un sens.

✓ Classification non-supervisée : pas de classes prédéfinies

✓ Les regroupements d'objets (clusters) forment les classes

✓ Construire une collection d’objets :


➢ Similaires au sein d’une même classe: maximisation de la similarité
intra-classe

➢ Dissimilaires quand ils appartiennent à des classes différentes:


Minimisation de la similarité inter-classes

Pr. A. ELOUARDIGHI
Qualité d’un clustering
125

✓ Une bonne méthode de clustering permet de garantir:


➢ Une grande similarité intra-groupe

➢ Une faible similarité inter-groupe

✓ La similarité est exprimée par le biais d’une mesure de distance

Pr. A. ELOUARDIGHI
Mesure de similarité

✓ La définition de distance est différente selon le type des données:


➢ Numériques, Catégories, Booléennes, Ordinales, Mélanges

✓ Exemple de distance: Distance Euclidienne

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 )
i1 j1 i2 j 2 ip jp

➢ N.B Appliquer que pour les données numériques

Pr. A. ELOUARDIGHI
Distance Euclidienne

Pr. A. ELOUARDIGHI
Méthodologie de Clustering
128

✓ Algorithmes de partitionnement

➢ Diviser un ensemble de N items en K clusters

➢ Valable quand N est grand

✓ Algorithmes hiérarchiques

➢ Par agglomérations : les paires d’items ou de clusters sont


successivement groupées pour produire des clusters plus grands
(bottom-up)

➢ Par divisions : commencer par l’ensemble entier comme cluster et


successivement divisées en de plus petites partitions (top-down)

➢ Valable quand N est petit


Pr. A. ELOUARDIGHI
Algorithmes à partitionnement: Algorithme
K-means
129

✓ Partitionnement : les objets du jeu de données sont groupés en k


clusters
✓ Étant donnée une valeur k, trouver une partition de k clusters qui
optimise le critère de partitionnement (fonction de similarité)
✓ Approches heuristiques :
➢ Chaque cluster est représenté par son centre de gravité

1
mk =
Nk
xC k
x

Pr. A. ELOUARDIGHI
Méthode des K-Means
130

✓ Point de départ : un groupe à scinder en K sous-groupes fixés au


départ

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
131

✓ Choix de 3 centres au hasard

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
132

✓ Constitution de 3 classes

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
133

✓ Calcul du centre de chaque classe

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
134

✓ Choix des points les plus proches des centres

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
135

✓ Constitution de 3 classes

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
136

✓ Calcul des nouveaux centres

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
137

✓ Choix des points les plus proches des centres

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
138

✓ Fin : les 3 classes sont stables, mais déséquilibrés

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=3
139

✓ Constitution de 3 classe: Centre final de chaque Classe

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
140

✓ Choix de 2 classes au hasard

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
141

✓ Constitution de 2 classes

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
142

✓ Calcul des centres

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
143

✓ Choix des points les plus proches des centres

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
144

✓ Constitution de 2 Classes

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
145

✓ Fin: les deux Classes sont stables

Pr. A. ELOUARDIGHI
Méthode des K-Means: K=2
146

✓ Constitution de 2 classes: Centre final de chaque Classe

Pr. A. ELOUARDIGHI
Commentaires sur la méthode des K-Means
147

✓ Force
➢ Relativement efficace: O(tkn), où n est nombre objets, k est nombre de
clusters, et t est nombre itérations. Normalement, k, t << n.
➢ Terminent souvent dans un optimum local
✓ Faiblesses
➢ N’est pas applicable en présence d’attributs qui ne sont pas du type
numérique (moyenne=?)
➢ On doit spécifier k (nombre de clusters)

Pr. A. ELOUARDIGHI
148

Simulation

Pr. A. ELOUARDIGHI

Vous aimerez peut-être aussi