0% ont trouvé ce document utile (0 vote)
208 vues106 pages

Cours Data Mining: Objectifs et Méthodes

Le document présente un cours de Data Mining destiné aux étudiants en informatique, avec une durée de 42 heures et des méthodes pédagogiques variées. Les objectifs incluent l'analyse exploratoire des données et la classification, avec des prérequis en algèbre linéaire et en statistiques. Le Data Mining est défini comme un ensemble de méthodes pour extraire des connaissances utiles à partir de grandes quantités de données, facilitant ainsi la prise de décision dans divers domaines.

Transféré par

mhamdihayfa89
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
208 vues106 pages

Cours Data Mining: Objectifs et Méthodes

Le document présente un cours de Data Mining destiné aux étudiants en informatique, avec une durée de 42 heures et des méthodes pédagogiques variées. Les objectifs incluent l'analyse exploratoire des données et la classification, avec des prérequis en algèbre linéaire et en statistiques. Le Data Mining est défini comme un ensemble de méthodes pour extraire des connaissances utiles à partir de grandes quantités de données, facilitant ainsi la prise de décision dans divers domaines.

Transféré par

mhamdihayfa89
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

21/05/2024

Data Mining
Une proposition de ce que nous voulons réaliser d'ici
la fin de l'année

+216 27 294 294


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Plan du cours
Chapitre 1 Introduction au DM

Chapitre 2 Préparation de données dans Python

Chapitre 3 Classification des données

Chapitre 4 Classification non supervisé

Chapitre 5 Classification supervisé

1
21/05/2024

DESCRIPTION
Responsable : Anis BOUBAKRI
Formation : M1 Cloud
Filière: Informatique
Titre du cours: Datamining
Méthodes pédagogiques :
 Cours magistral
 Travaux dirigés et pratiques

Volume horaire: 42 heures (22.5 heures Cours et TDs, 21,5 heures TPs)
Coefficient :
Régime d’examen: Régime Mixte (DS + Examen)
Prérequis :
 Algèbre linéaire, telles que manipulation de vecteurs, multiplication de matrices
 Probabilités et statistiques, telles que distribution de loi de probabilité et variance

Objectives
Vous avez un important volume de données ? Il est important de savoir les synthétiser ! Il ne suffit pas de stocker une
multitude de données au sein d'une base spécialisée, Data Warehouse ou Big Data, encore faut-il les exploiter.
 C'est là le rôle du Data Mining qui, bien utilisé, saura tirer des informations utiles contenus dans cette masse de
données bien trop importante.

2
21/05/2024

Objectives

Dans ce cours, vous apprendrez à :


 Effectuer une analyse exploratoire multidimensionnelle de données.
• Appréhender les espaces vectoriels euclidiens
• Utiliser des méthodes populaires pour analyser rapidement votre échantillon en réduisant la dimension du nombre
d'individus ou de variables.

 Réaliser la classification de données


• présenter les enjeux de la classification non-supervisée et de la classification supervisée.

PRÉÉREQUIS & OUTILS

Prérequis
 Connaître le vocabulaire de base et savoir représenter un échantillon ;
 Les différents types de variables ;
 La notion de distribution (et comment la représenter) ;
 La notion de corrélation et plus précisément de corrélation linéaire.
 Être familier avec la notion de vecteur (écriture, représentation graphique), de droite, d'axe.
Outils nécessaires
 Éditeur de code
 Langage Python dans le cadre de la Data Science.

3
21/05/2024

Introduction au DM
+216 27 294 294
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

1) Qu’est-ce que le DM ?
2) A quoi sert le DM ?
3) Quelles sont les principales tâches?
4) Comment ça marche?
5) Quels sont les principales méthodes ?
6) Comment représenter les données ?
7) Evaluation des compétences

+216 27 294 294

1) Qu’est-ce que le Data Mining? (1/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Data Mining traduit en fouille / exploration / forage /prospection de données.


 Egalement surnommé Knowledge Discovery in Data (KDD) ou encore Extraction de Connaissances à
partir de Données (ECD).

Processus de découverte de connaissances

4
21/05/2024

+216 27 294 294

1) Qu’est-ce que le Data Mining? (2/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Lors de toute étude statistique, il est nécessaire de décrire et explorer les données avant d’en tirer de lois et
de modèles prédictifs.
 Dans beaucoup de situations, les données sont trop nombreuses pour pouvoir être visualisables (nombre de
caractéristiques trop élevées).
 Il ne suffit pas de « posséder » ou stocker une multitude de données encore faut-il les exploiter.
 Il est alors nécessaire d’extraire l’information pertinente qu’elles contiennent. C'est là le rôle du DM qui
saura tirer des informations utiles contenus dans cette masse de données bien trop importante.
 DM a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données par
des méthodes automatiques ou semi-automatiques, celle qui sera déterminante pour une prise de décision
efficace.

+216 27 294 294

1) Qu’est-ce que le Data Mining? (3/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Consiste à rechercher et extraire de l’information (utile et inconnue) de gros volumes de données


stockées dans des bases ou des entrepôts de données (Data Warehouses).
 Les données sont collectées de sources multiples souvent hétérogènes.

5
21/05/2024

+216 27 294 294

1) Qu’est-ce que le Data Mining? (4/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Donnée – Information - Connaissance

 Les données sont le niveau le plus bas de matière


première du quel on peut retirer des connaissances.

 Les données devient de l’information lorsqu’on leur


donne un contexte. La collecte et la présentation des
données constituent l’information.

 Les connaissances sont ce qui découle de


l’information et l’usage personnalisé que l’on en fait.

+216 27 294 294

1) Qu’est-ce que le Data Mining? (5/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Donnée – Information - Connaissance


 Donnée  Connaissance

• Notion abstraite typée (numériques, symboliques, • Notion abstraite, d’un niveau d’abstraction supérieur à celui de

textuelles, logiques,…) l’information.

• La donnée ne porte pas de sens en elle-même • La connaissance à la différence de l’information est partagée

• Exemple de donnée brute: 1008 et s’appuie sur un référentiel collectif.

 Information • Exemple : Si je vous communique le code postal 1008, je n’ai

• Notion abstraite, mais d’un niveau d’abstraction supérieur pas besoin de vous expliquer ce dont il s’agit, vous disposez

à celui de la donnée d’un référentiel pour interpréter ce code, pour savoir que ca

• Information=Donnée + un sens concerne Bab Mnera – La Medina, Tunis. Le code postal

• Exemple : la donnée 1008 est un code postal. s’apparente à une connaissance largement partagée en Tunis.

6
21/05/2024

+216 27 294 294

1) Qu’est-ce que le Data Mining? (6/6) [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Donnée – Information - Connaissance


 Les associations et relations entre les données permettent d’obtenir des informations.
• Exemple: l’analyse des données de transaction d’un point de vente permet de recueillir des informations
sur les produits qui se vendent, et à quel moment ont lieu ces ventes.
L’information est crée lorsqu’on définie et organise les relation (traitement) entre les données. Donc pour
trouver différentes informations, il suffit de définir différentes relations entre ses données.

 Les informations peuvent être converties en connaissances à propos de patterns historiques ou des tendances
futures.
• Exemple: l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts
promotionnels, pour acquérir un savoir au sujet des comportements d’acheteurs. Ainsi, un producteur peut
déterminer quels produits doivent faire l’objet d’une promotion à l’aide du DM.

+216 27 294 294

2) A quoi sert le DM ? (1/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 DM : Ensemble de méthodes
• destinées à l’exploration et l’analyse de grandes bases de données informatiques
• en vue de détecter dans ces données des règles, des associations, des structures particulières restituant
de façon concise l’essentiel de l’information utile
• pour l’aide à la décision.
 Ces informations peuvent ensuite être utilisées par les entreprises pour
• augmenter un chiffre d’affaires,
• réduire des coûts.
• mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing.

7
21/05/2024

+216 27 294 294

2) A quoi sert le DM ? (2/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Nous souhaitons étudier une population composée d’individus.

 Ces individus ne sont pas forcément des personnes, mais peuvent être des objets, des animaux, des relevés
effectués par des capteurs (relevés de température, par exemple), ou beaucoup d’autres choses !

 Souvent, une population est difficile à étudier dans sa globalité (surtout quand elle contient un grand nombre
d’individus et qu’il est impossible de tous les observer).
• Pour cela, on extrait un échantillon de la population, c’est-à-dire que l’on sélectionne certains individus pour
les étudier précisément.

 Étudier un individu, c’est observer ses caractéristiques : chaque caractéristique est décrite par une variable.

+216 27 294 294

2) A quoi sert le DM ? (3/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Ainsi, il est possible de stocker nos observations dans un tableau dans lequel chaque ligne représente un
individu, et chaque colonne représente une variable.
Exemple: étudier des relevés bancaires
Chaque individu (en ligne) est une opération bancaire, et chaque variable (en colonne) est une
caractéristique de l’opération (comme sa date, son libellé, son montant, etc.) :

8
21/05/2024

+216 27 294 294

2) A quoi sert le DM ? (4/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Prédiction de l’attrition dans la téléphonie mobile


• attrition = départ d’un client pour un concurrent

 Analyse du ticket de caisse dans les grandes surfaces


• pour déterminer les produits souvent achetés simultanément,
• agencer les rayons
• et organiser les promotions en conséquence

 Organisme de crédit pour décider


• d’accorder ou non un crédit en fonction du profil du demandeur de crédit, de sa demande et des expériences passées de prêts,

 Optimisation
• du nombre de places dans les avions, hôtels,
 Diagnostic médical
• «les patients ayant tels symptômes et demeurant dans des agglomérations de plus de 104 habitants développent couramment telle pathologie »

 Moteur de recherche sur internet


• fouille du Web ou Webmining.

 …

+216 27 294 294

3) Quelles sont les principales tâches?(1/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 On dispose de données structurées : les objets sont représentés par des enregistrements (ou descriptions)
qui sont constitués d’un ensemble de champs (ou variables ou attributs ou caractéristiques) prenant leurs
valeurs dans un domaine.

9
21/05/2024

+216 27 294 294

3) Quelles sont les principales tâches?(2/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 La segmentation
• Former des groupes (clusters) homogènes à l'intérieur d'une population.
• Tâche souvent effectuée avant les précédentes pour construire des groupes sur lesquels
on applique des tâches de classification ou d'estimation.

 La classification
• Examiner les attributs d'une donnée et lui attribuer une classe
• La classe est un attribut particulier à valeurs discrètes.
• Attribuer ou non un prêt à un client, établir un diagnostic, accepter ou refuser un retrait
dans un distributeur, attribuer un sujet principal à un article de presse, etc.

+216 27 294 294

3) Quelles sont les principales tâches?(3/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 La prédiction
• Estimer une valeur future. En général, les valeurs connues sont historiées. On cherche à prédire la
valeur future d'un attribut.
• Prédire, au vu de leurs actions passées, les départs de clients.
 L'estimation
• Estimer la valeur d'un attribut manquant.
• L’attribut à estimer est à valeurs continues.
• Estimer les revenues d’un client.
• Estimer les risques.

10
21/05/2024

+216 27 294 294

3) Quelles sont les principales tâches?(4/4)


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Les règles d'association (analyse du panier de la ménagère)


• Déterminer les valeurs qui sont associées.
• Déterminer les articles (la baguette et le fromage, le lait et le pain...) qui se retrouvent ensemble sur un même ticket
de supermarché.
• Vous pouvez chercher à connaître les ouvrages susceptibles d'intéresser les clients qui ont déjà acheté un livre
particulier. Vous serez alors en mesure d'exploiter rapidement cette information et de proposer ces autres titres à vos
clients, en utilisant des règles du type "les clients qui ont acheté le titre A ont également acheté le titre B" et ainsi que
suite.
• Cette tâche peut être effectuée pour identifier des opportunités de vente croisée et concevoir des groupements
attractifs de produit.

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Choix de la méthode Exploitation


 Processus: comprend plusieurs étapes :
et mise en œuvre
informatique

Sélection des
attributs utiles

Collecte et organisation
des données
Test
Explicitation de
l’objectif de l’analyse
en terme statistique

Nettoyage de la
base de données

11
21/05/2024

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Le fait de suivre une méthodologie bien définie permet à un projet de

créer une compréhension


claire de la tâche à accomplir
tenir le client
au courant

fournir de meilleures
évaluations
créer une
compréhension claire
de la tâche à accomplir

livrer des
systèmes fiables

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie KDD
 Découverte de connaissances dans les bases de données (Knowledge Discovery in Databases : KDD)

12
21/05/2024

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie KDD

 Sélection : Création d'un ensemble de données cible, ou d'un sous ensemble d'échantillons, sur lequel la
découverte doit être effectuée.
 Pré-traitement : Activités de nettoyage et de prétraitement des données visant à fournir des données
consistantes.
 Transformation : réduction de la dimension, sélection de caractéristiques, etc.
 Data Mining : Recherche de modèles significatifs sous une forme particulière, en fonction de l'objectif de
l'exploration de données (par exemple, la prédiction).
 Evaluation : Interprétation et évaluation des résultats de l'exploration.

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie SEMMA
 SEMMA (Sample, Explore, Modify, Model, Assess)

13
21/05/2024

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie SEMMA
 Sample : Echantillonner les données en prélevant une partie d'un grand jeu de données, suffisamment
importante pour contenir les informations pertinentes, mais suffisamment petite pour être manipulable.
 Explore : Explorer les données en recherchant des anomalies et des comportement inattendues afin d'en
tirer des conclusions.
 Modify : Modifier les données en créant, sélectionnant et transformant les variables afin de cibler le
processus de sélection du modèle.
 Model : Modéliser c’est rechercher automatiquement une combinaison de données qui prédit de manière
fiable le résultat souhaité.
 Assess : Evaluer ou pour apprécier l'utilité et la fiabilité des résultats du processus d'extraction de données
et estimer ses performances.

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie CRISP-DM
 CRISP-DM: Cross-Industry Standard Process for DM, initialement conçu par IBM dans les années 1960
pour guider des projets DM.
• Elle reste aujourd’hui la seule méthode utilisable efficacement pour tous les projets Data Science.
• Une démarche agile et itérative

14
21/05/2024

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie CRISP-DM
 Compréhension du problème métier :
• bien comprendre les éléments métiers et problématiques que la Data Science vise à résoudre ou à améliorer.

 Compréhension des données :


• déterminer précisément les données à analyser,
• à identifier la qualité des données disponibles et
• à faire le lien entre les données et leur signification d’un point de vue métier.

 Construction du Data Hub ou préparation des données :


• regroupe les activités liées à la construction de l’ensemble précis des données à analyser, faite à partir des données
brutes.
• Elle inclut le nettoyage des données, et leur recodage pour les rendre compatibles avec les algorithmes qui seront
utilisés.

+216 27 294 294

4) Comment ça marche ? [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Méthodologie CRISP-DM
 Modélisation :
• Phase de Data Science proprement dite.
• Elle comprend le choix, le paramétrage et le test de différents algorithmes ainsi que leur enchaînement, qui constitue un modèle.

 Evaluation :
• tester la robustesse et la précision des modèles obtenus.
• vérifier le(s) modèle(s) afin de s’assurer qu’ils répondent aux objectifs formulés au début du processus.
• Elle contribue aussi à la décision de déploiement du modèle ou, si besoin est, à son amélioration.

 Déploiement :
• mise en production pour les utilisateurs finaux des modèles obtenus.
• Son objectif peut aller de la simple génération d’un rapport décrivant les connaissances obtenues jusqu’à la mise en place d’une
application, permettant l’utilisation du modèle obtenu, pour la prédiction de valeurs inconnues d’un élément d’intérêt.

15
21/05/2024

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l’on choisira en
fonction de :
• La tâche à résoudre (classification, estimation,…),
• La nature et de la disponibilité des données,
• L’ensemble des connaissances et des compétences disponibles,
• La finalité du modèle construit.

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Méthodes descriptives  Méthodes prédictives


• visent à mettre en évidence des informations • visent à extrapoler de nouvelles
présentes mais cachées par le volume des informations à partir des informations
données présentes
• cas de segmentation de clientèle et recherche • cas d’estimation de risque crédit (scoring)
d’associations de produits sur les tickets de • expliquent les données
caisse. • il y a une variable « cible » à prédire.
• réduisent, résument, synthétisent les données
• il n’y a pas de variable « cible » à prédire.

16
21/05/2024

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Méthodes prédictives
 Méthodes descriptives
• Classement/Discrimination (variable « cible » qualitative)
• Analyse factorielle (projection sur un
• Analyse discriminante / régression logistique
espace de dimension inférieures)
• arbres de décision (modèles à base de règles logiques)
• ACP
• Réseaux de neurones (modèles à base de fonctions
• Classification automatique (clustering)
mathématiques)
• K-means
• K-plus proches voisins (prédiction sans modèle)
• Recherche d’associations (analyse du
• Prédiction (variable « cible » quantitative)
ticket de caisse)
• Régression linéaire (simple et multiple)
• Arbres de décision
• Réseaux de neurones

17
21/05/2024

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

En quoi sont-elles intéressantes ?


 Un intérêt commun : simplifier les données pour faciliter ensuite leur analyse en trouvant des stratagèmes pour
réduire les dimensions d'un tableau de données (en lignes et en colonnes).
• Si votre échantillon est représenté par un tableau à 100 000 lignes et 1 000 colonnes, c'est un peu difficile à analyser !

 L'ACP permet de réduire le nombre de variables en trouvant de nouvelles variables qui en synthétisent plusieurs.
• Trouver une variable synthétique permet de remplacer plusieurs colonnes du tableau par une seule.
• Mais, cette transformation nous fera perdre un peu d'information.

 Le clustering se chargera de regrouper des individus similaires, il va partitionner l'ensemble des individus.
• Regrouper des individus est ici synonyme de regrouper des lignes.
• Parfois, il est possible de regrouper 100 000 lignes en 3 groupes assez homogènes pour n'étudier finalement que le profil
général de chacun de ces 3 groupes, c'est-à-dire 3 lignes !

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

En quoi sont-elles intéressantes ?


 Au-delà de la réduction des dimensions du tableau de données, ces méthodes ont d'autres intérêts :
• L'ACP, permet d'étudier :
• la variabilité entre les individus, c'est-à-dire quelles sont les différences et les ressemblances entre les
individus ;
• les liaisons entre les variables : y a-t-il des groupes de variables très corrélées entre elles qui peuvent être
regroupées en de nouvelles variables synthétiques ?
• Le clustering a de multiples applications :
• En marketing pour segmenter une base de données de clients. Le fait de former des "groupes" de clients
et d'étudier leurs caractéristiques (en termes d'âge, de centres d'intérêt, etc.) permet aux marketeurs de
cibler leurs campagnes de marketing.

18
21/05/2024

+216 27 294 294

5) Quelles sont les méthodes?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

En quoi sont-elles intéressantes ?


 Une variable statistique décrit une caractéristique pour les différents individus pour lesquels elle les définit.
• L’ensemble de ces individus constituent une population.
 On distingue 2 types de variables :
• Quantitatives
• décrivent des quantités,
• de nature numérique (mesurables)
• Qualitatives
• décrivent des qualités ,
• De nature symbolique (non mesurables)

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Types de variables

19
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Pouvez-vous distinguer les variables ? celles qualitatives et quantitatives discrètes ou continues?

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

La notion d’espace euclidien


 Supposons un échantillon décrit par 2 variables quantitatives.
• Peu importe ce qu'elles représentent, nous les appellerons donc
simplement x et y.

 Sur ce graphique de dispersion, on représente les individus par


des points ayant chacun 2 coordonnées : une abscisse et une
ordonnée.
• On dit donc ici que les données sont représentées dans un espace à
2D, car pour placer les points, on a sélectionné 2 des variables qui
décrivent les individus.
• En quelque sorte, on a associé la notion de variable à celle de
dimension.

20
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Point / Vecteur
 Dans ce graphique de dispersion un point A (un individu) est représenté par un vecteur à deux coordonnées
(abscisse x et ordonnée y), on le note :

 En général, si un individu X est décrit par n variables, alors on peut le représenter par un vecteur à n
dimensions.

où x1 , x2 … xn sont appelées les composantes du vecteur X.

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Espace vectoriel / euclidien

 Nous travaillons dans un espace vectoriel


• avec un nombre fini de dimensions (2, 4, 100, 1 000
ou beaucoup plus), où chaque individu est
représenté par un vecteur,
• ce vecteur ayant autant de dimensions que l’espace
vectoriel en question.

21
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Pour représenter les 3 individus donnés (en ligne) de l'échantillon donné sur cette image, la solution la
plus logique (dans le cadre de ce cours) sera une représentation par :

 Un espace euclidien à 4 dimensions


 Un espace euclidien à 12 dimensions
 Un espace euclidien à 13 dimensions

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Pour représenter les 3 individus donnés (en ligne) de l'échantillon donné sur cette image, la solution la
plus logique (dans le cadre de ce cours) sera une représentation par :

 Un espace euclidien à 4 dimensions


 Un espace euclidien à 12 dimensions
 Un espace euclidien à 13 dimensions

22
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Espace vectoriel / euclidien

 Si on rajoute la contrainte que chaque composante d’un vecteur doit être un nombre réel, et que l’on associe
à cet espace vectoriel un produit scalaire, alors on dit que l’on travaille dans un espace euclidien.
 Un produit scalaire est une opération algébrique entre 2 vecteurs. Dans notre cas, cette opération associe
à 2 vecteurs un nombre réel.
• On va souvent utiliser le produit scalaire pour calculer des distances, des longueurs, des angles.

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

La notion de distance
 Si on vous demande la distance entre 2 points A et B
sur un graphique à 2 dimensions comme celui ci-
dessous, qu’allez-vous faire ?
• chercher une règle graduée pour mesurer,
• calculer la distance à partir des coordonnées des 2
points.
• Mais, dans les 2 cas, vous obtiendrez tous le même
résultat (ici, 2 , soit environ 1.41).
 Ce que vous avez mesuré instinctivement s’appelle la
distance euclidienne.

23
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Distance euclidienne/ Manhattan


 Quand dans une ville, vous demandez à quelle distance se trouve un bâtiment donné, on vous répondra soit avec une
distance « à vol d’oiseau», soit avec une distance en suivant les rues (car vous ne pouvez pas voler, on pense).
 En mathématiques, c’est un peu le même principe : il y a plusieurs types de distances. Pour reprendre l’exemple de
la ville, sachez qu’il existe par exemple la distance de Manhattan.

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Distance Manhattan
 La distance de Manhattan (appelée aussi taxi-distance) est la distance entre deux points parcourus par un taxi
lorsqu'il se déplace dans une ville où les rues sont agencées selon un réseau ou quadrillage.
 Un taxi-chemin est le trajet fait par un taxi lorsqu'il se déplace d'un nœud du réseau à un autre en utilisant les
déplacements horizontaux et verticaux du réseau.

24
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Distance Manhattan
 Sur le graphique précédent, on calcule la distance de Manhattan en se déplaçant d’abord parallèlement à l’axe des
abscisses (on trouve donc 1), puis en se déplaçant parallèlement à l’axe des ordonnées (on trouve encore 1), ce qui
nous donne une distance de 2.

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Quelle est la distance euclidienne entre A et B ?  Quelle est la distance de Manhattan entre A et B ?

1
1
2
2
 2,
 2,

25
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Quelle est la distance euclidienne entre A et B ?  Quelle est la distance de Manhattan entre A et B ?

1
1
2
2
 2,
 2,

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Calculer la distance euclidienne et de Manhattan


entre ces deux espèces animales.

26
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Distance euclidienne :

(3  (5.1))2  (3.5  (5.2))2 


8.12  8.7 2 
11.88

 Distance de Manhattan

5.1  3  5.2  3.5  8.1  8.7  16.8

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

La notion de nuage de points


 Lorsque l’on représente les individus d’un échantillon par des points dans un espace euclidien, l’ensemble de ces
points est appelé nuage de points.
 En statistiques, on décrit des nuages de points : quelle forme ont-ils ? sont-ils étalés, resserrés, denses, gros, petits ?
quelle est leur position ?
• Un nuage étalé dans l’espace traduira par exemple des individus très différents les uns des autres.
• Peut-être y a-t-il des amas dans un nuage: des zones plus denses que d’autres. Dans ce cas, cela signifie qu’il y a
des groupes d’individus similaires entre eux, et plutôt différents des autres groupes.

27
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

La notion d’inertie
 Comme nous étudions la dispersion d’un nuage (étalé ou resserré), nous avons besoin d’une notion qui définit ce
concept : l’inertie.
• L’inertie est similaire à celle que rencontrent les physiciens lorsqu’ils étudient le mouvement des objets : un
objet avec une forte inertie est un objet difficile à mettre en mouvement, ou à faire entrer en rotation.
• Si vous avez deux objets de même masse, mais pas de même taille, l’objet qui sera plus grand (donc plus étalé
dans l’espace) sera plus difficile à faire tourner autour de son centre de gravité.

 Plus le nuage sera dispersé (étalé), plus son inertie sera grande.

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

L’inertie totale de nuage de points

28
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

L’inertie totale de nuage de points

 L’inertie du nuage de points Ni est aussi la somme des variances sur toutes les p dimensions
 Rappel : la variance est un indicateur de dispersion.

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Soit M 1 (1, 0), M 2 (0,1), M 3 (3,1), M 4 (4, 2), et M 5 (4, 3), 5


points du plan

1. Calculer le centre de gravité.


2. Calculer l’inertie totale du nuage des points.

29
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Variable quantitative

 Une variable quantitative est décrite par les valeurs qu’elle prend pour les individus.
 Afin de synthétiser l’information donnée par une variable quantitative, les deux indicateurs les plus utilisés
sont la moyenne et la variance.

30
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Calculer la moyenne et la variance de la série statistique suivante:

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Mesure de liaison entre 2 variables quantitatives


 Une variable prenant valeurs peut être représenté dans un vecteur R,n appelé espace des variables.
 Dans cet espace, le produit scalaire usuel entre deux vecteurs X et Y, de coordonnées respectives :

31
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Mesure de liaison entre 2 variables quantitatives


n
 Dans l’espace R le cosinus de l’angle formé entre deux variables centrées est égale au coefficient
de corrélation entre ces deux variables.

 Si r(x,y)=1 alors,
• Les deux vecteurs sont colinéaires: les valeurs prises par yi et xi sont proportionnelles
• Il existe une relation linéaire exacte entre les deux variables.
 L’absence de corrélation se traduit par une valeur nulle pour le coefficient de corrélation
linéaire et donc par un angle droit entre x et y.

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Mesure de liaison entre 2 variables quantitatives


 Le coefficient de corrélation entre 2 variables quantitatives x et y est défini par :

32
21/05/2024

+216 27 294 294

6) Comment représenter les données ?


[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Mesure de liaison entre 2 variables quantitatives


 Il y a en effet deux formules de calcul de la covariance, l'une pour les populations de taille de taille N, l'autre
pour les échantillons aléatoires de taille n. La première de ces formules est :

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 On veut mesurer la liaison entre les variables X et Y. pour cela on vous demande de calculer la corrélation
entre elles à la main :
1. Calculer les moyennes de X et de Y
2. Déduire la covariance de X et de Y
3. Que peut-on conclure ?

33
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

34
21/05/2024

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

+216 27 294 294

7) Evaluation de compétences [Link]


8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

35
21/05/2024

Préparation de données dans python

1) Présentation Générale
2) Transformation de Variables
3) Catégorisation d’une variable numérique
4) Normalisation de variables numériques
5) Manipulation des jeux de données
6) Combinaison de données

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Python est…
 portable et gratuit;
 un langage interprété (compilation transparente);
 un langage à typage dynamique (pas de déclaration de types);
 un langage orienté objet;
 facile à comprendre/apprendre;
 n’utilise aucun pointeur;
 très populaire;
 complet : sa bibliothèque standard permet de manipuler des expressions régulières, de
manipuler des fichiers, d’utiliser différents protocoles Internet, etc.
 développé par une communauté extrêmement dynamique;

 très bien documenté, avec de nombreux tutoriels !

36
21/05/2024

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Exemples de modules courants

 math : fonctions et constantes mathématiques de base (sin, cos, exp, pi...).


 random : génération de nombres aléatoires.
 time : permet d’accéder aux fonctions gérant le temps.
 numpy: module incontournable du calcul scientifique
 Pandas : manipulation et l'analyse des données
 ….

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Importer un module

37
21/05/2024

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Modules & Scripts

 Les programmes (scripts) et les modules python sont différenciés


seulement par la manière d’appel
• Les fichiers *.py qui sont précédés par import sont des modules
• Tous les autres fichiers *.py sont des programmes qui s’exécutent
directement
 Le même fichier *.py peut être à la fois un programme

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Types de données

38
21/05/2024

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Les conteneurs

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Opérations communes (list, tuple, str)

39
21/05/2024

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Opérations sur les list

+216 27 294 294

1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Le prétraitement est défini comme étant toutes les étapes nécessaires pour rendre des données prêtes à être fournies
en entrée à une certaine fonction,
• par exemple une fonction pour produire un graphique ou ajuster un modèle.

 Préparer des données peut impliquer :


• nettoyer les données (repérer et corriger des erreurs);
• modifier les observations d’une variable;
• créer de nouvelles variables;
• mettre en commun des jeux de données;
• réordonner des observations;
• modifier la mise en forme d’un jeu de données;
• etc.

40
21/05/2024

+216 27 294 294

2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Voici comment réaliser certains de ces prétraitements en python en important les modules pandas et numpy:

• import pandas as pd

• import numpy as np

• import [Link] as plt

+216 27 294 294

2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Les transformations de variables peuvent mener à :


• des modifications des variables dans un jeu de données
• ou à la création de nouvelles variables à partir de celles existantes.

 Supposons ici que nous travaillons avec un jeu de données stocké dans un DataFrame. Pour illustrer les premières
transformations présentées, nous utiliserons le jeu de données "cars" du package dataset.

41
21/05/2024

+216 27 294 294

2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Opérateurs d’indiçage et fonction transform :


• Pour remplacer une variable dans un DataFrame par une transformation de celle-ci, il suffit d'assigner le nouveau vecteur ou facteur
contenant les observations de la variable transformée à la colonne contenant la variable à modifier.
• Exemple : dans le jeu de données "cars", la distance est exprimée en pieds. Si on veut transformer l’échelle de mesure de cette
variable pour des mètres, cette transformation est effectuée par une simple opération mathématique : la multiplication par un
facteur de conversion. Ce facteur de conversion est ici 0.3048, car un pied est l’équivalent de 0.3048 mètre.

+216 27 294 294

2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Pour modifier la variable sans en créer une  La méthode assign de Pandas offre une alternative à
nouvelle, il suffit d'assigner le vecteur contenant l'assignation directe des colonnes. Dans cet exemple,
les données pour la variable transformée à la
colonne qui contenait la variable d’origine. nous multiplions chaque valeur de la colonne "dist" par
0.3048 pour convertir les pieds en mètres.

42
21/05/2024

+216 27 294 294

2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

 Transformation de la vitesse en mètres par seconde :

# Conversion de la vitesse de miles par heure en mètres par seconde


cars['speed_mps'] = cars['speed'] * 0.44704

 Ajout d'une nouvelle variable calculée à partir de speed et dist :

# Calcul de la durée pour s'arrêter en secondes


cars['time_to_stop'] = cars['dist'] / cars['speed']

3) Catégorisation d’une variable numérique


 La catégorisation d'une variable numérique consiste à regrouper ses valeurs en intervalles ou catégories spécifiques.
 C'est une technique utile pour simplifier l'analyse ou pour traiter des données de manière plus compréhensible.
 En Python, cela peut être réalisé avec la fonction [Link]() de la bibliothèque Pandas.
 Cette fonction permet de spécifier les limites des intervalles (ou "bins") et d'assigner des étiquettes à ces intervalles
 Exemple: catégorisation de la variable « speed » en trois niveaux : faible, moyen et élevé.

# Catégorisation de la vitesse en faible, moyenne et élevée


bins = [0, 5, 10, float('inf')]
labels = ['Low', 'Medium', 'High']
cars['speed_category'] = [Link](cars['speed'], bins=bins, labels=labels, right=False)

43
21/05/2024

4) Normalisation de valeurs numériques


 Normalisation de valeurs numériques :

• La normalisation est une technique de prétraitement des données qui vise à mettre à l'échelle les valeurs d'une

variable pour les rendre comparables ou pour les mettre dans une plage spécifique.

• Une méthode courante de normalisation consiste à soustraire la moyenne des valeurs et à diviser par l'écart-type,

ce qui est souvent appelé standardisation.

4) Normalisation de valeurs numériques

 Standardisation avec la fonction scale :

• La fonction scale de la bibliothèque scikit-learn est couramment utilisée pour standardiser les données en

Python.

• Elle soustrait la moyenne de chaque caractéristique puis divise par son écart-type, ce qui produit des

données centrées autour de zéro avec une variance unitaire.

44
21/05/2024

4) Normalisation de valeurs numériques

 Exemple: création d’une version standardisée du DataFrame "cars" avec toutes les valeurs normalisées selon
la méthode décrite. Les valeurs normalisées sont stockées dans la variable "cars_scaled".

from [Link] import scale

# Standardisation des valeurs du jeu de données cars avec la fonction scale


cars_scaled = scale(cars)

5) Manipulation de jeux de données


 Manipulation des jeux de données :
• La manipulation des jeux de données est une étape essentielle dans le processus d'analyse de données, permettant
de nettoyer, d'organiser et de préparer les données pour l'analyse.
 Retrait d'observations dupliquées ou contenant des données manquantes :
• Cette étape implique de supprimer les observations en double ou celles qui contiennent des valeurs manquantes,
afin de garantir la qualité des données.
• Les méthodes courantes incluent drop_duplicates() pour retirer les observations dupliquées et dropna() pour
supprimer les observations avec des valeurs manquantes.

45
21/05/2024

5) Manipulation de jeux de données


 Sélection de sous-ensembles du jeu de données :
• Il est souvent nécessaire de sélectionner uniquement les parties pertinentes du jeu de données pour une analyse
spécifique.
• Cela peut être réalisé en utilisant des méthodes de filtrage basées sur des critères spécifiques.

 Fusion de plusieurs jeux de données :


• Parfois, il est nécessaire de combiner ou de fusionner plusieurs jeux de données pour une analyse plus complète.
• La fusion peut être réalisée en utilisant des fonctions telles que merge() pour combiner les jeux de données sur
une colonne commune.

5) Manipulation de jeux de données


 Modification de l’ordre des observations ou des variables dans un jeu de données :
• Il peut être utile de réorganiser les observations ou les variables dans un jeu de données pour faciliter l'analyse
ou répondre à des besoins spécifiques.
• Cela peut être réalisé en utilisant des fonctions de réorganisation telles que sort_values() pour trier les données
selon une ou plusieurs colonnes.
 Modification de la mise en forme de jeux de données :
• Il est parfois nécessaire de modifier la mise en forme des jeux de données pour les rendre compatibles avec les
outils ou les modèles d'analyse.
• Cela peut inclure la conversion de types de données, la création de nouvelles variables dérivées, ou la
réorganisation des colonnes pour une meilleure lisibilité.

46
21/05/2024

5) Manipulation de jeux de données


Exemples
Retrait d'observations dupliquées ou contenant des données manquantes

# Supprimer les observations dupliquées


cars.drop_duplicates(inplace=True)

# Supprimer les observations avec des valeurs manquantes


[Link](inplace=True)

 Sélection de sous-ensembles du jeu de données


# Sélectionner les voitures avec une vitesse supérieure à 10
cars_subset = cars[cars['speed'] > 10]

5) Manipulation de jeux de données


Exemples
 Fusion de plusieurs jeux de données

# Chargement d'un autre DataFrame


additional_data = pd.read_csv("additional_data.csv")

# Fusion des deux DataFrames sur une colonne commune


combined_data = [Link](cars, additional_data, on='id')

 Modification de l’ordre des observations ou des variables dans un jeu de données


# Trier le DataFrame par la colonne "speed"
cars_sorted = cars.sort_values(by='speed')

47
21/05/2024

6) Combinaison des données


 Combiner des données signifie de mettre en commun deux jeux de données ou plus.
• Ils peuvent être mis en commun par une simple concaténation, c’est-à-dire une mise bout à bout, de lignes ou de
colonnes.
• Ils peuvent aussi être fusionnés par association en tenant compte des valeurs prises par des variables communes
aux jeux de données.

6) Combinaison des données


Concaténation d’observations (lignes)

 La concaténation d'observations, également appelée empilement ou fusion de lignes, consiste à combiner

plusieurs DataFrames le long de l'axe des lignes.

• Supposons que vous ayez deux DataFrames contenant des observations sur différentes périodes de temps, et

vous voulez les combiner en un seul DataFrame.

• Utilisez la fonction [Link]() de Pandas pour concaténer les DataFrames le long de l'axe des lignes.

48
21/05/2024

6) Combinaison des données


Concaténation d’observations (lignes)
 Exemple: Supposons que vous avez deux jeux de

données "cars1" et "cars2" qui contiennent des

observations sur différentes périodes de temps, et vous

souhaitez les combiner en un seul DataFrame.

• L'argument ignore_index=True est utilisé pour

réinitialiser l'index du DataFrame résultant.

• Le DataFrame "combined_cars" contiendra toutes les

observations des deux périodes, empilées les unes sur

les autres, avec un nouvel index.

6) Combinaison des données


Concaténation d’observations (colonnes)

 Nous pourrions concaténer deux jeux de données contenant chacun plus d’une variable et stocker le résultat

de la concaténation dans un nouvel objet.

 Prenons l'exemple où nous disposons de deux jeux de

données distincts :

• l'un contient des informations sur les lanceurs de dés, appelé

data_ex,

• tandis que l'autre contient des détails sur les lanceurs, nommé

data_ex_lanceur.

49
21/05/2024

6) Combinaison des données


 Combiner des données signifie de mettre en commun deux jeux de données ou plus.
• Ils peuvent être mis en commun par une simple concaténation, c’est-à-dire une mise bout à bout, de lignes ou de
colonnes.
• Ils peuvent aussi être fusionnés par association en tenant compte des valeurs prises par des variables communes
aux jeux de données.
axis=1 : Cet argument spécifie que la concaténation
doit se faire le long de l'axe horizontal, c'est-à-dire
que les colonnes des DataFrames seront concaténées.

Résultat: Concaténation des colonnes des deux DataFrames data_ex et


data_ex_lanceurs et stocker le résultat dans le DataFrame combined_data.
Vous pouvez ensuite utiliser ce DataFrame pour une analyse supplémentaire
ou pour toute autre opération dont vous avez besoin.

6) Combinaison des données


Fusion par association
 Avec une fusion par concaténation de variables, les risques d’erreurs sont présents.

• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est

droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les

caractéristiques.

 Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les

correspondances entre les lignes des deux jeux de données.

 Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer

en Python avec la fonction merge.

50
21/05/2024

6) Combinaison des données


Fusion par association
 Avec une fusion par concaténation de variables, les risques d’erreurs sont présents.

• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est

droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les

caractéristiques.

 Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les

correspondances entre les lignes des deux jeux de données.

 Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer

en Python avec la fonction merge.

6) Combinaison des données


Fusion par association
 Avec une fusion par concaténation de variables, les risques d’erreurs sont présents.

• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est

droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les

caractéristiques.

 Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les

correspondances entre les lignes des deux jeux de données.

 Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer

en Python avec la fonction join.

51
21/05/2024

6) Combinaison des données


Fusion par association

 Dans l'exemple précédent, nous aurions souhaité

fusionner le jeu de données data_ex avec le jeu de

données suivant :

6) Combinaison des données


Fusion par association
 Tri désactivé:  Tri activé:

52
21/05/2024

Classification de données

1) Définition
2) Domaines d’application
3) Terminologie
4) Mise en œuvre d’une classification
5) Classification supervisée vs. non supervisée
6) Evaluation de la classification
7) TDs

1) Définition
 Pour faciliter l’étude d’une population d’effectif important (animaux, plantes, malades, gènes, etc.), on les
regroupe en plusieurs classes de telle sorte que :
• les individus d’une même classe soient le plus semblables possible et que les classes soient le plus distinctes
possibles.

 Pour cela il y a diverses façons de procéder qui peuvent conduire à des résultats différents.
 Les diverses techniques de classification visent toutes à répartir n individus (objets), caractérisés par p variables
(attributs) X1 , X2 ,..., Xp en un certain nombre m de groupes (classes) aussi homogènes (similaires) que possible.

53
21/05/2024

1) Définition
 Opérer des regroupements en classes (groupes, familles, segments ou clusters) homogènes d’un ensemble d’objets
(individus) de sorte que :
• Deux objets d’un même groupe se ressemblent le plus possible
• Deux objets de groupes distincts diffèrent le plus possible
• Le nombre de groupes est parfois fixé.

 Les données se présentent en général sous la forme d’un tableau individus × variables.
 Exemple:
• M: moyenne des crédits sur le compte du client
• A: tranche d'âge
• R: localité du client
• E possède la valeur oui si le client possède un niveau d'études supérieur au bac

1) Définition

 Découvrir les groupes (clusters) d'individus similaires


 Maximiser la similarité intra-classes et minimiser la similarité interclasses.
 Mesurer la distance en assimilant un tuple à un point dans un espace à n dimensions.

54
21/05/2024

2) Domaines d’application

 La classification joue un rôle dans toutes les sciences et techniques qui font appel à la statistique
multidimensionnelle.
 Analyse exploratoire de données (typologie) :
• Marketing : typologie des clients
• Bio-informatique : regroupement de gènes
• Image : segmentation en zones homogènes
 Simplification de données :
• recherche d’information : regroupement de pages web
• données très volumineuses : chaque groupe est remplacé par un représentant.

3) Terminologie

 Classification : répartir des objets en des classes


• L’équivalent en Anglais de « classification» est « clustring ».

 Classement: À partir d’exemples d’objets répartis en classes, déterminer la classe adaptée pour un nouvel objet.
• Traduit en Anglais par « classification »

55
21/05/2024

4) Mise en œuvre

 Classifier revient à :
• Préparer les données
• Choisir un critère de ressemblance
• une mesure de la similarité/distance: comment comparer des objets ?
• Choisir un critère d'homogénéité,
• Une notion de classe: comment regrouper les objets ?
• Choisir une méthode de classification,
• Comment organiser les classes?
• et parfois un nombre de classes composant la partition.
• Evaluer de la qualité de la classification.
• Interpréter le résultat de la classification

4) Mise en œuvre
Données et leur représentation
 Collecte des données
• Données existantes ou à constituer,

• Fichiers : information contenue dans un ou plusieurs fichiers indépendants.

• BD relationnelles : information contenue dans plusieurs fichiers unis par une


clé commune.

56
21/05/2024

4) Mise en œuvre
Données et leur représentation
 Une donnée est :
• Un enregistrement ou description ou tuple (terminologie bases de données,
• Un individu (terminologie issue des statistiques),
• Une instance (terminologie orientée objet en informatique) ,
• Un point dans un espace euclidien,
• Un vecteur dans un espace vectoriel.
 Une donnée est caractérisée par un ensemble de champs, de variables, de mesures ou encore d’attributs.

4) Mise en œuvre
Données et leur représentation
 Types d’attributs :
• Données discrètes ou symboliques:
• binaires ou logiques ou booléens : 0 ou 1 ; oui ou non ; vrai ou faux (être bon client ou non, ...)
• énumératives ou nominales: pour lesquelles il n'existe pas d'ordre défini a priori (la couleur: rouge, vert,
bleu, ...)
• énumératives ordonnées ou ordinales : les réponses à une enquête d'opinion (1: très satisfait, 2 : satisfait, ...)
• Les données continues ou numériques:
• entières ou réelles (l'âge, le revenu moyen, …)

57
21/05/2024

4) Mise en œuvre
Données et leur représentation
 Les données brutes peuvent être représentées par une matrice X à n lignes et p colonnes.
 Chaque ligne correspond à l’un des n éléments qu’on désire classer, caractérisée par p mesures.
 Matrice de données brutes :

 Les colonnes ne sont pas forcément du même type et il peut y avoir des entrées vides correspondant aux entrées
manquantes.

4) Mise en œuvre
Données et leur représentation
 Bruit:
• Des données dont certains attributs ont une valeur inconnue ou invalide.
• La simple élimination des données ayant un attribut dont la valeur est inconnue ou invalide pourrait vider
complètement la base de données.
• On touche le problème de la collecte de données fiables qui est un problème pratique très difficile à résoudre.
 Si une mesure est manquante pour un élément, on peut:
• L’ignorer dans le calcul de distances.
• Remplacer la valeur manquante par la moyenne des autres valeurs ou bien par la valeur de l’élément le plus
similaire.

58
21/05/2024

4) Mise en œuvre
Données et leur représentation
 Très souvent, les données brutes sont de plusieurs types.
• Exemple: un sol peut être caractérisé par son acidité Ph (numérique), sa couleur (ordinal), le type de pierres
présentes (nominal) et la présence de vers (binaires).
 Si la majorité des mesures sont d’un type, on peut essayer de ramener toutes les données à ce type :

4) Mise en œuvre
Critère de ressemblance (similarité/distance)
 Pour regrouper les individus qui se ressemblent (et séparer ceux qui ne se ressemblent pas), il faut un “critère de
ressemblance”
 Groupe homogène: les objets du groupe se ressemblent.
 Groupes bien distincts: les objets de groupes distincts ne se ressemblent pas.

59
21/05/2024

4) Mise en œuvre
Mesures de similarité ou de distance
 Similarité sur un ensemble d’objets
• Maximale: s(a,a) ≥ s(a,b)
• Symétrique: s(a,b)=s(b,a)
 Distance (dis-similarité, éloignement): opération inverse
• d(a,a)=d(b,b)
• d(a,b)=d(b,a)

4) Mise en œuvre
Mesures de similarité ou de distance
 On peut associer à chaque nuage d’individus une matrice dite matrice des distances :
• à n lignes et n colonnes
• D=(dij)0≤i≤n=d2 (Mi ,Mj )
• à coefficients positifs, symétrique et nulle (puisque d2 (Mi , Mi )=0) sur la diagonale

60
21/05/2024

4) Mise en œuvre
Mesures de similarité ou de distance
 On examine l’ensemble des informations concernant les individus
• Exemple: Pression artérielle, température, taux de métabolisme, notées (Xi , Yi ,…, Zn ) de l’espace et on
imagine que chaque individu est un point Mi= (Xi , Yi ,…, Zn ) de l’espace.
 S’il n’y a que deux variables relevées (Xi , Yi ) on obtient ainsi un nuage de points dans le plan Γ={Mi , i=1,...,n}
où n est l’effectif total de la population.

 La distance euclidienne de deux individus Mi et Mj est par définition:


 Le choix d'une mesure dépend du type des attributs (numériques, binaires, etc.).

4) Mise en œuvre
Mesures de similarité ou de distance
 Données numériques:

61
21/05/2024

4) Mise en œuvre
Mesures de similarité ou de distance
 Données numériques

• La distance euclidienne : le type de distance le plus couramment utilisé. Il s'agit d'une distance géométrique
dans un espace multidimensionnel.

• Distance Euclidienne au carré : Permet de "sur-pondérer" les objets atypiques (éloignés), en élevant la distance
euclidienne au carré.

• La distance du City-block (Manhattan) : cette distance est simplement la somme des différences entre les
dimensions.

4) Mise en œuvre
Mesures de similarité ou de distance
 Données binaires
• La distance de Hamming calcule le nombre d’éléments différents dans les vecteurs binaires.
• Exemple:

62
21/05/2024

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
 Permet de faire converger les algorithmes de classification pour:
• minimiser l'inertie (dispersion) intra-classe
• ou maximiser l'inertie interclasses.
 Supposons le nuage Γ={Mi,i=1,...,n} décomposé en plusieurs classes Γ1 ,Γ2 ,..., Γk et notons G1 , G2 ,...., Gk les
centres de gravité respectifs de chaque classe et notons p1 , p2 , ... pk les poids respectifs de chaque classe.
 Si l’on suppose que tous les individus ont le même poids égal à 1/n, le poids pl de la classe Γl est égal à l’effectif
de Γl divisé par n. De cette façon la somme des poids de toutes les classes vaut 1.
 Le centre de gravité G d’un nuage de points Γ est le point moyen du nuage, c’est-à-dire le point G  ( x, y,...)
de coordonnées :

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
 Pour mesurer la proximité ou l’écart entre deux classes Γl et Γm, il existe différentes stratégies:
• La distance du plus proche voisin
• La distance du plus loin voisin
• La distance des centres de gravité

 La mesure que l’on utilise le plus souvent appelée écart de Ward est définie par :

63
21/05/2024

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
 L’inertie mesure la dispersion du nuage.
 On appelle inertie totale d’un nuage Γ ={Mi,i=1,...,n} la moyenne des carrés des distances de ses points au centre
de gravité du nuage.
 si G désigne le centre de gravité de Γ, l’inertie totale de Γ est, si tous les points du nuage sont de même poids égal à
1/n

 Si le nuage Γ est composé de k classes Γ1 , Γ2 , .... , Γk , celles-ci seront d’autant plus homogènes que les inerties
de chaque classe , calculées par rapport à leurs centres de gravité G1 ,G2 , .... ,Gk
respectifs, sont faibles.

64
21/05/2024

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
 La moyenne pondérée de ces inerties est appelée inertie intra classe.

 L’inertie interclasse (prise en compte de la dispersion des classes par rapport au centre de gravité du nuage) définie
par:

 L’inertie totale d’un nuage de points composé de différentes classe

4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
 Une classe est homogène
 son inertie est faible.
 Deux critères de bonne classification : grande IR , petite IA
 Ces deux critères sont équivalents d’après la formule de Huygens: ITOT=IA+IR

 Une classe est “bien regroupée” autour de son centre de gravité, son inertie est faible.
 Ainsi, un bon critère pour avoir des classes homogènes est d’avoir une inertie intra-classe qui soit aussi petite que
possible.
 En utilisant le Théorème de Huygens, cela revient à dire qu’il faut une inertie interclasse aussi grande que possible.

65
21/05/2024

Exercice d’évaluation
 Soient M1= (1, 0), M2 = (0, 1) et M3 = (3, 1) 3 points du plan.
1. Calculer les matrices des distances du nuage formé de ces trois points en utilisant successivement la distance
euclidienne d2 puis les distances d1 et d∞ .
2. On ajoute au nuage précédent les deux points M4=(4, 2) et M5 = (4, 3). Supposons que M1 , M2 et M3 forment la
classe C1 et que M4 et M5 forment une seconde classe C2 . Calculer le centre de gravité et le poids de chaque
classe.
3. Calculer l’écart entre ces deux classes (en utilisant la distance euclidienne) par
a) la distance du plus proche voisin (ou saut minimal),
b) la distance du voisin le plus loin (saut maximal),
c) la distance entre les centres de gravité et
d) l’écart de ward.

Exercice d’évaluation

4. Calculer l’inertie totale I(C1∪C2 ) du nuage des points.

5. Calculer l’inertie intra-classe Iintra et l’inertie inter-classe Iinter.

6. Vérifier que l’inertie totale d’un nuage de points composé de différentes classes est la somme de son inertie intra-

classe et de son inertie interclasse. I(C1∪C2 )=Iintra +Iinter

7. Comparer cette classification à celle ayant une première classe composée uniquement par M1 et M2 alors que M3,

M4 et M5 sont dans une deuxième classe.

66
21/05/2024

Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)

1) Calcul des matrices des distances (M1 , M2 , M3 ) d2 puis les distances d1 et d∞ .

Distance euclidienne:

Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)

1) Calcul des matrices des distances (M1 , M2 , M3 ) d2 puis les distances d1 et d∞ .

Distance Manhattan:

67
21/05/2024

Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)

1) Calcul des matrices des distances (M1 , M2 , M3 ) d2 puis les distances d1 et d∞ .

Distance de Chebyshev:

Exercice d’évaluation
correction

68
21/05/2024

Exercice d’évaluation
correction

Exercice d’évaluation
correction

69
21/05/2024

Exercice d’évaluation
correction

3 2
I int ra  1.95  0.25  1.27
5 5

Exercice d’évaluation
correction
5) Inertie intra et interclasse :

6) Vérifions que I=Iintra + Iinter

7) Comparaison avec une classification ayant une première classe composée uniquement par M1 et M2 alors que
M3, M4 et M5 sont dans une deuxième classe. Il suffit de calculer Iinter ou Iintra de cette nouvelle classification, si
on obtient Inter plus grande ou Intra plus petite que celle de la première classification alors la seconde classification
est meilleure.

70
21/05/2024

5) Classification non supervisée vs. supervisée

5) Classification non supervisée vs. supervisée

 Classification non supervisée  Classification supervisée

• Hiérarchique • K-plus proches voisins

• Classification ascendante • Classification bayésienne

• Classification descendante • Arbre de décision

• Non hiérarchique • Réseaux de neurones

• K-means

71
21/05/2024

5) Classification non supervisée vs. supervisée


Classification non supervisée

5) Classification non supervisée vs. supervisée


Classification non supervisée hiérarchique

 Créer une décomposition hiérarchique des objets selon certains critères. On peut procéder par une méthode :
• Descendante ou divisive,
• On part de l’ensemble de tous les éléments que l’on fractionne en un certain nombre de sous-ensembles.
• Ces derniers sont eux-mêmes fractionnés récursivement jusqu’à ce que l’on arrive aux éléments individuels.
• Ascendante ou agglomérative,
• On part des éléments individuels que l’on regroupe en sous-ensembles
• Avant d’appliquer récursivement les regroupements sur les sous-ensembles jusqu’à obtenir un seul ensemble
contenant tous les éléments.

72
21/05/2024

5) Classification non supervisée vs. supervisée


Classification non supervisée non hiérarchique

 En classification non hiérarchique, construire plusieurs partitions puis les évaluer selon certains critères.
 On part d'une partition arbitraire en K classes (quelconques) que l’on améliore itérativement jusqu’à la
convergence du critère choisi.
 On peut considérer que chaque élément:
• ne fait partie que d’un sous-ensemble, on parle alors de partition.
• en fait partie de plusieurs, en attribuant une probabilité d’appartenance à chaque groupe et on parle alors de
classification recouvrante.

5) Classification non supervisée vs. supervisée

 Classification supervisée

• On dispose d’un ensemble X, de N exemples: des couples (donnée, classe).

• Chaque donnée xi ∈ D est caractérisée par P attributs et par sa classe yi ∈ Y.

• Dans un problème de classification supervisée, la classe prend sa valeur parmi un ensemble Y fini. Le problème

consiste alors, en s’appuyant sur l’ensemble d’exemples X={(xi , yi ) où i∈{1,...,N}}, à prédire la classe de toute

nouvelle donnée x∈ D.

73
21/05/2024

5) Classification non supervisée vs. supervisée

 Classification supervisée

• On distingue deux grands types de classifieurs:

• ceux qui utilisent directement les exemples pour prédire la classe d’une donnée (classification bayésienne,

etc.);

• ceux pour lesquels on a d’abord construit un modèle et qui, ensuite, utilisent ce modèle pour effectuer leur

prédiction (arbre de décision, réseau de neurones artificiels, etc.).

6) Evaluation de la classification

 L'interprétation des classes


• permet de comprendre la partition.
• s'effectue en analysant les individus qui composent chaque classe.
 Le statisticien peut
• compter les individus dans chaque classe,
• calculer le diamètre des classes (la distance maximum entre individus de chaque classe).
• identifier les individus proches du centre de gravité,
• établir la séparation entre deux classes (distance minimum entre deux membres de ces classes)
• Analyser les variables, en calculant par exemple la fréquence de certaines valeurs de variables prises par les
individus de chaque classe.

74
21/05/2024

6) Evaluation de la classification

 On doit être capable de dire si tel modèle (classifieur) est meilleur que tel autre tout en le justifiant.

 Des critères globaux de mesure de qualité d’une classification peuvent être basés sur :

• les séparations des classes,

• l’homogénéité des éléments à l’intérieur d’une classe

6) Evaluation de la classification

 Il existe différents critères d’évaluation comme la sensibilité (le rappel), la précision, le F-mesure, etc.
 Avant d’arriver à ces critères, on commande par découper les données pour créer une matrice de confusion.
 C’est en croisant les étiquettes réelles des individus avec les étiquettes prédites par le modèle qu’on va mettre en
place la matrice de confusion.

75
21/05/2024

6) Evaluation de la classification

 Exemple: Créer un modèle permettant de prédire le temps qu’il fait dehors en fonction de relevés météorologiques.

• les individus statistiques sont les villes,

• les variables explicatives sont des relevés de température, pression atmosphérique, luminosité et

• les classes à prédire sont « pluie », « beau temps » et « neige ».

 Admettons qu’on ait fait tout le travail en amont permettant de :

• créer le modèle avec les données d’apprentissage et

• on a prédit les classes des données de tests

6) Evaluation de la classification
 On va donc croiser ces données et obtenir une matrice de confusion

• Elle a en colonne et en ligne les mêmes intitulés et


• Elle n’est pas pour autant une matrice symétrique.
• En ligne, on lit les labels des individus « réels » et en colonne les labels prédits par le modèle.
 On peut conclure par exemple que :
• Dans 31 situations où il pleuvait, le modèle a bien prédit qu’il pleuvait
• Le modèle a prédit 1 fois qu’il faisait beau temps alors qu’en réalité il pleuvait
• La classe beau temps déduite par le modèle contient 23 observations bien classés et 7 (=6+1) mauvaises

76
21/05/2024

6) Evaluation de la classification
 A partir de cette matrice, on peut calculer des indicateurs de performances en classification :
• Taux d’erreur : correspond à la qualité générale du modèle.
• Pour cela, on va diviser les bonnes prédictions (somme de la diagonale) par le nombre total de prédictions, le tout soustrait de 1.
• Dans notre exemple, on a un taux d’erreur précision égale à: 1-[(31+23+32)/(31+1+9+6+23+8+5+6+32)]=29%.

• Précision : correspond à la qualité de la classe (précision)


• Proportion d’éléments pertinents parmi l'ensemble des éléments proposés.
• On divise le nombre d’éléments bien classés dans la classe par le nombre total d’éléments attribués à la classe.
• Par exemple, il y a une précision de 74% (31/31+6+5) dans la classe Pluie.

• Rappel (Sensibilité) : correspond à la qualité d’une classe (pertinence).


• Proportion d’éléments pertinents parmi l'ensemble des éléments pertinents.
• On divise le nombre d’éléments bien classés dans la classe par le nombre total d’éléments appartenant réellement à la classe.
• Par exemple, il y a un rappel de 76% (31/31+1+9) dans la classe Pluie

6) Evaluation de la classification
 Exemple: Lorsqu'un moteur de recherche retourne 30 pages web dont seulement 20 sont pertinentes et 10 ne le sont
pas, mais qu'il omet 40 autres pages pertinentes, sa précision est de 20/30 = 2/3 et son rappel vaut 20/(20+40) = 1/3.
• Précision : quand un utilisateur interroge un moteur de recherche, il souhaite que les documents proposés en réponse à son
interrogation correspondent à son attente. Tous les documents retournés superflus ou non pertinents constituent du bruit.
• La précision s’oppose à ce bruit documentaire. Si elle est élevée, cela signifie que peu de documents inutiles sont proposés par le
système et que ce dernier peut être considéré comme « précis ».
• Rappel : lorsque l’utilisateur interroge le moteur de recherche, il souhaite voir apparaître tous les documents qui pourraient répondre
à son besoin d'information. Si le nombre de documents présentés est importante alors le taux de rappel est élevé. À l’inverse, si le
système possède de nombreux documents intéressants mais que ceux-ci n’apparaissent pas dans la liste des réponses, on parle de
silence.
• Le silence s’oppose au rappel.

77
21/05/2024

6) Evaluation de la classification
 NB : Dans le cas où il y a plusieurs classes à prédire, le rappel correspond à la somme des rappels de chacune des
classes, divisé par le nombre de classes. Il s’agit donc d’une moyenne des rappels. Même raisonnement pour la
précision en multi-classes.
 Un classifieur parfait fournira des réponses dont la précision et le rappel sont égaux à 1
• l'algorithme trouve la totalité des éléments pertinents: rappel
• et ne fait aucune erreur : précision
 Dans la réalité, les classifieurs sont plus ou moins précis, et plus ou moins pertinents.
 La performance d'un classifieur ne se réduit donc pas à un bon score en précision ou en rappel.
 F-mesure (ou F-score): Mesure de compromis entre précision et rappel :

6) Evaluation de la classification
 Une matrice de confusion, pour un problème à 2 classes (Y = Positif ou Négatif), prend la forme suivante :

 Le rappel (ou sensibilité ou taux de vrais positifs - TVP) représente la fraction des positifs intégrés dans la
cible, il correspond à la probabilité P(ω∈cible /Y(ω)=Positif).

 La précision représente la proportion des positifs à l’intérieur de la cible, elle correspond à la probabilité
P(Y( ω)=+/ω∈cible).

78
21/05/2024

6) Evaluation de la classification
 Indicateurs de performances en classification
• Le rappel et la précision dans un cadre multi-classe :
• Il est possible de calculer tous ces indicateurs pour chaque classe. La moyenne sur chaque classe de ces
indicateurs donne des indicateurs globaux sur la qualité du classifieur.

7) Exercice d’évaluation
 Un classifieur destiné à prédire l’occurrence d’une maladie
cardiaque (DISEASE : positif ou négatif) à partir des
caractéristiques des patients (CHOLESTERAL, THALAC
et OLDPEAK. Il est appliqué sur un échantillon test
comportant n = 20 observations. Ce tableau contenant les
données et la prédiction (en gras les bonnes prédictions, en
italique les mauvaises).
1) Construire la matrice de confusion
2) Calculer le taux d’erreur
3) Calculer le rappel, la précision et F-mesure par classe
4) Déduire le rappel, la précision et F-mesure globaux du
classifieur.

79
21/05/2024

7) Exercice d’évaluation
Correction

Classification non supervisée ou Clustering

1) Introduction
2) Méthode des centres mobiles (k-means)
3) Méthode K-médoïdes
4) Classification Ascendante Hiérarchique (CAH)
5) Classification Descendante Hiérarchique (CDH)
6) TDs & TPs

80
21/05/2024

1) Introduction

 Contexte :

• Pour n individus d’une population, on dispose des valeurs de p caractères X1, . . . , Xp.

• Ces valeurs constituent les données.

 Objectif :

• Partant des données, l’objectif est de regrouper/classer les individus qui se ressemblent le plus/qui ont des

caractéristiques semblables

1) Introduction
 Exemple : Dans une classe, un professeur souhaite faire des binômes constitués d’élèves ayant des compétences
semblables. Parmi ceux-ci, 6 élèves ont obtenu les notes suivantes :

• Tous les élèves ont une moyenne de 10/20


• Mais, vu les notes,
• Boris et Stéphanie ont un profil similaire,
• Mohammad et Lilly ont un profil similaire,
• Jean et Annabelle ont un profil similaire.
• Le professeur décide de faire 2 groupes
cohérents de 3 élèves avec ces 6 élèves.
Lesquels proposez vous ?

81
21/05/2024

1) Introduction

 En comparant les notes par matière, on propose :


• Groupe 1 : Boris, Stéphanie et Lilly,
• Groupe 2 : Mohammad, Jean et Annabelle.
 Bien entendu, cette analyse intuitive n’est pas possible si, par exemple, on a 30 élèves à classer par groupes de 3 et
on considère 12 matières. C’est pourquoi des méthodes mathématiques ont été mises en place

2) Méthode K-means

 Principe
• Construire K partitions et les corriger jusqu’à obtenir une similarité satisfaisante.
• Méthode des centres mobiles (K-means ou k-moyenne)
• Méthode des k-médoïdes
 Avantages:
• traiter rapidement des ensembles d’effectif assez élevé
• simples et efficaces, les plus utilisées.
 Inconvénients :
• On impose au départ le nombre de classes.

82
21/05/2024

2) Méthode K-means

 Algorithme
• Initialisation:
• Choisir k centres (centres de gravité ou centroïdes ou barycentres) provisoires tirés au hasard (aléatoirement).
• Pas de l’algorithme:
• Chacun des individus est associé à la classe dont le centre est le plus proche. On obtient ainsi une partition des
individus en k classes.
• Remplacer les k centres par les centres de gravité des nouvelles classes.
• Recommencer jusqu’à stabilisation des centres
• Les centres ne bougent plus et la poursuite de cet algorithme ne changera plus les résultats.
• L’algorithme converge où le critère à minimiser (inertie intra-classes) ne décroisse plus.

2) Méthode K-means

 Exemple

83
21/05/2024

2) Méthode K-means

 Exemple

2) Méthode K-means

84
21/05/2024

2) Méthode K-means
Choix du K
 Choix n’est pas forcément intuitif spécialement quand le jeu de données est grand et qu’on n’ait pas un a priori ou
des hypothèses sur les données.
 Un nombre K grand peut conduire à un partitionnement trop fragmenté des données. Ce qui empêchera de découvrir
des patterns intéressants dans les données.
 Par contre, un nombre de clusters trop petit, conduira à avoir, potentiellement, des clusters trop généralistes contenant
beaucoup de données. Dans ce cas, on n’aura pas de patterns “fins” à découvrir.
 Pour un même jeu de données, il n’existe pas un unique clustering possible.
 La difficulté résidera donc à choisir un nombre de cluster K qui permettra de mettre en lumière des patterns
intéressants entre les données. Malheureusement il n’existe pas de procédé automatisé pour trouver le bon nombre de
clusters.

2) Méthode K-means
Choix du K
 Méthode la plus usuelle pour choisir le nombre de clusters: lancer Kmeans avec différentes valeurs de K et calculer la
variance des différents clusters.
 La variance est la somme des distances entre chaque centre d’un cluster et les différentes observations inclues dans le
même cluster.

• cj : Le centre du cluster (le centroïd)


• xi : la ième observation dans le cluster ayant pour centroïd cj
• D(cj , xi ) : La distance (euclidienne ou autre) entre le centre du cluster et le point xi

 On cherche à trouver un nombre de clusters K telle que les clusters retenus minimisent la distance entre leurs centres
et les observations dans le même cluster.

85
21/05/2024

2) Méthode K-means
Choix du K
 Généralement, en mettant dans un graphique les différents nombres de clusters K en fonction de la variance, on retrouve un graphique
similaire à celui-ci :

 NB: la forme d’un bras où le point le plus haut représente l’épaule et le point où K vaut 9 représente l’autre extrémité : la main.
 Le nombre optimal de clusters est le point représentant le coude (d’où le nom de la méthode).
 Ici le coude peut être représenté par K valant 2 ou 3. C’est le nombre optimal de clusters. Généralement, le point du coude est celui du
nombre de clusters à partir duquel la variance ne se réduit plus significativement. En effet, la “chute” de la courbe de variance entre 1 et
3 clusters est significativement plus grande que celle entre 5 clusters et 9 clusters.

2) Méthode K-means
Domaine d’application
 Marketing : Segmentation du marché en découvrant des groupes de clients distincts à partir de la base de données des

achats,

 Environnement : identification des zones terrestre similaires (en terme d’utilisation) dans une base de données

d’observation de la terre,

 Assurance : identification des groupes d’assurés distincts associé à un nombre important de déclarations,

 Médecine : localisation de tumeurs de cerveau.

86
21/05/2024

2) Méthode K-means
Exercice d’application
 Exercice 1:
On considère les 6 points M1(0, 0), M2(1, 2), M3(3, 6), M4(3, 0), M5(4, 5) et M6(6, 5).
1) En supposant que les deux points M1 et M4 sont les centres initiaux, décrire par une succession de dessins
commentés, les étapes de l’algorithme K-means en représentant à chaque itération — les classes dont on donnera
les éléments et qu’on entourera chacune d’un arrondi, — ainsi que les centres de ces classes qu’on calculera.
2) Les dessins obtenus représentent des partitions différentes du même ensemble. Calculer l’inertie totale du nuage,
puis pour chacune des partitions, l’inertie intraclasse et vérifier qu’elle est bien décroissante au cours du processus
de classification.
3) En calculant l’inertie interclasse de la deuxième partition, vérifier sur cet exemple le théorème de Huygens.

2) Méthode K-means
Exercice d’application
 Solution :
M1(0, 0), M2(1, 2), M3(3, 6), M4(3, 0), M5(4, 5) et M6(6, 5).
1) M1 et M4: centres initiaux, décrire les étapes de K-means en représentant à chaque itération: — les classes dont on
donnera les éléments et qu’on entourera chacune d’un arrondi, — ainsi que les centres de ces classes qu’on calculera.

87
21/05/2024

2) Méthode K-means
Exercice d’application

2) Méthode K-means
Exercice d’application

88
21/05/2024

2) Méthode K-means
Exercice d’application
2) Calcul de l’inertie totale du nuage, puis pour chacune des partitions, l’inertie intra-classe et vérification qu’elle est
bien décroissante au cours du processus de classification.

2) Méthode K-means
Exercice d’application

89
21/05/2024

2) Méthode K-means
Exercice d’application
3) En calculant l’inertie interclasse de la deuxième partition, vérifier sur cet exemple le théorème de Huygens.

2) Méthode K-means
Exercice d’application
 Exercice 2 :

Soient M1 = (1, 0), M2 = (0, 1) , M3 = (3, 1), M4 = (4, 2) et M5= (4, 3) cinq points du plan.

1) Appliquer la classification K-means (avec K=2) en prenant comme centre de classes les points M1 et M4 et en

considérant la distance euclidienne.

2) Si on choisit M3 et M5 comme centres de classes à l’initialisation, aurons-nous la même répartition.

3) Quelle répartition est meilleure?

90
21/05/2024

2) Méthode K-means
Exercice d’application
 Solution :
1) K-means (avec K=2) en prenant comme centre de classes les points M1 et M4 et en considérant la distance
euclidienne.

2) Méthode K-means
Exercice d’application
2) Choix de M3 et M5 comme centres de classes à l’initialisation.

91
21/05/2024

2) Méthode K-means
Exercice d’application
2) Choix de M3 et M5 comme centres de classes à l’initialisation.

2) Méthode K-means
Importance des centres initiaux
Soient six points dans le plan ayant pour coordonnées

1) Calcul de la partition obtenue en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).
2) Calcul de la partition obtenue en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).

92
21/05/2024

2) Méthode K-means
Importance des centres initiaux
1) Calcul de la partition en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).

2) Méthode K-means
Importance des centres initiaux
1) Calcul de la partition en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).

93
21/05/2024

2) Méthode K-means
Importance des centres initiaux

• Ce code effectue une analyse de clustering


K-means sur les données ‘don’ en utilisant des
centres initiaux spécifiés dans ‘ctre1’ et génère
un graphique pour visualiser les clusters
identifiés ainsi que leurs centres.
• 2 classes: C1: {(-2,-1), (-2,2), (-2,3), (0,-1) }
C2: {(3,0),(2,2)}

2) Méthode K-means
Importance des centres initiaux
2) Calcul de la partition en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).

94
21/05/2024

2) Méthode K-means
Importance des centres initiaux
2) Calcul de la partition en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).

 2 classes: C1: {(-2,-1), (-2,2), (-2,3)}


C2: {(3,0),(2,2), (0,-1)}

2) Méthode K-means
Données réelles

On considère la base des plantes iris, décrite comme suit

95
21/05/2024

2) Méthode K-means
Données réelles

2) Méthode K-means
Données réelles

On considère la base des plantes iris, décrite comme suit

96
21/05/2024

2) Méthode K-means
Données réelles

On considère la base des plantes iris, décrite comme suit

3) Classification Hiérarchique Ascendante

 Principe

• Groupement hiérarchique agglomératif

• Partir d'un seul objet auquel on associe les autres objets un par un.

• Au départ, chaque objet constitue un groupe de taille 1

• A chaque étape, les deux groupes les plus proches sont fusionnés, et ce jusqu’à ce que tous les objets

appartiennent à un seul groupe.

97
21/05/2024

3) Classification Hiérarchique Ascendante

 Algorithme:

• Initialisation : les classes initiales sont les n singletons individus.

• Calculer la matrice de leurs distances deux à deux.

• Itérer les 2 étapes suivantes jusqu’à l’agrégation en une seule classe :

• Regrouper les deux éléments (classes) les plus proches au sens de la distance entre groupes choisie

• Mettre à jour le tableau de distances en remplaçant les deux classes regroupées par la nouvelle et en calculant

sa distance avec chacune des autres classes

3) Classification Hiérarchique Ascendante

98
21/05/2024

3) Classification Hiérarchique Ascendante

3) Classification Hiérarchique Ascendante

 Pour un niveau de précision donné, deux individus peuvent être confondus dans un même groupe, alors qu'à un autre

niveau de précision, ils seront distingués et appartiendront à deux sous-groupes différents.

99
21/05/2024

3) Classification Hiérarchique Ascendante

 Choix de la partition finale :

• L'utilisateur doit repérer des sauts extrêmement importants dans les valeurs, en analysant le dendrogramme

• La hauteur d’une branche est proportionnelle à la distance entre 2 classes

• On coupe au niveau d’une longue branche (forte perte d’inertie dans le cas de la méthode de Ward)

3) Classification Hiérarchique Ascendante

100
21/05/2024

3) Classification Hiérarchique Ascendante

3) Classification Hiérarchique Ascendante

101
21/05/2024

3) Classification Hiérarchique Ascendante

3) Classification Hiérarchique Ascendante

102
21/05/2024

3) Classification Hiérarchique Ascendante

 Très souvent avec la méthode du lien simple,

• on se retrouve avec un groupe démesurément gros

• et plusieurs petits groupes satellites.

 Le lien complet ne présente pas ce problème.

• Il tend, au contraire à former des groupes de taille égale.

• Cependant, la méthode est très sensible aux points isolés et est peu utilisée en pratique.

 Dans la pratique, le critère de Ward est le plus largement utilisé en CAH

3) Classification Hiérarchique Ascendante

 Méthode hiérarchique la plus utilisée

 Utilise des matrices de distances

 Nécessite la définition d’une distance entre groupes d’individus (appelé stratégie d’agrégation).

 Nécessite de choisir le nombre de classes à retenir

 Tourne lentement

 Peu robuste: il suffit de modifier une distance pour que le saut change (sensibilité aux valeurs extrêmes).

103
21/05/2024

3) Classification Hiérarchique Ascendante


Exercice d’application
On cherche à comparer des agrégations par le saut minimum (le lien minimum) et par le diamètre (le lien maximum). Examiner la

figure ci-dessous formée de quatre points x, y, z, t, alignés et séparés par des distances voisines : d(x, y) = 1 ; d(x, z) = 2.1 ;

d(x, t) = 3.3 ; d(y, z) = 1.1 ; d(y, t) = 2.3 ; d(z, t) = 1.2. Schématiser leurs dendrogrammes respectifs. Que peut-on dire?

3) Classification Hiérarchique Ascendante


Exercice d’application

104
21/05/2024

3) Classification Hiérarchique Ascendante


Exercice d’application

3) Classification Hiérarchique Ascendante


Exercice d’application

105
21/05/2024

Cours
+216 27 294 294
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia

Description

Importance des centres initiaux

Merci !

106

Vous aimerez peut-être aussi