Cours Data Mining: Objectifs et Méthodes
Cours Data Mining: Objectifs et Méthodes
Data Mining
Une proposition de ce que nous voulons réaliser d'ici
la fin de l'année
Plan du cours
Chapitre 1 Introduction au DM
1
21/05/2024
DESCRIPTION
Responsable : Anis BOUBAKRI
Formation : M1 Cloud
Filière: Informatique
Titre du cours: Datamining
Méthodes pédagogiques :
Cours magistral
Travaux dirigés et pratiques
Volume horaire: 42 heures (22.5 heures Cours et TDs, 21,5 heures TPs)
Coefficient :
Régime d’examen: Régime Mixte (DS + Examen)
Prérequis :
Algèbre linéaire, telles que manipulation de vecteurs, multiplication de matrices
Probabilités et statistiques, telles que distribution de loi de probabilité et variance
Objectives
Vous avez un important volume de données ? Il est important de savoir les synthétiser ! Il ne suffit pas de stocker une
multitude de données au sein d'une base spécialisée, Data Warehouse ou Big Data, encore faut-il les exploiter.
C'est là le rôle du Data Mining qui, bien utilisé, saura tirer des informations utiles contenus dans cette masse de
données bien trop importante.
2
21/05/2024
Objectives
Prérequis
Connaître le vocabulaire de base et savoir représenter un échantillon ;
Les différents types de variables ;
La notion de distribution (et comment la représenter) ;
La notion de corrélation et plus précisément de corrélation linéaire.
Être familier avec la notion de vecteur (écriture, représentation graphique), de droite, d'axe.
Outils nécessaires
Éditeur de code
Langage Python dans le cadre de la Data Science.
3
21/05/2024
Introduction au DM
+216 27 294 294
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
1) Qu’est-ce que le DM ?
2) A quoi sert le DM ?
3) Quelles sont les principales tâches?
4) Comment ça marche?
5) Quels sont les principales méthodes ?
6) Comment représenter les données ?
7) Evaluation des compétences
4
21/05/2024
Lors de toute étude statistique, il est nécessaire de décrire et explorer les données avant d’en tirer de lois et
de modèles prédictifs.
Dans beaucoup de situations, les données sont trop nombreuses pour pouvoir être visualisables (nombre de
caractéristiques trop élevées).
Il ne suffit pas de « posséder » ou stocker une multitude de données encore faut-il les exploiter.
Il est alors nécessaire d’extraire l’information pertinente qu’elles contiennent. C'est là le rôle du DM qui
saura tirer des informations utiles contenus dans cette masse de données bien trop importante.
DM a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données par
des méthodes automatiques ou semi-automatiques, celle qui sera déterminante pour une prise de décision
efficace.
5
21/05/2024
• Notion abstraite typée (numériques, symboliques, • Notion abstraite, d’un niveau d’abstraction supérieur à celui de
• La donnée ne porte pas de sens en elle-même • La connaissance à la différence de l’information est partagée
• Notion abstraite, mais d’un niveau d’abstraction supérieur pas besoin de vous expliquer ce dont il s’agit, vous disposez
à celui de la donnée d’un référentiel pour interpréter ce code, pour savoir que ca
• Exemple : la donnée 1008 est un code postal. s’apparente à une connaissance largement partagée en Tunis.
6
21/05/2024
Les informations peuvent être converties en connaissances à propos de patterns historiques ou des tendances
futures.
• Exemple: l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts
promotionnels, pour acquérir un savoir au sujet des comportements d’acheteurs. Ainsi, un producteur peut
déterminer quels produits doivent faire l’objet d’une promotion à l’aide du DM.
DM : Ensemble de méthodes
• destinées à l’exploration et l’analyse de grandes bases de données informatiques
• en vue de détecter dans ces données des règles, des associations, des structures particulières restituant
de façon concise l’essentiel de l’information utile
• pour l’aide à la décision.
Ces informations peuvent ensuite être utilisées par les entreprises pour
• augmenter un chiffre d’affaires,
• réduire des coûts.
• mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing.
7
21/05/2024
Ces individus ne sont pas forcément des personnes, mais peuvent être des objets, des animaux, des relevés
effectués par des capteurs (relevés de température, par exemple), ou beaucoup d’autres choses !
Souvent, une population est difficile à étudier dans sa globalité (surtout quand elle contient un grand nombre
d’individus et qu’il est impossible de tous les observer).
• Pour cela, on extrait un échantillon de la population, c’est-à-dire que l’on sélectionne certains individus pour
les étudier précisément.
Étudier un individu, c’est observer ses caractéristiques : chaque caractéristique est décrite par une variable.
Ainsi, il est possible de stocker nos observations dans un tableau dans lequel chaque ligne représente un
individu, et chaque colonne représente une variable.
Exemple: étudier des relevés bancaires
Chaque individu (en ligne) est une opération bancaire, et chaque variable (en colonne) est une
caractéristique de l’opération (comme sa date, son libellé, son montant, etc.) :
8
21/05/2024
Optimisation
• du nombre de places dans les avions, hôtels,
Diagnostic médical
• «les patients ayant tels symptômes et demeurant dans des agglomérations de plus de 104 habitants développent couramment telle pathologie »
…
On dispose de données structurées : les objets sont représentés par des enregistrements (ou descriptions)
qui sont constitués d’un ensemble de champs (ou variables ou attributs ou caractéristiques) prenant leurs
valeurs dans un domaine.
9
21/05/2024
La segmentation
• Former des groupes (clusters) homogènes à l'intérieur d'une population.
• Tâche souvent effectuée avant les précédentes pour construire des groupes sur lesquels
on applique des tâches de classification ou d'estimation.
La classification
• Examiner les attributs d'une donnée et lui attribuer une classe
• La classe est un attribut particulier à valeurs discrètes.
• Attribuer ou non un prêt à un client, établir un diagnostic, accepter ou refuser un retrait
dans un distributeur, attribuer un sujet principal à un article de presse, etc.
La prédiction
• Estimer une valeur future. En général, les valeurs connues sont historiées. On cherche à prédire la
valeur future d'un attribut.
• Prédire, au vu de leurs actions passées, les départs de clients.
L'estimation
• Estimer la valeur d'un attribut manquant.
• L’attribut à estimer est à valeurs continues.
• Estimer les revenues d’un client.
• Estimer les risques.
10
21/05/2024
Sélection des
attributs utiles
Collecte et organisation
des données
Test
Explicitation de
l’objectif de l’analyse
en terme statistique
Nettoyage de la
base de données
11
21/05/2024
fournir de meilleures
évaluations
créer une
compréhension claire
de la tâche à accomplir
livrer des
systèmes fiables
Méthodologie KDD
Découverte de connaissances dans les bases de données (Knowledge Discovery in Databases : KDD)
12
21/05/2024
Méthodologie KDD
Sélection : Création d'un ensemble de données cible, ou d'un sous ensemble d'échantillons, sur lequel la
découverte doit être effectuée.
Pré-traitement : Activités de nettoyage et de prétraitement des données visant à fournir des données
consistantes.
Transformation : réduction de la dimension, sélection de caractéristiques, etc.
Data Mining : Recherche de modèles significatifs sous une forme particulière, en fonction de l'objectif de
l'exploration de données (par exemple, la prédiction).
Evaluation : Interprétation et évaluation des résultats de l'exploration.
Méthodologie SEMMA
SEMMA (Sample, Explore, Modify, Model, Assess)
13
21/05/2024
Méthodologie SEMMA
Sample : Echantillonner les données en prélevant une partie d'un grand jeu de données, suffisamment
importante pour contenir les informations pertinentes, mais suffisamment petite pour être manipulable.
Explore : Explorer les données en recherchant des anomalies et des comportement inattendues afin d'en
tirer des conclusions.
Modify : Modifier les données en créant, sélectionnant et transformant les variables afin de cibler le
processus de sélection du modèle.
Model : Modéliser c’est rechercher automatiquement une combinaison de données qui prédit de manière
fiable le résultat souhaité.
Assess : Evaluer ou pour apprécier l'utilité et la fiabilité des résultats du processus d'extraction de données
et estimer ses performances.
Méthodologie CRISP-DM
CRISP-DM: Cross-Industry Standard Process for DM, initialement conçu par IBM dans les années 1960
pour guider des projets DM.
• Elle reste aujourd’hui la seule méthode utilisable efficacement pour tous les projets Data Science.
• Une démarche agile et itérative
14
21/05/2024
Méthodologie CRISP-DM
Compréhension du problème métier :
• bien comprendre les éléments métiers et problématiques que la Data Science vise à résoudre ou à améliorer.
Méthodologie CRISP-DM
Modélisation :
• Phase de Data Science proprement dite.
• Elle comprend le choix, le paramétrage et le test de différents algorithmes ainsi que leur enchaînement, qui constitue un modèle.
Evaluation :
• tester la robustesse et la précision des modèles obtenus.
• vérifier le(s) modèle(s) afin de s’assurer qu’ils répondent aux objectifs formulés au début du processus.
• Elle contribue aussi à la décision de déploiement du modèle ou, si besoin est, à son amélioration.
Déploiement :
• mise en production pour les utilisateurs finaux des modèles obtenus.
• Son objectif peut aller de la simple génération d’un rapport décrivant les connaissances obtenues jusqu’à la mise en place d’une
application, permettant l’utilisation du modèle obtenu, pour la prédiction de valeurs inconnues d’un élément d’intérêt.
15
21/05/2024
Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l’on choisira en
fonction de :
• La tâche à résoudre (classification, estimation,…),
• La nature et de la disponibilité des données,
• L’ensemble des connaissances et des compétences disponibles,
• La finalité du modèle construit.
16
21/05/2024
Méthodes prédictives
Méthodes descriptives
• Classement/Discrimination (variable « cible » qualitative)
• Analyse factorielle (projection sur un
• Analyse discriminante / régression logistique
espace de dimension inférieures)
• arbres de décision (modèles à base de règles logiques)
• ACP
• Réseaux de neurones (modèles à base de fonctions
• Classification automatique (clustering)
mathématiques)
• K-means
• K-plus proches voisins (prédiction sans modèle)
• Recherche d’associations (analyse du
• Prédiction (variable « cible » quantitative)
ticket de caisse)
• Régression linéaire (simple et multiple)
• Arbres de décision
• Réseaux de neurones
17
21/05/2024
L'ACP permet de réduire le nombre de variables en trouvant de nouvelles variables qui en synthétisent plusieurs.
• Trouver une variable synthétique permet de remplacer plusieurs colonnes du tableau par une seule.
• Mais, cette transformation nous fera perdre un peu d'information.
Le clustering se chargera de regrouper des individus similaires, il va partitionner l'ensemble des individus.
• Regrouper des individus est ici synonyme de regrouper des lignes.
• Parfois, il est possible de regrouper 100 000 lignes en 3 groupes assez homogènes pour n'étudier finalement que le profil
général de chacun de ces 3 groupes, c'est-à-dire 3 lignes !
18
21/05/2024
Types de variables
19
21/05/2024
20
21/05/2024
Point / Vecteur
Dans ce graphique de dispersion un point A (un individu) est représenté par un vecteur à deux coordonnées
(abscisse x et ordonnée y), on le note :
En général, si un individu X est décrit par n variables, alors on peut le représenter par un vecteur à n
dimensions.
21
21/05/2024
Pour représenter les 3 individus donnés (en ligne) de l'échantillon donné sur cette image, la solution la
plus logique (dans le cadre de ce cours) sera une représentation par :
Pour représenter les 3 individus donnés (en ligne) de l'échantillon donné sur cette image, la solution la
plus logique (dans le cadre de ce cours) sera une représentation par :
22
21/05/2024
Si on rajoute la contrainte que chaque composante d’un vecteur doit être un nombre réel, et que l’on associe
à cet espace vectoriel un produit scalaire, alors on dit que l’on travaille dans un espace euclidien.
Un produit scalaire est une opération algébrique entre 2 vecteurs. Dans notre cas, cette opération associe
à 2 vecteurs un nombre réel.
• On va souvent utiliser le produit scalaire pour calculer des distances, des longueurs, des angles.
La notion de distance
Si on vous demande la distance entre 2 points A et B
sur un graphique à 2 dimensions comme celui ci-
dessous, qu’allez-vous faire ?
• chercher une règle graduée pour mesurer,
• calculer la distance à partir des coordonnées des 2
points.
• Mais, dans les 2 cas, vous obtiendrez tous le même
résultat (ici, 2 , soit environ 1.41).
Ce que vous avez mesuré instinctivement s’appelle la
distance euclidienne.
23
21/05/2024
Distance Manhattan
La distance de Manhattan (appelée aussi taxi-distance) est la distance entre deux points parcourus par un taxi
lorsqu'il se déplace dans une ville où les rues sont agencées selon un réseau ou quadrillage.
Un taxi-chemin est le trajet fait par un taxi lorsqu'il se déplace d'un nœud du réseau à un autre en utilisant les
déplacements horizontaux et verticaux du réseau.
24
21/05/2024
Distance Manhattan
Sur le graphique précédent, on calcule la distance de Manhattan en se déplaçant d’abord parallèlement à l’axe des
abscisses (on trouve donc 1), puis en se déplaçant parallèlement à l’axe des ordonnées (on trouve encore 1), ce qui
nous donne une distance de 2.
Quelle est la distance euclidienne entre A et B ? Quelle est la distance de Manhattan entre A et B ?
1
1
2
2
2,
2,
25
21/05/2024
Quelle est la distance euclidienne entre A et B ? Quelle est la distance de Manhattan entre A et B ?
1
1
2
2
2,
2,
26
21/05/2024
Distance euclidienne :
Distance de Manhattan
27
21/05/2024
La notion d’inertie
Comme nous étudions la dispersion d’un nuage (étalé ou resserré), nous avons besoin d’une notion qui définit ce
concept : l’inertie.
• L’inertie est similaire à celle que rencontrent les physiciens lorsqu’ils étudient le mouvement des objets : un
objet avec une forte inertie est un objet difficile à mettre en mouvement, ou à faire entrer en rotation.
• Si vous avez deux objets de même masse, mais pas de même taille, l’objet qui sera plus grand (donc plus étalé
dans l’espace) sera plus difficile à faire tourner autour de son centre de gravité.
Plus le nuage sera dispersé (étalé), plus son inertie sera grande.
28
21/05/2024
L’inertie du nuage de points Ni est aussi la somme des variances sur toutes les p dimensions
Rappel : la variance est un indicateur de dispersion.
29
21/05/2024
Variable quantitative
Une variable quantitative est décrite par les valeurs qu’elle prend pour les individus.
Afin de synthétiser l’information donnée par une variable quantitative, les deux indicateurs les plus utilisés
sont la moyenne et la variance.
30
21/05/2024
31
21/05/2024
Si r(x,y)=1 alors,
• Les deux vecteurs sont colinéaires: les valeurs prises par yi et xi sont proportionnelles
• Il existe une relation linéaire exacte entre les deux variables.
L’absence de corrélation se traduit par une valeur nulle pour le coefficient de corrélation
linéaire et donc par un angle droit entre x et y.
32
21/05/2024
On veut mesurer la liaison entre les variables X et Y. pour cela on vous demande de calculer la corrélation
entre elles à la main :
1. Calculer les moyennes de X et de Y
2. Déduire la covariance de X et de Y
3. Que peut-on conclure ?
33
21/05/2024
34
21/05/2024
35
21/05/2024
1) Présentation Générale
2) Transformation de Variables
3) Catégorisation d’une variable numérique
4) Normalisation de variables numériques
5) Manipulation des jeux de données
6) Combinaison de données
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Python est…
portable et gratuit;
un langage interprété (compilation transparente);
un langage à typage dynamique (pas de déclaration de types);
un langage orienté objet;
facile à comprendre/apprendre;
n’utilise aucun pointeur;
très populaire;
complet : sa bibliothèque standard permet de manipuler des expressions régulières, de
manipuler des fichiers, d’utiliser différents protocoles Internet, etc.
développé par une communauté extrêmement dynamique;
36
21/05/2024
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Importer un module
37
21/05/2024
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Types de données
38
21/05/2024
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Les conteneurs
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
39
21/05/2024
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
1) Présentation Générale
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Le prétraitement est défini comme étant toutes les étapes nécessaires pour rendre des données prêtes à être fournies
en entrée à une certaine fonction,
• par exemple une fonction pour produire un graphique ou ajuster un modèle.
40
21/05/2024
2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Voici comment réaliser certains de ces prétraitements en python en important les modules pandas et numpy:
• import pandas as pd
• import numpy as np
2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Supposons ici que nous travaillons avec un jeu de données stocké dans un DataFrame. Pour illustrer les premières
transformations présentées, nous utiliserons le jeu de données "cars" du package dataset.
41
21/05/2024
2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Pour modifier la variable sans en créer une La méthode assign de Pandas offre une alternative à
nouvelle, il suffit d'assigner le vecteur contenant l'assignation directe des colonnes. Dans cet exemple,
les données pour la variable transformée à la
colonne qui contenait la variable d’origine. nous multiplions chaque valeur de la colonne "dist" par
0.3048 pour convertir les pieds en mètres.
42
21/05/2024
2) Transformation de Variables
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
43
21/05/2024
• La normalisation est une technique de prétraitement des données qui vise à mettre à l'échelle les valeurs d'une
variable pour les rendre comparables ou pour les mettre dans une plage spécifique.
• Une méthode courante de normalisation consiste à soustraire la moyenne des valeurs et à diviser par l'écart-type,
• La fonction scale de la bibliothèque scikit-learn est couramment utilisée pour standardiser les données en
Python.
• Elle soustrait la moyenne de chaque caractéristique puis divise par son écart-type, ce qui produit des
44
21/05/2024
Exemple: création d’une version standardisée du DataFrame "cars" avec toutes les valeurs normalisées selon
la méthode décrite. Les valeurs normalisées sont stockées dans la variable "cars_scaled".
45
21/05/2024
46
21/05/2024
47
21/05/2024
• Supposons que vous ayez deux DataFrames contenant des observations sur différentes périodes de temps, et
• Utilisez la fonction [Link]() de Pandas pour concaténer les DataFrames le long de l'axe des lignes.
48
21/05/2024
Nous pourrions concaténer deux jeux de données contenant chacun plus d’une variable et stocker le résultat
données distincts :
data_ex,
• tandis que l'autre contient des détails sur les lanceurs, nommé
data_ex_lanceur.
49
21/05/2024
• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est
droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les
caractéristiques.
Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les
Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer
50
21/05/2024
• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est
droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les
caractéristiques.
Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les
Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer
• Par exemple, le résultat que nous venons d’obtenir nous porte à croire que Luc est gaucher et qu’il a 22 ans, et que Kim est
droitière et a 51 ans. Mais rien dans le jeu de données data_ex_lanceurs ne dit à quels lanceurs correspondent les
caractéristiques.
Il est plus prudent de fusionner des jeux de données en spécifiant par rapport à quelles variables établir les
Appelons ce type de combinaison de données jointure ou fusion par association. Une telle fusion peut s’effectuer
51
21/05/2024
données suivant :
52
21/05/2024
Classification de données
1) Définition
2) Domaines d’application
3) Terminologie
4) Mise en œuvre d’une classification
5) Classification supervisée vs. non supervisée
6) Evaluation de la classification
7) TDs
1) Définition
Pour faciliter l’étude d’une population d’effectif important (animaux, plantes, malades, gènes, etc.), on les
regroupe en plusieurs classes de telle sorte que :
• les individus d’une même classe soient le plus semblables possible et que les classes soient le plus distinctes
possibles.
Pour cela il y a diverses façons de procéder qui peuvent conduire à des résultats différents.
Les diverses techniques de classification visent toutes à répartir n individus (objets), caractérisés par p variables
(attributs) X1 , X2 ,..., Xp en un certain nombre m de groupes (classes) aussi homogènes (similaires) que possible.
53
21/05/2024
1) Définition
Opérer des regroupements en classes (groupes, familles, segments ou clusters) homogènes d’un ensemble d’objets
(individus) de sorte que :
• Deux objets d’un même groupe se ressemblent le plus possible
• Deux objets de groupes distincts diffèrent le plus possible
• Le nombre de groupes est parfois fixé.
Les données se présentent en général sous la forme d’un tableau individus × variables.
Exemple:
• M: moyenne des crédits sur le compte du client
• A: tranche d'âge
• R: localité du client
• E possède la valeur oui si le client possède un niveau d'études supérieur au bac
1) Définition
54
21/05/2024
2) Domaines d’application
La classification joue un rôle dans toutes les sciences et techniques qui font appel à la statistique
multidimensionnelle.
Analyse exploratoire de données (typologie) :
• Marketing : typologie des clients
• Bio-informatique : regroupement de gènes
• Image : segmentation en zones homogènes
Simplification de données :
• recherche d’information : regroupement de pages web
• données très volumineuses : chaque groupe est remplacé par un représentant.
3) Terminologie
Classement: À partir d’exemples d’objets répartis en classes, déterminer la classe adaptée pour un nouvel objet.
• Traduit en Anglais par « classification »
55
21/05/2024
4) Mise en œuvre
Classifier revient à :
• Préparer les données
• Choisir un critère de ressemblance
• une mesure de la similarité/distance: comment comparer des objets ?
• Choisir un critère d'homogénéité,
• Une notion de classe: comment regrouper les objets ?
• Choisir une méthode de classification,
• Comment organiser les classes?
• et parfois un nombre de classes composant la partition.
• Evaluer de la qualité de la classification.
• Interpréter le résultat de la classification
4) Mise en œuvre
Données et leur représentation
Collecte des données
• Données existantes ou à constituer,
56
21/05/2024
4) Mise en œuvre
Données et leur représentation
Une donnée est :
• Un enregistrement ou description ou tuple (terminologie bases de données,
• Un individu (terminologie issue des statistiques),
• Une instance (terminologie orientée objet en informatique) ,
• Un point dans un espace euclidien,
• Un vecteur dans un espace vectoriel.
Une donnée est caractérisée par un ensemble de champs, de variables, de mesures ou encore d’attributs.
4) Mise en œuvre
Données et leur représentation
Types d’attributs :
• Données discrètes ou symboliques:
• binaires ou logiques ou booléens : 0 ou 1 ; oui ou non ; vrai ou faux (être bon client ou non, ...)
• énumératives ou nominales: pour lesquelles il n'existe pas d'ordre défini a priori (la couleur: rouge, vert,
bleu, ...)
• énumératives ordonnées ou ordinales : les réponses à une enquête d'opinion (1: très satisfait, 2 : satisfait, ...)
• Les données continues ou numériques:
• entières ou réelles (l'âge, le revenu moyen, …)
57
21/05/2024
4) Mise en œuvre
Données et leur représentation
Les données brutes peuvent être représentées par une matrice X à n lignes et p colonnes.
Chaque ligne correspond à l’un des n éléments qu’on désire classer, caractérisée par p mesures.
Matrice de données brutes :
Les colonnes ne sont pas forcément du même type et il peut y avoir des entrées vides correspondant aux entrées
manquantes.
4) Mise en œuvre
Données et leur représentation
Bruit:
• Des données dont certains attributs ont une valeur inconnue ou invalide.
• La simple élimination des données ayant un attribut dont la valeur est inconnue ou invalide pourrait vider
complètement la base de données.
• On touche le problème de la collecte de données fiables qui est un problème pratique très difficile à résoudre.
Si une mesure est manquante pour un élément, on peut:
• L’ignorer dans le calcul de distances.
• Remplacer la valeur manquante par la moyenne des autres valeurs ou bien par la valeur de l’élément le plus
similaire.
58
21/05/2024
4) Mise en œuvre
Données et leur représentation
Très souvent, les données brutes sont de plusieurs types.
• Exemple: un sol peut être caractérisé par son acidité Ph (numérique), sa couleur (ordinal), le type de pierres
présentes (nominal) et la présence de vers (binaires).
Si la majorité des mesures sont d’un type, on peut essayer de ramener toutes les données à ce type :
4) Mise en œuvre
Critère de ressemblance (similarité/distance)
Pour regrouper les individus qui se ressemblent (et séparer ceux qui ne se ressemblent pas), il faut un “critère de
ressemblance”
Groupe homogène: les objets du groupe se ressemblent.
Groupes bien distincts: les objets de groupes distincts ne se ressemblent pas.
59
21/05/2024
4) Mise en œuvre
Mesures de similarité ou de distance
Similarité sur un ensemble d’objets
• Maximale: s(a,a) ≥ s(a,b)
• Symétrique: s(a,b)=s(b,a)
Distance (dis-similarité, éloignement): opération inverse
• d(a,a)=d(b,b)
• d(a,b)=d(b,a)
4) Mise en œuvre
Mesures de similarité ou de distance
On peut associer à chaque nuage d’individus une matrice dite matrice des distances :
• à n lignes et n colonnes
• D=(dij)0≤i≤n=d2 (Mi ,Mj )
• à coefficients positifs, symétrique et nulle (puisque d2 (Mi , Mi )=0) sur la diagonale
60
21/05/2024
4) Mise en œuvre
Mesures de similarité ou de distance
On examine l’ensemble des informations concernant les individus
• Exemple: Pression artérielle, température, taux de métabolisme, notées (Xi , Yi ,…, Zn ) de l’espace et on
imagine que chaque individu est un point Mi= (Xi , Yi ,…, Zn ) de l’espace.
S’il n’y a que deux variables relevées (Xi , Yi ) on obtient ainsi un nuage de points dans le plan Γ={Mi , i=1,...,n}
où n est l’effectif total de la population.
4) Mise en œuvre
Mesures de similarité ou de distance
Données numériques:
61
21/05/2024
4) Mise en œuvre
Mesures de similarité ou de distance
Données numériques
• La distance euclidienne : le type de distance le plus couramment utilisé. Il s'agit d'une distance géométrique
dans un espace multidimensionnel.
• Distance Euclidienne au carré : Permet de "sur-pondérer" les objets atypiques (éloignés), en élevant la distance
euclidienne au carré.
• La distance du City-block (Manhattan) : cette distance est simplement la somme des différences entre les
dimensions.
4) Mise en œuvre
Mesures de similarité ou de distance
Données binaires
• La distance de Hamming calcule le nombre d’éléments différents dans les vecteurs binaires.
• Exemple:
62
21/05/2024
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
Permet de faire converger les algorithmes de classification pour:
• minimiser l'inertie (dispersion) intra-classe
• ou maximiser l'inertie interclasses.
Supposons le nuage Γ={Mi,i=1,...,n} décomposé en plusieurs classes Γ1 ,Γ2 ,..., Γk et notons G1 , G2 ,...., Gk les
centres de gravité respectifs de chaque classe et notons p1 , p2 , ... pk les poids respectifs de chaque classe.
Si l’on suppose que tous les individus ont le même poids égal à 1/n, le poids pl de la classe Γl est égal à l’effectif
de Γl divisé par n. De cette façon la somme des poids de toutes les classes vaut 1.
Le centre de gravité G d’un nuage de points Γ est le point moyen du nuage, c’est-à-dire le point G ( x, y,...)
de coordonnées :
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
Pour mesurer la proximité ou l’écart entre deux classes Γl et Γm, il existe différentes stratégies:
• La distance du plus proche voisin
• La distance du plus loin voisin
• La distance des centres de gravité
La mesure que l’on utilise le plus souvent appelée écart de Ward est définie par :
63
21/05/2024
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
L’inertie mesure la dispersion du nuage.
On appelle inertie totale d’un nuage Γ ={Mi,i=1,...,n} la moyenne des carrés des distances de ses points au centre
de gravité du nuage.
si G désigne le centre de gravité de Γ, l’inertie totale de Γ est, si tous les points du nuage sont de même poids égal à
1/n
Si le nuage Γ est composé de k classes Γ1 , Γ2 , .... , Γk , celles-ci seront d’autant plus homogènes que les inerties
de chaque classe , calculées par rapport à leurs centres de gravité G1 ,G2 , .... ,Gk
respectifs, sont faibles.
64
21/05/2024
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
La moyenne pondérée de ces inerties est appelée inertie intra classe.
L’inertie interclasse (prise en compte de la dispersion des classes par rapport au centre de gravité du nuage) définie
par:
4) Mise en œuvre
Critère d’homogénéité (écart entre classes)
Une classe est homogène
son inertie est faible.
Deux critères de bonne classification : grande IR , petite IA
Ces deux critères sont équivalents d’après la formule de Huygens: ITOT=IA+IR
Une classe est “bien regroupée” autour de son centre de gravité, son inertie est faible.
Ainsi, un bon critère pour avoir des classes homogènes est d’avoir une inertie intra-classe qui soit aussi petite que
possible.
En utilisant le Théorème de Huygens, cela revient à dire qu’il faut une inertie interclasse aussi grande que possible.
65
21/05/2024
Exercice d’évaluation
Soient M1= (1, 0), M2 = (0, 1) et M3 = (3, 1) 3 points du plan.
1. Calculer les matrices des distances du nuage formé de ces trois points en utilisant successivement la distance
euclidienne d2 puis les distances d1 et d∞ .
2. On ajoute au nuage précédent les deux points M4=(4, 2) et M5 = (4, 3). Supposons que M1 , M2 et M3 forment la
classe C1 et que M4 et M5 forment une seconde classe C2 . Calculer le centre de gravité et le poids de chaque
classe.
3. Calculer l’écart entre ces deux classes (en utilisant la distance euclidienne) par
a) la distance du plus proche voisin (ou saut minimal),
b) la distance du voisin le plus loin (saut maximal),
c) la distance entre les centres de gravité et
d) l’écart de ward.
Exercice d’évaluation
6. Vérifier que l’inertie totale d’un nuage de points composé de différentes classes est la somme de son inertie intra-
7. Comparer cette classification à celle ayant une première classe composée uniquement par M1 et M2 alors que M3,
66
21/05/2024
Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)
Distance euclidienne:
Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)
Distance Manhattan:
67
21/05/2024
Exercice d’évaluation
correction
M1 = (1, 0), M2 = (0, 1) et M3 = (3, 1)
Distance de Chebyshev:
Exercice d’évaluation
correction
68
21/05/2024
Exercice d’évaluation
correction
Exercice d’évaluation
correction
69
21/05/2024
Exercice d’évaluation
correction
3 2
I int ra 1.95 0.25 1.27
5 5
Exercice d’évaluation
correction
5) Inertie intra et interclasse :
7) Comparaison avec une classification ayant une première classe composée uniquement par M1 et M2 alors que
M3, M4 et M5 sont dans une deuxième classe. Il suffit de calculer Iinter ou Iintra de cette nouvelle classification, si
on obtient Inter plus grande ou Intra plus petite que celle de la première classification alors la seconde classification
est meilleure.
70
21/05/2024
• K-means
71
21/05/2024
Créer une décomposition hiérarchique des objets selon certains critères. On peut procéder par une méthode :
• Descendante ou divisive,
• On part de l’ensemble de tous les éléments que l’on fractionne en un certain nombre de sous-ensembles.
• Ces derniers sont eux-mêmes fractionnés récursivement jusqu’à ce que l’on arrive aux éléments individuels.
• Ascendante ou agglomérative,
• On part des éléments individuels que l’on regroupe en sous-ensembles
• Avant d’appliquer récursivement les regroupements sur les sous-ensembles jusqu’à obtenir un seul ensemble
contenant tous les éléments.
72
21/05/2024
En classification non hiérarchique, construire plusieurs partitions puis les évaluer selon certains critères.
On part d'une partition arbitraire en K classes (quelconques) que l’on améliore itérativement jusqu’à la
convergence du critère choisi.
On peut considérer que chaque élément:
• ne fait partie que d’un sous-ensemble, on parle alors de partition.
• en fait partie de plusieurs, en attribuant une probabilité d’appartenance à chaque groupe et on parle alors de
classification recouvrante.
Classification supervisée
• Dans un problème de classification supervisée, la classe prend sa valeur parmi un ensemble Y fini. Le problème
consiste alors, en s’appuyant sur l’ensemble d’exemples X={(xi , yi ) où i∈{1,...,N}}, à prédire la classe de toute
nouvelle donnée x∈ D.
73
21/05/2024
Classification supervisée
• ceux qui utilisent directement les exemples pour prédire la classe d’une donnée (classification bayésienne,
etc.);
• ceux pour lesquels on a d’abord construit un modèle et qui, ensuite, utilisent ce modèle pour effectuer leur
6) Evaluation de la classification
74
21/05/2024
6) Evaluation de la classification
On doit être capable de dire si tel modèle (classifieur) est meilleur que tel autre tout en le justifiant.
Des critères globaux de mesure de qualité d’une classification peuvent être basés sur :
6) Evaluation de la classification
Il existe différents critères d’évaluation comme la sensibilité (le rappel), la précision, le F-mesure, etc.
Avant d’arriver à ces critères, on commande par découper les données pour créer une matrice de confusion.
C’est en croisant les étiquettes réelles des individus avec les étiquettes prédites par le modèle qu’on va mettre en
place la matrice de confusion.
75
21/05/2024
6) Evaluation de la classification
Exemple: Créer un modèle permettant de prédire le temps qu’il fait dehors en fonction de relevés météorologiques.
• les variables explicatives sont des relevés de température, pression atmosphérique, luminosité et
6) Evaluation de la classification
On va donc croiser ces données et obtenir une matrice de confusion
76
21/05/2024
6) Evaluation de la classification
A partir de cette matrice, on peut calculer des indicateurs de performances en classification :
• Taux d’erreur : correspond à la qualité générale du modèle.
• Pour cela, on va diviser les bonnes prédictions (somme de la diagonale) par le nombre total de prédictions, le tout soustrait de 1.
• Dans notre exemple, on a un taux d’erreur précision égale à: 1-[(31+23+32)/(31+1+9+6+23+8+5+6+32)]=29%.
6) Evaluation de la classification
Exemple: Lorsqu'un moteur de recherche retourne 30 pages web dont seulement 20 sont pertinentes et 10 ne le sont
pas, mais qu'il omet 40 autres pages pertinentes, sa précision est de 20/30 = 2/3 et son rappel vaut 20/(20+40) = 1/3.
• Précision : quand un utilisateur interroge un moteur de recherche, il souhaite que les documents proposés en réponse à son
interrogation correspondent à son attente. Tous les documents retournés superflus ou non pertinents constituent du bruit.
• La précision s’oppose à ce bruit documentaire. Si elle est élevée, cela signifie que peu de documents inutiles sont proposés par le
système et que ce dernier peut être considéré comme « précis ».
• Rappel : lorsque l’utilisateur interroge le moteur de recherche, il souhaite voir apparaître tous les documents qui pourraient répondre
à son besoin d'information. Si le nombre de documents présentés est importante alors le taux de rappel est élevé. À l’inverse, si le
système possède de nombreux documents intéressants mais que ceux-ci n’apparaissent pas dans la liste des réponses, on parle de
silence.
• Le silence s’oppose au rappel.
77
21/05/2024
6) Evaluation de la classification
NB : Dans le cas où il y a plusieurs classes à prédire, le rappel correspond à la somme des rappels de chacune des
classes, divisé par le nombre de classes. Il s’agit donc d’une moyenne des rappels. Même raisonnement pour la
précision en multi-classes.
Un classifieur parfait fournira des réponses dont la précision et le rappel sont égaux à 1
• l'algorithme trouve la totalité des éléments pertinents: rappel
• et ne fait aucune erreur : précision
Dans la réalité, les classifieurs sont plus ou moins précis, et plus ou moins pertinents.
La performance d'un classifieur ne se réduit donc pas à un bon score en précision ou en rappel.
F-mesure (ou F-score): Mesure de compromis entre précision et rappel :
6) Evaluation de la classification
Une matrice de confusion, pour un problème à 2 classes (Y = Positif ou Négatif), prend la forme suivante :
Le rappel (ou sensibilité ou taux de vrais positifs - TVP) représente la fraction des positifs intégrés dans la
cible, il correspond à la probabilité P(ω∈cible /Y(ω)=Positif).
La précision représente la proportion des positifs à l’intérieur de la cible, elle correspond à la probabilité
P(Y( ω)=+/ω∈cible).
78
21/05/2024
6) Evaluation de la classification
Indicateurs de performances en classification
• Le rappel et la précision dans un cadre multi-classe :
• Il est possible de calculer tous ces indicateurs pour chaque classe. La moyenne sur chaque classe de ces
indicateurs donne des indicateurs globaux sur la qualité du classifieur.
7) Exercice d’évaluation
Un classifieur destiné à prédire l’occurrence d’une maladie
cardiaque (DISEASE : positif ou négatif) à partir des
caractéristiques des patients (CHOLESTERAL, THALAC
et OLDPEAK. Il est appliqué sur un échantillon test
comportant n = 20 observations. Ce tableau contenant les
données et la prédiction (en gras les bonnes prédictions, en
italique les mauvaises).
1) Construire la matrice de confusion
2) Calculer le taux d’erreur
3) Calculer le rappel, la précision et F-mesure par classe
4) Déduire le rappel, la précision et F-mesure globaux du
classifieur.
79
21/05/2024
7) Exercice d’évaluation
Correction
1) Introduction
2) Méthode des centres mobiles (k-means)
3) Méthode K-médoïdes
4) Classification Ascendante Hiérarchique (CAH)
5) Classification Descendante Hiérarchique (CDH)
6) TDs & TPs
80
21/05/2024
1) Introduction
Contexte :
• Pour n individus d’une population, on dispose des valeurs de p caractères X1, . . . , Xp.
Objectif :
• Partant des données, l’objectif est de regrouper/classer les individus qui se ressemblent le plus/qui ont des
caractéristiques semblables
1) Introduction
Exemple : Dans une classe, un professeur souhaite faire des binômes constitués d’élèves ayant des compétences
semblables. Parmi ceux-ci, 6 élèves ont obtenu les notes suivantes :
81
21/05/2024
1) Introduction
2) Méthode K-means
Principe
• Construire K partitions et les corriger jusqu’à obtenir une similarité satisfaisante.
• Méthode des centres mobiles (K-means ou k-moyenne)
• Méthode des k-médoïdes
Avantages:
• traiter rapidement des ensembles d’effectif assez élevé
• simples et efficaces, les plus utilisées.
Inconvénients :
• On impose au départ le nombre de classes.
82
21/05/2024
2) Méthode K-means
Algorithme
• Initialisation:
• Choisir k centres (centres de gravité ou centroïdes ou barycentres) provisoires tirés au hasard (aléatoirement).
• Pas de l’algorithme:
• Chacun des individus est associé à la classe dont le centre est le plus proche. On obtient ainsi une partition des
individus en k classes.
• Remplacer les k centres par les centres de gravité des nouvelles classes.
• Recommencer jusqu’à stabilisation des centres
• Les centres ne bougent plus et la poursuite de cet algorithme ne changera plus les résultats.
• L’algorithme converge où le critère à minimiser (inertie intra-classes) ne décroisse plus.
2) Méthode K-means
Exemple
83
21/05/2024
2) Méthode K-means
Exemple
2) Méthode K-means
84
21/05/2024
2) Méthode K-means
Choix du K
Choix n’est pas forcément intuitif spécialement quand le jeu de données est grand et qu’on n’ait pas un a priori ou
des hypothèses sur les données.
Un nombre K grand peut conduire à un partitionnement trop fragmenté des données. Ce qui empêchera de découvrir
des patterns intéressants dans les données.
Par contre, un nombre de clusters trop petit, conduira à avoir, potentiellement, des clusters trop généralistes contenant
beaucoup de données. Dans ce cas, on n’aura pas de patterns “fins” à découvrir.
Pour un même jeu de données, il n’existe pas un unique clustering possible.
La difficulté résidera donc à choisir un nombre de cluster K qui permettra de mettre en lumière des patterns
intéressants entre les données. Malheureusement il n’existe pas de procédé automatisé pour trouver le bon nombre de
clusters.
2) Méthode K-means
Choix du K
Méthode la plus usuelle pour choisir le nombre de clusters: lancer Kmeans avec différentes valeurs de K et calculer la
variance des différents clusters.
La variance est la somme des distances entre chaque centre d’un cluster et les différentes observations inclues dans le
même cluster.
On cherche à trouver un nombre de clusters K telle que les clusters retenus minimisent la distance entre leurs centres
et les observations dans le même cluster.
85
21/05/2024
2) Méthode K-means
Choix du K
Généralement, en mettant dans un graphique les différents nombres de clusters K en fonction de la variance, on retrouve un graphique
similaire à celui-ci :
NB: la forme d’un bras où le point le plus haut représente l’épaule et le point où K vaut 9 représente l’autre extrémité : la main.
Le nombre optimal de clusters est le point représentant le coude (d’où le nom de la méthode).
Ici le coude peut être représenté par K valant 2 ou 3. C’est le nombre optimal de clusters. Généralement, le point du coude est celui du
nombre de clusters à partir duquel la variance ne se réduit plus significativement. En effet, la “chute” de la courbe de variance entre 1 et
3 clusters est significativement plus grande que celle entre 5 clusters et 9 clusters.
2) Méthode K-means
Domaine d’application
Marketing : Segmentation du marché en découvrant des groupes de clients distincts à partir de la base de données des
achats,
Environnement : identification des zones terrestre similaires (en terme d’utilisation) dans une base de données
d’observation de la terre,
Assurance : identification des groupes d’assurés distincts associé à un nombre important de déclarations,
86
21/05/2024
2) Méthode K-means
Exercice d’application
Exercice 1:
On considère les 6 points M1(0, 0), M2(1, 2), M3(3, 6), M4(3, 0), M5(4, 5) et M6(6, 5).
1) En supposant que les deux points M1 et M4 sont les centres initiaux, décrire par une succession de dessins
commentés, les étapes de l’algorithme K-means en représentant à chaque itération — les classes dont on donnera
les éléments et qu’on entourera chacune d’un arrondi, — ainsi que les centres de ces classes qu’on calculera.
2) Les dessins obtenus représentent des partitions différentes du même ensemble. Calculer l’inertie totale du nuage,
puis pour chacune des partitions, l’inertie intraclasse et vérifier qu’elle est bien décroissante au cours du processus
de classification.
3) En calculant l’inertie interclasse de la deuxième partition, vérifier sur cet exemple le théorème de Huygens.
2) Méthode K-means
Exercice d’application
Solution :
M1(0, 0), M2(1, 2), M3(3, 6), M4(3, 0), M5(4, 5) et M6(6, 5).
1) M1 et M4: centres initiaux, décrire les étapes de K-means en représentant à chaque itération: — les classes dont on
donnera les éléments et qu’on entourera chacune d’un arrondi, — ainsi que les centres de ces classes qu’on calculera.
87
21/05/2024
2) Méthode K-means
Exercice d’application
2) Méthode K-means
Exercice d’application
88
21/05/2024
2) Méthode K-means
Exercice d’application
2) Calcul de l’inertie totale du nuage, puis pour chacune des partitions, l’inertie intra-classe et vérification qu’elle est
bien décroissante au cours du processus de classification.
2) Méthode K-means
Exercice d’application
89
21/05/2024
2) Méthode K-means
Exercice d’application
3) En calculant l’inertie interclasse de la deuxième partition, vérifier sur cet exemple le théorème de Huygens.
2) Méthode K-means
Exercice d’application
Exercice 2 :
Soient M1 = (1, 0), M2 = (0, 1) , M3 = (3, 1), M4 = (4, 2) et M5= (4, 3) cinq points du plan.
1) Appliquer la classification K-means (avec K=2) en prenant comme centre de classes les points M1 et M4 et en
90
21/05/2024
2) Méthode K-means
Exercice d’application
Solution :
1) K-means (avec K=2) en prenant comme centre de classes les points M1 et M4 et en considérant la distance
euclidienne.
2) Méthode K-means
Exercice d’application
2) Choix de M3 et M5 comme centres de classes à l’initialisation.
91
21/05/2024
2) Méthode K-means
Exercice d’application
2) Choix de M3 et M5 comme centres de classes à l’initialisation.
2) Méthode K-means
Importance des centres initiaux
Soient six points dans le plan ayant pour coordonnées
1) Calcul de la partition obtenue en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).
2) Calcul de la partition obtenue en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).
92
21/05/2024
2) Méthode K-means
Importance des centres initiaux
1) Calcul de la partition en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).
2) Méthode K-means
Importance des centres initiaux
1) Calcul de la partition en prenant pour centres initiaux : c1(-1;-1) et c2(2; 3).
93
21/05/2024
2) Méthode K-means
Importance des centres initiaux
2) Méthode K-means
Importance des centres initiaux
2) Calcul de la partition en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).
94
21/05/2024
2) Méthode K-means
Importance des centres initiaux
2) Calcul de la partition en prenant pour centres initiaux : c1(-1;2) et c2(1; 1).
2) Méthode K-means
Données réelles
95
21/05/2024
2) Méthode K-means
Données réelles
2) Méthode K-means
Données réelles
96
21/05/2024
2) Méthode K-means
Données réelles
Principe
• Partir d'un seul objet auquel on associe les autres objets un par un.
• A chaque étape, les deux groupes les plus proches sont fusionnés, et ce jusqu’à ce que tous les objets
97
21/05/2024
Algorithme:
• Regrouper les deux éléments (classes) les plus proches au sens de la distance entre groupes choisie
• Mettre à jour le tableau de distances en remplaçant les deux classes regroupées par la nouvelle et en calculant
98
21/05/2024
Pour un niveau de précision donné, deux individus peuvent être confondus dans un même groupe, alors qu'à un autre
99
21/05/2024
• L'utilisateur doit repérer des sauts extrêmement importants dans les valeurs, en analysant le dendrogramme
• On coupe au niveau d’une longue branche (forte perte d’inertie dans le cas de la méthode de Ward)
100
21/05/2024
101
21/05/2024
102
21/05/2024
• Cependant, la méthode est très sensible aux points isolés et est peu utilisée en pratique.
Nécessite la définition d’une distance entre groupes d’individus (appelé stratégie d’agrégation).
Tourne lentement
Peu robuste: il suffit de modifier une distance pour que le saut change (sensibilité aux valeurs extrêmes).
103
21/05/2024
figure ci-dessous formée de quatre points x, y, z, t, alignés et séparés par des distances voisines : d(x, y) = 1 ; d(x, z) = 2.1 ;
d(x, t) = 3.3 ; d(y, z) = 1.1 ; d(y, t) = 2.3 ; d(z, t) = 1.2. Schématiser leurs dendrogrammes respectifs. Que peut-on dire?
104
21/05/2024
105
21/05/2024
Cours
+216 27 294 294
[Link]
8, Rue des Minéraux, Charguia 1, Tunis, Tunisia
Description
Merci !
106