Introduction au Data Mining
Introduction au Data Mining
10/6/2024 2
Les données à grande échelle sont partout !
❑ Nouveau mantra
o Rassemblez toutes les données que
vous pouvez chaque fois que c'est
possible.
Traffic Patterns Social Networking: Twitter
❑ Attentes (Objectifs)
o Les données collectées auront une
valeur soit pour l'objectif poursuivi,
soit pour un objectif non envisagé.
Sensor Networks Computational Simulations
10/6/2024 3
Pourquoi le Data Mining ? Point de vue
commercial
❑ De nombreuses données sont collectées et stockées
▪ Données web
✓ Google dispose de Peta Bytes de données web
✓ Facebook a des milliards d'utilisateurs actifs
10/6/2024 4
Pourquoi le Data Mining ? Point de vue
scientifique
❑ Données collectées et stockées à très grande vitesse
▪ Capteurs à distance sur un satellite
✓ NASA EOSDIS archive plus de pétaoctets de données sur les
sciences de la terre par an
10/6/2024 5
Données IRMf du cerveau Données de l'étude du ciel
Données d'expression génétique
10/6/2024 6
De grandes opportunités pour résoudre les
problèmes majeurs de la société
Améliorer les soins de santé et réduire les coûts Prévoir l'impact du changement climatique
10/6/2024 8
Les origines du Data Mining
❑ S'inspire de l'apprentissage automatique/de l'intelligence artificielle, de
la reconnaissance des formes, des statistiques et des systèmes de base
de données.
10/6/2024 9
Tâches du Data Mining
❑ Méthodes prédictives
▪ Utiliser certaines variables pour prédire des valeurs inconnues ou
futures d'autres variables.
❑ Méthodes descriptives
▪ Trouver des modèles interprétables par l'homme qui décrivent les
données.
Data
Tid Refund Marital Taxable
Status Income Cheat
10/6/2024 10
Milk
Modélisation prédictive : Classification
❑ Trouver un modèle pour l'attribut de la classe en fonction des valeurs des
autres attributs
Modèle de prédiction de la
solvabilité
Classe Employed
# years at
Level of Credit Yes
Tid Employed present No
Education Worthy
address
1 Yes Graduate 5 Yes
2 Yes High School 2 No No Education
3 No Undergrad 1 No
{ High school,
4 Yes High School 10 Yes Graduate
Undergrad }
… … … … …
10
Number of Number of
years years
Yes No Yes No
10/6/2024 11
Exemple de classification
# years at
Level of Credit
Tid Employed present
Education Worthy
address
1 Yes Undergrad 7 ?
# years at 2 No Graduate 3 ?
Level of Credit
Tid Employed present 3 Yes High School 2 ?
Education Worthy
address
… … … … …
1 Yes Graduate 5 Yes 10
Set
Training
Learn
Model
Set Classifier
10/6/2024 12
Exemples de tâches de classification
❑ Classer les transactions par carte de crédit comme légitimes ou
frauduleuses
10/6/2024 13
Classification : Application 1
❑Détection de la fraude
▪ Approche :
o Utiliser les transactions par carte de crédit et les
informations sur le titulaire du compte comme
attributs.
✓ Quand un client achète-t-il, qu'achète-t-il,
combien de fois paie-t-il à temps, etc.
o Etiqueter les transactions passées comme
frauduleuses ou loyales. Cela constitue l'attribut de
classe.
o Entrainer un modèle pour la classe des transactions
o Utilisez ce modèle pour détecter les fraudes en
10/6/2024 14
observant les transactions par carte de crédit sur un
compte.
Classification : Application 2
❑Prédiction du taux de désabonnement pour les clients du
téléphone
▪ Approche :
o Utilisez les relevés détaillés des transactions avec chacun
des clients passés et présents pour trouver des attributs.
✓ La fréquence des appels du client, le lieu où il appelle,
l'heure à laquelle il appelle le plus, sa situation
financière, sa situation matrimoniale, etc.
10/6/2024 15
Classification : Application 3
❑Catalogage de l'étude du ciel
▪ Objectif : prédire la classe (étoile ou galaxie) des objets du
ciel, en particulier ceux qui sont visuellement faibles, en se
basant sur les images du relevé télescopique (de
l'observatoire Palomar).
✓ 3000 images de 23 040 x 23 040 pixels par image.
▪ Approche :
o Segmenter l'image.
o Mesurer les attributs de l'image (caractéristiques) - 40
par objet.
o Modéliser la classe en fonction de ces caractéristiques.
o Histoire d'une réussite : Découverte de 16 nouveaux
quasars à fort décalage vers le rouge, parmi les objets
les plus éloignés et les plus difficiles à trouver !
10/6/2024 16
Classification des galaxies
Courtesy: [Link]
Late
Data Size:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
10/6/2024 17
Régression
❑Prévoir la valeur d'une variable continue donnée en fonction des
valeurs d'autres variables, en supposant un modèle de
dépendance linéaire ou non linéaire.
❑Exemples :
▪ Prévision des ventes d'un nouveau produit sur la base des
dépenses publicitaires.
▪ Prévision de la vitesse du vent en fonction de la température,
de l'humidité, de la pression atmosphérique, etc.
▪ Prédiction des séries temporelles des indices boursiers.
10/6/2024 18
Regroupement (Clustering)
❑Trouver des groupes d'objets tels que les objets d'un groupe
seront similaires (ou apparentés) les uns aux autres et
différents (ou non apparentés) des objets des autres groupes.
Les distances
Les distances inter-cluster sont
intra-groupes maximisées
sont minimisées
10/6/2024 19
Applications de l'analyse en grappes
(clusters)
❑Comprendre:
▪ Profilage personnalisé pour un marketing ciblé
▪ Regrouper des documents connexes pour les parcourir
▪ Regrouper les gènes et les protéines qui ont des
fonctions similaires
▪ Regrouper les actions dont les fluctuations de prix sont
similaires
❑Synthèse:
▪ Réduire la taille des grands ensembles de données
Clusters for Raw SST and Raw NPP
90
Utilisation de K-means
60
pour répartir la
Land Cluster 2
30 température de surface
de la mer (SST) et la
Land Cluster 1
latitude
production primaire
Ice or No NPP 20
-30
nette (NPP) en groupes
Sea Cluster 2
10/6/2024 -90
-180 -150 -120 -90 -60 -30 0 30
longitude
60 90 120 150 180
Cluster
20
▪ Approche :
o Recueillir les différents attributs des clients sur la base
d'informations relatives à leur situation géographique et
à leur mode de vie.
o Trouver des groupes de clients similaires.
o Mesurez la qualité du regroupement en observant les
habitudes d'achat des clients d'un même groupe par
rapport à celles des clients de groupes différents.
10/6/2024 21
Regroupement : Application 2
❑Regroupement de documents :
▪ Objectif : trouver des groupes de documents similaires les
uns aux autres sur la base des termes importants qui y
figurent.
10/6/2024 22
❑Informatique médicale
▪ Les règles sont utilisées pour trouver des combinaisons
de symptômes et de résultats de tests associés à
certaines maladies.
10/6/2024 24
Analyse d'association : Applications
❑Exemple de modèle de co-expression différentielle dans le
sous-espace à partir d'un ensemble de données sur le cancer
du poumon
Trois ensembles de données sur le cancer
du poumon [Bhattacharjee et al. 2001],
[Stearman et al. 2005], [Su et al. 2007]
10/6/2024 26
Des défis motivants
➢ Évolutivité
➢ Haute dimensionnalité
10/6/2024 27
Exploitation des
données
Notes de cours: chapitre 2
10/6/2024 28
Plan
❑Attributs et objets
❑Types de données
❑Similitude et distance
10/6/2024 29
Qu'est-ce qu'une donnée ?
❑Collection d'objets de données et de leurs attributs
❑Un attribut est une propriété ou une caractéristique d'un objet
▪ Exemples : couleur des yeux d'une personne, température,
etc.
▪ L'attribut est également appelé variable, champ,
caractéristique, dimension ou élément.
❑Un ensemble d'attributs décrit un objet
▪ L'objet est également appelé enregistrement, point, cas,
échantillon, entité ou instance
Attributs
• Ordinal
✓ Exemples : classement (par exemple, goût des chips sur
une échelle de 1 à 10), notes, taille {grand, moyen, petit}
• Intervalle
✓ Exemples : dates du calendrier, températures en degrés
Celsius ou Fahrenheit.
• Ratio
✓ Exemples : température en Kelvin, longueur, nombre,
10/6/2024 temps écoulé (par exemple, le temps d'une course). 32
Propriétés des valeurs d'attributs
❑Le type d'un attribut dépend des propriétés/opérations suivantes
qu'il possède :
▪ Distinction : = ≠
▪ Ordre : <>
▪ Les différences sont significatives : +-
▪ Les ratios sont significatifs : */
10/6/2024 33
Différence entre ratio et intervalle
❑ Est-il physiquement significatif de dire qu'une température
de 10° est le double de celle de 5° sur
▪ l'échelle Celsius ?
▪ l'échelle Fahrenheit ?
▪ l'échelle Kelvin ?
❑ Considérons la mesure de la taille au-dessus de la moyenne
▪ Si la taille de Brahim est supérieure de trois pouces à la moyenne et
que la taille de Bouchaib est supérieure de six pouces à la moyenne,
dirions-nous que Bouchaib est deux fois plus grand que Brahim ?
▪ Cette situation est-elle analogue à celle de la température ?
Attribute Description Examples Operations
Type
Nominal Nominal attribute zip codes, employee mode, entropy,
values only ID numbers, eye contingency
distinguish. (=, ) color, sex: {male, correlation, 2
Categorical
Qualitative
female} test
10/6/2024 35
Attributs discrets et continus
❑Attribut discret
▪ Ne possède qu'un ensemble fini ou infini de valeurs.
▪ Exemples : codes postaux, dénombrements ou ensemble
de mots dans une collection de documents.
▪ Souvent représentés sous forme de variables entières.
▪ Note : les attributs binaires sont un cas particulier
d'attributs discrets.
❑Attribut continu
▪ Les valeurs d'attribut sont des nombres réels.
▪ Exemples : température, taille ou poids.
▪ Dans la pratique, les valeurs réelles ne peuvent être
mesurées et représentées qu'à l'aide d'un nombre fini de
chiffres.
▪ Les attributs continus sont généralement représentés par
des variables à virgule flottante.
10/6/2024 36
Attributs asymétriques
❑Seule la présence (une valeur d'attribut non nulle) est
considérée comme importante.
▪ Mots présents dans les documents
▪ Éléments présents dans les transactions des clients.
10/6/2024 37
Critiques de la catégorisation des
attributs
❑Incomplet
• Binaire asymétrique
• Cyclique
• Multivariable
• Partiellement ordonné
• Adhésion partielle
• Relations entre les données
10/6/2024 38
Messages clés pour les types d'attributs
❑Les types d'opérations choisis doivent être "significatifs" pour le
type de données dont vous disposez.
▪ La distinction, l'ordre, les intervalles significatifs et les
rapports significatifs ne sont que quatre propriétés (parmi de
nombreuses autres possibles) des données.
▪ Le type de données que vous voyez - souvent des nombres
ou des chaînes - peut ne pas capturer toutes les propriétés
ou peut suggérer des propriétés qui ne sont pas présentes
▪ L'analyse peut dépendre de ces autres propriétés des
données
✓ De nombreuses analyses statistiques ne dépendent que
de la distribution.
▪ En fin de compte, ce qui est significatif peut être spécifique à
un domaine.
10/6/2024 39
Caractéristiques importantes des données
❑Dimensionnalité (nombre d'attributs)
▪ Les données à haute dimension posent un certain nombre de
problèmes.
❑Sparsité
▪ Seule la présence compte.
❑Résolution
▪ Les patterns dépendent de l'échelle.
❑Taille
▪ Le type d'analyse peut dépendre de la taille des données.
10/6/2024 40
Types d'ensembles de données
❑Enregistrement
▪ Data Matrix
▪ Document Data
▪ Transaction Data
❑Graphe
▪ World Wide Web
▪ Molecular Structures
❑Ordonné
▪ Spatial Data
▪ Temporal Data
▪ Sequential Data
▪ Genetic Sequence Data
10/6/2024 41
Record Data
❑Données constituées d'une collection d'enregistrements,
chacun d'entre eux étant constitué d'un ensemble fixe
d'attributs.
10/6/2024 43
Document Data
❑Chaque document devient un vecteur de "termes".
▪ Chaque terme est une composante (attribut) du vecteur
▪ La valeur de chaque composante est le nombre
d'occurrences du terme correspondant dans le document.
timeout
season
coach
game
score
play
team
win
ball
lost
Document 1 3 0 5 0 2 6 0 2 0 2
Document 2 0 7 0 2 1 0 0 3 0 0
Document 3 0 1 0 0 1 2 2 0 3 0
10/6/2024 44
Transaction Data
❑Un type particulier de données, où
▪ Chaque transaction implique un ensemble d'éléments.
▪ Prenons l'exemple d'une épicerie. L'ensemble des produits
achetés par un client au cours d’une course constitue une
transaction, tandis que les produits individuels qui ont été
achetés sont les articles.
▪ On peut représenter les données de transactions comme des
données d'enregistrements.
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
10/6/2024 4 Beer, Bread, Diaper, Milk 45
10/6/2024 46
2
5 1
2
5
Molécule de benzène : C6H6
Ordered Data
❑Séquences de transactions
Articles / événements
Un élément de la
séquence
❑Données de séquences génomiques
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
10/6/2024 GAGAAGGGCCCGCCTGGCGGGCG 47
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data
❑Spatio-Temporal Data
10/6/2024 48
10/6/2024 50
Valeurs aberrantes (Outliers)
❑Les valeurs aberrantes (Outliers) sont des objets de données
dont les caractéristiques sont considérablement différentes de
celles de la plupart des autres objets de données de l'ensemble.
▪ Cas 1 : Les valeurs aberrantes sont des bruits qui perturbent
l'analyse des données.
▪ Cas 2 : Les valeurs aberrantes sont l'objectif de notre analyse
✓ Fraude par carte de crédit
✓ Détection des intrusions
❑Les causes ?
10/6/2024 51
Valeurs manquantes
❑Raisons des valeurs manquantes
▪ Les informations ne sont pas collectées (par exemple, les
personnes refusent de donner leur âge et leur poids).
▪ Les attributs peuvent ne pas s'appliquer à tous les cas
(par exemple, le revenu annuel ne s'applique pas aux
enfants).
10/6/2024 52
Données en double
❑L'ensemble de données peut inclure des objets de données qui sont
des doublons, ou presque, les uns des autres.
▪ Problème majeur lors de la fusion de données provenant de
sources hétérogènes
❑Exemples :
▪ Une même personne avec plusieurs adresses électroniques
10/6/2024 53
Mesures de similarité et de dissimilarité
❑Mesure de similarité
▪ Mesure numérique du degré de similitude entre deux objets
de données.
▪ Elle est plus élevée lorsque les objets sont plus semblables.
▪ Se situe souvent dans l'intervalle [0,1]
❑ Mesure de dissimilarité
▪ Mesure numérique de la différence entre deux objets de
données
▪ Elle est plus faible lorsque les objets se ressemblent davantage
▪ La dissimilarité minimale est souvent de 0
▪ La limite supérieure varie
10/6/2024 54
Similitude/dissimilarité pour les attributs
simples
❑ Le tableau suivant montre la similarité et la dissimilarité entre deux
objets, x et y, par rapport à un seul attribut simple.
10/6/2024 55
Distance euclidienne
❑Distance euclidienne
3
point x y
2 p1
p1 0 2
p3 p4
1
p2 2 0
p2 p3 3 1
0 p4 5 1
0
10/6/2024 1 2 3 4 5 6 56
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
Matrice des distances
Distance de Minkowski
❑La distance de Minkowski est une généralisation de la distance
euclidienne.
10/6/2024 57
Distance de Minkowski : Exemples
❑𝑟 = 1. Distance entre les blocs urbains (Manhattan, taxis, norme
L1).
▪ Un exemple courant pour les vecteurs binaires est la distance
de Hamming, qui est simplement le nombre de bits différents
entre deux vecteurs binaires.
❑ 𝑟 = 2. Distance euclidienne.
10/6/2024 58
Distance de Minkowski
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
point x y
p1 0 2 L2 p1 p2 p3 p4
p2 2 0 p1 0 2.828 3.162 5.099
p3 3 1 p2 2.828 0 1.414 3.162
p4 5 1 p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
10/6/2024 59
Distance de Mahalanobis
𝐦𝐚𝐡𝐚𝐥𝐚𝐧𝐨𝐛𝐢𝐬 𝐱, 𝐲 = ((𝐱 − 𝐲)𝑇 Ʃ−1 (𝐱 − 𝐲))-0.5
où est la matrice de covariance
10/6/2024 60
10/6/2024 61
Matrice de covariance :
A: (0.5, 0.5)
Mahal(A,B) = 5
0.3 0.2
B: (0, 1) = Mahal(A,C) = 4
C: (1.5, 1.5) 0. 2 0.3
Propriétés courantes d'une distance
❑Les distances, telles que la distance euclidienne, ont des
propriétés bien connues.
1. d(x, y) 0 pour tout x et y et d(x, y) = 0 si et
seulement si x = y.
2. d(x, y) = d(y, x) pour tout x et y . (Symétrie)
3. d(x, z) d(x, y) + d(y, z) pour tous les points
x, y, et z. (Inégalité des triangles)
où d(x, y) est la distance (dissimilarité) entre les points
(objets de données) x et y.
10/6/2024 62
Propriétés courantes d'une similitude
❑ Les similitudes ont également des propriétés bien connues.
1. s(x, y) = 1 (ou la similarité maximale) seulement si x = y.
(n'est pas toujours valable, par exemple, le cosinus)
2. s(x, y) = s(y, x) pour tous x et y. (Symétrie)
10/6/2024 64
Similitude du cosinus
❑ Si d1 et d2 sont deux vecteurs de documents, alors
cos( d1, d2 ) = <d1,d2> / ||d1|| ||d2|| ,
où <d1,d2> indique le produit intérieur ou le produit vectoriel
de points des vecteurs, d1 et d2, et || d || est la longueur du
vecteur d.
❑ Exemple :
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
<d1, d2> = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
| d1 || = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
|| d2 || = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.449
cos(d1, d2 ) = 0.3150
10/6/2024 65
La corrélation mesure la relation linéaire
entre les objets
𝜎𝑥𝑦
−1 ≤ 𝑟𝑥𝑦 = ≤ +1
𝜎𝑥𝑥 ∗ 𝜎𝑦𝑦
Diagrammes de
dispersion
montrant la
similarité de -1 à
10/6/2024 1. 66
Inconvénient de la corrélation
x = (-3, -2, -1, 0, 1, 2, 3)
y = (9, 4, 1, 0, 1, 4, 9)
y i = x i2
mean(x) = 𝒙ഥ = 0, mean(y) = 𝑦ഥ = 4
std(x) =𝜎𝑥 = 𝜎𝑥𝑥 = 2.16, std(y) = 𝜎𝑦 = 𝜎𝑦𝑦 =3.74
10/6/2024 67
Corrélation vs Cosinus vs Distance euclidienne
❑Comparer les trois mesures de proximité en fonction de leur
comportement sous transformation variable
▪ Mise à l'échelle : multiplication par une valeur
▪ Translation : ajout d'une constante
Mesure
10/6/2024
(x , y) (x , ys) (x , yt) 68
Cosinus 0.9667 0.9667 0.7940
Corrélation 0.9429 0.9429 0.9429
Distance euclidienne 1.4142 5.8310 14.2127
Corrélation vs cosinus vs distance euclidienne
❑ Le choix de la bonne mesure de proximité dépend du domaine
❑ Quel est le bon choix de mesure de proximité dans les situations suivantes ?
▪ Comparaison de documents à l'aide de la fréquence des mots
✓ Les documents sont considérés comme similaires si la fréquence des mots est similaire.
10/6/2024 69
Comparaison des mesures de proximité
❑ Domaine d'application
▪ Les mesures de similarité tendent à être spécifiques au
type d'attribut et de données.
▪ Les données d'enregistrement, les images, les graphes,
les séquences, la structure 3D des protéines, etc. ont
tendance à avoir des mesures différentes.
❑ Cependant, on peut parler de différentes propriétés que l'on
souhaiterait qu'une mesure de proximité ait
▪ La symétrie est courante et très souhaitée
▪ La tolérance au bruit et aux valeurs aberrantes est un
autre facteur de réussite.
▪ Capacité à trouver d'autres types de motifs ?
❑ La mesure doit être applicable aux données et produire des
résultats qui correspondent à la connaissance du domaine.
10/6/2024 70
Mesures basées sur l'information
❑ La théorie de l'information est une discipline fondamentale
bien développée qui a de vastes applications.
Information et probabilité
❑ Les informations concernent les résultats possibles d'un
événement
▪ transmission d'un message, pile ou face, ou mesure d'une donnée
𝐻 𝑋 = − 𝑝𝑖 log 2 𝑝𝑖
𝑖=1
❑ L'entropie est comprise entre 0 et log2n et est mesurée en bits
▪ L'entropie est donc une mesure du nombre de bits nécessaires
pour représenter une observation de 𝑋 en moyenne
Exemples d'entropie
Pour une pièce de monnaie avec une probabilité 𝑝 de pile et une probabilité 𝑞 =
1 − 𝑝 de face
𝐻 = −𝑝 log 2 𝑝 − 𝑞 log 2 𝑞
10/6/2024 72
Pour p= 0.5, q = 0.5 (pièce de monnaie équitable) H = 1
Pour p = 1 ou q = 1, H = 0
10/6/2024 73
Entropie pour les données d'un échantillon
❑ Supposons que nous ayons
▪ un nombre d'observations (𝑚) d'un attribut 𝑋, par
exemple la couleur des cheveux des élèves de la classe,
▪ où il y a 𝑛 valeurs différentes possibles
▪ Et le nombre d'observations dans le ith catégorie est mi
▪ Ensuite, pour cet échantillon
𝑛
𝑚𝑖 𝑚𝑖
𝐻 𝑋 = − log 2
𝑚 𝑚
𝑖=1
❑ Pour les données continues, le calcul est plus difficile
Information mutuelle
❑ Information qu'une variable fournit sur une autre
Formellement, 𝐼 𝑋, 𝑌 = 𝐻 𝑋 + 𝐻 𝑌 − 𝐻(𝑋, 𝑌), où
H(X,Y) est l'entropie conjointe de X et Y,
10/6/2024 74
𝐻 𝑋, 𝑌 = − 𝑝𝑖𝑗log 2 𝑝𝑖𝑗
𝑖 𝑗
Où pij est la probabilité que la ième valeur de X et la jème valeur de Y se
produisent simultanément.
▪ Pour les variables discrètes, le calcul est facile à effectuer
▪ L'information mutuelle maximale pour les variables discrètes est
log2(min( nX, nY )), où nX (nY) est le nombre de valeurs de X (Y)
Prétraitement des données
- Agrégation
- Échantillonnage
- Discrétisation et binarisation
- Transformation des attributs
- Réduction de la dimensionnalité
- Sélection de sous-ensembles de caractéristiques
- Création de caractéristiques
10/6/2024 75
Agrégation
❑ Combinaison de deux ou plusieurs attributs (ou objets) en un
seul attribut (ou objet)
❑ Objectif
▪ Réduction des données: réduire le nombre d'attributs ou
d'objets
▪ Changement d'échelle
✓ Villes agrégées en régions, états, pays, etc.
✓ Jours agrégés en semaines, mois ou années
▪ Données plus "stables" : les données agrégées tendent à
présenter moins de variabilité
10/6/2024 76
Data Set contenant des informations sur les achats d’un clients
Exemple : Précipitations en Australie
❑ Cet exemple est basé sur les précipitations en Australie entre
1982 et 1993.
La diapositive suivante montre
o un histogramme de l'écart-type des précipitations
mensuelles moyennes pour 3 030 mailles de 0,5◦ par 0,5◦
en Australie, et
o un histogramme de l'écart-type des précipitations
annuelles moyennes pour les mêmes lieux.
10/6/2024 77
Exemple : Précipitations en Australie ...
Variation des précipitations en Australie
10/6/2024 78
Échantillonnage
❑ L'échantillonnage est la principale technique utilisée pour la
réduction des données ;
▪ il est souvent utilisé à la fois pour l'étude préliminaire des
données et pour l'analyse finale des données.
10/6/2024 80
Types d'échantillonnage
❑ Échantillonnage aléatoire simple
- Tous les éléments de la population ont la même probabilité
d’être sélectionnés (Il y a une probabilité égale de
sélectionner un élément particulier)
- Échantillonnage sans remplacement
✓ Chaque élément sélectionné est retiré de la
population.
- Échantillonnage avec remplacement
✓ Les objets ne sont pas retirés de la population au fur
et à mesure qu'ils sont sélectionnés pour
l'échantillon.
✓ Dans l'échantillonnage avec remplacement, le même
objet peut être sélectionné plus d'une fois.
❑ Echantillonnage stratifié
- Séparer les données en plusieurs partitions ; puis tirer des
échantillons aléatoires de chaque partition.
10/6/2024 81
Taille de l'échantillon
❑Quelle est la taille de l'échantillon nécessaire pour obtenir au
moins un objet dans chacun des 10 groupes de taille égale ?
10/6/2024 82
Discrétisation
❑ La discrétisation est le processus de conversion d'un attribut
continu en un attribut ordinal
▪ Un nombre potentiellement infini de valeurs est mis en
correspondance avec un petit nombre de catégories
▪ La discrétisation est utilisée à la fois dans des contextes non
supervisés et supervisés.
10/6/2024 83
Discrétisation non supervisée
Les données se composent de quatre groupes de points et de deux valeurs aberrantes. Les
données sont unidimensionnelles, mais une composante aléatoire y est ajoutée pour
réduire les chevauchements.
10/6/2024 84
10/6/2024 85
Discrétisation dans un cadre supervisé
- De nombreux algorithmes de classification fonctionnent mieux si
les variables indépendantes et dépendantes n'ont que quelques
valeurs
- Nous illustrons l'utilité de la discrétisation à l'aide de l'exemple
suivant.
10/6/2024 86
Binarisation
❑ La binarisation permet de transformer un attribut continu ou
catégorique en une ou plusieurs variables binaires.
10/6/2024 87
Transformation des attributs
❑ Une transformation d'attribut est une fonction qui fait
correspondre l'ensemble des valeurs d'un attribut donné à un
nouvel ensemble de valeurs de remplacement, de sorte que chaque
ancienne valeur puisse être identifiée par l'une des nouvelles
valeurs.
- Fonctions simples : 𝑋 𝑘 , log(𝑋), 𝑒 𝑋 , |𝑋|
- Normalisation
✓ Se réfère à diverses techniques pour ajuster les différences
entre les attributs en termes de fréquence d'occurrence, de
moyenne, de variance, d'étendue
✓ Éliminer les signaux communs non désirés, par exemple la
saisonnalité –
- En statistiques, la normalisation se réfère à la soustraction des
moyennes et à la division par l'écart type.
10/6/2024 88
Exemple : série chronologique de la
croissance d'une plante
Minneapolis
La production primaire nette
(PPN) est une mesure de la
croissance des plantes utilisée
par les spécialistes des
écosystèmes.
10/6/2024 89
La saisonnalité explique une grande
partie de la corrélation
Minneapolis
Normalisation à l'aide
du score Z mensuel :
soustraire la moyenne
mensuelle et diviser
par l'écart-type
mensuel.
10/6/2024 90
La malédiction de la dimensionnalité
❑ Lorsque la dimensionnalité augmente, les données deviennent
de plus en plus éparses dans l'espace qu'elles occupent
❑ Les définitions de la densité et de la distance entre les points,
qui sont essentielles pour le regroupement et la détection des
valeurs aberrantes, perdent de leur signification.
10/6/2024
- Génération aléatoirement de 500 points 91
- Calculer la différence entre la distance maximale et la distance
minimale entre n'importe quelle paire de points
Réduction de la dimensionnalité
❑ Objectif :
▪ Éviter la malédiction de la dimensionnalité
▪ Réduire le temps et la mémoire requis par les algorithmes
d'exploration de données
▪ Faire en sorte que les données soient plus facilement
visualisées
▪ Pouvoir aider à éliminer les caractéristiques non
pertinentes ou à réduire le bruit
❑ Techniques
▪ Analyse en composantes principales (ACP)
▪ Décomposition en valeurs singulières
▪ Autres : techniques supervisées et non linéaires
10/6/2024 92
Réduction de la dimensionnalité : ACP
❑ L'objectif est de trouver une projection qui capture la plus
grande quantité de variation dans les données.
x2
x1
10/6/2024 93
Sélection de sous-ensembles de
caractéristiques
❑ Autre moyen de réduire la dimensionnalité des données
❑ Caractéristiques redondantes
▪ duplication d'une grande partie ou de la totalité des
informations contenues dans un ou plusieurs autres
attributs
▪ Exemple : prix d'achat d'un produit et montant de la taxe
sur les ventes payée
10/6/2024 95
Représenter les données dans un nouvel
espace
❑Transformée de Fourier et ondelettes
Frequency
10/6/2024 96