0% ont trouvé ce document utile (0 vote)
28 vues96 pages

Introduction au Data Mining

Transféré par

Yassine Assadiki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
28 vues96 pages

Introduction au Data Mining

Transféré par

Yassine Assadiki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

Pr. Mohammed MESTARI

• Co-Fonder of International Neural Networks Society INNS-Morocco Regional Chapter


• Co-Fonder of IEEE Computational Intelligence Society- Morocco Chapter
• Senior Member of IEEE Transactions on Neural Networks and Learning Systems
10/6/2024 1
Introduction
Notes de cours: chapitre 1

10/6/2024 2
Les données à grande échelle sont partout !

❑ Les bases de données commerciales et


scientifiques ont connu une croissance
énorme grâce aux progrès réalisés dans
les technologies de génération et de
collecte de données E-Commerce
Cyber Security

❑ Nouveau mantra
o Rassemblez toutes les données que
vous pouvez chaque fois que c'est
possible.
Traffic Patterns Social Networking: Twitter

❑ Attentes (Objectifs)
o Les données collectées auront une
valeur soit pour l'objectif poursuivi,
soit pour un objectif non envisagé.
Sensor Networks Computational Simulations

10/6/2024 3
Pourquoi le Data Mining ? Point de vue
commercial
❑ De nombreuses données sont collectées et stockées
▪ Données web
✓ Google dispose de Peta Bytes de données web
✓ Facebook a des milliards d'utilisateurs actifs

▪ les achats dans les grands magasins et les épiceries, le commerce


électronique
✓ Amazon reçoit des millions de visites par jour

▪ Transactions par carte bancaire/de crédit

❑ Les ordinateurs sont devenus moins chers et plus puissants

❑ La pression concurrentielle est forte


▪ Fournir des services personnalisés de meilleure qualité (par exemple,
dans le cadre de la gestion des relations avec la clientèle)

10/6/2024 4
Pourquoi le Data Mining ? Point de vue
scientifique
❑ Données collectées et stockées à très grande vitesse
▪ Capteurs à distance sur un satellite
✓ NASA EOSDIS archive plus de pétaoctets de données sur les
sciences de la terre par an

▪ Télescopes qui scrutent le ciel


✓ Données de l'étude du ciel

▪ Données biologiques à haut débit


▪ Simulations scientifiques
✓ des téraoctets de données générés en quelques heures

❑ Le Data Mining aide les scientifiques


▪ Dans l'analyse automatisée d'ensembles de données massifs
▪ Dans la formation d'hypothèses

10/6/2024 5
Données IRMf du cerveau Données de l'étude du ciel
Données d'expression génétique

Température de surface de la Terre


De grandes possibilités d'améliorer la
productivité dans tous les domaines de la vie

10/6/2024 6
De grandes opportunités pour résoudre les
problèmes majeurs de la société

Améliorer les soins de santé et réduire les coûts Prévoir l'impact du changement climatique

Réduire la faim et la pauvreté en


Trouver des sources d'énergie alternatives/vertes
augmentant la production agricole
10/6/2024 7
Qu'est-ce que le Data Mining ?
❑ De nombreuses définitions
▪ Extraction non triviale d'informations implicites, précédemment
inconnues et potentiellement utiles à partir de données

▪ Exploration et analyse, par des moyens automatiques ou semi-


automatiques, de grandes quantités de données afin de découvrir
des modèles significatifs.

10/6/2024 8
Les origines du Data Mining
❑ S'inspire de l'apprentissage automatique/de l'intelligence artificielle, de
la reconnaissance des formes, des statistiques et des systèmes de base
de données.

❑ Les techniques traditionnelles peuvent être inadaptées en raison des


données qui sont:
▪ A grande échelle
▪ Haute dimension
▪ Hétérogène
▪ Complexe
▪ Distribué

❑ Un élément clé du domaine émergent de la science des données et de la


découverte fondée sur les données

10/6/2024 9
Tâches du Data Mining
❑ Méthodes prédictives
▪ Utiliser certaines variables pour prédire des valeurs inconnues ou
futures d'autres variables.

❑ Méthodes descriptives
▪ Trouver des modèles interprétables par l'homme qui décrivent les
données.

Data
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
11 No Married 60K No
12 Yes Divorced 220K No
13 No Single 85K Yes
14 No Married 75K No
15 No Single 90K Yes
10

10/6/2024 10

Milk
Modélisation prédictive : Classification
❑ Trouver un modèle pour l'attribut de la classe en fonction des valeurs des
autres attributs

Modèle de prédiction de la
solvabilité

Classe Employed
# years at
Level of Credit Yes
Tid Employed present No
Education Worthy
address
1 Yes Graduate 5 Yes
2 Yes High School 2 No No Education
3 No Undergrad 1 No
{ High school,
4 Yes High School 10 Yes Graduate
Undergrad }
… … … … …
10

Number of Number of
years years

> 3 yr < 3 yr > 7 yrs < 7 yrs

Yes No Yes No
10/6/2024 11
Exemple de classification

# years at
Level of Credit
Tid Employed present
Education Worthy
address
1 Yes Undergrad 7 ?
# years at 2 No Graduate 3 ?
Level of Credit
Tid Employed present 3 Yes High School 2 ?
Education Worthy
address
… … … … …
1 Yes Graduate 5 Yes 10

2 Yes High School 2 No


3 No Undergrad 1 No
4 Yes High School 10 Yes
… … … … … Test
10

Set

Training
Learn
Model
Set Classifier

10/6/2024 12
Exemples de tâches de classification
❑ Classer les transactions par carte de crédit comme légitimes ou
frauduleuses

❑ Classification des couvertures terrestres (masses d'eau, zones


urbaines, forêts, etc.) à l'aide de données satellitaires

❑ Classer les nouvelles par catégories : finance, météo,


divertissement, sport, etc.

❑ Identifier les intrus dans le cyberespace

❑ Déterminer si les cellules tumorales sont bénignes ou malignes

❑ Classification des structures secondaires des protéines en hélice


alpha, feuillet bêta ou bobine aléatoire

10/6/2024 13
Classification : Application 1

❑Détection de la fraude

▪ Objectif : Prévoir les cas de fraude dans les transactions


par carte de crédit.

▪ Approche :
o Utiliser les transactions par carte de crédit et les
informations sur le titulaire du compte comme
attributs.
✓ Quand un client achète-t-il, qu'achète-t-il,
combien de fois paie-t-il à temps, etc.
o Etiqueter les transactions passées comme
frauduleuses ou loyales. Cela constitue l'attribut de
classe.
o Entrainer un modèle pour la classe des transactions
o Utilisez ce modèle pour détecter les fraudes en
10/6/2024 14
observant les transactions par carte de crédit sur un
compte.
Classification : Application 2
❑Prédiction du taux de désabonnement pour les clients du
téléphone

▪ Objectif : prédire si un client est susceptible d'être perdu au


profit d'un concurrent.

▪ Approche :
o Utilisez les relevés détaillés des transactions avec chacun
des clients passés et présents pour trouver des attributs.
✓ La fréquence des appels du client, le lieu où il appelle,
l'heure à laquelle il appelle le plus, sa situation
financière, sa situation matrimoniale, etc.

o Étiqueter les clients comme étant loyaux ou déloyaux.

o Trouvez un modèle de loyauté.

10/6/2024 15
Classification : Application 3
❑Catalogage de l'étude du ciel
▪ Objectif : prédire la classe (étoile ou galaxie) des objets du
ciel, en particulier ceux qui sont visuellement faibles, en se
basant sur les images du relevé télescopique (de
l'observatoire Palomar).
✓ 3000 images de 23 040 x 23 040 pixels par image.
▪ Approche :
o Segmenter l'image.
o Mesurer les attributs de l'image (caractéristiques) - 40
par objet.
o Modéliser la classe en fonction de ces caractéristiques.
o Histoire d'une réussite : Découverte de 16 nouveaux
quasars à fort décalage vers le rouge, parmi les objets
les plus éloignés et les plus difficiles à trouver !

10/6/2024 16
Classification des galaxies
Courtesy: [Link]

Early Class: Attributes:


• Stages of Formation
• Image features,
• Characteristics of light
waves received, etc.
Intermediate

Late

Data Size:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB

10/6/2024 17
Régression
❑Prévoir la valeur d'une variable continue donnée en fonction des
valeurs d'autres variables, en supposant un modèle de
dépendance linéaire ou non linéaire.

❑Largement étudié dans les domaines des statistiques et des


réseaux neuronaux.

❑Exemples :
▪ Prévision des ventes d'un nouveau produit sur la base des
dépenses publicitaires.
▪ Prévision de la vitesse du vent en fonction de la température,
de l'humidité, de la pression atmosphérique, etc.
▪ Prédiction des séries temporelles des indices boursiers.

10/6/2024 18
Regroupement (Clustering)
❑Trouver des groupes d'objets tels que les objets d'un groupe
seront similaires (ou apparentés) les uns aux autres et
différents (ou non apparentés) des objets des autres groupes.

Les distances
Les distances inter-cluster sont
intra-groupes maximisées
sont minimisées

10/6/2024 19
Applications de l'analyse en grappes
(clusters)
❑Comprendre:
▪ Profilage personnalisé pour un marketing ciblé
▪ Regrouper des documents connexes pour les parcourir
▪ Regrouper les gènes et les protéines qui ont des
fonctions similaires
▪ Regrouper les actions dont les fluctuations de prix sont
similaires
❑Synthèse:
▪ Réduire la taille des grands ensembles de données
Clusters for Raw SST and Raw NPP
90

Utilisation de K-means
60
pour répartir la
Land Cluster 2

30 température de surface
de la mer (SST) et la
Land Cluster 1
latitude

production primaire
Ice or No NPP 20
-30
nette (NPP) en groupes
Sea Cluster 2

-60 reflétant les hémisphères


nord et sud.
Sea Cluster 1

10/6/2024 -90
-180 -150 -120 -90 -60 -30 0 30

longitude
60 90 120 150 180
Cluster
20

Courtesy: Michael Eisen

Courtesy: Michael Eisen


Regroupement : Application 1
❑Segmentation du marché :
▪ Objectif : subdiviser un marché en sous-ensembles distincts
de clients où chaque sous-ensemble peut être sélectionné
comme cible de marché à atteindre avec un marketing mix
distinct.

▪ Approche :
o Recueillir les différents attributs des clients sur la base
d'informations relatives à leur situation géographique et
à leur mode de vie.
o Trouver des groupes de clients similaires.
o Mesurez la qualité du regroupement en observant les
habitudes d'achat des clients d'un même groupe par
rapport à celles des clients de groupes différents.

10/6/2024 21
Regroupement : Application 2
❑Regroupement de documents :
▪ Objectif : trouver des groupes de documents similaires les
uns aux autres sur la base des termes importants qui y
figurent.

▪ Approche : Identifier d’abord les termes les plus fréquents


dans chaque document. Puis établir une mesure de
similarité basée sur la fréquence des différents termes.
Enfin l'utiliser pour regrouper les documents.

10/6/2024 22

Ensemble de données sur les courriels d'Enron


Découverte de règles d'association :
Définition
❑Étant donné un ensemble d'enregistrements contenant
chacun un certain nombre d'éléments d'une collection
donnée.
▪ Produire des règles de dépendance qui prédisent
l'occurrence d'un élément en fonction de l'occurrence
d'autres éléments.
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
10/6/2024 23
Règles découvertes :
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
Analyse d'association : Applications
❑Analyse du panier de la ménagère
▪ Les règles sont utilisées pour la promotion des ventes, la
gestion des rayons et la gestion des stocks.

❑Diagnostic des alarmes de télécommunication


▪ Les règles sont utilisées pour trouver des combinaisons
d'alarmes qui se produisent fréquemment ensemble au
cours de la même période.

❑Informatique médicale
▪ Les règles sont utilisées pour trouver des combinaisons
de symptômes et de résultats de tests associés à
certaines maladies.

10/6/2024 24
Analyse d'association : Applications
❑Exemple de modèle de co-expression différentielle dans le
sous-espace à partir d'un ensemble de données sur le cancer
du poumon
Trois ensembles de données sur le cancer
du poumon [Bhattacharjee et al. 2001],
[Stearman et al. 2005], [Su et al. 2007]

Enrichi avec la voie de signalisation


10/6/2024
TNF/NFB qui est bien connue pour être 25
liée au cancer du poumon Valeur P :
1.4*10-5 (6/10 de chevauchement avec la
voie)

[Fang et al PSB 2010]


Détection des écarts, des anomalies et
des changements
❑Détecter les écarts significatifs par rapport au comportement
normal.
❑Applications :
▪ Détection des fraudes par carte de crédit.
▪ Détection des intrusions dans les réseaux.
▪ Identifier les comportements anormaux dans les réseaux de
capteurs à des fins de contrôle et de surveillance.
▪ Détecter les changements dans la couverture forestière
mondiale.

10/6/2024 26
Des défis motivants
➢ Évolutivité

➢ Haute dimensionnalité

➢ Données hétérogènes et complexes

➢ Propriété et distribution des données

➢ Analyse non traditionnelle

10/6/2024 27
Exploitation des
données
Notes de cours: chapitre 2

10/6/2024 28
Plan
❑Attributs et objets

❑Types de données

❑Qualité des données

❑Similitude et distance

❑Prétraitement des données

10/6/2024 29
Qu'est-ce qu'une donnée ?
❑Collection d'objets de données et de leurs attributs
❑Un attribut est une propriété ou une caractéristique d'un objet
▪ Exemples : couleur des yeux d'une personne, température,
etc.
▪ L'attribut est également appelé variable, champ,
caractéristique, dimension ou élément.
❑Un ensemble d'attributs décrit un objet
▪ L'objet est également appelé enregistrement, point, cas,
échantillon, entité ou instance
Attributs

Tid Refund Marital Taxable


Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No
3 No Single 70K No
10/6/2024 4 Yes Married 120K No 30
Objets

5 No Divorced 95K Yes


6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Valeurs des attributs
❑Les valeurs d'attributs sont des nombres ou des symboles
attribués à un attribut pour un objet particulier.

❑Distinction entre attributs et valeurs d'attributs


▪ Un même attribut peut être associé à différentes valeurs
d'attribut.
✓ Exemple : la hauteur peut être mesurée en pieds ou en
mètres
▪ Différents attributs peuvent être associés au même
ensemble de valeurs.
✓ Exemple : Les valeurs des attributs ID et âge sont des
nombres entiers.
▪ Mais les propriétés de l'attribut peuvent être différentes
des propriétés des valeurs utilisées pour représenter
l'attribut.
10/6/2024 31
Types d'attributs
❑ Il existe différents types d'attributs:
• Nominal
✓ Exemples : numéros d'identification, couleur des yeux,
codes postaux

• Ordinal
✓ Exemples : classement (par exemple, goût des chips sur
une échelle de 1 à 10), notes, taille {grand, moyen, petit}

• Intervalle
✓ Exemples : dates du calendrier, températures en degrés
Celsius ou Fahrenheit.

• Ratio
✓ Exemples : température en Kelvin, longueur, nombre,
10/6/2024 temps écoulé (par exemple, le temps d'une course). 32
Propriétés des valeurs d'attributs
❑Le type d'un attribut dépend des propriétés/opérations suivantes
qu'il possède :
▪ Distinction : = ≠
▪ Ordre : <>
▪ Les différences sont significatives : +-
▪ Les ratios sont significatifs : */

➢ Attribut nominal : distinction


➢ Attribut ordinal : distinction et ordre
➢ Attribut d'intervalle : distinction, ordre et différences
significatives
➢ Attribut du ratio : les 4 propriétés/opérations

10/6/2024 33
Différence entre ratio et intervalle
❑ Est-il physiquement significatif de dire qu'une température
de 10° est le double de celle de 5° sur
▪ l'échelle Celsius ?
▪ l'échelle Fahrenheit ?
▪ l'échelle Kelvin ?
❑ Considérons la mesure de la taille au-dessus de la moyenne
▪ Si la taille de Brahim est supérieure de trois pouces à la moyenne et
que la taille de Bouchaib est supérieure de six pouces à la moyenne,
dirions-nous que Bouchaib est deux fois plus grand que Brahim ?
▪ Cette situation est-elle analogue à celle de la température ?
Attribute Description Examples Operations
Type
Nominal Nominal attribute zip codes, employee mode, entropy,
values only ID numbers, eye contingency
distinguish. (=, ) color, sex: {male, correlation, 2
Categorical
Qualitative

female} test

Ordinal Ordinal attribute hardness of minerals, median,


values also order {good, better, best}, percentiles, rank
objects. grades, street correlation, run
(<, >) numbers tests, sign tests
Interval For interval calendar dates, mean, standard
10/6/2024 34
attributes, temperature in deviation,
differences between Celsius or Fahrenheit Pearson's
Quantitative
Numeric

values are correlation, t and


meaningful. (+, - ) F tests
Ratio For ratio variables, temperature in Kelvin, geometric mean,
both differences and monetary quantities, harmonic mean,
ratios are counts, age, mass, percent variation
meaningful. (*, /) length, current

Cette catégorisation des attributs est due à S. S. Stevens


Attribute Transformation Comments
Type
Nominal Any permutation of values If all employee ID numbers
were reassigned, would it
make any difference?
Categorical
Qualitative

Ordinal An order preserving change of An attribute encompassing


values, i.e., the notion of good, better best
new_value = f(old_value) can be represented equally
where f is a monotonic function well by the values {1, 2, 3} or
by { 0.5, 1, 10}.

Interval new_value = a * old_value + b Thus, the Fahrenheit and


where a and b are constants Celsius temperature scales
Quantitative
Numeric

differ in terms of where their


zero value is and the size of a
unit (degree).
Ratio new_value = a * old_value Length can be measured in
meters or feet.

Cette catégorisation des attributs est due à S. S. Stevens

10/6/2024 35
Attributs discrets et continus
❑Attribut discret
▪ Ne possède qu'un ensemble fini ou infini de valeurs.
▪ Exemples : codes postaux, dénombrements ou ensemble
de mots dans une collection de documents.
▪ Souvent représentés sous forme de variables entières.
▪ Note : les attributs binaires sont un cas particulier
d'attributs discrets.

❑Attribut continu
▪ Les valeurs d'attribut sont des nombres réels.
▪ Exemples : température, taille ou poids.
▪ Dans la pratique, les valeurs réelles ne peuvent être
mesurées et représentées qu'à l'aide d'un nombre fini de
chiffres.
▪ Les attributs continus sont généralement représentés par
des variables à virgule flottante.
10/6/2024 36
Attributs asymétriques
❑Seule la présence (une valeur d'attribut non nulle) est
considérée comme importante.
▪ Mots présents dans les documents
▪ Éléments présents dans les transactions des clients.

❑Si nous rencontrions un ami dans une épicerie, dirions-nous


la chose suivante ?
"Je vois que nos achats sont très similaires puisque nous
n'avons pas acheté la plupart des mêmes choses."

10/6/2024 37
Critiques de la catégorisation des
attributs
❑Incomplet
• Binaire asymétrique
• Cyclique
• Multivariable
• Partiellement ordonné
• Adhésion partielle
• Relations entre les données

❑Les données réelles sont approximatives et bruitées


• Cela peut compliquer la reconnaissance du type d'attribut
approprié.
• Traiter un type d'attribut comme un autre peut être
approximativementbcorrect.

10/6/2024 38
Messages clés pour les types d'attributs
❑Les types d'opérations choisis doivent être "significatifs" pour le
type de données dont vous disposez.
▪ La distinction, l'ordre, les intervalles significatifs et les
rapports significatifs ne sont que quatre propriétés (parmi de
nombreuses autres possibles) des données.
▪ Le type de données que vous voyez - souvent des nombres
ou des chaînes - peut ne pas capturer toutes les propriétés
ou peut suggérer des propriétés qui ne sont pas présentes
▪ L'analyse peut dépendre de ces autres propriétés des
données
✓ De nombreuses analyses statistiques ne dépendent que
de la distribution.
▪ En fin de compte, ce qui est significatif peut être spécifique à
un domaine.

10/6/2024 39
Caractéristiques importantes des données
❑Dimensionnalité (nombre d'attributs)
▪ Les données à haute dimension posent un certain nombre de
problèmes.

❑Sparsité
▪ Seule la présence compte.

❑Résolution
▪ Les patterns dépendent de l'échelle.

❑Taille
▪ Le type d'analyse peut dépendre de la taille des données.

10/6/2024 40
Types d'ensembles de données
❑Enregistrement
▪ Data Matrix
▪ Document Data
▪ Transaction Data

❑Graphe
▪ World Wide Web
▪ Molecular Structures

❑Ordonné
▪ Spatial Data
▪ Temporal Data
▪ Sequential Data
▪ Genetic Sequence Data

10/6/2024 41
Record Data
❑Données constituées d'une collection d'enregistrements,
chacun d'entre eux étant constitué d'un ensemble fixe
d'attributs.

Tid Refund Marital Taxable


Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
10/6/2024 9 No Married 75K No 42

10 No Single 90K Yes


10
Data Matrix
❑Si les objets de données ont le même ensemble fixe d'attributs
numériques, ils peuvent être considérés comme des points
dans un espace multidimensionnel, où chaque dimension
représente un attribut distinct.

❑Un tel ensemble de données peut être représenté par une


matrice 𝑚 × 𝑛, (𝑚 lignes, une pour chaque objet, et 𝑛
colonnes, une pour chaque attribut).

Projection Projection Distance Load Thickness


of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1

10/6/2024 43
Document Data
❑Chaque document devient un vecteur de "termes".
▪ Chaque terme est une composante (attribut) du vecteur
▪ La valeur de chaque composante est le nombre
d'occurrences du terme correspondant dans le document.

timeout

season
coach

game
score
play
team

win
ball

lost
Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0

10/6/2024 44
Transaction Data
❑Un type particulier de données, où
▪ Chaque transaction implique un ensemble d'éléments.
▪ Prenons l'exemple d'une épicerie. L'ensemble des produits
achetés par un client au cours d’une course constitue une
transaction, tandis que les produits individuels qui ont été
achetés sont les articles.
▪ On peut représenter les données de transactions comme des
données d'enregistrements.

TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
10/6/2024 4 Beer, Bread, Diaper, Milk 45

5 Coke, Diaper, Milk


Graph Data
❑Exemples : Graphe générique, molécule et pages web

10/6/2024 46

2
5 1
2
5
Molécule de benzène : C6H6
Ordered Data
❑Séquences de transactions
Articles / événements

Un élément de la
séquence
❑Données de séquences génomiques
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
10/6/2024 GAGAAGGGCCCGCCTGGCGGGCG 47
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data
❑Spatio-Temporal Data

10/6/2024 48

Température mensuelle moyenne de


la terre et des océans
Qualité des données
❑La mauvaise qualité des données a un impact négatif sur de
nombreux efforts de traitement des données
❑Exemple d'exploration de données : un modèle de
classification permettant de détecter les personnes présentant
un risque d'emprunt est construit à partir de données
médiocres.
▪ Certains candidats solvables se voient refuser des prêts
▪ Davantage de prêts sont accordés aux personnes en
défaut de paiement (mauvais payeurs).
❑ Quels sont les types de problèmes liés à la qualité des
données ?
❑ Comment pouvons-nous détecter les problèmes liés aux
données ?
❑ Que pouvons-nous faire face à ces problèmes ?
❑ Exemples de problèmes de qualité des données :
▪ Bruit et valeurs aberrantes
10/6/2024 ▪ Données erronées 49
▪ Fausses données
▪ Valeurs manquantes
▪ Données dupliquées
Noise
❑ Pour les objets, le bruit est un objet étranger
❑ Pour les attributs, le bruit fait référence à la modification des
valeurs originales.
▪ Exemples : distorsion de la voix d'une personne parlant au
téléphone et "neige" sur un écran de télévision.
▪ Les figures ci-dessous montrent deux ondes sinusoïdales de
même amplitude et de fréquences différentes, les ondes
combinées, et les deux ondes sinusoïdales avec un bruit
aléatoire.
✓ L'amplitude et la forme du signal original sont déformées.

10/6/2024 50
Valeurs aberrantes (Outliers)
❑Les valeurs aberrantes (Outliers) sont des objets de données
dont les caractéristiques sont considérablement différentes de
celles de la plupart des autres objets de données de l'ensemble.
▪ Cas 1 : Les valeurs aberrantes sont des bruits qui perturbent
l'analyse des données.
▪ Cas 2 : Les valeurs aberrantes sont l'objectif de notre analyse
✓ Fraude par carte de crédit
✓ Détection des intrusions

❑Les causes ?

10/6/2024 51
Valeurs manquantes
❑Raisons des valeurs manquantes
▪ Les informations ne sont pas collectées (par exemple, les
personnes refusent de donner leur âge et leur poids).
▪ Les attributs peuvent ne pas s'appliquer à tous les cas
(par exemple, le revenu annuel ne s'applique pas aux
enfants).

❑Traitement des valeurs manquantes


▪ Éliminer les objets de données ou les variables
▪ Estimer les valeurs manquantes
✓ Exemple : série chronologique de la température
✓ Exemple : résultats du recensement
▪ Ignorer la valeur manquante lors de l'analyse

10/6/2024 52
Données en double
❑L'ensemble de données peut inclure des objets de données qui sont
des doublons, ou presque, les uns des autres.
▪ Problème majeur lors de la fusion de données provenant de
sources hétérogènes

❑Exemples :
▪ Une même personne avec plusieurs adresses électroniques

❑ Nettoyage des données


▪ Processus de traitement des données en double

❑ Quand les données en double ne doivent-elles pas être supprimées ?

10/6/2024 53
Mesures de similarité et de dissimilarité
❑Mesure de similarité
▪ Mesure numérique du degré de similitude entre deux objets
de données.
▪ Elle est plus élevée lorsque les objets sont plus semblables.
▪ Se situe souvent dans l'intervalle [0,1]

❑ Mesure de dissimilarité
▪ Mesure numérique de la différence entre deux objets de
données
▪ Elle est plus faible lorsque les objets se ressemblent davantage
▪ La dissimilarité minimale est souvent de 0
▪ La limite supérieure varie

❑ La proximité fait référence à une similitude ou à une dissimilitude

10/6/2024 54
Similitude/dissimilarité pour les attributs
simples
❑ Le tableau suivant montre la similarité et la dissimilarité entre deux
objets, x et y, par rapport à un seul attribut simple.

10/6/2024 55
Distance euclidienne
❑Distance euclidienne

où 𝑛 est le nombre de dimensions (attributs) et 𝑥𝑘 et 𝑦𝑘 sont,


respectivement, les kèmes attributs (composants) ou objets de données
𝒙 et 𝒚

❑La normalisation est nécessaire si les échelles diffèrent.

3
point x y
2 p1
p1 0 2
p3 p4
1
p2 2 0
p2 p3 3 1
0 p4 5 1
0
10/6/2024 1 2 3 4 5 6 56

p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
Matrice des distances
Distance de Minkowski
❑La distance de Minkowski est une généralisation de la distance
euclidienne.

Où 𝑟 est un paramètre, 𝑛 est le nombre de dimensions


(attributs) et 𝑥𝑘 et 𝑦𝑘 sont, respectivement, les kèmes attributs
(composants) ou objets de données 𝒙 et 𝒚

10/6/2024 57
Distance de Minkowski : Exemples
❑𝑟 = 1. Distance entre les blocs urbains (Manhattan, taxis, norme
L1).
▪ Un exemple courant pour les vecteurs binaires est la distance
de Hamming, qui est simplement le nombre de bits différents
entre deux vecteurs binaires.

❑ 𝑟 = 2. Distance euclidienne.

❑ 𝑟 → +∞. distance "supremum" (norme 𝐿𝑚𝑎𝑥 , norme 𝐿∞ ).


▪ Il s'agit de la différence maximale entre n'importe quelle
composante des vecteurs

❑ Ne pas confondre 𝑟 avec 𝑛, c'est-à-dire que toutes ces distances


sont définies pour toutes les dimensions.

10/6/2024 58
Distance de Minkowski
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
point x y
p1 0 2 L2 p1 p2 p3 p4
p2 2 0 p1 0 2.828 3.162 5.099
p3 3 1 p2 2.828 0 1.414 3.162
p4 5 1 p3 3.162 1.414 0 2
p4 5.099 3.162 2 0

L p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0

Matrice des distances

10/6/2024 59
Distance de Mahalanobis
𝐦𝐚𝐡𝐚𝐥𝐚𝐧𝐨𝐛𝐢𝐬 𝐱, 𝐲 = ((𝐱 − 𝐲)𝑇 Ʃ−1 (𝐱 − 𝐲))-0.5
où  est la matrice de covariance

10/6/2024 60

Pour les points rouges, la distance euclidienne est de 14,7 et la


distance de Mahalanobis est de 6.
Distance de Mahalanobis

10/6/2024 61
Matrice de covariance :
A: (0.5, 0.5)
Mahal(A,B) = 5
 0.3 0.2
B: (0, 1) =  Mahal(A,C) = 4
C: (1.5, 1.5)  0. 2 0.3
Propriétés courantes d'une distance
❑Les distances, telles que la distance euclidienne, ont des
propriétés bien connues.
1. d(x, y)  0 pour tout x et y et d(x, y) = 0 si et
seulement si x = y.
2. d(x, y) = d(y, x) pour tout x et y . (Symétrie)
3. d(x, z)  d(x, y) + d(y, z) pour tous les points
x, y, et z. (Inégalité des triangles)
où d(x, y) est la distance (dissimilarité) entre les points
(objets de données) x et y.

❑Une distance qui satisfait à ces propriétés est une


métrique

10/6/2024 62
Propriétés courantes d'une similitude
❑ Les similitudes ont également des propriétés bien connues.
1. s(x, y) = 1 (ou la similarité maximale) seulement si x = y.
(n'est pas toujours valable, par exemple, le cosinus)
2. s(x, y) = s(y, x) pour tous x et y. (Symétrie)

où s(x, y) est la similitude entre les points (objets de données),


x et y.

Similitude entre les vecteurs binaires


❑Dans une situation courante, les objets 𝒙 et 𝒚 n'ont que des
attributs binaires.
❑Calculer les similitudes à l'aide des quantités suivantes
f01 = le nombre d'attributs pour lesquels x est 0 et y est 1
f10 = le nombre d'attributs pour lesquels x est égal à 1 et y à 0
f00 = le nombre d'attributs pour lesquels x est égal à 0 et y est égal à 0
f11 = le nombre d'attributs pour lesquels x est égal à 1 et y est égal à 1
10/6/2024 63
❑ Simple Matching and Jaccard Coefficients
SMC = nombre de correspondances / nombre d'attributs
= (f11 + f00) / (f01 + f10 + f11 + f00)

J = nombre de 11 correspondances / nombre d'attributs


non nuls
= (f11) / (f01 + f10 + f11)
SMC versus Jaccard : Exemple
x= 1000000000
y= 0000001001

f01 = 2 (le nombre d'attributs pour lesquels x est 0 et y est 1)


f10 = 1 (le nombre d'attributs pour lesquels x est égal à 1 et y à 0)
f00 = 7 (le nombre d'attributs pour lesquels x est égal à 0 et y est égal à 0)
f11 = 0 (le nombre d'attributs pour lesquels x est égal à 1 et y est égal à 1)

SMC = (f11 + f00) / (f01 + f10 + f11 + f00)


= (0+7) / (2+1+0+7) = 0.7

J = (f11) / (f01 + f10 + f11) = 0 / (2 + 1 + 0) = 0

10/6/2024 64
Similitude du cosinus
❑ Si d1 et d2 sont deux vecteurs de documents, alors
cos( d1, d2 ) = <d1,d2> / ||d1|| ||d2|| ,
où <d1,d2> indique le produit intérieur ou le produit vectoriel
de points des vecteurs, d1 et d2, et || d || est la longueur du
vecteur d.
❑ Exemple :
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
<d1, d2> = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
| d1 || = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
|| d2 || = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.449
cos(d1, d2 ) = 0.3150

10/6/2024 65
La corrélation mesure la relation linéaire
entre les objets
𝜎𝑥𝑦
−1 ≤ 𝑟𝑥𝑦 = ≤ +1
𝜎𝑥𝑥 ∗ 𝜎𝑦𝑦

Diagrammes de
dispersion
montrant la
similarité de -1 à
10/6/2024 1. 66
Inconvénient de la corrélation
x = (-3, -2, -1, 0, 1, 2, 3)
y = (9, 4, 1, 0, 1, 4, 9)

y i = x i2

mean(x) = 𝒙ഥ = 0, mean(y) = 𝑦ഥ = 4
std(x) =𝜎𝑥 = 𝜎𝑥𝑥 = 2.16, std(y) = 𝜎𝑦 = 𝜎𝑦𝑦 =3.74

Corr(x,y)= 𝑟𝑥𝑦 = (-3)(5)+(-2)(0)+(-1)(-3)+(0)(-4)+(1)(-3)+(2)(0)+3(5) / ( 6 * 2.16 *


3.74 ) = 0

10/6/2024 67
Corrélation vs Cosinus vs Distance euclidienne
❑Comparer les trois mesures de proximité en fonction de leur
comportement sous transformation variable
▪ Mise à l'échelle : multiplication par une valeur
▪ Translation : ajout d'une constante

Propriété Cosinus Corrélation Distance euclidienne


Invariance à la mise à Oui Oui Non
l'échelle (multiplication)

Invariance à la translation Non Oui Non


(ajout)

❑ Considérons l’exemple suivant


x = (1, 2, 4, 3, 0, 0, 0), y = (1, 2, 3, 4, 0, 0, 0)
ys = y * 2 (version mise à l'échelle de y), yt = y + 5 (Version translation)

Mesure
10/6/2024
(x , y) (x , ys) (x , yt) 68
Cosinus 0.9667 0.9667 0.7940
Corrélation 0.9429 0.9429 0.9429
Distance euclidienne 1.4142 5.8310 14.2127
Corrélation vs cosinus vs distance euclidienne
❑ Le choix de la bonne mesure de proximité dépend du domaine
❑ Quel est le bon choix de mesure de proximité dans les situations suivantes ?
▪ Comparaison de documents à l'aide de la fréquence des mots
✓ Les documents sont considérés comme similaires si la fréquence des mots est similaire.

▪ Comparaison de la température en Celsius de deux lieux


✓ Deux lieux sont considérés comme similaires si les températures sont du même ordre de
grandeur

▪ Comparaison de deux séries temporelles de températures mesurées en Celsius


✓ Deux séries temporelles sont considérées comme similaires si leur « forme » est similaire,
c'est-à-dire qu'elles varient de la même manière dans le temps, atteignant des minimums et
des maximums à des moments similaires, etc.

10/6/2024 69
Comparaison des mesures de proximité
❑ Domaine d'application
▪ Les mesures de similarité tendent à être spécifiques au
type d'attribut et de données.
▪ Les données d'enregistrement, les images, les graphes,
les séquences, la structure 3D des protéines, etc. ont
tendance à avoir des mesures différentes.
❑ Cependant, on peut parler de différentes propriétés que l'on
souhaiterait qu'une mesure de proximité ait
▪ La symétrie est courante et très souhaitée
▪ La tolérance au bruit et aux valeurs aberrantes est un
autre facteur de réussite.
▪ Capacité à trouver d'autres types de motifs ?
❑ La mesure doit être applicable aux données et produire des
résultats qui correspondent à la connaissance du domaine.

10/6/2024 70
Mesures basées sur l'information
❑ La théorie de l'information est une discipline fondamentale
bien développée qui a de vastes applications.

❑ Certaines mesures de similarité sont basées sur la théorie de


l'information
▪ L'information mutuelle dans différentes versions
▪ Coefficient d'information maximal (MIC) et mesures connexes
▪ Générale et peut traiter des relations non linéaires
▪ Le calcul peut être compliqué et nécessite beaucoup de temps

Information et probabilité
❑ Les informations concernent les résultats possibles d'un
événement
▪ transmission d'un message, pile ou face, ou mesure d'une donnée

❑ Plus un résultat est certain, moins il contient d'informations et


vice-versa.
10/6/2024 71
▪ Par exemple, si une pièce de monnaie a deux faces, le résultat "face"
ne fournit aucune information
▪ D'un point de vue plus quantitatif, l'information est liée à la
probabilité d'un résultat.
✓ Plus la probabilité d'un résultat est faible, plus il fournit
d'informations et vice-versa.
▪ L'entropie est la mesure couramment utilisée
Entropie
❑ Pour
▪ une variable (événement), X,
▪ avec 𝑛 valeurs possibles (résultats), x1, x2 …, xn
▪ chaque résultat ayant une probabilité, p1, p2 …, pn
▪ l'entropie de X , H(X), est donnée par
𝑛

𝐻 𝑋 = − ෍ 𝑝𝑖 log 2 𝑝𝑖
𝑖=1
❑ L'entropie est comprise entre 0 et log2n et est mesurée en bits
▪ L'entropie est donc une mesure du nombre de bits nécessaires
pour représenter une observation de 𝑋 en moyenne

Exemples d'entropie
Pour une pièce de monnaie avec une probabilité 𝑝 de pile et une probabilité 𝑞 =
1 − 𝑝 de face
𝐻 = −𝑝 log 2 𝑝 − 𝑞 log 2 𝑞
10/6/2024 72
Pour p= 0.5, q = 0.5 (pièce de monnaie équitable) H = 1
Pour p = 1 ou q = 1, H = 0

Quelle est l'entropie d'un dé équitable à quatre faces ?


Entropie pour les données d'un échantillon
: Exemple
Couleur des cheveux Count p -plog2p
Noir 75 0.75 0.3113
Marron 15 0.15 0.4105
Blond 5 0.05 0.2161
Rouge 0 0.00 0
Autres 5 0.05 0.2161
Total 100 1.0 1.1540

L'entropie maximale est log25 = 2.3219

10/6/2024 73
Entropie pour les données d'un échantillon
❑ Supposons que nous ayons
▪ un nombre d'observations (𝑚) d'un attribut 𝑋, par
exemple la couleur des cheveux des élèves de la classe,
▪ où il y a 𝑛 valeurs différentes possibles
▪ Et le nombre d'observations dans le ith catégorie est mi
▪ Ensuite, pour cet échantillon
𝑛
𝑚𝑖 𝑚𝑖
𝐻 𝑋 = − ෍ log 2
𝑚 𝑚
𝑖=1
❑ Pour les données continues, le calcul est plus difficile

Information mutuelle
❑ Information qu'une variable fournit sur une autre
Formellement, 𝐼 𝑋, 𝑌 = 𝐻 𝑋 + 𝐻 𝑌 − 𝐻(𝑋, 𝑌), où
H(X,Y) est l'entropie conjointe de X et Y,

10/6/2024 74
𝐻 𝑋, 𝑌 = − ෍ ෍ 𝑝𝑖𝑗log 2 𝑝𝑖𝑗
𝑖 𝑗
Où pij est la probabilité que la ième valeur de X et la jème valeur de Y se
produisent simultanément.
▪ Pour les variables discrètes, le calcul est facile à effectuer
▪ L'information mutuelle maximale pour les variables discrètes est
log2(min( nX, nY )), où nX (nY) est le nombre de valeurs de X (Y)
Prétraitement des données

- Agrégation
- Échantillonnage
- Discrétisation et binarisation
- Transformation des attributs
- Réduction de la dimensionnalité
- Sélection de sous-ensembles de caractéristiques
- Création de caractéristiques

10/6/2024 75
Agrégation
❑ Combinaison de deux ou plusieurs attributs (ou objets) en un
seul attribut (ou objet)
❑ Objectif
▪ Réduction des données: réduire le nombre d'attributs ou
d'objets
▪ Changement d'échelle
✓ Villes agrégées en régions, états, pays, etc.
✓ Jours agrégés en semaines, mois ou années
▪ Données plus "stables" : les données agrégées tendent à
présenter moins de variabilité

10/6/2024 76

Data Set contenant des informations sur les achats d’un clients
Exemple : Précipitations en Australie
❑ Cet exemple est basé sur les précipitations en Australie entre
1982 et 1993.
La diapositive suivante montre
o un histogramme de l'écart-type des précipitations
mensuelles moyennes pour 3 030 mailles de 0,5◦ par 0,5◦
en Australie, et
o un histogramme de l'écart-type des précipitations
annuelles moyennes pour les mêmes lieux.

❑ Les précipitations moyennes annuelles sont moins variables


que les précipitations moyennes mensuelles.
❑ Toutes les mesures de précipitations (et leurs écarts types)
sont exprimées en centimètres.

10/6/2024 77
Exemple : Précipitations en Australie ...
Variation des précipitations en Australie

Écart-type des précipitations Écart-type des précipitations


mensuelles moyennes annuelles moyennes

10/6/2024 78
Échantillonnage
❑ L'échantillonnage est la principale technique utilisée pour la
réduction des données ;
▪ il est souvent utilisé à la fois pour l'étude préliminaire des
données et pour l'analyse finale des données.

❑ Les statisticiens échantillonnent souvent parce que l'obtention de


l'ensemble des données qui les intéressent est trop coûteuse ou trop
longue.

❑ L'échantillonnage est généralement utilisé dans l'exploration de


données parce que le traitement de l'ensemble des données
d'intérêt est trop coûteux ou prend trop de temps.

❑ Le principe clé d'un échantillonnage efficace est le suivant :


▪ L'utilisation d'un échantillon est presque aussi efficace que
l'utilisation de l'ensemble des données, si l'échantillon est
10/6/2024 représentatif 79
▪ Un échantillon est représentatif s'il possède approximativement
les mêmes propriétés (d'intérêt) que l'ensemble des données
d'origine.
Taille de l'échantillon

8000 points 2000 Points 500 Points

10/6/2024 80
Types d'échantillonnage
❑ Échantillonnage aléatoire simple
- Tous les éléments de la population ont la même probabilité
d’être sélectionnés (Il y a une probabilité égale de
sélectionner un élément particulier)
- Échantillonnage sans remplacement
✓ Chaque élément sélectionné est retiré de la
population.
- Échantillonnage avec remplacement
✓ Les objets ne sont pas retirés de la population au fur
et à mesure qu'ils sont sélectionnés pour
l'échantillon.
✓ Dans l'échantillonnage avec remplacement, le même
objet peut être sélectionné plus d'une fois.
❑ Echantillonnage stratifié
- Séparer les données en plusieurs partitions ; puis tirer des
échantillons aléatoires de chaque partition.
10/6/2024 81
Taille de l'échantillon
❑Quelle est la taille de l'échantillon nécessaire pour obtenir au
moins un objet dans chacun des 10 groupes de taille égale ?

10/6/2024 82
Discrétisation
❑ La discrétisation est le processus de conversion d'un attribut
continu en un attribut ordinal
▪ Un nombre potentiellement infini de valeurs est mis en
correspondance avec un petit nombre de catégories
▪ La discrétisation est utilisée à la fois dans des contextes non
supervisés et supervisés.

10/6/2024 83
Discrétisation non supervisée

Les données se composent de quatre groupes de points et de deux valeurs aberrantes. Les
données sont unidimensionnelles, mais une composante aléatoire y est ajoutée pour
réduire les chevauchements.

10/6/2024 84

L'approche de la largeur d'intervalle égale a été utilisée pour obtenir 4 valeurs.


Discrétisation non supervisée

L'approche à fréquence égale a été utilisée pour obtenir 4 valeurs.

10/6/2024 85
Discrétisation dans un cadre supervisé
- De nombreux algorithmes de classification fonctionnent mieux si
les variables indépendantes et dépendantes n'ont que quelques
valeurs
- Nous illustrons l'utilité de la discrétisation à l'aide de l'exemple
suivant.

10/6/2024 86
Binarisation
❑ La binarisation permet de transformer un attribut continu ou
catégorique en une ou plusieurs variables binaires.

10/6/2024 87
Transformation des attributs
❑ Une transformation d'attribut est une fonction qui fait
correspondre l'ensemble des valeurs d'un attribut donné à un
nouvel ensemble de valeurs de remplacement, de sorte que chaque
ancienne valeur puisse être identifiée par l'une des nouvelles
valeurs.
- Fonctions simples : 𝑋 𝑘 , log(𝑋), 𝑒 𝑋 , |𝑋|
- Normalisation
✓ Se réfère à diverses techniques pour ajuster les différences
entre les attributs en termes de fréquence d'occurrence, de
moyenne, de variance, d'étendue
✓ Éliminer les signaux communs non désirés, par exemple la
saisonnalité –
- En statistiques, la normalisation se réfère à la soustraction des
moyennes et à la division par l'écart type.

10/6/2024 88
Exemple : série chronologique de la
croissance d'une plante
Minneapolis
La production primaire nette
(PPN) est une mesure de la
croissance des plantes utilisée
par les spécialistes des
écosystèmes.

Correlations between time series


Minneapolis Atlanta Sao Paolo
Minneapolis 1.0000 0.7591 -0.7581
Atlanta 0.7591 1.0000 -0.5739
Sao Paolo -0.7581 -0.5739 1.0000

10/6/2024 89
La saisonnalité explique une grande
partie de la corrélation
Minneapolis
Normalisation à l'aide
du score Z mensuel :
soustraire la moyenne
mensuelle et diviser
par l'écart-type
mensuel.

Corrélations entre les séries temporelles


Minneapolis Atlanta Sao Paolo
Minneapolis 1.0000 0.0492 0.0906
Atlanta 0.0492 1.0000 -0.0154
Sao Paolo 0.0906 -0.0154 1.0000

10/6/2024 90
La malédiction de la dimensionnalité
❑ Lorsque la dimensionnalité augmente, les données deviennent
de plus en plus éparses dans l'espace qu'elles occupent
❑ Les définitions de la densité et de la distance entre les points,
qui sont essentielles pour le regroupement et la détection des
valeurs aberrantes, perdent de leur signification.

10/6/2024
- Génération aléatoirement de 500 points 91
- Calculer la différence entre la distance maximale et la distance
minimale entre n'importe quelle paire de points
Réduction de la dimensionnalité
❑ Objectif :
▪ Éviter la malédiction de la dimensionnalité
▪ Réduire le temps et la mémoire requis par les algorithmes
d'exploration de données
▪ Faire en sorte que les données soient plus facilement
visualisées
▪ Pouvoir aider à éliminer les caractéristiques non
pertinentes ou à réduire le bruit
❑ Techniques
▪ Analyse en composantes principales (ACP)
▪ Décomposition en valeurs singulières
▪ Autres : techniques supervisées et non linéaires

10/6/2024 92
Réduction de la dimensionnalité : ACP
❑ L'objectif est de trouver une projection qui capture la plus
grande quantité de variation dans les données.

x2

x1
10/6/2024 93
Sélection de sous-ensembles de
caractéristiques
❑ Autre moyen de réduire la dimensionnalité des données
❑ Caractéristiques redondantes
▪ duplication d'une grande partie ou de la totalité des
informations contenues dans un ou plusieurs autres
attributs
▪ Exemple : prix d'achat d'un produit et montant de la taxe
sur les ventes payée

❑ Caractéristiques non pertinentes


▪ Ne contiennent aucune information utile pour la tâche
d'exploration de données en cours
▪ Exemple : l'identifiant des étudiants n'est souvent pas
pertinent pour prédire la moyenne générale des
étudiants.
❑ De nombreuses techniques ont été développées, en
10/6/2024particulier pour la classification 94
Création d'une caractéristique
❑Créer de nouveaux attributs qui peuvent capturer les
informations importantes d'un ensemble de données de
manière beaucoup plus efficace que les attributs d'origine.

❑Trois méthodologies générales :


▪ Extraction des caractéristiques
▪ Exemple : extraction des bords des images -Construction
des caractéristiques - Exemple : division de la masse par le
volume pour obtenir la densité -Mise en correspondance
des données dans un nouvel espace - Exemple : analyse de
Fourier et d'ondelettes - Analyse des données - Analyse des
données - Analyse des données - Analyse des données -
Analyse des données - Analyse des données : Exemple :
analyse de Fourier et des ondelettes

10/6/2024 95
Représenter les données dans un nouvel
espace
❑Transformée de Fourier et ondelettes

Frequency

Deux ondes sinusoïdales + bruit Fréquence

10/6/2024 96

Vous aimerez peut-être aussi