0% ont trouvé ce document utile (0 vote)
52 vues5 pages

Data Mining 5

Ce document traite de la détection des anomalies et des outliers, en définissant clairement ces concepts et en expliquant leur importance dans l'analyse des données. Il présente différentes techniques de détection, y compris des méthodes exploratoires, statistiques et basées sur les distances, ainsi que des applications pratiques dans des domaines tels que la finance, la surveillance des systèmes et la santé. Enfin, il propose des questions d'évaluation pour tester la compréhension des concepts et des méthodes abordés.

Transféré par

hrvenana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues5 pages

Data Mining 5

Ce document traite de la détection des anomalies et des outliers, en définissant clairement ces concepts et en expliquant leur importance dans l'analyse des données. Il présente différentes techniques de détection, y compris des méthodes exploratoires, statistiques et basées sur les distances, ainsi que des applications pratiques dans des domaines tels que la finance, la surveillance des systèmes et la santé. Enfin, il propose des questions d'évaluation pour tester la compréhension des concepts et des méthodes abordés.

Transféré par

hrvenana
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Détection des Anomalies et des Outliers

Objectifs d’apprentissage
À la fin de ce cours, vous serez capable de :

• Comprendre les concepts d’anomalies et d’outliers.


• Différencier clairement les anomalies et les outliers, et comprendre leurs
implications dans l’analyse des données.
• Identifier différents types d’anomalies et d’outliers dans un ensemble de données.
• Appliquer des techniques statistiques, basées sur les distances et sur les modèles,
pour détecter des anomalies dans des données.
• Utiliser R pour la détection des anomalies et outliers dans des scénarios pratiques.

1. Introduction aux Anomalies et Outliers


1.1 Définitions
• Outlier : Un point de données qui diffère significativement des autres observations.
Cela peut être causé par des erreurs de mesure, des erreurs de saisie ou des
variations authentiques dans les données. Les outliers doivent être vérifiés pour
décider s’ils doivent être inclus ou exclus de l’analyse.

• Anomalie : Un motif ou une tendance dans les données qui ne se conforme pas à
une notion bien définie de comportement normal. Contrairement aux outliers, les
anomalies peuvent inclure des sous-groupes ou des séries de points de données
qui se démarquent de manière significative. Elles peuvent signaler des problèmes
sous-jacents ou des opportunités pour une exploration supplémentaire.

1.2 Types d’anomalies


1. Anomalies ponctuelles : Une observation isolée anormale.
2. Anomalies contextuelles : Une observation qui est normale dans un contexte mais
anormale dans un autre.
3. Anomalies collectives : Un groupe de points qui diffèrent ensemble du reste des
données.
1.3 Importance de la détection des anomalies
• Applications :
o Détection de fraudes dans les transactions financières : Cela inclut l’analyse
approfondie des habitudes transactionnelles inhabituelles, comme des
montants exceptionnellement élevés réalisés sur une courte période, des
transactions consécutives à des heures atypiques (par exemple, en pleine
nuit) ou des activités impliquant des localisations géographiques
incohérentes avec le profil habituel du client. Ces écarts peuvent indiquer
des comportements frauduleux et justifient une investigation
supplémentaire.
o Surveillance des systèmes informatiques : Identifier des anomalies dans les
journaux systèmes telles que des tentatives de connexion inhabituelles
provenant d’adresses IP non reconnues, des pics soudains d’utilisation de
CPU ou de mémoire, ou encore des activités non autorisées comme l’accès
à des fichiers sensibles ou la modification de configurations systèmes.
o Diagnostic précoce dans les données médicales : Cela inclut la détection de
tendances inhabituelles dans des données physiologiques telles que le
rythme cardiaque, la pression artérielle ou les niveaux d’oxygène dans le
sang. Par exemple, une augmentation soudaine de la pression artérielle ou
un rythme cardiaque irrégulier pourrait signaler un risque d’AVC ou une crise
cardiaque imminente, justifiant une intervention immédiate.

2. Techniques de détection des Anomalies


2.1 Méthodes Exploratoires
• Méthodes graphiques :
o Boîtes à moustaches (Boxplots) : Permettent de visualiser la distribution des
données et d’identifier facilement les valeurs extrêmes en observant les
moustaches et les points situés en dehors de ces limites. Utile pour repérer
les outliers sur une seule variable quantitative.
o Diagrammes de dispersion (Scatterplots) : Idéals pour examiner la relation
entre deux variables. Les points qui s’écartent des regroupements ou des
tendances linéaires peuvent signaler des anomalies ou des erreurs dans les
données.
o Histogrammes : Fournissent une vue d’ensemble de la fréquence des
données dans des intervalles donnés. Une barre isolée ou des valeurs en
dehors des zones principales de fréquence peuvent indiquer des valeurs
aberrantes.
Exemple en R :
# Charger un dataset exemple
library(ggplot2)
data(mpg)

# Création d'un boxplot pour la variable hwy


ggplot(mpg, aes(y = hwy)) +
geom_boxplot(fill = "skyblue") +
labs(title = "Boxplot de la consommation sur autoroute",
y = "Consommation (hwy)")

• Statistiques descriptives :
o Intervalle interquartile (IQR) : L’IQR est une mesure robuste de la variabilité
des données calculée comme la différence entre le 3e quartile (Q3) et le 1er
quartile (Q1). Les valeurs situées en dehors de 1,5 fois l’IQR au-dessus de
Q3 ou en dessous de Q1 sont considérées comme des outliers. Cette
méthode est particulièrement efficace pour détecter des valeurs aberrantes
dans des distributions non normales.
Exemple en R :
# Calcul de l'IQR et détection des outliers
summary(mpg$hwy)
IQR_hwy <- IQR(mpg$hwy)
lower_bound <- quantile(mpg$hwy, 0.25) - 1.5 * IQR_hwy
upper_bound <- quantile(mpg$hwy, 0.75) + 1.5 * IQR_hwy

outliers <- mpg$hwy[mpg$hwy < lower_bound | mpg$hwy > upper_bound]


outliers

2.2 Méthodes Statistiques


• Z-scores :
o Identifier des observations dont le score est supérieur à un certain seuil (par
ex., |z| > 3).
Exemple en R :
# Calcul des z-scores
mpg$z_score <- scale(mpg$hwy)
outliers_z <- mpg$hwy[abs(mpg$z_score) > 3]
outliers_z

• Méthodes robustes :
o Utiliser la médiane et la déviation absolue médiane (MAD). La MAD est une
mesure robuste de la dispersion des données qui n’est pas influencée par
les valeurs extrêmes, contrairement à l’écart-type. Elle est calculée comme
la médiane des valeurs absolues des écarts entre chaque point et la
médiane des données. Cela permet d’identifier les points qui diffèrent de
manière significative de la tendance centrale tout en réduisant l’impact des
outliers sur les calculs eux-mêmes.
Exemple en R :
# Détection d’outliers avec la MAD
library(robustbase)
outliers_mad <- mpg$hwy[abs(mpg$hwy - median(mpg$hwy)) / mad(mpg$hwy) > 3.5]
outliers_mad

2.3 Méthodes Basées sur les Distances


• k-Nearest Neighbors (kNN) :
o Utiliser la distance à k voisins les plus proches pour identifier des anomalies.
Cette technique repose sur l’idée que les points normaux se trouvent
généralement à proximité d’autres points similaires, tandis que les
anomalies sont isolées. Pour chaque point, on calcule la distance moyenne
ou la distance totale aux k points les plus proches. Des valeurs de distance
significativement élevées peuvent indiquer des anomalies.
Exemple en R :
# Détection avec kNN
library(FNN)
data <- mpg[, c("displ", "hwy")]
knn_dist <- [Link](data, k = 5)
outliers_knn <- which(apply(knn_dist, 1, mean) > quantile(knn_dist, 0.95))
outliers_knn

• Détection d’Anomalies Basée sur le Clustering :


o Identifier des anomalies à l’aide de techniques de clustering. Dans cette
approche, les points qui ne s’intègrent pas bien dans les clusters ou qui
forment de petits clusters isolés peuvent être considérés comme des
anomalies. Cette méthode est utile pour détecter des anomalies lorsque les
données présentent une structure naturelle de regroupement.
Exemple en R :
# Charger les bibliothèques nécessaires
library(cluster)
library(ggplot2)

# Exemple de données
data <- mpg[, c("displ", "hwy")]

# Appliquer le clustering k-means


[Link](123)
kmeans_result <- kmeans(data, centers = 3)
data$cluster <- [Link](kmeans_result$cluster)

# Calculer les distances intra-cluster


cluster_centers <- kmeans_result$centers
data$dist_to_center <- apply(data, 1, function(row) {
cluster <- [Link](row["cluster"])
dist(rbind([Link](row[1:2]), cluster_centers[cluster, ]))
})

# Identifier les anomalies


threshold <- quantile(data$dist_to_center, 0.95)
outliers <- data[data$dist_to_center > threshold, ]
outliers
# Visualiser les clusters et les anomalies
ggplot(data, aes(x = displ, y = hwy, color = cluster)) +
geom_point() +
geom_point(data = outliers, shape = 4, color = "red", size = 3) +
labs(title = "Détection d'anomalies basée sur le clustering",
x = "Cylindrée (displ)", y = "Consommation (hwy)")

3. Applications Pratiques
• Détection de fraudes : Analyser les transactions financières pour identifier des
activités suspectes.
• Surveillance des systèmes : Suivre les journaux systèmes pour détecter des
anomalies.
• Santé : Détecter des valeurs anormales dans des données médicales.

4. Résumé et Question d’Évaluation


1. Méthodes exploratoires : Visualisation et calculs descriptifs pour identifier des
outliers.
2. Méthodes statistiques : Z-scores, MAD, et IQR pour des détections robustes.
3. Méthodes avancées : kNN, et Clustering pour des scénarios complexes.
Questions d’évaluation :
1. Expliquez la différence entre un outlier et une anomalie.
2. Implémentez une détection d’outliers sur un dataset avec deux méthodes
différentes.
3. Analysez les résultats obtenus : quelles sont les limites des méthodes utilisées ?

Vous aimerez peut-être aussi