0% ont trouvé ce document utile (0 vote)
37 vues38 pages

CH 5

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
37 vues38 pages

CH 5

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction générale

Principes de base
Clustering : Algorithmes et applications
Réduction de Dimensionnalité
Détection des Anomalies
Conclusion

Machine learning

Pr. OMARI Kamal

FACULTE POLYDISCIPLINAIRE D’OUARZAZATE

10 février 2025

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications
Réduction de Dimensionnalité
Détection des Anomalies
Conclusion

Chapitre 5 : L’Apprentissage Non Supervisé

1 Introduction générale

2 Principes de base

3 Clustering : Algorithmes et applications

4 Réduction de Dimensionnalité

5 Détection des Anomalies

6 Conclusion

Pr. OMARI Kamal Machine learning


Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Définition de l’apprentissage non supervisé

L’apprentissage non supervisé est une branche de l’apprentissage


automatique qui se distingue par son approche : contrairement à
l’apprentissage supervisé où les données sont étiquetées (c’est-à-
dire que chaque donnée possède une étiquette ou une valeur cible),
dans l’apprentissage non supervisé, les données sont utilisées sans
étiquettes. L’objectif principal est de découvrir des structures,
des patterns ou des relations cachées dans les données sans avoir
d’informations explicites sur celles-ci. Ce chapitre développe les
principes de base de l’apprentissage non supervisé et explore ses
applications principales.

Pr. OMARI Kamal Machine learning


Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Caractéristiques principales

Absence de labels : Les algorithmes travaillent


uniquement avec des entrées, sans sortie attendue.
Exploration de données : L’objectif principal est
d’identifier des regroupements, des associations ou des
anomalies.
Adaptabilité : Peut être utilisé dans des contextes variés
où l’étiquetage manuel des données est coûteux ou
impraticable.
Exemple : Analyser les habitudes de navigation sur un site
web pour regrouper les utilisateurs en fonction de leurs
comportements sans savoir au préalable à quelle catégorie
chaque utilisateur appartient.
Pr. OMARI Kamal Machine learning
Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Différences entre apprentissage supervisé et non supervisé

Critère Apprentissage supervisé Apprentissage non supervisé


Labels Nécessite des données étiquetées (entrée + sortie). Ne nécessite pas de labels; travaille uniquement avec les données brutes.
Objectif Prédire ou classifier en fonction des labels. Découvrir des structures ou des anomalies dans les données.
Algorithmes courants Régression, classification (ex. : Random Forest, SVM). Clustering, réduction de dimensionnalité, détection d’anomalies.
Exemple d’application Diagnostiquer une maladie à partir de symptômes. Identifier des regroupements de patients sans classification préalable.

Pr. OMARI Kamal Machine learning


Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Importance et rôle dans l’intelligence artificielle


L’apprentissage non supervisé joue un rôle clé dans l’intelligence
artificielle, notamment dans :
La découverte de connaissances : Permet de révéler des
structures ou des modèles cachés dans les données.
La réduction du travail humain : Supprime le besoin de
labels manuels, souvent coûteux à obtenir.
L’exploration initiale des données : Sert à comprendre
les données avant de passer à d’autres tâches, comme
l’apprentissage supervisé.
Les systèmes adaptatifs : Facilite l’ajustement des
modèles en fonction de nouvelles données non étiquetées,
comme dans les systèmes de recommandation ou les
moteurs de recherche.
Pr. OMARI Kamal Machine learning
Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Applications courantes
L’apprentissage non supervisé est utilisé dans divers domaines, grâce à sa
capacité à gérer des volumes importants de données non étiquetées. Voici
trois applications majeures :
Segmentation de clients
Objectif : Identifier des groupes homogènes de clients basés sur leurs
comportements ou caractéristiques.
Exemples d’utilisation :
Regrouper les clients en fonction de leur historique d’achats
pour un ciblage marketing.
Identifier les clients les plus susceptibles de quitter un
service.
Algorithmes utilisés : K-Means, Clustering hiérarchique, DBSCAN.
Cas pratique : Une banque utilise K-Means pour regrouper ses
clients selon leur comportement financier (épargnants, investisseurs,
débiteurs, etc.).
Pr. OMARI Kamal Machine learning
Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Applications courantes
Réduction de dimensionnalité pour la visualisation
Objectif : Simplifier des ensembles de données complexes en
préservant les informations essentielles pour une meilleure
visualisation et interprétation.
Exemples d’utilisation :
Visualisation des résultats d’un modèle d’apprentissage
profond dans un espace à deux dimensions.
Détection de variables redondantes dans de grands
ensembles de données.
Algorithmes utilisés : PCA (Principal Component Analysis),
t-SNE, UMAP.
Cas pratique : Dans une recherche génomique, PCA est utilisé pour
réduire les milliers de dimensions des données génétiques à deux
dimensions pour identifier des regroupements de gènes similaires.
Pr. OMARI Kamal Machine learning
Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Applications courantes
Détection de fraudes et d’anomalies
Objectif : Identifier des comportements ou événements
inhabituels qui diffèrent significativement des données
normales.
Exemples d’utilisation :
Détection de transactions suspectes dans un système
bancaire.
Identification d’accès non autorisés dans un réseau
informatique.
Algorithmes utilisés : Isolation Forest, Local Outlier
Factor (LOF), DBSCAN.
Cas pratique : Une entreprise de cybersécurité utilise
LOF pour détecter des anomalies dans les journaux de
connexion et prévenir les cyberattaques.
Pr. OMARI Kamal Machine learning
Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Importance de l’absence de labels

L’absence de labels est une caractéristique fondamentale de


l’apprentissage non supervisé. Contrairement à l’apprentissage
supervisé, qui utilise des données étiquetées, l’apprentissage non
supervisé analyse les données brutes sans indication explicite
des résultats attendus. Le modèle doit ainsi identifier de manière
autonome des structures, des tendances ou des similarités.
Toutefois, cette absence de labels pose des défis, notamment
pour évaluer la performance du modèle, faute de référence claire
pour mesurer la qualité des résultats.

Pr. OMARI Kamal Machine learning


Introduction générale Définition de l’apprentissage non supervisé
Principes de base Différences entre apprentissage supervisé et non superv
Clustering : Algorithmes et applications Importance et rôle dans l’intelligence artificielle
Réduction de Dimensionnalité Applications courantes
Détection des Anomalies Importance de l’absence de labels
Conclusion

Résumé

Cette introduction met en lumière la flexibilité de l’apprentissage


non supervisé, particulièrement dans les contextes où les données
ne peuvent pas être facilement étiquetées. Grâce à des approches
comme le clustering, la réduction de dimensionnalité et la détec-
tion d’anomalies, il constitue un outil puissant pour exploiter les
données de manière autonome et découvrir des informations pré-
cieuses.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Découverte de structures cachées dans les données
Clustering : Algorithmes et applications Groupement (Clustering)
Réduction de Dimensionnalité Réduction de dimensionnalité
Détection des Anomalies Détection d’anomalies
Conclusion

Découverte de structures cachées dans les données

L’objectif fondamental de l’apprentissage non supervisé est


d’identifier des structures ou des relations cachées dans un jeu
de données. Puisque les données ne sont pas étiquetées, il s’agit
de trouver des schémas significatifs sans supervision externe.
Voici les principaux processus impliqués dans cette découverte.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Découverte de structures cachées dans les données
Clustering : Algorithmes et applications Groupement (Clustering)
Réduction de Dimensionnalité Réduction de dimensionnalité
Détection des Anomalies Détection d’anomalies
Conclusion

Groupement (Clustering)

Le groupement (clustering) est une approche d’apprentissage


non supervisé qui consiste à regrouper des points de données
similaires en clusters. L’objectif est de diviser un ensemble de
données en sous-ensembles où les éléments d’un même groupe
sont similaires entre eux, mais différents de ceux des autres
groupes.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Découverte de structures cachées dans les données
Clustering : Algorithmes et applications Groupement (Clustering)
Réduction de Dimensionnalité Réduction de dimensionnalité
Détection des Anomalies Détection d’anomalies
Conclusion

Réduction de dimensionnalité

La réduction de dimensionnalité consiste à transformer un


ensemble de données avec de nombreuses variables en un espace
de dimensions inférieures, tout en préservant les relations et
structures essentielles. Cela facilite la visualisation,
l’interprétation et l’analyse des données, surtout lorsqu’elles
comportent des centaines ou des milliers de caractéristiques.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Découverte de structures cachées dans les données
Clustering : Algorithmes et applications Groupement (Clustering)
Réduction de Dimensionnalité Réduction de dimensionnalité
Détection des Anomalies Détection d’anomalies
Conclusion

Détection d’anomalies

La détection d’anomalies, une composante clé de l’apprentissage


non supervisé, vise à identifier les données qui diffèrent
significativement du comportement ou de la distribution
générale. Par exemple, dans un ensemble de transactions
bancaires, une anomalie pourrait signaler une fraude. Cette
identification est essentielle pour des applications telles que la
surveillance des systèmes, la cybersécurité et la détection de
fraudes.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Découverte de structures cachées dans les données
Clustering : Algorithmes et applications Groupement (Clustering)
Réduction de Dimensionnalité Réduction de dimensionnalité
Détection des Anomalies Détection d’anomalies
Conclusion

Conclusion

L’apprentissage non supervisé permet de découvrir des patterns


et des structures cachées dans les données sans avoir besoin de
labels, ce qui en fait un outil puissant pour l’exploration de
données complexes. Le clustering, la réduction de
dimensionnalité et la détection d’anomalies sont des applications
clés qui ont des implications dans divers domaines, de la
segmentation de marché à la cybersécurité. L’absence de
supervision directe des données ouvre de nombreuses
opportunités d’analyse, mais aussi des défis quant à l’évaluation
de la performance des modèles et à l’interprétation des résultats.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Algorithmes de Clustering

Ces algorithmes regroupent les données en clusters (ou groupes)


selon leur similarité. K-means : Partitionne les données en k
clusters en minimisant la distance intra-cluster. DBSCAN :
Identifie les clusters denses et peut détecter les outliers.
Hierarchical Clustering : Crée une hiérarchie de clusters sous
forme d’arbre (dendrogramme). Gaussian Mixture Models
(GMM) : Utilise des distributions normales pour modéliser les
clusters.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Définition

Le K-means est un algorithme de clustering non supervisé qui


divise un ensemble de données en k clusters distincts basés sur
la similarité des points. Il est souvent utilisé lorsque vous avez
une idée du nombre de clusters que vous voulez identifier.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Fonctionnement

Le K-Means est un algorithme de clustering qui regroupe les


données en k clusters.
Le principe est le suivant :
1 Initialisation : Choisir aléatoirement k points (centroïdes
initiaux).
2 Affectation : Assigner chaque point au cluster le plus
proche.
3 Mise à jour : Recalculer les centroïdes comme la moyenne
des points du cluster.
4 Répéter jusqu’à convergence.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Méthode du coude (Elbow method)

Pour déterminer le nombre optimal de clusters, on peut tracer


une courbe de la somme des carrés des distances entre les points
et leurs centroïdes (la "somme des erreurs quadratiques" ou
Within-Cluster Sum of Squares), puis observer le "coude" où
l’amélioration devient marginale. Ce coude représente
généralement le nombre optimal de clusters.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Exemple en Python

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Définition

DBSCAN (Density-Based Spatial Clustering of Applications


with Noise) est un algorithme de clustering non supervisé
largement utilisé en fouille de données et en apprentissage
automatique. Il regroupe les points proches dans des clusters
basés sur leur densité et identifie les points dans les zones à
faible densité comme des anomalies (ou bruit). Il est
particulièrement utile pour les ensembles de données contenant
du bruit ou des densités variables.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Caractéristiques principales

Basé sur la densité : Les clusters sont formés en fonction


de la densité locale des points dans une région donnée.
Non paramétrique : Contrairement à K-Means,
DBSCAN ne nécessite pas de spécifier le nombre de clusters
à l’avance.
Détection des anomalies : Les points isolés ou situés
dans des zones de faible densité sont considérés comme du
bruit.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Paramètres

ε (epsilon) : Distance maximale entre deux points pour


qu’ils soient considérés comme voisins.
MinPts : Nombre minimum de points nécessaires pour
former une région dense (un cluster).

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Fonctionnement
Point central (Core Point) : Un point ayant au moins MinPts
voisins dans un rayon ε.
Point frontière (Border Point) : Un point qui n’est pas central
mais qui est voisin d’un point central.
Point bruit (Noise Point) : Un point qui n’est ni central ni voisin
d’un point central.
Algorithme :
1 Choisit un point non visité et détermine s’il s’agit d’un point central
en fonction des paramètres ε et MinPts.
2 Si c’est un point central, il forme un cluster et inclut tous les points
accessibles par densité (points dans un rayon ε autour du point
central).
3 Les points qui ne font partie d’aucun cluster sont marqués comme
bruit.
Pr. OMARI Kamal Machine learning
Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Exemple

Exemple

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Algorithmes de Clustering
Clustering : Algorithmes et applications K-Means
Réduction de Dimensionnalité DBSCAN
Détection des Anomalies
Conclusion

Comparaison entre K-means et DBSCAN

Critère K-Means DBSCAN


Nombre de clusters Doit être spécifié à l’avance Déterminé automatiquement en fonction de la densité
Forme des clusters Adapté aux clusters de forme convexe et régulière Peut détecter des clusters de forme arbitraire
Gestion des outliers Sensible aux outliers, les points extrêmes affectent les résultats Robuste aux outliers, les étiquette comme bruit (label -1)

Table 1 – Comparaison entre K-Means et DBSCAN

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Définition
Clustering : Algorithmes et applications Pourquoi réduire la dimensionnalité ?
Réduction de Dimensionnalité Méthodes principales de réduction de dimensionnalité
Détection des Anomalies
Conclusion

Définition

La réduction de dimensionnalité est une technique fondamentale


dans l’apprentissage non supervisé, utilisée pour réduire le
nombre de variables d’un ensemble de données tout en
préservant les informations essentielles. Cette partie du cours
explique pourquoi et comment appliquer cette méthode, et les
principales techniques utilisées.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Définition
Clustering : Algorithmes et applications Pourquoi réduire la dimensionnalité ?
Réduction de Dimensionnalité Méthodes principales de réduction de dimensionnalité
Détection des Anomalies
Conclusion

Pourquoi réduire la dimensionnalité ?


La réduction de dimensionnalité est essentielle pour plusieurs
raisons :
Visualisation : Réduit les données à deux ou trois
dimensions, facilitant leur exploration.
Amélioration des performances : Diminue la
complexité des données, réduisant le bruit et les
informations redondantes.
Diminution du surapprentissage : Moins de dimensions
permettent d’éviter le surapprentissage, surtout avec des
petits ensembles de données.
Réduction du coût computationnel : Moins de
variables à traiter réduisent les besoins en mémoire et en
temps de calcul.
Pr. OMARI Kamal Machine learning
Introduction générale
Principes de base Définition
Clustering : Algorithmes et applications Pourquoi réduire la dimensionnalité ?
Réduction de Dimensionnalité Méthodes principales de réduction de dimensionnalité
Détection des Anomalies
Conclusion

Méthodes principales de réduction de dimensionnalité

Il existe plusieurs techniques pour réduire la dimensionnalité,


chacune ayant ses avantages selon le type de données et
l’objectif de l’analyse.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Définition
Clustering : Algorithmes et applications Pourquoi réduire la dimensionnalité ?
Réduction de Dimensionnalité Méthodes principales de réduction de dimensionnalité
Détection des Anomalies
Conclusion

Analyse en Composantes Principales (ACP)

L’ACP (Principal Component Analysis en anglais) est la


méthode la plus populaire pour la réduction de dimensionnalité.
Elle cherche à transformer un ensemble de variables corrélées en
un ensemble de variables non corrélées appelées composantes
principales.
Réduction du bruit dans les données tout en conservant
l’essentiel de l’information.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base Définition
Clustering : Algorithmes et applications Pourquoi réduire la dimensionnalité ?
Réduction de Dimensionnalité Méthodes principales de réduction de dimensionnalité
Détection des Anomalies
Conclusion

Avantages et limites

Avantages :
Méthode linéaire simple à comprendre.
Facile à implémenter avec des outils comme Scikit-learn en
Python.
Limites :
L’ACP est une méthode linéaire et peut ne pas fonctionner
correctement pour des données fortement non linéaires.
Elle ne prend pas en compte les relations non linéaires qui
peuvent exister dans les données.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications Détection des Anomalies
Réduction de Dimensionnalité Isolation Forest
Détection des Anomalies
Conclusion

Introduction à la Détection des Anomalies

La détection des anomalies consiste à identifier des données qui diffèrent


significativement de la majorité des observations dans un ensemble de
données. Ces anomalies, aussi appelées outliers, peuvent indiquer des
erreurs, des comportements inhabituels ou des événements rares ayant une
signification particulière dans divers domaines tels que :
La détection de fraudes financières.
La surveillance des systèmes informatiques.
La détection de pannes dans les systèmes industriels.
L’analyse médicale pour identifier des pathologies.
Dans le contexte de l’apprentissage non supervisé, aucune étiquette de
classe n’est disponible. Les algorithmes doivent donc s’appuyer uniquement
sur la structure des données pour repérer les anomalies.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications Détection des Anomalies
Réduction de Dimensionnalité Isolation Forest
Détection des Anomalies
Conclusion

Isolation Forest

L’Isolation Forest est un algorithme efficace pour la détection


des anomalies dans des ensembles de données de grande
dimension. Il fait partie des méthodes non supervisées et est
particulièrement adapté pour traiter de grands volumes de
données. Son fonctionnement repose sur le principe de l’isolation
des points anormaux.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications Détection des Anomalies
Réduction de Dimensionnalité Isolation Forest
Détection des Anomalies
Conclusion

Principe de l’Isolation Forest

L’idée principale derrière l’Isolation Forest est que les anomalies


dans un ensemble de données sont généralement plus faciles à
isoler que les points "normaux". En effet, les points normaux
sont souvent situés dans des régions densément peuplées du jeu
de données, alors que les anomalies se trouvent souvent dans des
zones plus rares, éloignées des autres points. Par conséquent,
l’algorithme tente d’isoler ces points en construisant des arbres
de manière aléatoire.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications Détection des Anomalies
Réduction de Dimensionnalité Isolation Forest
Détection des Anomalies
Conclusion

Avantages de l’Isolation Forest

Efficacité : Isolation Forest est un algorithme rapide et


bien adapté aux grandes quantités de données. Il a une
complexité en temps de O(n log n), où n est le nombre
d’observations.
Scalabilité : Il peut traiter de grands ensembles de
données multidimensionnels sans nécessiter de réduction de
la dimensionnalité.
Simplicité : L’algorithme est facile à mettre en œuvre et
ne nécessite pas de paramètres complexes à ajuster. Seuls le
nombre d’arbres et la profondeur maximale sont à définir.

Pr. OMARI Kamal Machine learning


Introduction générale
Principes de base
Clustering : Algorithmes et applications Détection des Anomalies
Réduction de Dimensionnalité Isolation Forest
Détection des Anomalies
Conclusion

Limitations de l’Isolation Forest

Sensibilité aux paramètres : Le choix du nombre


d’arbres et de la profondeur peut influencer les résultats. Il
est donc parfois nécessaire de réaliser une validation croisée
pour optimiser ces paramètres.
Comportement avec des données très bruitées : Si
un jeu de données est fortement bruité, l’algorithme peut
avoir des difficultés à distinguer les anomalies des données
bruyantes.
Hypothèse d’anomalies isolables : L’algorithme
suppose que les anomalies peuvent être isolées rapidement,
ce qui peut ne pas être le cas pour certaines distributions
de données.
Pr. OMARI Kamal Machine learning
Introduction générale
Principes de base
Clustering : Algorithmes et applications Conclusion
Réduction de Dimensionnalité
Détection des Anomalies
Conclusion

Conclusion

L’apprentissage non supervisé est important pour analyser des


données sans étiquettes et trouver des schémas, anomalies ou
tendances cachées. Il s’appuie sur des techniques telles que le
regroupement de données (clustering), la détection d’anomalies
et la réduction de dimensionalité. Cependant, ces approches
peuvent être difficiles à interpréter et à adapter à des ensembles
de données volumineux. Ces défis poussent à innover et à
améliorer ces méthodes. Les maîtriser permet d’exploiter les
données efficacement dans divers domaines.

Pr. OMARI Kamal Machine learning

Vous aimerez peut-être aussi