Compte Rendu : Algorithmes de Machine Learning
Sommaire :
1.Introduction :
2.Random Forest :
2.1 Définition :
2.2 Mode de Fonctionnement :
2.3 Exemple d'Application :
3.K-means :
3.1 Définition :
3.2 Mode de Fonctionnement :
3.3 Exemple d'Application :
4.K-Nearest Neighbors (KNN) :
4.1.Définition :
4.2.Mode de Fonctionnement :
4.3.Exemple d'Application :
5.Comparaison des Algorithmes :
6.Conclusion :
1. Introduction
Le machine learning (apprentissage automatique) est une branche de l'intelligence artificielle
qui permet aux systèmes d'apprendre à partir de données pour effectuer des prédictions ou
des décisions. Parmi les algorithmes les plus utilisés, on trouve Random Forest, K-means, et
K-Nearest Neighbors (KNN). Chacun de ces algorithmes a des applications spécifiques et
fonctionne différemment.
2. Random Forest
2.1 Définition
Le Random Forest (forêt aléatoire) est un algorithme d'apprentissage supervisé utilisé pour la
classification et la régression. Il construit plusieurs arbres de décision pendant l'entraînement
et combine leurs résultats pour améliorer la précision et éviter le surajustement (overfitting).
2.2 Mode de Fonctionnement
.Création des arbres :
L'algorithme sélectionne aléatoirement des sous-ensembles de données
(échantillonnage avec remise, appelé bootstrap).
Pour chaque arbre, un sous-ensemble de caractéristiques (features) est choisi
aléatoirement.
Un arbre de décision est construit à partir de chaque sous-ensemble
.Agrégation des résultats :
Pour la classification, la prédiction finale est la classe la plus fréquente parmi les
arbres.
Pour la régression, la prédiction finale est la moyenne des prédictions des arbres.
2.3 Exemple d'Application
Classification : Prédire si un e-mail est un spam ou non.
Régression : Prédire le prix d'une maison en fonction de ses caractéristiques (surface, nombre
de pièces, etc.).
3. K-means
3.1 Définition
Le K-means est un algorithme d'apprentissage non supervisé utilisé pour le clustering
(regroupement). Il partitionne les données en k groupes (clusters) en fonction de leur
similarité.
3.2 Mode de Fonctionnement
Initialisation :
Choisir k centroïdes initiaux (points représentatifs des clusters).
Affectation :
Assigner chaque point de données au centroïde le plus proche (en utilisant une distance,
souvent la distance euclidienne).
Mise à jour :
Recalculer les centroïdes comme la moyenne des points dans chaque cluster.
Répétition :
Répéter les étapes d'affectation et de mise à jour jusqu'à convergence (quand les centroïdes
ne changent plus).
3.3 Exemple d'Application
Segmentation de clients : Regrouper les clients en fonction de leurs habitudes d'achat.
Analyse d'images : Regrouper des pixels similaires pour la compression d'images.
4. K-Nearest Neighbors (KNN)
4.1 Définition
Le K-Nearest Neighbors (K plus proches voisins) est un algorithme d'apprentissage supervisé
utilisé pour la classification et la régression. Il prédit la classe ou la valeur d'un point en
fonction des k points les plus proches dans l'espace des caractéristiques.
4.2 Mode de Fonctionnement
Calcul des distances :
Pour un nouveau point, calculer la distance (par exemple, distance euclidienne) par rapport à
tous les points du jeu de données.
Sélection des voisins :
Sélectionner les k points les plus proches.
Prédiction :
Pour la classification, la classe la plus fréquente parmi les k voisins est choisie.
Pour la régression, la moyenne des valeurs des k voisins est calculée.
4.3 Exemple d'Application
Classification : Prédire si une tumeur est bénigne ou maligne en fonction de ses
caractéristiques.
Récommendation : Recommander des produits similaires à un utilisateur.
5. Comparaison des Algorithmes
Algorithme Type d'Apprentissage Utilisation Principale Avantages
----------------------------------------------------------------------------------------------------------------------------------------------------------------
Random Forest Supervisé Classification, Régression Résistant
au surajustement,
------------------------------------------------------------------------------------------------------------------------------------------------
K-means Non supervisé Clustering Simple,Efficace
sur grands datasets
------------------------------------------------------------------------------------------------------------------------------------------------
KNN Supervisé Classification, Régression
Simple à comprendre et implémenter
6. Conclusion
Les algorithmes Random Forest, K-means, et KNN sont des outils puissants en machine
learning, chacun adapté à des tâches spécifiques. Le choix de l'algorithme dépend du type de
problème (supervisé ou non supervisé), de la taille des données, et de la complexité du
modèle. Une compréhension approfondie de ces algorithmes permet de les appliquer
efficacement dans des projets réels.
Mohamed Amine Hbibi