Classification supervisée et non supervisée : Algorithmes & Applications
Introduction
L'apprentissage automatique comprend deux grandes familles :
- Apprentissage supervise : les donnees sont etiquetees.
- Apprentissage non supervise : les donnees ne sont pas etiquetees.
Les algorithmes de classification permettent de predire ou regrouper des donnees selon leurs
caracteristiques.
Classification supervisee
Elle consiste a entrainer un modele sur des donnees etiquetees (avec classes connues).
Exemples :
- Spam / Non-spam
- Diagnostic medical
- Reconnaissance d'ecriture
Algorithmes : KNN, Arbre de decision, Regression logistique, SVM, Naive Bayes, Random Forest, Reseaux
de neurones.
Classification non supervisee
Elle consiste a regrouper des donnees similaires sans etiquettes connues.
Exemples :
- Segmentation de clients
- Analyse genetique
- Detection d'anomalies
Algorithmes : K-Means, DBSCAN, Clustering hierarchique, PCA, t-SNE, Autoencoders, GMM.
1. K-Nearest Neighbors (KNN)
Principe : Classe un point en regardant les K plus proches voisins.
Utilisation : Reconnaissance d'ecriture manuscrite, recommandation.
Avantages : Simple, intuitif. Inconvenients : Lent pour grands jeux.
Page 1
Classification supervisée et non supervisée : Algorithmes & Applications
2. Arbre de decision
Principe : Arbre structure en questions successives.
Utilisation : Diagnostic medical, scoring credit.
Avantages : Interpretable. Inconvenients : Overfitting possible.
3. Regression logistique
Principe : Utilise une fonction sigmoïde pour predire une probabilite.
Utilisation : Spam/non spam, detection de churn.
Avantages : Rapide, efficace. Inconvenients : Pas adapte aux non-linearites.
4. SVM (Support Vector Machines)
Principe : Maximisation de la marge entre les classes avec hyperplans.
Utilisation : Reconnaissance faciale, bioinformatique.
Avantages : Efficace sur petits jeux. Inconvenients : Sensible aux parametres.
5. Naive Bayes
Principe : Probabilites avec hypothese d'independance entre variables.
Utilisation : Classification de texte, filtrage de spam.
Avantages : Tres rapide. Inconvenients : Hypothese souvent irrealiste.
6. Random Forest
Principe : Ensemble d'arbres decisionnels aleatoires.
Utilisation : Detection de fraude, finance.
Avantages : Puissant, robuste. Inconvenients : Moins interpretable.
7. Reseaux de neurones
Principe : Reseaux multicouches avec fonctions d'activation.
Utilisation : Images, sons, NLP, series temporelles.
Avantages : Tres puissant. Inconvenients : Long a entraîner, besoin de donnees.
Page 2
Classification supervisée et non supervisée : Algorithmes & Applications
8. K-Means
Principe : Regroupe les donnees autour de centroïdes.
Utilisation : Segmentation clients.
Avantages : Simple. Inconvenients : Sensible aux initialisations.
9. DBSCAN
Principe : Clustering base sur la densite locale.
Utilisation : Anomalies, formes de clusters variees.
Avantages : Gere le bruit. Inconvenients : Parametres delicats a choisir.
10. Clustering hierarchique
Principe : Creation d'une hierarchie de regroupements.
Utilisation : Classification biologique, genes.
Avantages : Dendrogramme utile. Inconvenients : Lourd computationnellement.
11. PCA (ACP)
Principe : Reduction de dimension par maximisation de la variance.
Utilisation : Visualisation, preparation de donnees.
Avantages : Tres utile pour pre-traitement. Inconvenients : Perte d'interpretabilite.
12. t-SNE
Principe : Reduction non lineaire pour visualisation.
Utilisation : Exploration visuelle de clusters.
Avantages : Bon pour les donnees complexes. Inconvenients : Non generalisable.
13. Autoencoders
Principe : Reseau non supervise pour compression ou reconstruction.
Utilisation : Anomalies, compression.
Avantages : Apprentissage non supervise. Inconvenients : Complexite d'entraînement.
Page 3
Classification supervisée et non supervisée : Algorithmes & Applications
14. GMM (Gaussian Mixture Models)
Principe : Modelisation par melanges de lois normales.
Utilisation : Donnees bruitees, regroupements flous.
Avantages : Modele probabiliste souple. Inconvenients : Hypothese de normalite.
Exercice 1 : Supervise (Arbre de decision)
Donnees :
| Temperature | Vent | Jouer |
|-------------|------|--------|
| Chaud | Oui | Non |
| Froid | Non | Oui |
| Froid | Oui | Non |
| Chaud | Non | Oui |
Question : Construire un arbre de decision.
Correction :
- Si Temperature = Chaud :
- Si Vent = Oui => Non
- Si Vent = Non => Oui
- Si Temperature = Froid :
- Si Vent = Oui => Non
- Si Vent = Non => Oui
Exercice 2 : Non supervise (K-Means)
Donnees :
| Point | x | y |
|-------|-----|-----|
|A |1 |2 |
|B | 1.5 | 1.8 |
|C |5 |8 |
Page 4
Classification supervisée et non supervisée : Algorithmes & Applications
|D |6 |9 |
|E | 1 | 0.6 |
|F | 5.5 | 9.5 |
Question : Appliquez K-Means avec K=2.
Correction :
- Initialisation : A et C comme centroïdes.
- Cluster 1 : A, B, E
- Cluster 2 : C, D, F
- Nouveau centroide 1 = moyenne de (1,2), (1.5,1.8), (1,0.6)
- Nouveau centroide 2 = moyenne de (5,8), (6,9), (5.5,9.5)
Page 5