0% ont trouvé ce document utile (0 vote)
60 vues5 pages

Cours Classification Complete Algorithmes Exercices

Transféré par

nkecalixte21
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
60 vues5 pages

Cours Classification Complete Algorithmes Exercices

Transféré par

nkecalixte21
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Classification supervisée et non supervisée : Algorithmes & Applications

Introduction

L'apprentissage automatique comprend deux grandes familles :

- Apprentissage supervise : les donnees sont etiquetees.

- Apprentissage non supervise : les donnees ne sont pas etiquetees.

Les algorithmes de classification permettent de predire ou regrouper des donnees selon leurs

caracteristiques.

Classification supervisee

Elle consiste a entrainer un modele sur des donnees etiquetees (avec classes connues).

Exemples :

- Spam / Non-spam

- Diagnostic medical

- Reconnaissance d'ecriture

Algorithmes : KNN, Arbre de decision, Regression logistique, SVM, Naive Bayes, Random Forest, Reseaux

de neurones.

Classification non supervisee

Elle consiste a regrouper des donnees similaires sans etiquettes connues.

Exemples :

- Segmentation de clients

- Analyse genetique

- Detection d'anomalies

Algorithmes : K-Means, DBSCAN, Clustering hierarchique, PCA, t-SNE, Autoencoders, GMM.

1. K-Nearest Neighbors (KNN)

Principe : Classe un point en regardant les K plus proches voisins.

Utilisation : Reconnaissance d'ecriture manuscrite, recommandation.

Avantages : Simple, intuitif. Inconvenients : Lent pour grands jeux.

Page 1
Classification supervisée et non supervisée : Algorithmes & Applications

2. Arbre de decision

Principe : Arbre structure en questions successives.

Utilisation : Diagnostic medical, scoring credit.

Avantages : Interpretable. Inconvenients : Overfitting possible.

3. Regression logistique

Principe : Utilise une fonction sigmoïde pour predire une probabilite.

Utilisation : Spam/non spam, detection de churn.

Avantages : Rapide, efficace. Inconvenients : Pas adapte aux non-linearites.

4. SVM (Support Vector Machines)

Principe : Maximisation de la marge entre les classes avec hyperplans.

Utilisation : Reconnaissance faciale, bioinformatique.

Avantages : Efficace sur petits jeux. Inconvenients : Sensible aux parametres.

5. Naive Bayes

Principe : Probabilites avec hypothese d'independance entre variables.

Utilisation : Classification de texte, filtrage de spam.

Avantages : Tres rapide. Inconvenients : Hypothese souvent irrealiste.

6. Random Forest

Principe : Ensemble d'arbres decisionnels aleatoires.

Utilisation : Detection de fraude, finance.

Avantages : Puissant, robuste. Inconvenients : Moins interpretable.

7. Reseaux de neurones

Principe : Reseaux multicouches avec fonctions d'activation.

Utilisation : Images, sons, NLP, series temporelles.

Avantages : Tres puissant. Inconvenients : Long a entraîner, besoin de donnees.

Page 2
Classification supervisée et non supervisée : Algorithmes & Applications

8. K-Means

Principe : Regroupe les donnees autour de centroïdes.

Utilisation : Segmentation clients.

Avantages : Simple. Inconvenients : Sensible aux initialisations.

9. DBSCAN

Principe : Clustering base sur la densite locale.

Utilisation : Anomalies, formes de clusters variees.

Avantages : Gere le bruit. Inconvenients : Parametres delicats a choisir.

10. Clustering hierarchique

Principe : Creation d'une hierarchie de regroupements.

Utilisation : Classification biologique, genes.

Avantages : Dendrogramme utile. Inconvenients : Lourd computationnellement.

11. PCA (ACP)

Principe : Reduction de dimension par maximisation de la variance.

Utilisation : Visualisation, preparation de donnees.

Avantages : Tres utile pour pre-traitement. Inconvenients : Perte d'interpretabilite.

12. t-SNE

Principe : Reduction non lineaire pour visualisation.

Utilisation : Exploration visuelle de clusters.

Avantages : Bon pour les donnees complexes. Inconvenients : Non generalisable.

13. Autoencoders

Principe : Reseau non supervise pour compression ou reconstruction.

Utilisation : Anomalies, compression.

Avantages : Apprentissage non supervise. Inconvenients : Complexite d'entraînement.

Page 3
Classification supervisée et non supervisée : Algorithmes & Applications

14. GMM (Gaussian Mixture Models)

Principe : Modelisation par melanges de lois normales.

Utilisation : Donnees bruitees, regroupements flous.

Avantages : Modele probabiliste souple. Inconvenients : Hypothese de normalite.

Exercice 1 : Supervise (Arbre de decision)

Donnees :

| Temperature | Vent | Jouer |

|-------------|------|--------|

| Chaud | Oui | Non |

| Froid | Non | Oui |

| Froid | Oui | Non |

| Chaud | Non | Oui |

Question : Construire un arbre de decision.

Correction :

- Si Temperature = Chaud :

- Si Vent = Oui => Non

- Si Vent = Non => Oui

- Si Temperature = Froid :

- Si Vent = Oui => Non

- Si Vent = Non => Oui

Exercice 2 : Non supervise (K-Means)

Donnees :

| Point | x | y |

|-------|-----|-----|

|A |1 |2 |

|B | 1.5 | 1.8 |

|C |5 |8 |

Page 4
Classification supervisée et non supervisée : Algorithmes & Applications

|D |6 |9 |

|E | 1 | 0.6 |

|F | 5.5 | 9.5 |

Question : Appliquez K-Means avec K=2.

Correction :

- Initialisation : A et C comme centroïdes.

- Cluster 1 : A, B, E

- Cluster 2 : C, D, F

- Nouveau centroide 1 = moyenne de (1,2), (1.5,1.8), (1,0.6)

- Nouveau centroide 2 = moyenne de (5,8), (6,9), (5.5,9.5)

Page 5

Vous aimerez peut-être aussi