0% ont trouvé ce document utile (0 vote)

12 vues6 pages

TP5 Methodes Inductives - ALD

Le document présente une fiche de TP sur l'analyse linéaire discriminante (ALD) dans le cadre d'une formation en ingénierie à l'Institut National des Télécommunications d'Oran. L'ALD est utilisée pour discriminer entre différentes classes d'individus en minimisant les variances intra-classes et en maximisant la variance inter-classes, en utilisant un jeu de données sur les iris. Le TP inclut des étapes de calcul, des visualisations et une méthode pour prédire la classe d'individus non inclus dans l'échantillon initial.

Transféré par

oubaida.kherfane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

12 vues6 pages

TP5 Methodes Inductives - ALD

Transféré par

oubaida.kherfane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Institut National des Télécommunications et des Technologies de l'Information et

de la Communication INT-TIC d'Oran Algérie

Analyse de Données
3ème année ingénieur

Fiche de TP N° 5

Méthodes Inductives

Analyse Linéaire Discriminante

Nous avons vu que l’analyse en composantes principales permet de transformer un ensemble

de variables quantitatives corrélées, en de nouvelles variables décorrélées, appelées
composantes principales. Cette transformation est réalisée de sorte que la variance soit
maximale sur la première composante, ensuite sur la deuxième composante et ainsi de suite.

Dans certains cas, nous disposons, en plus des variables quantitatives, d’une variable
qualitative dont les modalités permettent de « catégoriser » les individus en des classes
différentes. L’ACP, de par sa définition, ne tient pas compte de ces différentes classes et traite
l’ensemble des individus de la même façon : le seul critère qu’elle utilise pour construire les
nouvelles composantes est la variance de l’ensemble des individus.

L’analyse linéaire discriminante (ALD), quant à elle, construit les composantes principales
sur la base d’un autre critère : discriminer au mieux entre les individus appartenant à
différentes classes (modalités différentes de la variable qualitative). Discriminer au mieux
entre les différentes classes revient à minimiser les variances intra-classes (les variances
internes de chaque classe) et maximiser la variance inter-classes (variance entre les centres des
classes).

Le schéma de la figure 1 récapitule les différentes étapes de calcul permettant de construire les
composantes principales de l’ALD et la projection des individus. Il est ainsi démontré que les
composantes principales sont les vecteurs propres de la matrice 𝑊. Cette matrice est celle qui
𝑊𝑇𝑆 𝑊
permet la maximisation (argument du maximum) de l’expression 𝑊 𝑇 𝑆 𝐵 𝑊. Le résultat est donné
𝑊
−1
par : 𝑊 = 𝑆𝑊 𝑆𝐵 .

Nous allons suivre ce schéma et l’appliquer sur le jeu de données « iris » (utilisé dans le TP 4,
méthode ACP). Le fichier de données iris.csv contient 4 variables quantitatives et une
variable qualitative, pour un échantillon de 150 individus :

sepal.length longueur des sépales Variable quantitative

sepal.width largeur des sépales //
petal.length longueur des pétales //
petal.width largeur des pétales //
variety espèce Variable qualitative

1
Figure 1. ALD : Etapes de calcul

La variable qualitative variety permet de catégoriser les individus en 3 classes (les trois
modalités) : Setosa, Versicolor et Virginica. Les composantes principales de l’ALD sont les
composantes permettant de « discriminer » au mieux entre ces trois classes.

Les modules utilisés sont les mêmes utilisés dans les TPs précédents : numpy, pandas et
matplotlib.

>>> import numpy as np

>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> import os

2
Importation des données
>>> os.chdir('C:\\...\\...\\DataExamples')
>>> X = pd.read_csv('iris.csv', sep=',')

>>> X.head()
sepal.length sepal.width petal.length petal.width variety
0 5.1 3.5 1.4 0.2 Setosa
1 4.9 3.0 1.4 0.2 Setosa
2 4.7 3.2 1.3 0.2 Setosa
3 4.6 3.1 1.5 0.2 Setosa
4 5.0 3.6 1.4 0.2 Setosa

>>> n = X.shape[0] # Nombre d’individus

>>> n
150
>>> m = X.shape[1]-1 # Nombre de variables quantitatives
>>> m
4

Groupement des données

Avant de commencer les calculs, nous devons grouper la table X suivant les modalités de la
variable qualitative variety. La méthode groupeby de DataFrame de Pandas permet de
faire ce groupement :

>>> X_grouped = X.groupby(['variety'])

Calcul des moyennes globales et des moyennes des classes

Nous calculons ensuite la moyenne globale de chaque variable quantitative, ainsi que les
moyennes correspondantes à chaque classe :
>>> mu = X.mean() # La Moyenne globale se calcule à
>>> mu # partir de la table initiale "X"
sepal.length 5.843333
sepal.width 3.057333
petal.length 3.758000
petal.width 1.199333
dtype: float64

>>> mu_i = X_grouped.mean() # Les Moyennes des classes se calculent

# à partir la table groupée
>>> mu_i # "X_grouped"
sepal.length sepal.width petal.length petal.width
variety
Setosa 5.006 3.428 1.462 0.246
Versicolor 5.936 2.770 4.260 1.326
Virginica 6.588 2.974 5.552 2.026

Calcul de la matrice D

La matrice D s’obtient en soustrayant de chaque valeur la moyenne de la classe

correspondante. La méthode transform permet de faire ce calcul :

>>> D = X_grouped.transform(lambda x: x-x.mean())

3
>>> D.head()
sepal.length sepal.width petal.length petal.width
0 0.094 0.072 -0.062 -0.046
1 -0.106 -0.428 -0.062 -0.046
2 -0.306 -0.228 -0.162 -0.046
3 -0.406 -0.328 0.038 -0.046
4 -0.006 0.172 -0.062 -0.046

Calcul des matrices SB et SW

Les matrices SB et SW se calculent sur la base des matrices et des vecteurs que nous venons de
calculer, à savoir : mu, mu_i et D.

>>> SB = np.zeros((m,m)) # Initialisation

>>> for v in np.unique(X.variety): # Pour chaque modalité v

... mu_i_centered = np.asarray(mu_i.loc[v] - mu).reshape(1,m)
... SB += mu_i_centered.T.dot(mu_i_centered)
...
>>> SB # Affichage de SB
array([[ 1.26424267, -0.39905333, 3.304968 , 1.42558667],
[-0.39905333, 0.22689867, -1.144792 , -0.45865333],
[ 3.304968 , -1.144792 , 8.742056 , 3.73548 ],
[ 1.42558667, -0.45865333, 3.73548 , 1.60826667]])

>>> SW = np.zeros((m,m)) # Initialisation

>>> for v in np.unique(X.variety): # Pour chaque modalité v

... D_i = np.asarray(D[X.variety==v])
... SW += D_i.T.dot(D_i)
...
>>> SW # Affichage de SW
array([[38.9562, 13.63 , 24.6246, 5.645 ],
[13.63 , 16.962 , 8.1208, 4.8084],
[24.6246, 8.1208, 27.2226, 6.2718],
[ 5.645 , 4.8084, 6.2718, 6.1566]])

Calcul de la matrice W
−1
𝑊 = 𝑆𝑊 𝑆𝐵

>>> W = np.linalg.inv(SW).dot(SB)
>>> W
array([[-0.06116739, 0.02162765, -0.16223845, -0.069173 ],
[-0.11123279, 0.04356437, -0.29929224, -0.12615479],
[ 0.16154878, -0.05885437, 0.43023182, 0.18284129],
[ 0.20994164, -0.06839709, 0.5509705 , 0.2369176 ]])

Calcul des valeurs propres et des vecteurs propres de la matrice W

>>> eigen_vals, eigen_vecs = np.linalg.eig(W)

>>> eigen_vals
array([ 6.43838584e-01, 5.70782085e-03, 1.22941194e-16, -2.54049408e-17])
>>> eigen_vecs
array([[-0.20874182, -0.00653196, 0.12631523, -0.86698816],
[-0.38620369, -0.58661055, 0.29160733, 0.21730559],
[ 0.55401172, 0.25256154, 0.36445597, 0.18087961],
[ 0.7073504 , -0.76945309, -0.87531792, 0.4103564 ]])

4
Projection des individus
# On ne considère que les variables
# quantitatives : la dernière variable
# (qui est qualitative) est retirée de
# la matrice X avant la projection
>>> X_lda = np.asarray(X)[:,:-1].dot(eigen_vecs)
# X_lda est la matrice de projection
>>> X_lda.shape
(150, 4) # 15O individus sur 4 composantes

Visualisations

1. Visualisation des valeurs propres

Ce graphique visualise le pourcentage des 4 valeurs propres, qu’on va nommer VP1, VP2, VP3
et VP4. Les pourcentages de VP2, de VP3 et de VP4 sont négligeables par rapport à celui de
VP1. La première composante principale permettra une meilleure discrimination.

>>> plt.bar(['VP 1','VP 2','VP 3','VP 4'], eigen_vals/eigen_vals.sum()*100)

>>> plt.xlabel('Valeurs Propres')

>>> plt.ylabel('Pourcentage')

>>> plt.title('Pourcentage des valeurs propres')

>>> plt.show()

2. Visualisation des individus

Ce graphique visualise l’ensemble des 150 individus dans le 1er plan principal (c-à-d les 2
premières composantes principales) :

5
>>> for v in np.unique(X.variety):
... plt.scatter(X_lda[X.variety==v,0], X_lda[X.variety==v,1])
...

>>> plt.title('ALD : Individus dans le 1er plan avec étiquettes')

>>> plt.xlabel('Composante 1')

>>> plt.ylabel('Composante 2')

>>> plt.legend(np.unique(X.variety))

>>> plt.show()

Dans ce graphique, nous remarquons qu’il y a une meilleure discrimination entre les 3 classes,
comparée à la projection faite en utilisant l’ACP (ce qui est normal car l’ACP ne cherche pas
forcément à discriminer entre les classes mais à maximiser la variance globale).

Nous remarquons également que c’est la composante 1 qui permet cette discrimination, ce qui
est prévisible vu le pourcentage très élevé de la valeur propre correspondante.

Remarque : prévision de la classe d’un nouvel individu

Considérons la situation suivante :

 Nous disposons d’un ou de plusieurs individus qui ne font pas partie des 150
individus qui nous ont servi à trouver la représentation ci-dessus.
 Les valeurs des variables quantitatives sont disponibles pour ces nouveaux individus.
 La variable qualitative (la classe) est inconnue pour ces nouveaux individus.

Après avoir trouvé la meilleure représentation permettant une discrimination entre les classes,
il est possible de déduire la classe de ces nouveaux individus. En effet, en les projetant dans le
nouvel espace (tout comme la projection des individus initiaux), le principe consiste à calculer
les distances de l’individu à classer aux centres de gravité des différentes classes et de l’affecter
à la classe la plus proche. Il est à noter qu’il s’agit d’une mesure de distance appropriée
(distance de Mahalanobis Fisher).
R. HACHEMI

Vous aimerez peut-être aussi

TP3 Statistique Univariee Et Bivariee - Partie 1
Pas encore d'évaluation
TP3 Statistique Univariee Et Bivariee - Partie 1
11 pages
Guide complet sur la visualisation des données
Pas encore d'évaluation
Guide complet sur la visualisation des données
8 pages
Apprentissage Automatique avec Python
Pas encore d'évaluation
Apprentissage Automatique avec Python
1 page
Créer un Tableau Statistique Efficace
Pas encore d'évaluation
Créer un Tableau Statistique Efficace
14 pages
IFRI LangagePython TP3
Pas encore d'évaluation
IFRI LangagePython TP3
4 pages
Introduction à R : Importation et Analyse
Pas encore d'évaluation
Introduction à R : Importation et Analyse
3 pages
Jupyter Notebook sur Fedora : Guide SEO
Pas encore d'évaluation
Jupyter Notebook sur Fedora : Guide SEO
22 pages
TP4 Methodes Descriptives - AFC
Pas encore d'évaluation
TP4 Methodes Descriptives - AFC
7 pages
Techniques de datavisualisation en Python
Pas encore d'évaluation
Techniques de datavisualisation en Python
16 pages
Stat Desc
Pas encore d'évaluation
Stat Desc
19 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
177 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
Statistiques Descriptives et Analyse R
Pas encore d'évaluation
Statistiques Descriptives et Analyse R
19 pages
Statistiques Descriptives TP1
Pas encore d'évaluation
Statistiques Descriptives TP1
5 pages
Algorithmes NumPy et Analyse de Données
Pas encore d'évaluation
Algorithmes NumPy et Analyse de Données
9 pages
Ai TP1 2024
Pas encore d'évaluation
Ai TP1 2024
5 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
ACP avec R : Guide Pratique
Pas encore d'évaluation
ACP avec R : Guide Pratique
41 pages
Mini-Projet en R: Master en Finance, Actuariat & Data Science
Pas encore d'évaluation
Mini-Projet en R: Master en Finance, Actuariat & Data Science
14 pages
TP Statistique Descriptive Univarié
Pas encore d'évaluation
TP Statistique Descriptive Univarié
10 pages
Analyse Statistique des Données Pokémon
Pas encore d'évaluation
Analyse Statistique des Données Pokémon
29 pages
Analyse Statistique Multivariée en Biologie
Pas encore d'évaluation
Analyse Statistique Multivariée en Biologie
76 pages
Cours Danalyse Des Donnees Complet
Pas encore d'évaluation
Cours Danalyse Des Donnees Complet
77 pages
TP2 MLP Classification
Pas encore d'évaluation
TP2 MLP Classification
9 pages
Analyse de données R : statistiques et graphiques
Pas encore d'évaluation
Analyse de données R : statistiques et graphiques
9 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
99 pages
Analyse unidimensionnelle des notes élèves
Pas encore d'évaluation
Analyse unidimensionnelle des notes élèves
6 pages
Atelier Pandas
Pas encore d'évaluation
Atelier Pandas
3 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Analyse Statistique des Notes d'Étudiants
Pas encore d'évaluation
Analyse Statistique des Notes d'Étudiants
5 pages
Fiche 2
Pas encore d'évaluation
Fiche 2
11 pages
Corrigé Exercices Chapitre 3 Stata
Pas encore d'évaluation
Corrigé Exercices Chapitre 3 Stata
14 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
4 pages
Py Data Analysis
Pas encore d'évaluation
Py Data Analysis
44 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
8 pages
Analyse des données et méthodes statistiques
Pas encore d'évaluation
Analyse des données et méthodes statistiques
104 pages
Traitement des données avec Pandas
Pas encore d'évaluation
Traitement des données avec Pandas
13 pages
Raport TD Acp
Pas encore d'évaluation
Raport TD Acp
14 pages
Analyse de Données : Méthodes et Outils
Pas encore d'évaluation
Analyse de Données : Méthodes et Outils
3 pages
Introduction à Numpy pour Data Science
Pas encore d'évaluation
Introduction à Numpy pour Data Science
9 pages
Analyse Factorielle Discriminante (AFD)
Pas encore d'évaluation
Analyse Factorielle Discriminante (AFD)
14 pages
TP Acp
Pas encore d'évaluation
TP Acp
12 pages
Programmation scientifique avec Python
Pas encore d'évaluation
Programmation scientifique avec Python
14 pages
Guide R : Vecteurs, Matrices et Graphiques
Pas encore d'évaluation
Guide R : Vecteurs, Matrices et Graphiques
2 pages
Produit matriciel avec Numpy en Python
Pas encore d'évaluation
Produit matriciel avec Numpy en Python
16 pages
Resume Analyse
Pas encore d'évaluation
Resume Analyse
11 pages
Classification des fleurs Iris avec ML
Pas encore d'évaluation
Classification des fleurs Iris avec ML
19 pages
Python Avancé pour Data Science
Pas encore d'évaluation
Python Avancé pour Data Science
13 pages
Statistiques Univariées et Bivariées Scilab
Pas encore d'évaluation
Statistiques Univariées et Bivariées Scilab
10 pages
Graphiques Python pour Proba/Stats
Pas encore d'évaluation
Graphiques Python pour Proba/Stats
11 pages
FFF FFFFFFFF FFFFFFFF FFFFFFFF
Pas encore d'évaluation
FFF FFFFFFFF FFFFFFFF FFFFFFFF
19 pages
Représentation Graphique en R: Méthodes et Exemples
Pas encore d'évaluation
Représentation Graphique en R: Méthodes et Exemples
5 pages
Projet Stat Logiciel R
Pas encore d'évaluation
Projet Stat Logiciel R
13 pages
Mémento Python Ipeim
Pas encore d'évaluation
Mémento Python Ipeim
5 pages
Introduction au langage R et graphiques
Pas encore d'évaluation
Introduction au langage R et graphiques
5 pages
Phy382 Cours Data Visualisation 114403
Pas encore d'évaluation
Phy382 Cours Data Visualisation 114403
11 pages
Changement de Dénomination
Pas encore d'évaluation
Changement de Dénomination
14 pages
Cours Philosophie Terminale A4
Pas encore d'évaluation
Cours Philosophie Terminale A4
3 pages
La Une D'un Journal LP Y8
Pas encore d'évaluation
La Une D'un Journal LP Y8
3 pages
Génération et Déploiement de Labs Virtuels
Pas encore d'évaluation
Génération et Déploiement de Labs Virtuels
64 pages
Article Recherche 582
Pas encore d'évaluation
Article Recherche 582
3 pages
Clés d'activation Microsoft Office 2010
Pas encore d'évaluation
Clés d'activation Microsoft Office 2010
9 pages
La Phase 4 PIE
Pas encore d'évaluation
La Phase 4 PIE
2 pages
Comment Fonctionne Votre Moteur
Pas encore d'évaluation
Comment Fonctionne Votre Moteur
60 pages
Support de Cours BIG DATA
Pas encore d'évaluation
Support de Cours BIG DATA
31 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2019-2020
115 pages
Ce Que Nos Rêves Disent de Nous - DOSSIER Cerveau & Psycho N°155 (Juin 2023)
Pas encore d'évaluation
Ce Que Nos Rêves Disent de Nous - DOSSIER Cerveau & Psycho N°155 (Juin 2023)
25 pages
W2941-22 Mig
Pas encore d'évaluation
W2941-22 Mig
260 pages
Cours de Docimologie - DR DAO
100% (1)
Cours de Docimologie - DR DAO
14 pages
1695-Article Text-3585-1-10-20240816
Pas encore d'évaluation
1695-Article Text-3585-1-10-20240816
16 pages
Contenus Techniques Du Travail de Groupe
100% (1)
Contenus Techniques Du Travail de Groupe
3 pages
Gestion D'un Centre de Formation
100% (5)
Gestion D'un Centre de Formation
58 pages
Belkis REGAYA Analyse Dune Séance
Pas encore d'évaluation
Belkis REGAYA Analyse Dune Séance
2 pages
Pratique infirmière et données probantes
Pas encore d'évaluation
Pratique infirmière et données probantes
45 pages
Laboratoire de Physique
Pas encore d'évaluation
Laboratoire de Physique
20 pages
Organisation Cross District Mâcon
Pas encore d'évaluation
Organisation Cross District Mâcon
12 pages
Fiches de Préparation Des Leçons
100% (1)
Fiches de Préparation Des Leçons
7 pages
Clusif 2014 Gestion Vulnerabilites Tome 1
Pas encore d'évaluation
Clusif 2014 Gestion Vulnerabilites Tome 1
19 pages
Introduction à la psychométrie PSY 4130
Pas encore d'évaluation
Introduction à la psychométrie PSY 4130
8 pages
Géologie de l'Anti-Atlas au Maroc
100% (2)
Géologie de l'Anti-Atlas au Maroc
21 pages
Cours GL2
Pas encore d'évaluation
Cours GL2
18 pages
Former À Enseigner La Production Écrite - Annexes - Presses
Pas encore d'évaluation
Former À Enseigner La Production Écrite - Annexes - Presses
60 pages
Appel Mastere 2025-28-05rect
Pas encore d'évaluation
Appel Mastere 2025-28-05rect
4 pages
Impact des visites de classe à Beni
Pas encore d'évaluation
Impact des visites de classe à Beni
8 pages
Transformée de Fourier et Signaux Rectangulaires
Pas encore d'évaluation
Transformée de Fourier et Signaux Rectangulaires
29 pages
Les Comptines Et Leurs Utilites Dans Le Developpement de L'enfant
100% (1)
Les Comptines Et Leurs Utilites Dans Le Developpement de L'enfant
9 pages