0% ont trouvé ce document utile (0 vote)
85 vues20 pages

Classification 3

Le séminaire dirigé par le Professeur Karim Doumi se concentre sur l'analyse des données sous SPSS, en mettant l'accent sur l'analyse de clusters et l'analyse discriminante. Il aborde des concepts clés tels que le choix des variables de classification, la distance Mahalanobis, et les différences entre les distances Manhattan et Euclidienne dans des espaces de haute dimension. L'objectif est de déterminer les variables discriminantes et d'optimiser le classement des données, illustré par une étude de cas sur les ratios boursiers des entreprises cotées à la bourse de Casablanca.

Transféré par

yassinelazaar12
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
85 vues20 pages

Classification 3

Le séminaire dirigé par le Professeur Karim Doumi se concentre sur l'analyse des données sous SPSS, en mettant l'accent sur l'analyse de clusters et l'analyse discriminante. Il aborde des concepts clés tels que le choix des variables de classification, la distance Mahalanobis, et les différences entre les distances Manhattan et Euclidienne dans des espaces de haute dimension. L'objectif est de déterminer les variables discriminantes et d'optimiser le classement des données, illustré par une étude de cas sur les ratios boursiers des entreprises cotées à la bourse de Casablanca.

Transféré par

yassinelazaar12
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Séminaire : Analyse des données sous SPSS.

Cluster and discriminant analysis

Professeur : Karim DOUMI


[email protected]
Analyse de données : classification Prof. Karim DOUMI

Sommaire
1 Le choix des variables de classficiation 4
1.1 La colinéarité des variables ......................................................................................................4
1.2 Solution par la distance Mahalanobis ................................................................................ 5
1.3 La réduction des dimensions .................................................................................................... 6

2 Manhattan Distance Vs Euclidean Distance 8


2.1 High and Low Dimensional Spaces ..................................................................................... 8
2.2 Limiter The Curse of Dimensionality ............................................................................. 10

3 Solution alternative pour la détermination des Breaking Points 11


3.1 Variance Ratio Critereon ................................................................................................... 11
3.2 Application par K-means Method ..................................................................................... 12

4 L’analyse discriminante 13
4.1 L’analyse post-Clustering ................................................................................................... 13
4.2 Composantes des résultats de l’analyse discriminante ........................................................ 14

2
Analyse de données : classification Prof. Karim DOUMI

Introduction
L’analyse typologique permet de séparer un échantillon en groupes (clusters) signifi-
catifs en se basant sur une ou plusieurs variables qui décrit les objets et leurs relations.
Elle est utile dans de différents domaines : Psychologie, science sociales, biologie, sta-
tistiques, pattern recognition, récupération d’information, apprentissage automatique
des machines et Data Mining.

Les progrès technologiques ont rendu la collecte de données plus facile et plus rapide,
ce qui a donné lieu à des ensembles de données plus volumineux et plus complexes
comportant de nombreux objets et dimensions (High Dimensional Space). L’analyse
typologique traditionnelle fait défaut dans le sens où les distances utilisées sont inutiles
à séparer les groupes, d’où la nécessité de changer la distance euclidienne, ou bien
toute la procédure en utilisant une analyse avancée comme le Sub-space Clustering.

L’analyse typologique ne permet pas de repérer les variables qui sépare les clusters,
et à quel niveau, d’où la nécessité d’utiliser une analyse discriminante post-clustering.
Cette dernière met en évidence les aspects qui distinguent les groupes et permet de
classer les nouveaux éléments. L’analyse discriminante pourrait ensuite être utilisée
pour déterminer quelles variables sont les meilleures variables prédictives et qui ont
un poids de classement le plus important.

L’étude de cas sera traiter parallélement avec les différents étapes dans le rapport. En
se basant sur les ratios boursiers des entreprises cotées sur la bourse de Casablanca(6
variables), on essayera de trouver un classement optimale.

3
Analyse de données : classification Prof. Karim DOUMI

1 Le choix des variables de classficiation

1.1 La colinéarité des variables

La sélection des variables appropriés est essentielle pour le processus de Clustering.


Il faut éviter l’utilisation d’une abondance de variables de regroupement, car cela
augmente les chances que les variables ne soient plus dissemblables. S’il y a un degré
élevé de colinéarité entre les variables, elles ne sont pas suffisamment uniques pour
identifier des groupes distincts. Si des variables hautement corrélées sont utilisées
pour l’analyse typologique, les aspects spécifiques couverts par ces variables seront
surreprésentés dans la solution de regroupement. À cet égard, les corrélations absolues
supérieures à 0,90 sont toujours problématiques.

FIGURE 1 – Dispersion des points

En établissant un tableau de corrélation des variables utilisées dans l’étude de cas,


il s’avère qu’il y a des variables hautement corrélées significativement(Dividen Yield
et Payout), et d’autres non corrélées(ROE et PER) (Annexe 1). Pour observer l’effet
de corrélation, on établit une simulation des deux cas en générant une dispersion des
points par SPSS.

Dans le premier cas, si les deux variables(Dividend Yield, Payout) sont fortement
corrélées (0.821 Sig : 0.000), un graphique des deux variables ressemblerait au premier

4
Analyse de données : classification Prof. Karim DOUMI

graphique. Un ensemble de points étroitement groupés qui s’étendent à partir de


l’origine à un angle de 45 degrés. La performance de la classification dépendra de
l’ampleur de la corrélation avec une corrélation parfaite produisant une ligne droite.
Si une analyse par clusters est effectuée sur ces deux variables, les deux variables
auront probablement des valeurs similaires dans chacun des groupes. Par exemple,
une solution à deux groupes peut être envisagée en définissant un Cutting Plane (la
droite en rouge) au milieu de la distribution des données, perpendiculaire à ligne
droite dessinée en amont. Cela produira deux groupes, l’un avec des valeurs élevées
sur les deux variables et l’autre avec des valeurs faibles sur les deux variables.

Considérons maintenant le cas où les deux variables (ROE, PER) ne sont pas corrélées,
comme le montre le deuxième graphe. Les points ont une dispersion complétement
aléatoire parce que la corrélation est quasi nulle (0.099). Si ces données sont soumises
à une analyse de cluster, on peut facilement envisager deux Cutting Planes perpendi-
culaires divisant les données en quatre groupes avec les valeurs High-Low, Low-High,
High-High et Low-Low.

1.2 Solution par la distance Mahalanobis

Il existe des mesures de distance telles que la distance Angulaire, Canberra ou Mahala-
nobis. Dans de nombreuses situations, cette dernière est souhaitable car elle compense
la colinéarité entre les variables de regroupement.

La distance de Mahalanobis est une mesure de la distance entre un point P et une


distribution D, introduite par P. C. Mahalanobis en 1936. Elle mesure combien l’écart-
type (Standard Deviations) P s’écarte de la moyenne de D. Cette distance est nulle
si P est à la moyenne de D, et grandit quand P s’éloigne de la moyenne. Elle tient
en compte du fait que les écarts dans chaque direction sont différents ainsi que la
covariance entre les variables avec la matrice S de variance covariance.

5
Analyse de données : classification Prof. Karim DOUMI

FIGURE 2 – Mahalanobis Distance Heatmap

1.3 La réduction des dimensions

L’analyse factorielle peut aider à identifier les redondances dans la saisie de données
car les variables corrélées se chargeront fortement sur le même facteur. Cependant,
l’utilisation des scores factoriels résultant d’une analyse de cluster n’est pas recom-
mandée en raison de la nature des changements de données. Il est possible de sélectionner
quelques variables dans les facteurs générés par SPSS dans les sorties : matrice des
composantes ou diagramme de composantes. Pour l’étude de cas on retient la variable
Payout et ROE du fait qu’elles expliquent le plus respectivement la composante 1 et
2.

6
Analyse de données : classification Prof. Karim DOUMI

FIGURE 3 – Matrice des composantes après rotation

FIGURE 4 – Diagramme de composantes dans l’espace après rotation

7
Analyse de données : classification Prof. Karim DOUMI

2 Manhattan Distance Vs Euclidean Distance

2.1 High and Low Dimensional Spaces

La première étape du processus de classification consiste à mesurer la distance entre les


données utilisées par les chercheurs pour identifier les similitudes ou les différences
et à déterminer les groupes. La distance ne dépend pas seulement de la nature de
ces données mais aussi des dimensions auxquelles les variables appartiennent. Les
applications classiques du clustering impliquent souvent des espaces euclidiens de
faible dimension utilisant la distance euclidienne. Les progrès technologiques ont rendu
la collecte de données plus facile et plus rapide, ce qui a donné lieu à des ensembles
de données plus volumineux et plus complexes comportant de nombreux objets et
dimensions( High Dimensional Space). La question qui se pose, est-ce qu’on peut
appliquer la distance euclidienne sur ces données complexes qui présentent de diverses
dimensions ? Nous commençons par définir brièvement les espaces High and Low
dimensions et quelles distances peut-on appliquer si ce n’est pas l’euclidienne.

FIGURE 5 – Euclidean Space

L’espace euclidien, en géométrie, est un espace à deux ou trois dimensions où s’ap-
pliquent des axiomes et des postulats de géométrie euclidienne (Annexe 2), dans
lesquels les points sont désignés par des coordonnées (x, y, z).

8
Analyse de données : classification Prof. Karim DOUMI

Tous les espaces pour lesquels nous pouvons effectuer un regroupement ont une mesure
de distance, donnant une distance entre deux points quelconques dans l’espace. La
distance Euclidienne est présentée comme suit :

On peut également appliquer d’autres options pour les mesures de distance dans les
espaces euclidiens, y compris la distance de Manhattan qui se présente comme suit :

L’espace non euclidien peut être observé sur la géométrie sphérique, la géométrie
hyperbolique et la géométrie elliptique. Ces géométries ne satisfont pas un ou plusieurs
postulats d’Euclide.

FIGURE 6 – Hyperbolic Space

La géométrie hyperbolique satisfait tous les postulats d’Euclide, sauf le postulat pa-
rallèle. Pour toute ligne droite infinie L et tout point P ne lui appartenant pas, il y a
beaucoup d’autres droites infinies qui traversent P et qui n’intersectent pas L.

9
Analyse de données : classification Prof. Karim DOUMI

FIGURE 7 – Spherical Space

En géométrie sphérique, les lignes droites sont de grands cercles, de sorte que deux
lignes se rencontrent en deux points, il n’y a pas de lignes parallèles. Il existe d’autre
géométrie qui représente des High Dimensions comme la géométrie elliptique.

2.2 Limiter The Curse of Dimensionality

FIGURE 8 – Curse of Dimensionality

Quand la dimensionnalité augmente, la performance du classificateur augmentent jus-


qu’à ce que le nombre optimal de fonctionnalités soit atteint. Augmenter encore la
dimensionnalité sans augmenter le nombre d’échantillons entraı̂ne une diminution de

10
Analyse de données : classification Prof. Karim DOUMI

la performance du classificateur.

Plus le nombre de dimensions augmente, les mesures de distance deviennent de plus en


plus insignifiantes. Les dimensions supplémentaires étendent les points jusqu’à ce que,
dans des dimensions très élevées, ils soient presque équidistants l’un de l’autre. Ce
phénomène est appelé Curse of Dimensionality , où de nombreuses dimensions ne
sont pas pertinentes et peuvent masquer des clusters existants dans des données
complexes (Noisy Data).

Cependant, la distance euclidienne ne peut pas être appliquée sur des espaces de
High Dimension. Afin de trouver des clusters, les fonctionnalités non pertinentes
doivent être supprimées pour permettre à l’algorithme de clustering de se concentrer
uniquement sur les dimensions pertinentes en utilisant l’ACP ou d’utiliser d’autres
algorithmes de clustering autres que le clustering traditionnel comme Subspace Clus-
tering. Ou on peut changer les distances comme celle de Manhattan ou bien Camberra,
qui prennent en considération la forme sphérique et hyperbolique des données, et qui
peuvent être appliqué dans des données High-Dimensional.

3 Solution alternative pour la détermination des Breaking


Points
Les procédures hiérarchiques fournissent des informations permettant d’identifier les
écarts qui définissent les clusters logiques en fonction de la sortie. Parfois, il est difficile
d’identifier où la rupture (Breaking Point) se produit réellement.

3.1 Variance Ratio Critereon

Calinski et Harabasz (1974) ont introduit le variance ratio critereon (VRC), qui peut
être utilisé pour déterminer le nombre correct de groupes dans une analyse typo-
logique ; Pour une solution avec N objets et K segments, le critère est donné par :

11
Analyse de données : classification Prof. Karim DOUMI

TABLE 1 – Tableau des Wk (2-6 groupes)

2 10.01

3 119.614 19.955

4 149.173 -35.582

5 143.15 114.407

6 251.534 -359.918

où SSB est la variation globale entre les clusters et SSW la variation globale dans le
cluster. Le critère devrait sembler familier, car il s’agit en fait de la valeur F d’une
ANOVA à un facteur avec K représentant le nombre de niveaux de facteur(Annexe
3). Par conséquent, le VRC peut facilement être calculé à l’aide de SPSS, même si
cela n’est pas disponible dans les sorties SPSS de classification hiérarchique. ( Elle se
trouve dans les sorties de Nués Dynamiques ou K-means Clustering dans le tableau
d’ANOVA).

3.2 Application par K-means Method

Pour finalement déterminer le nombre ”correct” de clusters, nous calculons WK pour


chaque solution de segment en utilisant Excel :

Le nombre de clusters à prendre est celui qui correspond à la plus petite valeur de
Wk, pour l’étude de cas on trouve le nombre de groupes optimal de 6.

12
Analyse de données : classification Prof. Karim DOUMI

4 L’analyse discriminante

4.1 L’analyse post-Clustering

L’analyse typologique ne permet pas de repérer les variables qui sépare les clusters, et
à quel niveau, d’où la nécessité d’utiliser une analyse discriminante post-clustering. Le
but de l’analyse discriminante est d’étudier les relations entre une variable qualitative
et un ensemble de variables explicatives quantitatives.

L’analyse discriminante aide à déterminer quelles variables ont le plus grand potentiel
de distinction entre les clusters. Elle évalue le degré auquel ces variables différencient
les groupes, d’où le nom de variables discriminantes . L’objectif mathématique est

de pondérer et de combiner linéairement des informations provenant d’un ensemble


de variables dépendantes p d’une manière qui force les k groupes à être aussi distincts
que possible.

L’analyse discriminante nécessite l’utilisation de règles de classification dérivées d’une


analyse typologique descriptive antérieure sur un ensemble de données pour lequel
l’appartenance à un groupe est connue.

Trois objectifs principaux peuvent être assignés à l’analyse discriminante :


• Déterminer les variables explicatives les plus discriminantes vis à vis des classes
déterminées
• Déterminer à quel groupe appartient un individu à partir de ses caractéristiques
• Valider une classification ou à faire un choix entre plusieurs classifications pour
savoir laquelle est la plus pertinente.

Pour mener une analyse discriminante saine, il faut respecter les postulats suivants :
Postulat 1 : Les populations doivent être mutuellement exclusives, ce qui implique
l’élimination des individus appartenant à plus d’une population.
Postulat 2 : Les mêmes variables explicatives X1, X2,..., Xp sont mesurés sur chacun
des individus, dans chacun des groupes.
Postulat 3 : La taille minimale de l’échantillon total soit supérieure à au moins 20 fois

13
Analyse de données : classification Prof. Karim DOUMI

le nombre de variables : N ¿ 20p.


Postulat 4 : Aucun des variables indépendantes ne peut être une combinaison linéaire
des autres variables
Postulat 5 : Les populations doivent être distribuées selon des distributions normales
avec l’égalité des matrices de variances-covariances
Postulat 6 : Il y a d’autres problèmes qui peuvent fausser l’interprétation des résultats
d’une analyse discriminante, comme beaucoup de données manquantes, des variables
fortement corrélées, des tailles d’échantillons très différentes, des données aberrantes
(outliers).

4.2 Composantes des résultats de l’analyse discriminante

4.2.1 Test d’égalité des matrices de covariances

FIGURE 9 – Résultat du test M de Box

Le M de Box généré dans les sorties de SPSS dans une analyse discriminante permet de
tester l’égalité des matrices de variances-covariances, avec l’hypothèse nulle d’égalité
(Probabilité associée = 1,000). Si le M de Box n’est pas significatif, il s’avère qu’il
n’y a pas d’égalité des matrices comme celui dans l’étude de cas. Pour faire face à

14
Analyse de données : classification Prof. Karim DOUMI

cela, il faut utiliser une analyse discriminante quadratique, et non linéraire ; SPSS ne
propose qu’une analyse linéaire, mais il y a une possibilité de procéder à un choix des
matrices de covariances Classe par classe, et non pas Intra-Classe.

4.2.2 Corrélations Canoniques

FIGURE 10 – Corrélations canoniques des fonctions discriminantes

Une partie de la variabilité représentée par une fonction n’est pas liée aux différences
de groupe. Cette variabilité peut être liée aux différences intra-groupes. La corrélation
canonique, typiquement générée par l’analyse discriminante, indique la relation entre
les scores sur la fonction et les différences de groupe et permet de voir l’utilisé de
chaque fonction discriminante.

Les deux fonctions discrimnantes utilisées dans l’étude ont une correlation canonique
forte, témoignant la grande utilité de ces fonctions dans la discrimination. 62.9%
du pouvoir discriminant des deux variables X1 et X2 est attribuable à la première
fonction discriminante Y1 et que le 37.1% restant appartient à la deuxième fonction
discriminante Y2.

4.2.3 Fonctions Discriminantes

L’analyse discriminante calcule les poids mathématiques pour les scores sur chaque
variable discriminante reflétant le degré auquel les scores sur cette variable diffèrent
parmi les groupes discriminés. Ainsi, les variables discriminantes sur lesquelles plus
de groupes diffèrent et sur lesquelles les groupes diffèrent le plus reçoivent le plus de
poids ; ces poids sont appelés coefficients discriminants. La taille du coefficient indique
à quel point une variable discriminante contribue à la discrimination de groupe sur

15
Analyse de données : classification Prof. Karim DOUMI

une fonction, et le signe indique la direction de la relation. L’analyse discriminante


forme une ou plusieurs combinaisons linéaires pondérées de variables discriminantes
appelées fonctions discriminantes : D=a+b1 x1 + b2 x2 + ... + bp xp

FIGURE 11 – Coefficients des fonctions discriminantes

D : Discriminant Score
b : Discriminant function coefficient
x : Discriminator variable
p : The number of discriminator variables
Pour une meilleure interprétation des poids de variables, on se base sur les coefficients
des fonctions standardisées. Les coefficients non standardisés sont dans l’annexe.

Les fonctions discriminantes canoniques stanrdisées seront :


Y1= -0.348 ROE + 1.014 Payout . La variable Payout permet de séparer les groupes
sur la première fonction.
Y2= 0.962 ROE + 0.136 Payout. La variable ROE sépare mieux les groupes sur la
deuxième fonction.

4.2.4 Wilks Lambda and Chi Square

Wilks Lambda permet d’observer les differences entre les groupes et l’homogeneité
à l’interieur d’un groupe.Elle se présente comme la Variation intra-groupes sur la
variation totale. La variation intra-groupes est la somme des carrés des différences
entre les scores discriminants individuels et le centroı̈de du groupe. La variation totale
est la somme des carrés des différences entre tous les scores discriminants individuels
et le score discriminant moyen global.

16
Analyse de données : classification Prof. Karim DOUMI

Les valeurs proches de 1 indiquent que la quasi-totalité de la variabilité dans les


variables discriminantes est due aux différences intra-groupes. Les valeurs proches de
0 indiquent que la quasi-totalité de la variabilité dans les variables discriminantes est
due à des différences de groupe.

FIGURE 12 – Tableau de lambda de Wilks

Wilks permet d’effectuer des tests d’hypothèses sur les fonctions discriminantes afin
de déterminer combien parmi celles-ci sont significative. Un test de Khi-Deux basé
sur lambda indique si la variabilité liée aux différences de groupe est statistiquement
significative. Le test est effectué plusieurs fois après l’extraction de chaque fonction
jusqu’à l’obtention d’un résultat non significatif ou bien après la génération de toutes
les fonctions.

Le tableau de Lambda de Wilks généré par SPSS révèle que la différence principale
entre les groupes dans les deux fonctions est une variation inter-groupe. On peut
conclure que les deux fonctions sont nécessaires à l’explication des différences ob-
servées entre les groupes puisque les probabilités associées sont inférieures au seuil
de 1%.

4.2.5 Group Centroids

Dans l’analyse discriminante, les centroı̈des de groupe représentent le score discrimi-


nant moyen des membres d’un groupe sur une fonction discriminante donnée. Pour
des objectifs de classification et de prédiction, le score discriminant de chaque cas de
groupe (par exemple, chaque individu) est comparé à chaque centroı̈de de groupe, et
la probabilité d’appartenance à un groupe est calculée. Plus le score est proche d’un
centroı̈de de groupe, plus grande est la probabilité que le cas appartienne à ce groupe.

17
Analyse de données : classification Prof. Karim DOUMI

FIGURE 13 – Détermination du Cutting Score

FIGURE 14 – Les barycentres des groupes et les cutting scores

Dans une fonction discriminante à 2 groupes, le Cutting Score sera utilisé pour classer
les 2 groupes uniquement. Le Cutting Score le score utilisé pour construire la ma-
trice de classification. On peut le calculer à partir des fonctions aux barycentres des
groupes.

4.2.6 Test Q press

H0 : Le nombre de clients bien classés est due au hasard et non aux fonctions dis-
criminantes. Q = 343.1014 On rejette l’hypothèse nulle puisque la valeur de test Q
est supérieur à la valeur théorique de deux au seuil de signification de 5% et avec 2

18
Analyse de données : classification Prof. Karim DOUMI

degrés de liberté qui est égale à 5,99. L’analyse discriminante permet donc une bonne
qualité de classement et elle est due aux fonctions discriminantes

4.2.7 Statistiques de groupe :

Groupe 1 : Ce groupe présente les rentabilités moyennes de l’échantillon avec 15%


du ROE et 68% du Payout.
Groupe 2 : Ces entreprises ont une rentabilité financière faible de 10,8%, mais elles
sont très rentables pour les actionnaires où le Payout dépasse 168%.
Groupe 3 : Les entreprises dans ce groupe ne sont pas rentables, que soit du côté de

19
Analyse de données : classification Prof. Karim DOUMI

l’entreprise elle-même, ou du côté des actionnaires.


Groupe 4 : Cette entreprise est très rentable (82%) pour elle-même et ainsi que pour
les actionnaires (96%).
Groupe 5 : Ces entreprise ne sont rentables que pour elles-mêmes, avec une rentabilité
financière de 81% en moyenne.
Groupe 6 : Cette entreprise est rentable plus que la moyenne pour elle-même(64%)
mais moins que la moyenne pour les actionnaires.

20

Vous aimerez peut-être aussi