Analyse des données
Docteur Ange Nsouadi
Université Marien Ngouabi
Analyse des données
Master 2
Docteur Ange Nsouadi
Université Marien Ngouabi
Congo-Brazzaville
Plan
1. Structure des données
2. Analyse des individus
3. Analyse des variables
4. Interprétation de l’ACP
Section 1 :
Structure des données
L’Analyse en Composantes Principales ( ACP) est une méthode
statistique essentiellement descriptive appartenant à la famille des
analyses dites « factorielles ». Mise au point par H. Hotelling en 1933,
K. Pearson en 1901 en avait entrevu les grandes lignes. Ce n’est qu’à
partir des années 60 que cette méthode a pris de l’ampleur et surtout
lorsque la puissance de calcul des ordinateurs est devenu accessible
dans les années 80.
L’ACP peut être utilisée pour savoir :
• comment se structurent les variables : quelles sont celles qui sont
corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles
qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ?
• et/ou comment se répartissent les individus : quels sont ceux qui se
ressemblent ? Quels sont ceux qui sont dissemblables ?
L’ACP, qui est une méthode descriptive, est parfois utilisée en
préliminaire à des mét ho de s s t at i s t iq u e s de type
« décisionnelles » (régression, réseau de neurones, segmentation...).
L'analyse de données s'inscrit dans le cadre de la
statistique exploratoire multidimensionnelle.
La statistique exploratoire s’appuie sur des techniques
descriptives et graphiques.
Elle est généralement décrite par la statistique
descriptive qui regroupe des méthodes exploratoires
simples, uni- ou bi-dimensionnelle (moyenne, moments,
quartiles, variance, corrélation, ...) et la statistique
exploratoire multidimensionnelle
Le tableau de données en entrée est constitué, en lignes, par
des « individus » (unités géographiques, habitants, etc.) sur
lesquels sont mesurées des « variables quantitatives » (en
colonnes), c’est-à-dire pour lesquelles il est possible de
calculer la moyenne, l’écart-type, etc.
Le choix des individus et des variables n’est pas sans
importance dans les résultats de l’ACP. Ces choix méritent la
plus grande attention. Ils seront guidés en fonction des
objectifs des problématiques étudiées. Les individus pourront
représenter soit la totalité de la population étudiée, soit un
échantillon. Les variables introduites devront permettre de
caractériser les phénomènes du mieux que possible.
Réaliser une analyse en composantes principales c’est
représenter dans un espace de dimension faible par
exemple 2 une information dont on dispose dans un
espace de dimension élevée n ou p avec l’objectif de
restituer dans cette opération une quantité d’information
maximale par rapport à l’information disponible dans le
fichier de base.
L'analyse de données fait toujours l'objet de recherche pour
s'adapter à tout type de données et faire face à des
considérations de traitements en temps réel en dépit de la
quantité de données toujours plus importante.
Les métho des développées sont maintenant souvent
intégrées avec des méthodes issues de l'informatique et de
l'intelligence artificielle (apprentissage numérique et
symbolique) dans le data mining traduit en français par
fouille de données ou encore extraction de connaissance à
partir de données.
Ce qu’il faut retenir c’est qu’aujourd'hui les méthodes
d'analyse de données sont employées dans un grand
nombre de domaines qu'il est impossible d'énumérer.
Elles sont beaucoup utilisées en marketing par exemple
pour la gestion de la clientèle (pour proposer de
nouvelles ores ciblées par exemple).
Elles permettent également l'analyse d'enquêtes par
exemple par l'interprétation de sondages (où de
nombreuses données qualitatives doivent être prises en
compte).
Elles interviennent dans la recherche documentaire qui
est de plus en plus utile notamment avec internet (la
difficulté porte ici sur le type de données textuelles ou
autres).
Le grand nombre de données en météorologie a été une
des première motivation pour le développement des
méthodes d'analyse de données.
En fait, tout domaine scientifique qui doit gérer de grande
quantité de données de type varié ont recours à ces
approches (écologie, linguistique, économie, etc) ainsi que
tout domaine industriel (assurance, banque, téléphonie, etc).
Ces approches ont également été mis à profit en traitement
du signal et des images, où elles sont souvent employées
comme pré-traitements (qui peuvent être vus comme des
filtres).
En ingénierie mécanique, elles peuvent aussi permettre
d'extraire des informations intéressantes sans avoir recours
à des modèles parfois alourdis pour tenir compte de toutes
les données.
Préambule: 3 approches de données
Décrire les données de 3 manières complémentaires
– Variables : chaque colonne représente une variable qui se
prête a` des calculs statistiques
– Matrice : le tableau complet de données est une matrice
de nombres réels
– Nuage de points : chaque ligne du tableau représente les
co ordo nnée s d’un po int dans un e space do nt la
dimension est le nombre de variables
Combiner ces trois approches pour définir l’ACP
en termes de:
– moyenne, variance, corrélation
– valeurs propres, vecteurs propres
– distances, angles, projection
L’ A C P s ’ i n t é r e s s e à d e s t a b l e a u x d e d o n n é e s
rectangulaires avec des individus en lignes et des
variables quantitatives en colonnes
Exemples
Analyse sensorielle : note du descripteur k pour le produit i
Ecologie : concentration du polluant k dans la rivière i
Economie : valeur de l’indicateur k pour l’année i
Génétique : expression du gène k pour le patient i
Biologie : mesure k pour l’animal i
Marketing : valeur d’indice de satisfaction k pour la marque i
Sociologie : temps passé à l’activité k par les individus de la
CSP i
etc…
• Il existe de très nombreux tableaux comme cela
Évolution du Chiffre d’affaires des entreprises de télécommunications (en milliards de FCFA)
4 individus (lignes) : Entreprises de télécommunicatios
3 variables (colonnes) :
2 Chiffres d’affaires mensuelles moyennes (les premiers semestres de 2015 et 2016)
1 variables de variations
Variation en %
Produits Sem1 2015 Sem1 2016
(2016/2015)
Téléphonie 131,3 120,1 -8,5
mobile
Voix 123,3 113,6 -7,8
Sms 7,9 6,4 -19,2
Internet 13,9 20,9 50,7
Télévision 10,7 12,6 17,4
Total 155,9 153,6 -1,5
Sources: ARPCE et DGE (Enquête de conjoncture Juillet-Août 2016)
But et Problématique
En analyse des données le tableau peut être vu comme
un ensemble de lignes ou un ensemble de colonnes
L’analyse consiste à étudier les Individus et les
variables et analyser les relations entre les deux
Analyse des Analyse des Relation entre les 2
individus Variables Études
Problématiques
Analyse des individus
1 2
Quand dit-on que 2
individus se ressemblent Si beaucoup d’individus,
du po int de vue de peut-on faire un bilan des
l’ensemb le des ressemblances ?
variables ?
Les réponses à ces questions permettent de construire des groupes
d’individus, ou de faire des partition des individus
Problématiques
Analyse des Variables
2
1
Entre variables,
Recherche des on parle plutôt de
ressemblances entre liaisons
3
variables
Liaisons linéaires sont
simples, très fréquentes et
résument de nombreuses
liaisons
recherche d’un petit nombre
Coefficient de Visualisation de la
d’indicateurs synthétiques pour
corrélation matrice de corrélation résumer beaucoup de variables
Problématiques
Relation entre les 2
Études
2
1
Individus
spécifiques pour
Caractérisation des
co mprendre le s
cla sse s d’ind ivi d u s
liaisons entre les
par les variables
variables
u t i l i s at i o n d’individus
extrêmes
Besoin de procédure (en terme de variables : langage
automatique abstrait mais puissant, revenir aux
individus pour voir les choses
plus simplement)
Objectifs de l’ACP
Description-Exploratoire: Visualisation de données par graphiques simples
Synthèse - résumé de grands tableaux individus X variables
Les nuages de Points
Analyse des
individus
Analyse des
Variables
Section 2 :
Analyse des individus
Nuage des individus N’
1 individu = 1 ligne du tableau
1 point dans un
espace à K dim
Etude des individus renvoie à l’Etude de la forme du nuage N’
11
Si K = 1 : Représentation axiale
Si K = 2 : Nuage de points
Si K = 3 : Représentation + difficile en 3D
Si K = 4 : Impossible à représenter MAIS le concept est simple
Notion de ressemblance : distance (au carré) entre individus i et i’ :
Nuage des individus N’
1 individu = 1 ligne du tableau
1 point dans un
espace à K dim
Etude des individus renvoie à l’Etude de la forme du nuage N’
11
Si K = 1 : Représentation axiale
Si K = 2 : Nuage de points
Si K = 3 : Représentation + difficile en 3D
Si K = 4 : Impossible à représenter MAIS le concept est simple
Notion de ressemblance : distance (au carré) entre individus i et i’ :
Nuage des individus N’
L’objectif est d’étudier la structure, c’est à dire la forme du
nuage des individus
Les individus vivent dans un espace R à K dim (variables)
Le principe général de l'A.C.P. est de réduire la
dimension des données initiales (qui est p si l'on
considère p variables quantitatives), en remplaçant
les p variables initiales par q facteurs appropries
(q < p ).
Il est fréquent que les tableaux traités contiennent des
variables de différentes natures ou qui sont exprimées dans des
unités différentes. Pour que les variables soient comparables
entre elles et que les résultats de l’ACP ne soient pas
influencés par leur ordre de grandeur, il faut procéder à une
analyse « normée » ou « centrée réduite »
Les données, toujours centrées, doivent donc en plus être
réduites lorsque les variables sont hétérogènes.
Les q facteurs cherchés sont des moyennes pondérées des
variables initiales.
Leur choix se fait en maximisant la dispersion des
individus selon ces facteurs (autrement dit, les facteurs
retenus doivent être de variance maximum). Des techniques
mathématiques appropries permettent de réaliser tout cela
de façon automatique et optimale.
Lorsqu'on a obtenu les résultats d'une A.C.P., il faut être
capable de les interpréter. Pour cela, on dispose de
graphiques, a la fois pour les variables et pour les
individus, ainsi que d’indicateurs numériques, appelés
aides a l’interprétation.
Ces indicateurs permettent, en association avec les
graphiques, de comprendre les éléments clés de la
structure des données initiales, et donc d'en faire une
interprétation correcte.
Centrage des données
Centrer les données ne modifie pas la forme du nuage
Il est donc important de les centrer
Réduire les données centrées
Réduire les données est indispensable si les unités
de mesure sont différentes d’une variable à l’autre
xi − x la variable est « centrée » autour de la moyenne
yi =
σ la variable est ensuite « réduite »
Chaque variable est maintenant exprimée en termes de dispersion autour de la
moyenne, comptée en nombre d’écarts-type.
Les variables sont ainsi ramenées à la même échelle pour être [Link]
procédure donne plus de poids aux variables les plus dispersées.
Pour faire de l’ACP, il faut analyser un
tableau Centré-réduit
Puisqu’il est Difficile de voir le nuage N’,
dans ce cas on essaie d’en avoir une image
approchée
Le tableau de données correspond à une représentation des individus dans
un espace à p dimensions.
Etant donné qu’il est impossible de se représenter visuellement le nuage de
points des individus dans un tel espace, le but de l’ACP est de trouver des
espaces de visualisation de dimensions « plus petites », à savoir des droites
(dimension 1) ou encore des plans (dimension 2), tout en conservant le
maximum d’information.
C’est le même principe que lorsque l’on prend une
photographie, on passe d’un espace à 3 dimensions à un
espace à 2 dimensions.
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
L’ACP est basée sur le même principe. La première droite
proposée a pour but de voir au mieux les individus, c’est-à-
dire celle pour laquelle la variance des individus est
maximale. Cette droite est appelée « 1ère composante
principale » ou « 1er axe principal ».
Elle permet d’observer une certaine proportion de la
variation totale des individus.
Ensuite, une 2ème composante principale (axe 2) est
recherchée en répondant à 2 conditions :
avoir une corrélation linéaire nulle avec la première, c’est-
à-dire être totalement indépendante de l’axe 1,
avoir, à son tour, la plus grande variance. Ainsi, la plus
grande information complémentaire à l’axe 1 est apportée
par l’axe 2.
Le processus est répété autant de fois que de variables.
Donc, pour p variables, on obtient p composantes principales.
Techniquement, l’ACP transforme les p variables quantitatives
initiales, plus ou moins corrélées entre elles, en p nouvelles
variables quantitatives, non corrélées : les composantes
principales (CP)
Ajustement du nuage des individus
L’ACP vise à fournir une image simplifiée de N’ la + fidèle
possible.
Le but est de Trouver le sous-espace qui résume au mieux les
données.
Qualité d’une image :
Restitue fidèlement la forme générale du nuage
Meilleure représentation de la diversité, de la variabilité
Ne perturbe pas les distances entre individus
Comment quantifier la qualité d’une image ?
A l’aide de la notion de dispersion ou variabilité
appelée Inertie
Inertie renvoie à la variance généralisée à plusieurs
dimensions
Section 3 :
Analyse des Variables
Nuage des Variables
1 point dans un
1 variable = 1 Colonne du tableau espace à I dim
Comme les variables sont centrées:
Lorsque les variables sont réduites, les points sur une
hypersphère de rayon 1
Ajustement du Nuage des Variables
Même règle que pour les individus : recherche
d’axes orthogonaux
v1 est la variable synthétique qui résume au mieux les variables
Trouver le 2ème axe, puis le 3ème, etc.
Projection
Seules les variables bien projetées peuvent être interprétées !
à suivre…