0% ont trouvé ce document utile (0 vote)
73 vues49 pages

Analyse Des Données: Docteur Ange Nsouadi

Transféré par

Verlain Didit
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
73 vues49 pages

Analyse Des Données: Docteur Ange Nsouadi

Transféré par

Verlain Didit
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des données

Docteur Ange Nsouadi


Université Marien Ngouabi
Analyse des données

Master 2

Docteur Ange Nsouadi

Université Marien Ngouabi


Congo-Brazzaville
Plan
1. Structure des données

2. Analyse des individus

3. Analyse des variables

4. Interprétation de l’ACP
Section 1 :
Structure des données
L’Analyse en Composantes Principales ( ACP) est une méthode
statistique essentiellement descriptive appartenant à la famille des
analyses dites « factorielles ». Mise au point par H. Hotelling en 1933,
K. Pearson en 1901 en avait entrevu les grandes lignes. Ce n’est qu’à
partir des années 60 que cette méthode a pris de l’ampleur et surtout
lorsque la puissance de calcul des ordinateurs est devenu accessible
dans les années 80.

L’ACP peut être utilisée pour savoir :

• comment se structurent les variables : quelles sont celles qui sont


corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles
qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ?

• et/ou comment se répartissent les individus : quels sont ceux qui se


ressemblent ? Quels sont ceux qui sont dissemblables ?

L’ACP, qui est une méthode descriptive, est parfois utilisée en


préliminaire à des mét ho de s s t at i s t iq u e s de type
« décisionnelles » (régression, réseau de neurones, segmentation...).
L'analyse de données s'inscrit dans le cadre de la
statistique exploratoire multidimensionnelle.

La statistique exploratoire s’appuie sur des techniques


descriptives et graphiques.

Elle est généralement décrite par la statistique


descriptive qui regroupe des méthodes exploratoires
simples, uni- ou bi-dimensionnelle (moyenne, moments,
quartiles, variance, corrélation, ...) et la statistique
exploratoire multidimensionnelle
Le tableau de données en entrée est constitué, en lignes, par
des « individus » (unités géographiques, habitants, etc.) sur
lesquels sont mesurées des « variables quantitatives » (en
colonnes), c’est-à-dire pour lesquelles il est possible de
calculer la moyenne, l’écart-type, etc.

Le choix des individus et des variables n’est pas sans


importance dans les résultats de l’ACP. Ces choix méritent la
plus grande attention. Ils seront guidés en fonction des
objectifs des problématiques étudiées. Les individus pourront
représenter soit la totalité de la population étudiée, soit un
échantillon. Les variables introduites devront permettre de
caractériser les phénomènes du mieux que possible.
Réaliser une analyse en composantes principales c’est
représenter dans un espace de dimension faible par
exemple 2 une information dont on dispose dans un
espace de dimension élevée n ou p avec l’objectif de
restituer dans cette opération une quantité d’information
maximale par rapport à l’information disponible dans le
fichier de base.
L'analyse de données fait toujours l'objet de recherche pour
s'adapter à tout type de données et faire face à des
considérations de traitements en temps réel en dépit de la
quantité de données toujours plus importante.

Les métho des développées sont maintenant souvent


intégrées avec des méthodes issues de l'informatique et de
l'intelligence artificielle (apprentissage numérique et
symbolique) dans le data mining traduit en français par
fouille de données ou encore extraction de connaissance à
partir de données.
Ce qu’il faut retenir c’est qu’aujourd'hui les méthodes
d'analyse de données sont employées dans un grand
nombre de domaines qu'il est impossible d'énumérer.

Elles sont beaucoup utilisées en marketing par exemple


pour la gestion de la clientèle (pour proposer de
nouvelles ores ciblées par exemple).

Elles permettent également l'analyse d'enquêtes par


exemple par l'interprétation de sondages (où de
nombreuses données qualitatives doivent être prises en
compte).

Elles interviennent dans la recherche documentaire qui


est de plus en plus utile notamment avec internet (la
difficulté porte ici sur le type de données textuelles ou
autres).
Le grand nombre de données en météorologie a été une
des première motivation pour le développement des
méthodes d'analyse de données.

En fait, tout domaine scientifique qui doit gérer de grande


quantité de données de type varié ont recours à ces
approches (écologie, linguistique, économie, etc) ainsi que
tout domaine industriel (assurance, banque, téléphonie, etc).

Ces approches ont également été mis à profit en traitement


du signal et des images, où elles sont souvent employées
comme pré-traitements (qui peuvent être vus comme des
filtres).

En ingénierie mécanique, elles peuvent aussi permettre


d'extraire des informations intéressantes sans avoir recours
à des modèles parfois alourdis pour tenir compte de toutes
les données.
Préambule: 3 approches de données

Décrire les données de 3 manières complémentaires

– Variables : chaque colonne représente une variable qui se


prête a` des calculs statistiques

– Matrice : le tableau complet de données est une matrice

de nombres réels

– Nuage de points : chaque ligne du tableau représente les


co ordo nnée s d’un po int dans un e space do nt la
dimension est le nombre de variables
Combiner ces trois approches pour définir l’ACP
en termes de:

– moyenne, variance, corrélation

– valeurs propres, vecteurs propres

– distances, angles, projection


L’ A C P s ’ i n t é r e s s e à d e s t a b l e a u x d e d o n n é e s
rectangulaires avec des individus en lignes et des
variables quantitatives en colonnes
Exemples
Analyse sensorielle : note du descripteur k pour le produit i
Ecologie : concentration du polluant k dans la rivière i
Economie : valeur de l’indicateur k pour l’année i
Génétique : expression du gène k pour le patient i
Biologie : mesure k pour l’animal i
Marketing : valeur d’indice de satisfaction k pour la marque i
Sociologie : temps passé à l’activité k par les individus de la
CSP i

etc…

• Il existe de très nombreux tableaux comme cela


Évolution du Chiffre d’affaires des entreprises de télécommunications (en milliards de FCFA)

4 individus (lignes) : Entreprises de télécommunicatios


3 variables (colonnes) :
2 Chiffres d’affaires mensuelles moyennes (les premiers semestres de 2015 et 2016)
1 variables de variations

Variation en %
Produits Sem1 2015 Sem1 2016
(2016/2015)
Téléphonie 131,3 120,1 -8,5
mobile
Voix 123,3 113,6 -7,8
Sms 7,9 6,4 -19,2

Internet 13,9 20,9 50,7

Télévision 10,7 12,6 17,4

Total 155,9 153,6 -1,5

Sources: ARPCE et DGE (Enquête de conjoncture Juillet-Août 2016)


But et Problématique

En analyse des données le tableau peut être vu comme


un ensemble de lignes ou un ensemble de colonnes

L’analyse consiste à étudier les Individus et les


variables et analyser les relations entre les deux

Analyse des Analyse des Relation entre les 2


individus Variables Études
Problématiques

Analyse des individus

1 2

Quand dit-on que 2


individus se ressemblent Si beaucoup d’individus,
du po int de vue de peut-on faire un bilan des
l’ensemb le des ressemblances ?
variables ?

Les réponses à ces questions permettent de construire des groupes


d’individus, ou de faire des partition des individus
Problématiques

Analyse des Variables


2
1

Entre variables,
Recherche des on parle plutôt de
ressemblances entre liaisons
3
variables

Liaisons linéaires sont


simples, très fréquentes et
résument de nombreuses
liaisons

recherche d’un petit nombre


Coefficient de Visualisation de la
d’indicateurs synthétiques pour
corrélation matrice de corrélation résumer beaucoup de variables
Problématiques

Relation entre les 2


Études
2
1

Individus
spécifiques pour
Caractérisation des
co mprendre le s
cla sse s d’ind ivi d u s
liaisons entre les
par les variables
variables

u t i l i s at i o n d’individus
extrêmes
Besoin de procédure (en terme de variables : langage
automatique abstrait mais puissant, revenir aux
individus pour voir les choses
plus simplement)
Objectifs de l’ACP

Description-Exploratoire: Visualisation de données par graphiques simples

Synthèse - résumé de grands tableaux individus X variables


Les nuages de Points

Analyse des
individus

Analyse des
Variables
Section 2 :
Analyse des individus
Nuage des individus N’
1 individu = 1 ligne du tableau

1 point dans un
espace à K dim

Etude des individus renvoie à l’Etude de la forme du nuage N’


11

Si K = 1 : Représentation axiale
Si K = 2 : Nuage de points
Si K = 3 : Représentation + difficile en 3D
Si K = 4 : Impossible à représenter MAIS le concept est simple

Notion de ressemblance : distance (au carré) entre individus i et i’ :


Nuage des individus N’
1 individu = 1 ligne du tableau

1 point dans un
espace à K dim

Etude des individus renvoie à l’Etude de la forme du nuage N’


11

Si K = 1 : Représentation axiale
Si K = 2 : Nuage de points
Si K = 3 : Représentation + difficile en 3D
Si K = 4 : Impossible à représenter MAIS le concept est simple

Notion de ressemblance : distance (au carré) entre individus i et i’ :


Nuage des individus N’
L’objectif est d’étudier la structure, c’est à dire la forme du
nuage des individus

Les individus vivent dans un espace R à K dim (variables)


Le principe général de l'A.C.P. est de réduire la
dimension des données initiales (qui est p si l'on
considère p variables quantitatives), en remplaçant
les p variables initiales par q facteurs appropries
(q < p ).
Il est fréquent que les tableaux traités contiennent des
variables de différentes natures ou qui sont exprimées dans des
unités différentes. Pour que les variables soient comparables
entre elles et que les résultats de l’ACP ne soient pas
influencés par leur ordre de grandeur, il faut procéder à une
analyse « normée » ou « centrée réduite »
Les données, toujours centrées, doivent donc en plus être
réduites lorsque les variables sont hétérogènes.

Les q facteurs cherchés sont des moyennes pondérées des


variables initiales.

Leur choix se fait en maximisant la dispersion des


individus selon ces facteurs (autrement dit, les facteurs
retenus doivent être de variance maximum). Des techniques
mathématiques appropries permettent de réaliser tout cela
de façon automatique et optimale.
Lorsqu'on a obtenu les résultats d'une A.C.P., il faut être
capable de les interpréter. Pour cela, on dispose de
graphiques, a la fois pour les variables et pour les
individus, ainsi que d’indicateurs numériques, appelés
aides a l’interprétation.

Ces indicateurs permettent, en association avec les


graphiques, de comprendre les éléments clés de la
structure des données initiales, et donc d'en faire une
interprétation correcte.
Centrage des données
Centrer les données ne modifie pas la forme du nuage

Il est donc important de les centrer


Réduire les données centrées

Réduire les données est indispensable si les unités


de mesure sont différentes d’une variable à l’autre

xi − x la variable est « centrée » autour de la moyenne

yi =
σ la variable est ensuite « réduite »

Chaque variable est maintenant exprimée en termes de dispersion autour de la


moyenne, comptée en nombre d’écarts-type.
Les variables sont ainsi ramenées à la même échelle pour être [Link]
procédure donne plus de poids aux variables les plus dispersées.
Pour faire de l’ACP, il faut analyser un
tableau Centré-réduit

Puisqu’il est Difficile de voir le nuage N’,


dans ce cas on essaie d’en avoir une image
approchée
Le tableau de données correspond à une représentation des individus dans
un espace à p dimensions.

Etant donné qu’il est impossible de se représenter visuellement le nuage de


points des individus dans un tel espace, le but de l’ACP est de trouver des
espaces de visualisation de dimensions « plus petites », à savoir des droites
(dimension 1) ou encore des plans (dimension 2), tout en conservant le
maximum d’information.
C’est le même principe que lorsque l’on prend une
photographie, on passe d’un espace à 3 dimensions à un
espace à 2 dimensions.
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
De fait, l’angle de la prise de vue a une importance capitale
car c’est lui qui détermine « l’information exploitable ».
L’ACP est basée sur le même principe. La première droite
proposée a pour but de voir au mieux les individus, c’est-à-
dire celle pour laquelle la variance des individus est
maximale. Cette droite est appelée « 1ère composante
principale » ou « 1er axe principal ».

Elle permet d’observer une certaine proportion de la


variation totale des individus.
Ensuite, une 2ème composante principale (axe 2) est
recherchée en répondant à 2 conditions :

avoir une corrélation linéaire nulle avec la première, c’est-


à-dire être totalement indépendante de l’axe 1,
avoir, à son tour, la plus grande variance. Ainsi, la plus
grande information complémentaire à l’axe 1 est apportée
par l’axe 2.
Le processus est répété autant de fois que de variables.
Donc, pour p variables, on obtient p composantes principales.

Techniquement, l’ACP transforme les p variables quantitatives


initiales, plus ou moins corrélées entre elles, en p nouvelles
variables quantitatives, non corrélées : les composantes
principales (CP)
Ajustement du nuage des individus
L’ACP vise à fournir une image simplifiée de N’ la + fidèle
possible.
Le but est de Trouver le sous-espace qui résume au mieux les
données.

Qualité d’une image :


Restitue fidèlement la forme générale du nuage

Meilleure représentation de la diversité, de la variabilité


Ne perturbe pas les distances entre individus
Comment quantifier la qualité d’une image ?

A l’aide de la notion de dispersion ou variabilité


appelée Inertie

Inertie renvoie à la variance généralisée à plusieurs


dimensions
Section 3 :
Analyse des Variables
Nuage des Variables
1 point dans un
1 variable = 1 Colonne du tableau espace à I dim

Comme les variables sont centrées:

Lorsque les variables sont réduites, les points sur une


hypersphère de rayon 1
Ajustement du Nuage des Variables

Même règle que pour les individus : recherche


d’axes orthogonaux

v1 est la variable synthétique qui résume au mieux les variables


Trouver le 2ème axe, puis le 3ème, etc.
Projection

Seules les variables bien projetées peuvent être interprétées !


à suivre…

Vous aimerez peut-être aussi