0% ont trouvé ce document utile (0 vote)

229 vues61 pages

Introduction à l'ACP pour étudiants

Le document décrit les étapes de l'analyse en composantes principales (ACP), y compris le centrage et la réduction des données, la détermination des valeurs et vecteurs propres, la sélection des composantes principales et la représentation graphique des résultats. L'ACP vise à réduire le nombre de variables tout en minimisant la perte d'information.

Transféré par

calabi mozart

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

229 vues61 pages

Introduction à l'ACP pour étudiants

Transféré par

calabi mozart

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'enseignement supérieur et de la recherche scientifique

Université de JIJEL
Faculté des Sciences Exactes et Informatique
Département d’Informatique

ACP
Analyse en Composantes
Principales

M1 SIAD & ILM

Introduction
• Les méthodes factorielles
- la projection sur un espace de dimension
inférieur,
- Une visualisation de l’ensemble des liaisons entre
variables ,
- Réduire le nombre de variables, tout en
minimisant la perte de l’information.
2
3
Introduction
• L’ACP (Hotelling, 1933) a pour objectif de réduire

le nombre de données, souvent très élevé, d’un

tableau de données :

- Algébriquement: matrice,

- Géométriquement : nuage de points.

4
Introduction
• L’ACP consiste en l’étude des projections des

points de ce nuage sur:

- un axe, un plan ou un hyperplan

(Mathématiquement: des sous-espaces vectoriels).

5
La représentation graphique

• Lorsqu’il n’y a que deux dimensions (

exemple: largeur et longueur), il est facile de
représenter les données sur un plan :

6
La représentation graphique

• Avec trois dimensions (largeur, hauteur et

profondeur par ex.), c’est déjà plus difficile :

7
La représentation graphique

• Mais au delà de 3 dimensions, il est

impossible de représenter les données sur un

plan ou même de les visualiser mentalement.

8
Projeter la réalité sur un plan

Figure de J.P.Fenelon

- Selon le point de vue, l’information retenue ne sera

pas la même.
- L’ACP nous propose un point de vue permettant de voir
au mieux les individus d’un tableau.
9
Résumer les données

• Lorsqu’on projette les données sur un plan, on

obtient un graphique déformé de la réalité.

• Le rôle de l’ACP est de trouver des espaces de

dimensions plus petites minimisant ces
déformations.

10
Données et leurs caractéristiques

• Tableau des données

Chaque tableau contient des lignes qui
représentent les individus et des colonnes qui
représentent les variables.
Ce tableau rectangulaire (matrice) qu’on note
par X possède des observations à n individus
et p variables.
Il a la forme suivante :

11
Données et leurs caractéristiques

• Tableau des données

x11 ….. x1p
. .
X= . xij . ϵ MR (n, p),
. .
xn1 …. xnp

où xij est la valeur prise par la variable j sur l’individu i.

Individu=Élément de Rp
Variable = Élément de Rn 12
Données et leurs caractéristiques

Individus et variables

• Individu: Le ieme individu est un vecteur à p

composantes réelles qu’on le note par ei tel que

ei = (xi1, xi2, ..., xip) ϵ Rp; pour i = 1, n

13
Données et leurs caractéristiques

Individus et variables

• Variable: La j eme variable est la liste des n valeurs

qu’elle prend sur n individus, on la note par xj tel
que:

xj = (x1j, x2j, ..., xnj)t ϵ Rn; pour j = 1, p:

14
Données et leurs caractéristiques

• L’A.C.P: permet d’explorer les liaisons entre

variables et les ressemblances entre
individus.
• Résultats:
- Visualisation des individus (Notion de
distances entre individus)
- Visualisation des variables (en fonction de
leurs corrélations)
15
Deux nuages de points
• Le tableau peut être vu comme un ensemble
de lignes ou un ensemble de colonnes.

16
Nuage des individus
• A chaque individu noté ei, on peut associer un
point dans Rp= espace des individus.
• A chaque variable du tableau X est associé un
axe de Rp.

17
Principe de l’ACP

• On cherche une représentation des n

individus, dans un sous-espace Fk de Rp de
dimension k ( k petit 2, 3) (k<p)

• Autrement dit, on cherche à définir k

nouvelles variables combinaisons linéaires
des p variables initiales qui feront perdre le
moins d’information possible.

18
Principe de l’ACP

• Ces variables seront appelées «composantes

principales »

• les axes qu’elles déterminent : « axes

principaux »

• les formes linéaires associées : « facteurs

principaux »
19
Perdre le moins d’information possible:
Fk devra être « ajusté » le mieux possible au
1
nuage des individus: la somme des carrés des
distances des individus à Fk doit être minimale

2 Fk est le sous-espace tel que le nuage projeté ait

une inertie (dispersion) maximale.

(1 ) et (2) sont basées sur les notions de:

- Distance
- Projection orthogonale
20
La distance entre fi et fj est inférieure ou égale à celle entre ei et21ej
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans le plan:
d2 (A, B) = (xB - xA )2 + (yB - yA )2

22
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans l’espace Rp à p dimensions, on généralise
cette notion : la distance euclidienne entre
deux individus s’écrit:

23
Inertie totale du nuage de points

• On appelle inertie la quantité d’information

contenue dans un tableau de données.

• Une inertie nulle signifie que tous les

individus sont presque identiques.

• Si les j variables sont centrés-réduits, l’inertie

sera égale à j.
24
Inertie totale du nuage de points
• On note l’inertie totale du nuage de points
Ig=mesure de dispersion des points au sein du
nuage = somme pondérée des carrés des
distances par rapport au centre de gravité G
du nuage

25
Équivalence des deux critères
concernant la perte d’information

26
Équivalence des deux critères
concernant la perte d’information

27
Équivalence des deux critères
concernant la perte d’information

28
Les étapes pour déterminer la
composante principale :
• Centrage et réduction des données

• Déterminer les valeurs propres et les vecteurs

propres sur la base de la matrice de
corrélation entre les variables

• Déterminer les axes factoriels

• Sélectionner les composantes principales
29
Centrage des données
• Le centrage est réalisé de façon systématique en ACP
• Translation du centre de gravité du nuage sur l'origine

• Centrer les données ne modifie pas la forme du nuage

⇒toujours centrer
30
Réduction des données
Exemple:
Echantillon1 Echantillon2
Poids (g) Diamètre (mm) Poids (g) Diamètre (cm)
100 70 100 7
95 65 95 6,5
6.25 6.25 Variance (inertie) 6.25 0.0065

Dans le premier cas, quand on va chercher le

premier axe principale d’inertie, les variables poids
et diamètre influencent de manière égale le calcul
de l’axe (elles ont toutes deux une variance de 6.25)
31
Réduction des données
Exemple:
Mais dans le second cas, la variable poids « pèsera
beaucoup plus lourd » que la variable diamètre
dans le calcul, car 6.25 est bien plus grand que
0.0065.
C’est problématique, car le premier et le second
cas représentent exactement les mêmes pommes

Réduire les données

32
Réduction des données

• Plus la variable a un écart-type élevé, plus elle

apporte de l'inertie en projection et plus elle
«attire les axes».
• Or, l'écart type dépend directement de l'unité de
mesure...

• Pour éviter d'accorder une plus grande importance

aux variables exprimées arbitrairement avec de plus
grandes valeurs, on réduit les variables
33
Réduction des données

• Transformer nos variables de telle manière que leur

moyenne soit égale à 0 (centrage) et que leur
variance soit égale à 1 (la réduction)

• Après avoir centré les données, si on les divise par

leur écart type, alors on obtient des valeurs dont la
variance vaut 1

34
Réduction des données

• Lorsque les variables sont exprimées dans des

unités de mesure différentes,  réduction
systématique des données.

• En cas d’unités de mesure identiques ?

• Réduction : consiste à accorder une même
importance à chaque variable
• Non réduction : accorde plus d’importance
aux variables de forte dispersion
35
Centrage et réduction des données
• Matrice Centrée Réduite est obtenue par la formule
suivante :

• La moyenne est un outil de calcul permet de

résumer une liste de valeurs numériques en un seul
nombre réel sans tenir compte de l’ordre de la liste.

36
Centrage et réduction des données
• On appelle le point moyen ou centre de gravité
le vecteur G des moyennes arithmétiques de
chaque variable:

• Lorsqu’on analyse des variables centrées, ce

point moyen G sera le centre du repère
considéré:
37
Centrage et réduction des données
• L’écart type est un outil de calcul permet de
mesurer la dispersion des valeurs d’un
échantillon. C’est la racine carrée de la variance :

• Avec la variance est la moyenne des carrées des

écarts à la moyenne :

38
Centrage et réduction des données
• Réduire ou normer donne la même dispersion,
une même importance, à chaque variable (dans
l'espace, elles ont même longueur:1)
On dit que l'on réalise une ACP normée

• Ne pas réduire ou ne pas normer laisse à chaque

variable son écart-type initial ce qui conduit à
accorder à chaque variable une importance
proportionnelle à son écart-type.
On dit que l'on réalise une ACP non normée
(simple)
39
Recherche des axes factoriels

• La recherche d’axes portant le maximum d’inertie

équivaut à la construction de nouvelles variables

(auxquelles sont associés ces axes) de variance

maximale.

40
Recherche des axes factoriels

• En d’autres termes, on effectue un changement de

repère dans Rp de façon à se placer dans un
nouveau système de représentation où le premier
axe apporte le plus possible de l’inertie totale du
nuage, le deuxième axe le plus possible de l’inertie
non prise en compte par le premier axe, et ainsi de
suite.
41
Recherche des axes factoriels
• Cette réorganisation s’appuie sur la
diagonalisation de la matrice de variances-
covariances (matrice de corrélations pour des
données centrées-réduites).

• Les axes principaux sont ceux maximisant la

variance projetée: ce sont les vecteurs propres
normés associés aux plus grandes valeurs propres
de la matrice de covariance/corrélation.

42
Recherche des axes factoriels

- les vecteurs propres normés à 1(axes de

direction ou axes factoriels)

- les valeurs propres (inerties associées aux axes)

43
Recherche des axes factoriels

• Le premier axe est celui associé à la plus

grande valeur propre . On le note u1

• Le deuxième axe est celui associé à la

deuxième valeur propre . On le note u2
• ...

44
Matrice des variances covariances
• La Matrice des variances covariances permet de
mesure la liaison linéaire qui peut exister entre un
couple de variables statistiques
Var X1 Cov(X1,X2) Cov(X1,X3)
Cov(X2,X1) Var X2 Cov(X2,X3)
Cov(X3,X1) Cov(X3,X2) Var X3

• Si Cov(X2,X1) =0les variables X1 et X2 sont

indépendantes
• Si Cov(X2,X1) ≠ 0les variables X1 et X2 sont
dépendantes (existe une relation linéaire entre les
variable)
45
Matrice des variances covariances

• Obtenue par la formule suivante :

V=1/n * tMc * Mc

• Mc : Matrice centrée
• tMc : Matrice centrée transposée

46
Matrice des corrélations
• Matrice des corrélations entre variables
permet d’analyser les relations bilatérales
entre les variables :
• Obtenue par la formule suivante :

Γ=1/n t Mcr Mcr

Mcr : Matrice centrée réduite
tMcr : Matrice centrée réduite transposée

47
Calculer les valeurs propres
• Déterminer le polynôme caractéristique :
Det |X-λI ⎸
- Calculer les valeurs propres λ

- Déterminer les vecteurs propres orthogonaux

associés aux valeurs propres

48
Caractères des composantes principales

• Il n’y a pas de redondance d’information

entre deux composantes principales.

• Les composantes principales sont centrées.

• La variance d’une composante principale est

égale à l’inertie portée par l’axe principal qui
lui est associé.

49
Caractères des composantes principales
• Soit u1 est le vecteur propre associé à la première

grande valeur propre λ1. Soit donc Δu1 ce premier

axe principal.

• Si on veut chercher un deuxième axe Δu2 , où u2

est son vecteur unitaire orthogonal à u1 (c-à-d

<u1, u2>=0)
50
Caractères des composantes principales
• C-à-d le vecteur unitaire u2 de la droite Δu2 est le
vecteur propre associé à la deuxième plus grande
valeur propre λ2, il est orthogonal à u1.

• Ainsi de suite on cherche le troisième axe et ……

jusqu’au q ieme axe, q<p

51
Choix du nombre de facteur à retenir

Le critère qui permet de choisir le nombre

d’axes principaux à retenir utilisé est celui de

pourcentage inertie totale expliquée:

52
Caractères des composantes principales
• Soient Δu1 Δu2 … Δuq les q premiers axes principaux
de vecteurs unitaires u1, u2, …, uq.

• On appelle pourcentage d’inertie expliquée par

l’axe Δuj la quantité suivante définie par :

λj λj
=
IN(O) Tr(V) j=1..q
53
Représentation des individus
• L’inertie est donc aussi égale à la somme des
variances des variables étudiées.

• Remarque: dans le cas où les variables sont

centrées réduites, la variance de chaque variable
vaut 1.
• L’inertie totale est alors égale à p (nombre de
variables). 54
Représentation des individus
• Supposons que nous avons retenu q axes
principaux, q<=p. Alors on doit effectuer la
projection des individus xi ϵRp dans l-hyper plan H
formés par les q axes principaux.

• La valeur de la projection de xi sur l’axe Δul notéé

c(i,l) est donnée par
c(i,l)= xi * ul

55
Représentation des individus
• La jème composante principale fournit les
coordonnées des n individus sur le jème axe
principal.

• Si on désire une représentation plane des

individus, la meilleure sera celle réalisée
grâce aux deux premières composantes
principales.
56
Représentation d’individus
supplémentaires
• On désire savoir où placer sur un graphique un
nouveau individu xk dont on connait ses coordonnés
dans Rp
x1 k
x2 k
xk= .. ϵ Rp
xpk

Pour cela on calcule les coordonnées de xk dans

le système des axes principaux, c-à-d on calcule
les valeurs txk a1, txk a2, …, txk ap où les al sont les
facteurs principaux, lk=1,p, al=Mul 57
Représentation des variables
supplémentaires
• Les proximités entre les composantes
principales et les variables initiales sont
mesurées par les covariances, et sur tout les
corrélations.
• R(cj,xi) est le coefficient de corrélation
linéaire entre cj et xi

Cercle des corrélations

58
Représentation des variables supplémentaires
• Le cercle des corrélations est la projection du
nuage des variables sur le plan des
composantes principales.

corrélation =cosinus

• Les variables bien représentées sont celles qui

sont proches du cercle, celles qui sont proches
de l’origine sont mal représentées.
59
La qualité de la représentation des
individus
Pour avoir une idée sur la qualité de la
représentation de chacun de n individus dans
le sous espace constitué par les axes
principaux, on calcul les cos2 des angles
compris entre l’individu xi et leurs projections
dans les différents sous espaces.

60
La qualité de la représentation des
individus
x

α
O
u t

• Nous dirons qu’un individu est mieux

représenté lorsque le cos2 est proche de 1.
(La valeur 1 nous l’obtenons si l’on retenait p
axes)
61

Vous aimerez peut-être aussi

Machine Learning - 2 Analyse en Composantes Principale
Pas encore d'évaluation
Machine Learning - 2 Analyse en Composantes Principale
37 pages
Cours ACP
Pas encore d'évaluation
Cours ACP
12 pages
Chapitre 2 L'Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Chapitre 2 L'Analyse en Composantes Principales (ACP)
15 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
18 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
13 pages
Analyse Factorielle des Correspondances : Études et Interprétations
Pas encore d'évaluation
Analyse Factorielle des Correspondances : Études et Interprétations
5 pages
Analyse Discriminante Multidimensionnelle
100% (1)
Analyse Discriminante Multidimensionnelle
39 pages
Analyse Factorielle Multidimensionnelle
Pas encore d'évaluation
Analyse Factorielle Multidimensionnelle
34 pages
ACP sous SPSS : Guide d'Analyse
Pas encore d'évaluation
ACP sous SPSS : Guide d'Analyse
19 pages
Séance 1
100% (1)
Séance 1
44 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
13 pages
chapitreIV. ACP
Pas encore d'évaluation
chapitreIV. ACP
38 pages
PCA avec R pour analystes de données
Pas encore d'évaluation
PCA avec R pour analystes de données
5 pages
TD2 A.d-Mea 2022-23
Pas encore d'évaluation
TD2 A.d-Mea 2022-23
5 pages
Analyse Factorielle des Correspondances AFC
Pas encore d'évaluation
Analyse Factorielle des Correspondances AFC
15 pages
As Jonas Arch Garch
Pas encore d'évaluation
As Jonas Arch Garch
49 pages
Tests de Normalité Statistique
Pas encore d'évaluation
Tests de Normalité Statistique
59 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
23 pages
Analyse ACP et AFD sur données iris
Pas encore d'évaluation
Analyse ACP et AFD sur données iris
13 pages
Acp
Pas encore d'évaluation
Acp
72 pages
Courf Afcm
Pas encore d'évaluation
Courf Afcm
23 pages
Analyse des correspondances multiples
Pas encore d'évaluation
Analyse des correspondances multiples
15 pages
Rapport-Logiciel R
Pas encore d'évaluation
Rapport-Logiciel R
21 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
42 pages
Analyse Des Donnees-1
100% (1)
Analyse Des Donnees-1
12 pages
Documents Analyse de Donnees Acp
Pas encore d'évaluation
Documents Analyse de Donnees Acp
25 pages
Analyse Factorielle des Correspondances
100% (1)
Analyse Factorielle des Correspondances
14 pages
Introduction à l'Analyse en Composante Principale
Pas encore d'évaluation
Introduction à l'Analyse en Composante Principale
30 pages
TD - Add - Série1 Rectifiée2
Pas encore d'évaluation
TD - Add - Série1 Rectifiée2
4 pages
Cours 2-ACP
Pas encore d'évaluation
Cours 2-ACP
49 pages
Analyse ACP des données automobiles
Pas encore d'évaluation
Analyse ACP des données automobiles
14 pages
Analyse Factorielle Des Correspondances-AFC
Pas encore d'évaluation
Analyse Factorielle Des Correspondances-AFC
44 pages
Classification hiérarchique descendante
Pas encore d'évaluation
Classification hiérarchique descendante
62 pages
M.Mat - EDP. 08-18
Pas encore d'évaluation
M.Mat - EDP. 08-18
78 pages
Cours ACP PDF
Pas encore d'évaluation
Cours ACP PDF
41 pages
Controle Continu - Analyse Des Données
Pas encore d'évaluation
Controle Continu - Analyse Des Données
18 pages
CC Analyse Des Données 2021
Pas encore d'évaluation
CC Analyse Des Données 2021
22 pages
ACP: Analyse de Données MIDO 2015/16
Pas encore d'évaluation
ACP: Analyse de Données MIDO 2015/16
3 pages
td5 Cor
Pas encore d'évaluation
td5 Cor
5 pages
Corrélation et Tests KMO/Bartlett
Pas encore d'évaluation
Corrélation et Tests KMO/Bartlett
8 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Analyse Bivariée: Corrélation et Régression
Pas encore d'évaluation
Analyse Bivariée: Corrélation et Régression
95 pages
Manova
Pas encore d'évaluation
Manova
7 pages
CF Ad 11-12
Pas encore d'évaluation
CF Ad 11-12
1 page
Dérivée Matricielle et Fonctions Matricielles
100% (1)
Dérivée Matricielle et Fonctions Matricielles
3 pages
Modèles À Effets Mixtes en Pratique Dans R
Pas encore d'évaluation
Modèles À Effets Mixtes en Pratique Dans R
28 pages
Exposé - Test de Normalité
Pas encore d'évaluation
Exposé - Test de Normalité
15 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
128 pages
Analyse de la régression linéaire
Pas encore d'évaluation
Analyse de la régression linéaire
126 pages
Correction des Exercices AFC et Inertie
Pas encore d'évaluation
Correction des Exercices AFC et Inertie
8 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
90 pages
Analyse des Données par ACP
Pas encore d'évaluation
Analyse des Données par ACP
45 pages
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
Pas encore d'évaluation
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
30 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
14 pages
ACP Cours 2021
Pas encore d'évaluation
ACP Cours 2021
32 pages
Méthodes d'Analyse des Données
Pas encore d'évaluation
Méthodes d'Analyse des Données
97 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
83 pages
Guide d'Analyse des Données Multivariées
100% (1)
Guide d'Analyse des Données Multivariées
59 pages
Analyse en Composnate Principale
Pas encore d'évaluation
Analyse en Composnate Principale
31 pages
ADD Chapitre 2
Pas encore d'évaluation
ADD Chapitre 2
10 pages
Analyse Factorielle et ACP en STID 2A
Pas encore d'évaluation
Analyse Factorielle et ACP en STID 2A
6 pages
PLAI 09 JS04 Arrays
Pas encore d'évaluation
PLAI 09 JS04 Arrays
38 pages
Cours Math Fin S2
Pas encore d'évaluation
Cours Math Fin S2
58 pages
1 Bilan
Pas encore d'évaluation
1 Bilan
13 pages
Seuil de Rentabilité Simplifié
Pas encore d'évaluation
Seuil de Rentabilité Simplifié
38 pages
PLAI 08 JS03 Objets Partie2
Pas encore d'évaluation
PLAI 08 JS03 Objets Partie2
47 pages
PLAI 10 JS Strings
Pas encore d'évaluation
PLAI 10 JS Strings
20 pages
Plai 06 JS01
Pas encore d'évaluation
Plai 06 JS01
47 pages
901 StructureDonnees
Pas encore d'évaluation
901 StructureDonnees
24 pages
Algo Handout Etudiants 15
Pas encore d'évaluation
Algo Handout Etudiants 15
144 pages
Introduction au framework Bootstrap
Pas encore d'évaluation
Introduction au framework Bootstrap
31 pages
IN101 - TD10 Enonce
Pas encore d'évaluation
IN101 - TD10 Enonce
4 pages
Programmation Événementielle JavaScript
Pas encore d'évaluation
Programmation Événementielle JavaScript
18 pages
PLAI 08 JS03 Objets Partie1
Pas encore d'évaluation
PLAI 08 JS03 Objets Partie1
39 pages
Hauteur et opérations sur arbres binaires
Pas encore d'évaluation
Hauteur et opérations sur arbres binaires
9 pages
Sda 2014 2015
Pas encore d'évaluation
Sda 2014 2015
527 pages
AnaDo AFC Cours Slides
Pas encore d'évaluation
AnaDo AFC Cours Slides
43 pages
Pointeurs et gestion de mémoire en C
Pas encore d'évaluation
Pointeurs et gestion de mémoire en C
46 pages
Q1 ALGO6 2016.03.02 Elts Correction
Pas encore d'évaluation
Q1 ALGO6 2016.03.02 Elts Correction
26 pages
Slides Pa 2018 2019
Pas encore d'évaluation
Slides Pa 2018 2019
467 pages
Introduction à la Statistique
Pas encore d'évaluation
Introduction à la Statistique
44 pages
Analyse des Correspondances et Interprétations
Pas encore d'évaluation
Analyse des Correspondances et Interprétations
67 pages
Test TP Programmation Sujet 1
Pas encore d'évaluation
Test TP Programmation Sujet 1
4 pages

Introduction à l'ACP pour étudiants

Transféré par

Introduction à l'ACP pour étudiants

Transféré par

Ministère de l'enseignement supérieur et de la recherche scientifique

M1 SIAD & ILM

le nombre de données, souvent très élevé, d’un

- Géométriquement : nuage de points.

points de ce nuage sur:

- un axe, un plan ou un hyperplan

(Mathématiquement: des sous-espaces vectoriels).

• Lorsqu’il n’y a que deux dimensions (

• Avec trois dimensions (largeur, hauteur et

• Mais au delà de 3 dimensions, il est

impossible de représenter les données sur un

plan ou même de les visualiser mentalement.

- Selon le point de vue, l’information retenue ne sera

• Lorsqu’on projette les données sur un plan, on

• Le rôle de l’ACP est de trouver des espaces de

• Tableau des données

• Tableau des données

où xij est la valeur prise par la variable j sur l’individu i.

• Individu: Le ieme individu est un vecteur à p

ei = (xi1, xi2, ..., xip) ϵ Rp; pour i = 1, n

• Variable: La j eme variable est la liste des n valeurs

xj = (x1j, x2j, ..., xnj)t ϵ Rn; pour j = 1, p:

• L’A.C.P: permet d’explorer les liaisons entre

• On cherche une représentation des n

• Autrement dit, on cherche à définir k

• Ces variables seront appelées «composantes

• les axes qu’elles déterminent : « axes

• les formes linéaires associées : « facteurs

2 Fk est le sous-espace tel que le nuage projeté ait

(1 ) et (2) sont basées sur les notions de:

• On appelle inertie la quantité d’information

• Une inertie nulle signifie que tous les

• Si les j variables sont centrés-réduits, l’inertie

• Déterminer les valeurs propres et les vecteurs

• Déterminer les axes factoriels

• Centrer les données ne modifie pas la forme du nuage

Dans le premier cas, quand on va chercher le

Réduire les données

• Plus la variable a un écart-type élevé, plus elle

• Pour éviter d'accorder une plus grande importance

• Transformer nos variables de telle manière que leur

• Après avoir centré les données, si on les divise par

• Lorsque les variables sont exprimées dans des

• En cas d’unités de mesure identiques ?

• La moyenne est un outil de calcul permet de

• Lorsqu’on analyse des variables centrées, ce

• Avec la variance est la moyenne des carrées des

• Ne pas réduire ou ne pas normer laisse à chaque

• La recherche d’axes portant le maximum d’inertie

équivaut à la construction de nouvelles variables

(auxquelles sont associés ces axes) de variance

• En d’autres termes, on effectue un changement de

• Les axes principaux sont ceux maximisant la

- les vecteurs propres normés à 1(axes de

- les valeurs propres (inerties associées aux axes)

• Le premier axe est celui associé à la plus

• Le deuxième axe est celui associé à la

• Si Cov(X2,X1) =0les variables X1 et X2 sont

• Obtenue par la formule suivante :

Γ=1/n *t Mcr * Mcr

- Déterminer les vecteurs propres orthogonaux

• Il n’y a pas de redondance d’information

• Les composantes principales sont centrées.

• La variance d’une composante principale est

grande valeur propre λ1. Soit donc Δu1 ce premier

• Si on veut chercher un deuxième axe Δu2 , où u2

est son vecteur unitaire orthogonal à u1 (c-à-d

• Ainsi de suite on cherche le troisième axe et ……

Le critère qui permet de choisir le nombre

d’axes principaux à retenir utilisé est celui de

pourcentage inertie totale expliquée:

• On appelle pourcentage d’inertie expliquée par

• Remarque: dans le cas où les variables sont

• La valeur de la projection de xi sur l’axe Δul notéé

• Si on désire une représentation plane des

Pour cela on calcule les coordonnées de xk dans

Γ=1/n t Mcr Mcr