0% ont trouvé ce document utile (0 vote)
51 vues135 pages

Analyse Statistique

Ce document présente une analyse statistique des données d'expression, incluant des objectifs, des méthodes et des applications. Il couvre des sujets tels que la description statistique, l'analyse en composantes principales, l'analyse factorielle discriminante, et la classification. Des exemples pratiques, notamment sur la nutrition chez la souris, sont également fournis pour illustrer les concepts abordés.

Transféré par

khadija aamara
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues135 pages

Analyse Statistique

Ce document présente une analyse statistique des données d'expression, incluant des objectifs, des méthodes et des applications. Il couvre des sujets tels que la description statistique, l'analyse en composantes principales, l'analyse factorielle discriminante, et la classification. Des exemples pratiques, notamment sur la nutrition chez la souris, sont également fournis pour illustrer les concepts abordés.

Transféré par

khadija aamara
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Analyse statistique des

donne´ es
d’expression
ALAIN BACCINI1, PHILIPPE BESSE 1 , SE´ BASTIEN DE´ JEAN1 ,
PASCAL MARTIN2, CHRISTE` LE ROBERT-GRANIE´ 3 & MAGALI SAN
CRISTOBAL 4

Version de´cembre 2008 — mises a` jour et comple


´ments :
http ://[Link]/biostat/

(1) Institut de Mathe´matiques de Toulouse – UMR CNRS


5219 Laboratoire de Statistique et Probabilite´s
Universite´ de Toulouse
(2) Laboratoire de Pharmacologie-Toxicologie – (3) Station
d’ame´lioration ge´ne´tique des animaux
(4) Laboratoire de ge´ne´tique cellulaire
Institut National de la Recherche Agronomique
2
Table des
matie` res
Avant-propos 9
Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1Introduction 11
1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1. Jeux de donne´es
3 Application
. . . aux
. . donne´es
. . . . . d’expression
. . . . . . . .. .. .. .. .. .. .. .. .. .. .. .. .. . . . . . . . . . .
13
2. Spe´cificite´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3. Choix me´thodologiques initiaux . . . . . . . . . . . . . . . . . . . . . .
14
2Description statistique e´le´mentaire 17
14
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2
[Link] d’une variable
Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. .. .. .. .. .. . . .
17
2. Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3Liaison entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1. Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . .
20
2. Une variable quantitative et une qualitative . . . . . . . . . . . . . . . .
20
3. Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . .
22
4Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1. Matrices des covariances et des corre´lations
. . . . . . . . . . . . . . . . 25

2. Tableaux 25
5 Proble`mes . . . de
. . nuages
. . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
25
6 Exemple : nutrition chez la souris
. . . . . . . . . . . . . . . . . . . . . . . . . 25

3Analyse en Composantes Principales 26


29
1introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3
4 TABLE DES MATIE` RES

2Pre´sentation e´le´mentaire de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . 30


2.1Les donne´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2Re´sultats pre´liminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3Re´sultats ge´ne´raux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4Re´sultats sur les variables . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Re´sultats sur les 33
individus . . . . . . . . . . . . . . . . . . . . . . . . .
3Repre´sentation vectorielle de donne´es quantitatives . . . . . . . . . . . . . . . . 35
3.1Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Interpre´tation statistique de la me´trique des poids . . . . . . . . 36
. . . . .
3.3La me´thode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4Mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2De´finition e´quivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5Repre´sentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3Repre´sentation simultane´e ou “biplot” . . . . . . . . . . . . . . . . . . . 42
6Choix de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.1Part d’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.2Re`gle de Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.3E´ boulis des valeurs propres 44


. . . . . . . . . . . . . . . . . . . . . . . .
6.4Diagramme en boˆıte des variables principales . . . . . . . . . . . . . . . 44
7 Interpre 46
´tation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8Donne´es d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.1Exploration e´le´mentaire . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.2Analyse en composantes principales . . . . . . . . . . . . . . . . . . . . 46
9Exemple : nutrition chez la souris 52
. . . . . . . . . . . . . . . . . . . . . . . . .

4Analyse Factorielle Discriminante 57


1Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2De´finition
1.1 .Donne´es
. . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . 58
57
1.
1.2 Mode`le
Objectifs . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 58
57
2.
1.3 Estimation
Notations . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 59
58
3Re´alisation de l’AFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
TABLE DES MATIE` RES 5

1. Matrice a` diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
2. Repre´sentation des individus . . . . . . . . . . . . . . . . . . . . . . . .
60
3. Repre´sentation des variables . . . . . . . . . . . . . . . . . . . . . . . .
4Variantes de l’AFD 60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.
4. Individus
Interpre´tationsde meˆmes poids. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . .
2. .Me´trique60de Mahalanobis
5Exemples .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . . . . . . . . . . . . 61
61
5Positionnement multidimensionnel 65
62
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
65
2
[Link], similarite´s
De´finitions . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . .
67
2. Distances entre variables . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3Recherche d’une configuration de points . . . . . . . . . . . . . . . . . . . . . .
68
1. Proprie´te´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
2. Explicitation du MDS . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4 Application au choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5 Donne´es d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
6 Exemple : nutrition chez la souris
. . . . . . . . . . . . . . . . . . . . . . . . . 70
6 Classification 74
77
1Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.1Les donne´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.2Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.3Les me´thodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3Mesures d’e´loignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.1Indice de ressemblance, ou similarite´ . . . . . . . . . . . . . . . . . . . 82
3.2Indice de dissemblance, ou dissimilarite´ . . . . . . . . . . . . . . . . . . 82
3.3Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.7Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4Classification ascendante hie´rarchique . . . . . . . . . . . . . . . . . . . . . . . 84
4.1Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2Distance, ou dissemblance, entre deux classes . . . . . . . . . . . . . . . 84
6 TABLE DES MATIE` RES

4.3Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5 Agre´gation autour de centres mobiles . . . . . . . . . . . . . . . . . . . . . . . 85
5.1Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2Principale me´thode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3Proprie´te´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6 Donne´es d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 91

7Mode`le line´aire et re´gression 95


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
2 [Link] mode`le de re´gression
Ecriture simple
et hypothe`ses du mode`le. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 95

2. Le mode`le line´aire gaussien . . . . . . . . . . . . . . . . . . . . . . . . 96


97
3. Estimation des parame`tres β1 et β2
. . . . . . . . . . . . . . . . . . . . 98
4. Proprie´te´s des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 100
5. Estimation ponctuelle de σ2 . . . . . . . . . . . . . . . . . . . . . . . . 100
6. Tests d’hypothe`se et intervalles de confiance 100
3Re´gression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 101
1. Multicoline´arite´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7. Ve´rification des hypothe`ses 106
2. Crite`res
. . . . . de
. .se´lection
. . . . . de
. .mode`le
. . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 107
8Mode`le line´aire : analyse de variance 107
109
1ANOVA a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1. Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2. Diverses parame´trisations 110
. . . . . . . . . . . . . . . . . . . . . . . . . 111
3. Ve´rification des hypothe`ses - Diagnostics . . . . . . . . . . . . . . . . . 112
4. Estimation des 112
parame`tres . . . . . . . . . . . . . . . . . . . . . . . . .
2 ANOVA a` deux facteurs croise´s . . . . . . . . . . . . . . . . . . . . . . . 114
5.
. . . Intervalle de confiance et tests d’hypothe`ses
. . . . . . . . . . . . . . . . 116
3 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
. . .
1. Rappels sur les risques de premie`re et seconde espe`ce 117
4 Tests multiples
. . . . . . . . .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 117
2. line´aire
5Mode`le Testsmixte
multiples . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
gaussien . . 118
TABLE DES MATIE` RES 7

5.1 Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119


5.2 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3 Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.4 De´finition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6 Exemple : nutrition chez la souris 122
. . . . . . . . . . . . . . . . . . . . . . . . .
6.1Analyses de variance et mode`le mixte . . . . . . . . . . . . . . . . . . . 122
6.2Principe des analyses de variance . . . . . . . . . . . . . . . . . . . . . 122
6.3Synthe`se des tests multiples . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4Mode`le mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
En guise de conclusion 129

A Annexes 133
1 Analyse canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
2 Mode`le line´aire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
134
8 TABLE DES MATIE` RES
Avant-propos

Motivations
Le de´veloppement des moyens informatiques de stockage (bases de donne´es) et de
calcul permet le traitement et l’analyse d’ensembles de donne´es tre`s volumineux. De plus, le
perfec- tionnement des interfaces offre aux utilisateurs, statisticiens ou non, des possibilite´s de
mise en œuvre tre`s simples des outils logiciels. Dans ce contexte, le biologiste dispose d’un
corpus rela- tivement sophistique´ de techniques statistiques utilisables sur les donne´es
d’expression des ge`nes produites par PCR, macro ou microarrays (biopuces). Les logiciels
commerciaux ou non offrent des e´ventails plus ou moins larges d’acce`s a` ces techniques dans
une pre´sentation plus ou moins explicite voire “boˆıte noire”. Intentionnellement ce cours a fait
le choix d’illustrer les techniques par un logiciel, le plus complet et le plus explicite possible :
R. Meˆme s’il ne semble pas le plus simple d’utilisation par rapport a` certains produits
commerciaux privile´giant une interface gra- phique “conviviale”, son utilisation incite a`
l’indispensable compre´hension des me´thodes et de leurs limites. Il fait bien admettre qu’il ne
suffit pas d’obtenir des re´sultats, il faut leur donner du sens. Rien ne nous semble en effet plus
dangereux que des re´sultats ou des graphiques obtenus a` l’aide de quelques clics de mulot
dont ni les techniques, ni les options, ni leurs limites ne sont clairement explicite´es ou controˆle
´es par l’utilisateur. Il est par ailleurs risque´ de se laisser enfermer par les seules me´thodes et
options offertes par “un” logiciel. En pratique, le re´agencement ou la re´organisation de
quelques commandes R offrent une combinatoire tre`s ouvertes de possibilite´s contrairement à
un syste`me clos de menus pre´de´finis. Il offre par ailleurs, graˆce à de nombreuses boˆıtes a`
outils librement accessibles et continuellement mises a` jour, un ensemble exhaustif des
techniques et de leurs options ainsi que des interfaces à des gestionnaires de bases de donne´es
ou des outils spe´cifiques a` l’e´tude des biopuces (Bioconductor).

Objectifs ge´ ne´ raux


Ce cours se place en aval d’une pre´sentation des proble`mes de planification, d’acquisition
et de transformation (traitement d’image, normalisation) des donne´es d’expression. D’autres
cours et re´fe´rences existent sur ces points (voir page web), ils ne sont pas de´veloppe´s ici meˆme
s’ils sont tout aussi influents sur la pertinence et la qualite´ des re´sultats obtenus. Les me´thodes
se´lectionne´es sont celles paraissant les plus adapte´es à la repre´sentation graphique des donne´es
d’expression et a` la construction de mode`les explicatifs. Il s’agit de rechercher les repre
´sentations graphiques les plus e´clairantes pour la compre´hension de ce type de donne´es, de
leurs structures, puis de rechercher ou d’infe´rer des hypothe`ses spe´cifiques.
Ce cours se propose donc d’introduire deux grandes familles de me´thodes sous une
forme homoge`ne, synthe´tique et relativement intuitive en privile´giant la mise en œuvre
pratique aux de´veloppements the´oriques. Sont ainsi traite´s des exemples simples, acade´miques,
et d’autres plus

9
10 TABLE DES
MATIE` RES

complexes mais provenant d’expe´riences re´elles de mesures d’expressions.


i. Techniques statistiques exploratoires dites multidimensionnelles recouvrant d’une part les
me´thodes factorielles et d’autre part les me´thodes de classification ou apprentissage
non- supervise´.
ii. Me´thodes statistiques dites infe´rentielles et de mode´lisation : tests, tests multiples et
le
mode`le line´aire sous diffe´rentes formes (re´gression, analyse de variance, mode`le mixte).
D’autres techniques plus re´centes avec un objectif de discrimination et issues de la the´orie
de l’apprentissage (agre´gation de mode`les, support vector machine...) ont volontairement e´te´
laisse´es de coˆte´. Elles ne´cessiteraient plus de temps pour eˆtre aborde´es.
Ce de´roulement pe´dagogique line´aire ne doit pas faire perdre de vue que la re´alite´ d’une
ana- lyse est plus complexe et ne´cessite diffe´rentes e´tapes en boucle afin, par exemple, de
controˆ ler l’influence possible des choix parfois tre`s subjectifs ope´re´s dans les e´tapes de
normalisation pour e´ventuellement les remettre en cause.
L’objectif principal est donc de faciliter la mise en œuvre, la compre´hension et l’interpre
´tation des re´sultats des techniques de´crites pour en faciliter une utilisation pertinente et re´fle
´chie à l’aide d’un logiciel (R) largement re´pandus dans la communaute´ scientifique. Ce cours
ne peut se conce- voir sans une mise en œuvre pratique au cours de se´ances de travaux dirige´s
sur machine.

Remerciements
Un grand merci a` Agne`s Bonnet, Heinrick Laurell, Pascal Martin, Gwenola Tosser-Klopp
et Nathalie Viguerie pour les discussions scientifiques autour de leurs donne´es respectives.
Chapitre 1
Introduction

1 Objectifs
Toute e´tude sophistique´e d’un corpus de donne´es et leur mode´lisation sont pre´ce´de´es d’une e
´tude exploratoire a` l’aide d’outils, certes rudimentaires mais robustes, en privile´giant les repre
´sentations graphiques. C’est la seule fac¸on de se familiariser avec des donne´es et surtout de de
´pister les sources de proble`mes :
• valeurs manquantes, errone´es ou atypiques,
• modalite´s trop rares,
• distributions “anormales” (dissyme´trie, multimodalite´, e´paisseur des queues),
• incohe´rences, liaisons non line´aires.
• ...
C’est ensuite la recherche de pre´-traitements des donne´es afin de les rendre conformes aux
tech- niques de mode´lisation ou d’apprentissage qu’il sera ne´cessaire de mettre en œuvre afin
d’atteindre les objectifs fixe´s :
• transformation : logarithme, puissance, centrage, re´duction, rangs. . . des variables,
• codage en classe ou recodage de classes,
• imputations ou non des donne´es manquantes,
• re´duction de dimension, classification et premier choix de variables,
• classification ou typologie des observations.
Attention, le coˆte´ rudimentaire voire trivial de ces outils ne doit pas conduire à les ne´gliger au
pro- fit d’une mise en œuvre imme´diate de me´thodes beaucoup plus sophistique´es, donc
beaucoup plus sensibles aux proble`mes cite´s ci-dessus. S’ils ne sont pas pris en compte, ils re
´apparaˆıtront alors comme autant d’artefacts susceptibles de de´naturer voire de fausser toute
tentative de mode´lisation.
Plus pre´cise´ment, ces me´thodes descriptives ne supposent, a priori, aucun mode`le sous-
jacent, de type probabiliste. Ainsi, lorsqu’on conside`re un ensemble de variables quantitatives
sur les- quelles on souhaite re´aliser une Analyse en Composantes Principales, il n’est pas ne
´cessaire de supposer que ces variables sont distribue´es selon des lois normales. Ne´anmoins,
l’absence de donne´es atypiques, la syme´trie des distributions sont des proprie´te´s importantes
des se´ries ob- serve´es pour s’assurer de la qualite´ et de la validite´ des re´sultats.
La de´marche traditionnelle consiste ensuite a` enchaˆıner sur des techniques dites d’infe
´rence statistique visant a` tester les hypothe`ses retenues. Selon le nombre de variables
explicatives ou a` expliquer, leur nature qualitative ou quantitative, diffe´rents types de mode`les
et tests associe´s sont a` conside´rer.

11
12 CHAPITRE 1. INTRODUCTION

En the´orie, contrairement à l’approche exploratoire, l’approche infe´rentielle ne´cessite une


hy- pothe`se probabiliste sur la distribution des observations ou des erreurs qui est, le plus
souvent, l’hypothe`se de normalite´ : la loi est suppose´e gaussienne. En pratique, cette
hypothe`se n’est de toute fac¸on gue`re prouvable, les tests effectue´s sur les re´sidus estime´s sont
peu puissants (risque d’accepter à tord l’hypothe`se mal maˆıtrise´). Cette hypothe`se est ne
´anmoins implicitement utilise´e par les logiciels qui produisent syste´matiquement les re´sultats
de tests. Plus rigoureusement, ces re´sultats sont justifie´s par les proprie´te´s des distributions
asymptotiques des estimateurs, proprie´te´s qui ne sont pas de´veloppe´es dans ce cours. En conse
´quence, du moment que les e´chantillons sont de taille “raisonnable”, hypothe`se on non de
normalite´, les distributions des estimateurs et donc les statistiques de test sont conside´re´es
comme valides.
En revanche, d’autres aspects des hypothe`ses, inhe´rentes aux me´thodes de´veloppe´es et
qui, en pratique, conditionnent fortement la qualite´ des estimations, doivent eˆtre e´value´s avec
soin : tests multiples, line´arite´, coline´arite´, homosce´dasticite´, points influents ou atypiques
(outliers). Les diffe´rents diagnostics ainsi que le proble`me du choix des variables explicatives,
c’est-a`-dire du choix de mode`le, sont e´galement fondammentaux.

2 Contenu
Ce cours se propose tout d’abord d’introduire brie`vement les techniques permettant de re
´sumer les caracte´ristiques (tendance centrale, dispersion, diagramme en boˆıte , histogramme,
estimation non parame´trique) d’une variable statistique ou les relations entre variables de meˆme
type quanti- tatif (coefficient de corre´lation, nuage de points), ou qualitatif (χ 2 , Cramer,
Tchuprow) ou de types diffe´rents (rapport de corre´lation, diagrammes en boˆıtes paralle`les). Les
notions pre´sente´es sont illustre´es sur des jeux de donne´es d’expression.
Apre`s cette approche uni puis bi-dimensionnelle, les techniques multidimensionnelles1
sont de´crites et illustre´es. Elles diffe`rent selon le type des variables conside´re´es mais permettent
toutes de re´duire la dimension par un ensemble de facteurs afin de re´sumer un tableau (n
× p) de grande dimension et re´ve´ler ses caracte´ristiques. L’analyse en composantes
principales (ACP) pour les variables quantitatives ; l’analyse des correspondances simples ou
multiples (AFCM) pour les variables qualitatives ainsi que l’analyse factorielle discriminante
sont laisse´es de coˆ te´. L’analyse canonique compare deux tableaux quantitatifs correspondant
aux observations de deux groupes de variables sur les meˆmes individus. Les me´thodes de
classification (hie´rarchiques ou par re´allocation dynamique) de´terminent une variable
qualitative de´finissant une partition de l’en- semble des donne´es. D’autres techniques sont plus
spe´cifiques, le positionnement multidimension- nel ou ACP sur tableau de distances est adapte´ à
des donne´es particulie`res mais permet e´galement de structurer un ensemble de variables trop
important.
Les outils infe´rentiels sont ensuites introduits en insistant tout particulie`rement sur le
mode`le line´aire et ses adaptations : re´gression line´aire simple pour introduire les concepts
principaux : les tests et diagnostics, son extension a` la re´gression line´aire multiple d’une
variable a` explique´e quantitative par plusieurs autres explicatives e´galement quantitatives. Le
cas de variables explica- tives qualitatives est toujours un mode`le de type line´aire : ANOVA ou
analyse de variance. Enfin un dernier mode`le est introduit prenant en compte des variables
explicatives ale´atoires. Il s’agit du mode`le mixte.
Ce cours ne couvre pas, loin s’en faut, l’e´ventail des techniques statistiques utilisables
pour de´tecter les ge`nes pertinents (diffe´rentiellement exprime´s) en relation avec d’autres
variables bio-

1
Elles constituent un ensemble commune´ment appele´ en France “Analyse de Donne´es”.
3. APPLICATION AUX DONNE´ ES D’EXPRESSION
13

logiques. Il manque la description des techniques de discrimination classiques (analyse


discimi- nante de´cisionnelle, re´gression logistique) et surtout celles re´centes e´mergeant a` la
frontie`re de la Statistique et de l’Informatique (machine learning) dans le cadre de la the´orie
de l’apprentis- sage (Vapnik 1999). Suppport Vector machine (SVM), bagging, boosting,
random forest en sont les principales repre´sentantes (cf. Hastie et col. 2001 pour une revue
ou Besse 2003 pour une introduction et Baccini et col. (2005) pour une premie`re utilisation.

3 Application aux donne´es d’expression


Pour se montrer re´aliste et de´passer les exemples acade´miques pour lesquels tout marche
(trop) bien, les donne´es utilise´es pour illustrer ce cours sont effectivement des donne´es
d’expression recueillies dans le cadre du Ge´nopoˆle de Toulouse. Trois exemples de donne´es
transcriptomiques sont utilise´es. Le premier a e´te´ obtenu par PCR (Polymerase Chain
Reaction), les deux suivants par puces a` ADN sur membrane de nylon (macroarray). Dans
chaque cas, le nombre de ge`nes e´tudie´s est limite´ : entre 36 et 871, alors que l’homme,
comme la souris, en comporte environ 30000. Les donne´es nous ont e´te´ fournies apre`s
normalisation, de sorte que ce proble`me ne sera pas aborde´ ici. De meˆme, les ge`nes conside´re
´s ayant e´te´ au pre´alable se´lectionne´s, le proble`me de la de´tection des ge`nes sur-exprime´s (ou
sous-exprime´s) ne sera pas aborde´ directement, mais seulement a` travers les analyses
statistiques re´alise´es.

1. Jeux de donne´es
Nutrition chez la souris
(T. Pineau, P. Martin, Unite´ de Pharmacologie-Toxicologie, INRA Toulouse)
Pour cette e´tude de nutrition, nous disposons de 40 souris re´parties selon un plan a` 2
fac- teurs (ge´notype a` 2 niveaux et re´gime a` 5 niveaux) avec 4 observations par cellule. Les
mesures effectue´es sont, d’une part, les mesures d’expression de 10 ge`nes releve´es sur
macroarray et, d’autre part, les proportions de 21 acides gras mesure´es dans le foie.
La question du praticien concerne l’existence de corre´lations entre certains ge`nes ou
groupes de ge`nes et certains acides gras he´patiques.
Cet exemple est plus particulie`rement de´veloppe´ au cours des travaux pratiques et joue
un roˆ le de fil rouge tout au long de ce document afin d’en illustrer les principaux aspects ou
point de vue. Les re´sultats de´crits ici sont repris d’un article (Baccini et col. 2005) qui en
font une analyse relativement exhaustive. C’est article est à paraˆıtre dans un nume´ro spe´cial du
Journal de La Socie´te´ Franc¸aise de Statistique consacre´ aux donne´es d’expression.
Obe´site´ humaine
(D. Langin, N. Viguerie, Unite´ de recherche sur les Obe´site´s - INSERM U586, Toulouse)
Pour cette e´tude, 50 patients re´partis sur 8 sites europe´ens ont e´te´ soumis a` 2 re´gimes diffe
´rents : plus ou moins riche en lipides et glucides avec meˆme apport calorique. Nous disposons
des expres- sions de 36 ge`nes pre´-se´lectionne´s mesure´es par PCR avant le re´gime et au bout de
10 semaines. Ces donne´es sont comple´te´es par les releve´s (avant et apre`s) de quelques
parame`tres cliniques di- rectement relie´s a` l’amaigrissement (masse, masse grasse...). Ces donne
´es sont par ailleurs traite´es par Viguerie et col. (2005).
Le proble`me consiste a` trouver un mode`le tenant compte des diffe´rents facteurs afin
d’en extraire les ge`nes diffe´rentiellement exprime´s.
14 CHAPITRE 1. INTRODUCTION

Cancer pancre´atique humain


(H. Laurell, Unite´ de biologie et pathologie digestive - INSERM U531, Toulouse)
L’e´tude a pour but d’ame´liorer le diagnostic du cancer pancre´atique dont le pronostic
est tre`s mauvais. Nous disposons de l’expression de 871 ge`nes “spe´cifiques” du cancer mesure
´e via une membrane nylon sur 65 souches diffe´rentes : 49 cellules (26 pancre´atiques, 18
coliques et 5 leuce´miques) et 16 tissus (3 pancre´as normaux et 13 tumeurs). Ces donne´es
sont traite´es par Laurell et col. (2005).
L’objectif est de repre´senter au mieux ces donne´es afin d’en extraire des informations en
termes de groupe de ge`nes et/ou de souches.
2. Spe´cificite´s
Ce cours est de´libe´re´ment oriente´ vers un type particulier de donne´es qui se caracte´rise
par, en ge´ne´ral, un nombre tre`s important de ge`nes dont l’expression est observe´e sur un
nombre re- lativement restreint d’e´chantillons biologiques. De fac¸on formelle, le proble`me se
pose comme l’observation d’une variable, l’expression (ou quantite´ d’ARN messager produite)
dans des situa- tions expe´rimentales croisant deux facteurs : le ge`ne et le type d’e´chantillon
biologique (tissus sain ou pathologique, culture cellulaire ...). Le premier facteur peut pre´senter
quelques centaines voire dizaines de milliers de niveaux tandis que le second, pour des raisons e
´videntes de couˆts, ne pre´sente en ge´ne´ral que quelques dizaines de niveaux.
Nous nous inte´ressons donc a` l’analyse d’un tableau de donne´es dont on cherche des repre
´sentations graphiques pertinentes quant a` l’expression des ge`nes, puis une approche de type
“analyse de va- riance” donnera un autre regard, par des tests, sur la significativite´ des expressions
observe´es. La difficulte´ majeure rencontre´e, voire meˆme le de´fi au statisticien, est pose´ par le
nombres de ge`nes
(ou variables) conside´re´s au regard du nombre d’e´chantillon biologiques. Ces valeurs sont en
rup- ture brutale avec les habitudes prises avec des tableaux de taille raisonnable, qui font ge´ne
´ralement jouer un roˆle dissyme´trique aux lignes (“individus”) et colonnes (“variables”) du
tableau. Cette si- tuation induit des difficulte´s importantes a` tous les niveaux de l’analyse. Il
faut noter e´galement la pre´sence possible d’autres variables biologiques observe´es sur les
meˆmes e´chantillons avec le souci de vouloir comparer ou relier expressions et valeur prises par
ces variables.
Dans la plupart des me´thodes conside´re´es, de nombreux choix sont laisse´s a` l’utilisateur
qui doit les conduire en connaissance de cause ou “taˆtonner” pour arriver a` des repre´sentation
satisfai- sante, des tests significatifs, compte tenu de ses a priori et surtout de ses conditions
expe´rimentales. Ces choix doivent bien suˆr eˆtre connecte´s a` ceux relatifs aux proble`mes de
normalisation dus a` la technique de marquage et a` la pre´sence de “ge`nes” te´moins ou calibre´s
sur les biopuces.

3. Choix me´thodologiques initiaux


Voici une tentative de pre´sentation synthe´tique de ces choix. Cette liste n’est sans doute
pas exhaustive, elle devra eˆtre comple´te´e avec l’acquisition d’une meilleure expertise du
traitement de ces donne´es. Nous pouvons de´ja` insister sur l’indispensable dialogue entre
biologiste et statisti- cien pour ope´rer ces choix en connaissance de cause tant sur les aspects
techniques que sur leurs implications biologiques. Ces choix ne pourront bien suˆr pas tous
eˆtre discute´s en de´tail dans le cadre restreint de ce cours et nous nous proposons d’en
illustrer les principaux sur les jeux de donne´es rencontre´s.
3. APPLICATION AUX DONNE´ ES D’EXPRESSION
15

Transformations
Les donne´es traite´es sont issues des proce´dures de normalisation affe´rentes aux techniques
de marquage ou peuvent encore subir des transformations. Voici les plus courantes en pratique :
logarithme cette fonction corrige une distribution de variable trop dissyme´trique
(skewness) et re´duit l’influence de grandes valeurs qui pourraient eˆtre atypiques. Ceci
se justifie en conside´rant que dans certains syste`mes naturels, des effets peuvent eˆtre
mode´lise´s par des facteurs multiplicatifs plutoˆt qu’additifs.
centrage les donne´es se pre´sentent sous la forme d’une matrice, il est habituel, par exemple
lors d’une analyse en composantes principales, de centrer les colonnes. Chaque
variable est translate´e de la valeur de sa moyenne empirique qui devient donc nulle.
L’information lie´e à la “moyenne” peut eˆtre utile en soi mais est rarement tre`s
informative : cela concerne l’ex- pression moyenne d’un ge`ne pour toutes les puces ou
celle d’une puce pour tous les ge`nes. On verra que le roˆ le des lignes et colonnes ou la
distinction entre variables et individus n’e´tant pas toujours explicite, il peut eˆtre inte
´ressant de proce´der a` un double centrage a` la fois en lignes et en colonnes du tableau
des donne´es.
re´duction dans le meˆme ordre d’ide´e, l’unite´ de mesure utilise´e n’est pas toujours a` prendre
en compte surtout si elle change d’une variable a` l’autre ou encore si les variances sont
tre`s he´te´roge`nes. Pour e´liminer l’effet des variances de´pendant directement des choix
d’unite´ de mesure, il est d’usage de re´duire, c’est-a`-dire de diviser par son e´cart-type
chacune des variables qui deviennent ainsi des quantite´s sans unite´. Attention, pour des
donne´es d’ex- pression, cette transformation n’est pas toujours pertinente. En ramenant à
un les variances de ge`nes, les effets de sur ou sous-expressions de certains d’entre-eux
sont en effet e´limine´s.
marges unitaires une autre fac¸on d’e´liminer une unite´ de mesure consiste à diviser les lignes
(ou les colonnes) d’un tableau par ses marges ou sommes des valeurs en lignes (ou en
colonnes). C’est la pratique courante lorsque le tableau contient des effectifs : table de
contingence et cela conduit a` l’analyse des correspondances. Pour les raisons e´voque´es
ci-dessus (sur et sous expressions), cette approche ne semble pas approprie´e aux donne´es
d’expression.
rangs lorsque les donne´es sont parseme´es de valeurs atypiques sans qu’aucune
transformation fonctionnelle (logarithme, puissance) ne puisse en atte´nuer les effets, une
fac¸on “brutale” ou “robuste” de s’en sortir consiste a` remplacer une valeur par son rang
dans la se´quence ordonne´e. Ceci est à rapprocher des coefficients de corre´lation calcule´s
sur les rangs (Spear- man).
Distances et ponde´rations
Il peut eˆtre utile d’introduire des ponde´rations sur les lignes ou colonnes du tableau
des donne´es. Cette pratique permet de redresser un e´chantillon lors d’un sondage. Il peut
s’agir, par exemple, d’e´quiliblre l’importance de groupes qui se trouveraient sous repre´sente´s à
cause “d’inci- dents techniques” ou d’affecter des poids nuls à des lignes ou colonnes dites alors
supple´mentaires. Ils n’interviennent pas dans les calculs mais restent repre´sente´s dans les
graphiques. Par de´faut les poids sont 1/n pour les lignes et 1 pour les variables ou colonnes.
Chaque ligne (chaque colonne) est conside´re´e comme un vecteur d’un espace vectoriel muni
d’un produit scalaire induisant une norme euclidienne et donc une distance entre ces vecteurs.
Par de´faut, cette distance est celle clas- sique dont le carre´ est la somme des carre´s des e´carts
entre les coordonne´es de deux vecteurs. Introduire des ponde´rations sur les lignes (les
colonnes) conduit à ponde´rer le calcul de cette dis- tance. La matrice de produit scalaire associe
´e est alors une matrice diagonale faisant intervenir les ponde´rations (leur carre´) sur la diagonale
en lieu et place de la matrice identite´.
16 CHAPITRE 1. INTRODUCTION

D’autres matrices carre´es syme´triques de´finies positives sont e´galement utilisables de


fac¸on plus ge´ne´rale. Citons l’inverse de la variance re´siduelle ou intra en analyse
discriminante,
matrice diagonalela des inverses des fre´quences marginales en analyse des correspondances
√ qui
de´finissent encore des distances euclidiennes de meˆme que la matrice terme ge´ne´ral j 1 k—2

cor(X
D’autres, Xmatrices
) . de´finissent des dissemblances entre variables : 1 — cor (X , X ) faisant
j k

inter- venir la corre´lation line´aire (Pearson) ou celle calcule´e sur les rangs (Spearman).
Factorisation et projections
Beaucoup des me´thodes propose´es proposent la recherche de facteurs associe´s a` la
construc- tion de nouvelles variables de´corelle´es obtenues par combinaison line´aires des
variables initiales et optimisant un crite`re : la variance pour l’analyse en composantes
principales. La de´composition ainsi obtenue a-t-elle un sens pour les donne´es conside´re´es ?
Combien de facteurs sont ne´cessaires pour ”re´sumer l’information” et fournir des repre
´sentations graphiques pertinentes des nuages de points (individus et variables) dans cette
nouvelle base ? Sur le plan mathe´matique, ces facteurs sont simplement les vecteurs propres
associe´s aux plus grandes valeurs propres d’une matrice (va- riance, corre´lation, produits
scalaire...) carre´e syme´trique positive relativement a` des me´triques a` de´finir dans les espaces
vectoriels des individus et des variables.
Classification
Une approche classique dans toute discipline scientifique consiste à faire de la taxinomie
c’est- a`-dire à rechercher des classes homoge`nes des objets e´tudie´s (ge`nes, e´chantillons
biologiques) au sens d’un crite`re qui se de´finit par une matrice de distances ou
dissemblances. Le choix de ce crite`re est e´videmment pre´ponde´rant pour la signification et
l’interpre´tation des re´sultats.
Test multiples

La pratique statistique usuelle vise à tester une hypothe`se H 0 : le ge`ne conside´re´ n’a pas
d’ex- pression diffe´rentielle significative. Cela conduit a` calculer une statistique de test dont la
valeur est compare´e aux quantiles de la loi de probabilite´s (Student ou Fisher) sous-jacente à
cette statis- tique. Plus pre´cise´ment, si la valeur calcule´e de la statistique de test est supe´rieure à
un α-quantile (par exemple, α = 5%), on dit que l’hypothe`se H 0 est rejete´ avec un risque de
premie`re espe`ce de 5%. EN d’autres termes et pour cet exemple, nous avons moins de 5
chances sur 100 de nous tromper en affirmant que le ge`ne en question est diffe´rentiellement
exprime´.
Le proble`me qui se pose alors est celui dit des faux positifs dus à la tre`s grande multiplicite´
des tests. En effet, en re´alisant simultane´ment autant de tests que de ge`nes, par exemple 1000,
rien que du fait du hasard, il est naturel de trouver qu’en moyenne, 5% (soit ici 50) des
statistique de ces tests de´passent la valeur critique sans pour autant que les ge`nes se soient re
´ellement exprime´s d’un point de vue biologique. Ce sont les 5% d’erreurs associe´s au risque de
premie`re expe`ce induisant donc des faux positifs. Evidemment des correctifs sur les valeurs
seuils sont apporte´s pour tenir compte de la multiplicite´ des tests. Bonferronni est la plus
classique mais, tre`s contraignante, elle semble peu adapte´e à l’e´tude des donne´es d’expression.
D’autres approches sont propose´es : FDR (false discovery rate, local FDR...) et une litte´rature
tre`s volumineuse est consacre´e à ce proble`me. L’utilisateur est donc confronte´ au choix d’une
strate´gie de correction des valeurs critiques. Les autres corrections, bibliographie.
Chapitre 2

Description statistique e´ le
´1 mentaire
Introduction
l’objectif des outils de Statistique descriptive e´le´mentaire est de fournir, si possible
graphique- ment, des re´sume´s synthe´tique de se´ries de valeurs, adapte´s a` leur type
(qualitatives ou quantita- tives), et observe´es sur une population ou un e´chantillon.
Dans le cas d’une seule variable, Les notions les plus classiques sont celles de me
´diane, quantile, moyenne, fre´quence, variance, e´cart-type de´finies paralle`lement a` des repre
´sentations graphiques : diagramme en baˆton, histogramme, diagramme-boˆıte, graphiques
cumulatifs, dia- grammes en colonnes, en barre ou en secteurs.
Dans le cas de deux variables, on s’inte´resse à la corre´lation, au rapport de corre´lation ou
en- core à la statistique d’un test du χ 2 associe´ à une table de contingence. Ces notions sont
associe´es à diffe´rents graphiques comme le nuage de points (scatterplot), les diagrammes-
boˆıtes paralle`les, les diagrammes de profils ou encore en mosa¨ıque.
Les de´finitions de ces diffe´rentes notions se trouvent dans n’importe quel ouvrage e´le
´mentaire de Statistique1, nous nous proposons simplement de rappeler dans ce chapitre certains
outils moins classiques mais efficaces et pre´sents dans la plupart des logiciels statistiques. Cela
nous permettra e´galement d’illustrer les premie`res e´tapes exploratoires a` re´aliser sur un jeu de
donne´es.

2 Decription d’une variable


1. Cas quantitatif
Une variable quantitative prend des valeurs entie`res ou re´elles, elle est dite alors discre`te
ou continue. Cette proprie´te´ ayant des incidences sur la nature de sa distribution et donc sur les
gra-La
phiques associe´s.
distribution d’unNous nousstatistique
variable inte´resserons surtout aux
quantitative est variables continues.
re´sume´e par diffe´rents indicateurs
Σ n
em- de tendance centrale (moyenne x =
piriques i = 1 w i x i , me´diane) ou de dispersion (e´cart-type
σ, intervalle inter-quartiles). D’autres indicateurs s’inte´ressent a` la dissyme´trie (skeeness, associe
´e
au moment d’ordre 3) ou encore a` l’aplatissement (kurtosis a` partir du moment d’ordre 4)
Deux graphiques permettent de rendre compte pre´cise´ment de la nature de la
distribution. La statistique de Kolmogorov est la plus couramment utilise´e pour tester l’ade
´quation a` une loi (normale).

1
Un support de cours accessible a` la page [Link]/lsp/Besse.

17
18 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE

0 150000 250000
500000 0 0

FIG. 2.1 – Obe´site´ : Diagramme-boˆıte illustrant la distribution dissyme´trique de l’expression


d’un ge`ne.
CPT1
CIDEA
B11HD
APM1

0e+00 1e+05 2e+05 3e+05 4e+05 5e+05


6e+05

FIG. 2.2 – Obe´site´ : Diagrammes-boˆıtes paralle`les repre´sentant simultane´ment les


distributions de plusieurs ge`nes.

Diagramme-boˆıte (box-and-whiskers plot)


Il s’agit d’un graphique tre`s simple qui re´sume la se´rie à partir de ses valeurs extreˆmes, de
ses quartiles et de sa me´diane.
Histogramme
Dans le cas d’un e´chantillon, on cherche a` approcher par une estimation empirique le
graphe de la densite´ de la loi the´orique associe´e a` la population. L’histogramme en est un
exemple. Une fois de´termine´e un de´coupage en classes de l’ensemble des valeurs et les fre
´quences f l d’occur- rences de ces classes, un histogramme est la juxtaposition de rectangles
dont les bases sont les amplitudes des classes conside´re´es (a l = bl — b l − 1 ) et dont les
Į
hauteurs, sont
appele´es densite´s de fre´quence. L’aire du l-e`me rectangle vaut donc f l , fre´quence de
les quantite´s
bÆ−bÆ−1
classe
la correspondante.
2. DECRIPTION D’UNE VARIABLE 19

50 8e−0
7
40 6e−0
7
Percent of

Densit
30
4e−0

y
7
Total

20
2e−0
10 7

0 0e+0
0
0e+0 1e+0 2e+0 3e+0 −1e+06 0e+00 1e+06 2e+06 3e+06
0 6 obes1[, 6 6 4e+06
8] obes1[, 8]

FIG. 2.3 – Obe´site´ : Histogramme et estimation fonctionnelle par la me´thode du noyau de


la distribution de l’expression d’un ge`ne.

Estimation fonctionnelle
La qualite´ de l’estimation d’une distribution par un histogramme de´pend beaucoup du de
´coupage en classe. Malheureusement, plutoˆt que de fournir des classes d’effectifs e´gaux et donc
de mieux re´partir l’impre´cision, les logiciels utilisent des classes d’amplitudes e´gales et tracent
donc des histogrammes parfois peu repre´sentatifs. Ces 20 dernie`res anne´es, a` la suite du de
´veloppement des moyens de calcul, sont apparues des me´thodes d’estimation dites
fonctionnelles ou non- parame´triques qui proposent d’estimer la distribution d’une variable ou
la relation entre deux variables par une fonction construite point par point (noyaux) ou dans
une base de fonctions splines. Ces estimations sont simples a` calculer (pour l’ordinateur) mais
ne´cessitent le choix d’un parame`tre dit de lissage.
L’estimation de la densite´ par la me´thode du noyau se met sous la forme ge´ne´rale :
n
(x) = 1 Σ x— i
g^ λ K
nλ x λ
i=1

ou` λ est le parame`tre de lissage optimise´ par une proce´dure automatique qui minimise une
ap- proximation de l’erreur quadratique moyenne inte´gre´e (norme de l’espace L 2 ) ; K est une
fonction syme´trique, positive, concave, appele´e noyau dont la forme pre´cise importe peu. C’est
souvent la fonction densite´ de la loi gaussienne re´duite :
1 2
K (t ) = √ 2π exp(—t /2)

qui posse`de de bonnes proprie´te´s de re´gularite´. Le principe consiste simplement a` associer


a` chaque observation un “e´le´ment de densite´” de la forme du noyau K et a` sommer tous
ces e´le´ments. Un histogramme est une version particulie`re d’estimation dans laquelle l”’e´le
´ment de densite´” est un “petit rectangle” dans la classe de l’observation.

2.2 Cas qualitatif


Par de´finition, les observations d’une variable qualitative ne sont pas des valeurs nume
´riques, mais des caracte´ristiques, appele´es modalite´s. Lorsque ces modalite´s sont naturellement
ordonne´es (par exemple, la mention au bac ou une classe d’aˆge), la variable est dite ordinale.
Dans le cas
20 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE
1
0

06KI
05UM
8

0
2
6

F
H
E
4

08UNOTT
12UNAV
09CS
2

11INSERM
10BHD
0

02FHE 06KI 09CS 11INSERM

FIG. 2.4 – Obe´site´ : Diagramme en barres et camembert de la re´partition des


centres.

contraire (par exemple, la profession dans une population de personnes actives ou la


situation familiale) la variable est dite nominale.
Les repre´sentations graphiques que l’on rencontre avec les variables qualitatives sont
assez nombreuses. Les trois plus courantes, qui sont aussi les plus approprie´es, sont les
diagrammes en colonnes, en barre, en secteurs. Tous visent a` repre´senter la re´partition en
effectif ou fre´quences des individus dans les diffe´rentes classes ou modalite´s.

3 Liaison entre variables


Dans cette section, on s’inte´resse a` l’e´tude simultane´e de deux variables X et Y .
L’objectif essentiel des me´thodes pre´sente´es est de mettre en e´vidence une e´ventuelle variation
simultane´e des deux variables, que nous appellerons alors liaison. Dans certains cas, cette
liaison peut eˆtre conside´re´e a priori comme causale, une variable X expliquant l’autre Y ;
dans d’autres, ce n’est pas le cas, et les deux variables jouent des roˆles syme´triques. Dans la
pratique, il conviendra de bien diffe´rencier les deux situations et une liaison n’entraˆıne pas ne
´cessairement une causalite´. Sont ainsi introduites les notions de covariance, coefficient de corre
´lation line´aire, re´gression line´aire, rapport de corre´lation, indice de concentration, khi-deux
et autres indicateurs qui lui sont lie´s. De meˆme, nous pre´sentons les graphiques illustrant les
liaisons entre variables : nuage de points (scatter-plot), diagrammes-boˆıtes paralle`les,
diagramme de profils, tableau de nuages (scatter-plot matrix).

1. Deux variables quantitatives


Nuage de points
Il s’agit d’un graphique tre`s commode pour repre´senter les observations simultane´es de deux
variables quantitatives. Il consiste a` conside´rer deux axes perpendiculaires, l’axe horizontal repre
´sentant la variable X et l’axe vertical la variable Y , puis a` repre´senter chaque individu observe´ par
les co- ordonne´es des valeurs observe´es. L’ensemble de ces points donne en ge´ne´ral une ide´e assez
bonne
3. LIAISON ENTRE VARIABLES 21

60
50
"CHOEPBL"]
40
obes[,

30

25 30 35 45 50
40

obes[,
"FATEPBL"]

FIG. 2.5 – Obe´site´ : Nuage de points illustrant la liaison line´aire entre deux variables
biologiques.

de la variation conjointe des deux variables et est appele´ nuage. On notera qu’on rencontre
parfois la terminologie de diagramme de dispersion, traduction plus fide`le de l’anglais scatter-
plot.
Le choix des e´chelles a` retenir pour re´aliser un nuage de points peut s’ave´rer de´licat.
D’une fac¸on ge´ne´rale, on distinguera le cas de variables homoge`nes (repre´sentant la meˆme
grandeur et exprime´es dans la meˆme unite´) de celui des variables he´te´roge`nes. Dans le
premier cas, on choisira la meˆme e´chelle sur les deux axes (qui seront donc orthonorme´s) ;
dans le second cas, il est recommande´ soit de repre´senter les variables centre´es et re´duites sur
des axes orthonorme´s, soit de choisir des e´chelles telles que ce soit sensiblement ces variables la`
que l’on repre´sente (c’est en ge´ne´ral cette seconde solution qu’utilisent, de fac¸on automatique,
les logiciels statistiques).
Indice de liaison
le coefficient de corre´lation line´aire est un indice rendant compte nume´riquement de la
n
manie`re dont les deux variables conside´re´es Σvarient simultane´ment. Il est de´fini a` partir de la
cov(X, Y ) = wi [x
covariance qui ge´ne´ralise a` deux variables la notion dei — x][yi —:
variance
i=1 y]
Σn
= [ wi xi yi ] — x
y. i = 1

La covariance est une forme biline´aire syme´trique qui peut prendre toute valeur re´elle et dont
la variance est la forme quadratique associe´e. Elle de´pend des unite´s de mesure dans lesquelles
sont exprime´es les variables conside´re´es ; en ce sens, ce n’est pas un indice de liaison
“intrinse`que”. C’est la raison pour laquelle on de´finit le coefficient de corre´lation line´aire
(parfois appele´ coeffi- cient de Pearson ou de Bravais-Pearson), rapport entre la covariance et le
produit des e´carts-types :
cov(X, Y )
corr(X, Y ) = σX σУ .
22 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´
Le coefficient de corre´lationMENTAIRE
est e´gal a` la covariance des variables centre´es et re´duites
res-
pectivement associe´es a` X et Y : corr(X, Y ) = cov( σXX− x , σУ Y− y ). Par conse´quent, corr(X, Y )
inde´pendant des unite´s de mesure de X et de Y . Le coefficient de corre´lation est syme´trique
est
et prend ses valeurs entre -1 et +1.

3.2 Une variable quantitative et une qualitative


Notations
Soit X la variable qualitative conside´re´e, suppose´e a` r modalite´s note´es

x1 , . . . , x l , . . . , xr

et soit Y la variable quantitative de moyenne y et de variance σУ2 . De´signant par Ω l’e


´chantillon chaque modalite´ x l de X de´finit une sous-population (un sous-ensemble) Ω l de
conside´re´,
Ω:
c’est l’ensemble des individus,
x l ; on obtient suppose´s pour simplifier de poids wi = noterons
1/n et surn 1lesquels
, . . . , n mon
observe´ Σ une partition de Ω en m classes dont nous
ainsi
cardinaux (avec toujours m
ales l = 1 n l = n, ou` n = card(Ω)).
Conside´rant alors la restriction de Y a` Ω l (l = 1, . . . , m), on peut de´finir la moyenne et
la partielles de Y sur cette sous-population ; nous les noterons respectivement y l et l
variance
σ :
2
Σ
1 Y i
yl = n
ωi∈ΩÆ (ω ) ;
l

Σ
1 [Y (ωi ) — 2
σ2l = n l
ωi∈ΩÆ y ] .
l

Boˆıtes paralle`les
Une fac¸on commode de repre´senter les donne´es dans le cas de l’e´tude simultane´e d’une
va- riable quantitative et d’une variable qualitative consiste a` re´aliser des boˆıtes paralle`les ; il
s’agit, sur un meˆme graphique dote´ d’une e´chelle unique, de repre´senter pour Y un diagramme-
boˆıte pour chacune des sous-populations de´finies par X . La comparaison de ces boˆıtes donne
une ide´e assez claire de l’influence de X sur les valeurs de Y , c’est-a`-dire de la liaison entre les
deux variables.
Formules de de´composition
Ces formules indiquent comment se de´composent la moyenne et la variance de Y sur la
parti- tion de´finie par X (c’est-a`-dire comment s’e´crivent ces caracte´ristiques en fonction de
leurs valeurs partielles) ; elles sont ne´cessaires pour de´finir un indice de liaison entre les deux
r
variables. 1Σ
y = n l yl ;
n
l=1
r r
1Σ 2 1Σ
σ2У = n l (y l — y) + n σ2 = σ 2 + σ 2 .
n n l l E R
l=1 l=1

Le premier terme de la de´composition de σУ2 , note´ σE2 , est appele´ variance explique´e (par la
partition, c’est-a`-dire par X ) ou variance inter (between) ; le second terme, note´ Rσ2 , est
variance re´siduelle ou variance intra
appele´
(within).
3. LIAISON ENTRE VARIABLES 23

15000
0
10000
0
5000
0
0
apres avan
t

FIG. 2.6 – Obe´site´ : diagrammes-boˆıtes paralle`les illustrant les diffe´rences de distribution


des expressions d’un ge`ne avant et apre`s re´gime.

Rapport de corre´lation
Il s’agit d’un indice de liaison entre les deux variables X et Y qui est de´fini par :
s
σ 2E
= ;
sУ / X
σ2У

X et Y n’e´tant pas de meˆme nature, s У / X n’est pas syme´trique et ve´rifie 0 ≤ s У / X ≤ 1.


Cet encadrement de´coule directement de la formule de de´composition de la variance. Les
valeurs 0 et 1 ont une signification particulie`re inte´ressante.

3.3 Deux variables qualitatives


Notations
On conside`re dans ce paragraphe deux variables qualitatives observe´es simultane´ment sur
n individus. On suppose que la premie`re, note´e X , posse`de r modalite´s note´es x 1 , . . . ,
x l , . . . , x r , et que la seconde, note´e Y , posse`de c modalite´s note´es y1, . . . , y h , . . . , yc.
Ces donne´es sont pre´sente´es dans un tableau a` double entre´e, appele´ table de
contingence, dans lequel on dispose les modalite´s de X en lignes et celles de Y en colonnes.
donc de dimension
Ce tableau est r × c et a pour e´le´ment ge´ne´rique le nombre n l h d’observations conjointes
modalite´s x l de X et y h de Y ; les quantite´s n l h sont appele´es les effectifs
des
conjoints.
Une table de contingence se pre´sente donc sous la forme suivante :
y1 ··· yh ··· yc sommes
x1 n 11 ··· n 1h ··· n 1c n 1+

. . . . .
xA nA1 ··· nAh ··· nAc n A+

. . . . .
xr n r1 ··· n rh ··· n rc n r+
sommes n +1 ··· n +h ··· n +c n
24 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE

Les quantite´s n l + ( l = 1, . . .Σ, r) et n + h (h = 1, .Σ. . , c) sont appele´es les Σeffectifs


c r r
naux ; ils
Σ c margi- sont de´finis par nl+ = n
h=1 lh et n +h = n
l = 1 lh , et ils ve l=1 n l + =
= n. De fac¸on analogue, on peut definir´ ´rifient les notions de
h=1 n + h
fre´quences frequences´
marginales. conjointes et de

Repre´sentations graphiques
On peut envisager, dans le cas de l’e´tude simultane´e de deux variables qualitatives,
d’adapter les graphiques pre´sente´s dans le cas unidimensionnel : on de´coupe chaque partie
(colonne, par- tie de barre ou secteur) repre´sentant une modalite´ de l’une des variables selon
les effectifs des modalite´s de l’autre. Mais, de fac¸on ge´ne´rale, il est plus approprie´ de re
´aliser des graphiques repre´sentant des quantite´s tre`s utiles dans ce cas et que l’on appelle les
profils.
Indices de liaison
Lorsque tous les profils-lignes sont e´gaux, ce qui est e´quivalent a` ce que tous les
profils- colonnes soient e´gaux et que
n l+n +h
∀(l, h) ∈ {1, . . . , r } × {1, . . . , c} : n l h ,
n
=
on dit qu’il n’existe aucune forme de liaison entre les deux variables conside´re´es X et Y . Par
suite, la mesure de la liaison va se faire en e´valuant l’e´cart entre la situation observe´e et l’e´tat
de non liaison de´fini ci-dessus.
Khi-deux
Il est courant en statistique de comparer une table de contingence observe´e, d’effectif
conjoint ge´ne´rique n l h , à une table de contingence donne´e a priori (et appele´e standard),
d’effectif conjoint ge´ne´rique s l h , en calculant la quantite´
Σr Σc (n l h — sl h )2
.
l = 1 h=1 s lh

De fac¸on naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc
l’indice appele´ khi-deux (chi-square) et de´fini comme suit :
n n
r c
" r c #
Σ Σ (n l h — l +n + h )2 Σ Σ 2
χ2 = = n n lh —
n l + n+h
l = 1 h=1 l = 1 h=1 n l + n + h 1 .
n

Le coefficient χ 2 est toujours positif ou nul et il est d’autant plus grand que la liaison entre
les deux variables conside´re´es est forte. Malheureusement, il de´pend aussi des dimensions r et c
de la table e´tudie´e, ainsi que de la taille n de l’e´chantillon observe´ ; en particulier, il n’est pas
majore´. C’est la raison pour laquelle on a de´fini d’autres indices, lie´s au khi-deux, et dont
l’objectif est de palier ces de´fauts.
Autres indicateurs
Nous en citerons trois. 2
• Le phi-deux : Φ2 = nχ . Il ne de´pend plus de n, mais de´pend encore de r et .
de c
4. VERS LE C AS MULTIDIMENSIONNEL 25

• Le coefficient T de Tschuprow :

s
T = √ Φ2 .
(r — 1)(c —
1)
On peut ve´rifier : 0 ≤ T ≤
• Le
1 . coefficient C de r
Cramer : Φ2
C = ,
d—
1 T ≤ C ≤ 1.
avec : d = inf(r, c). On ve´rifie maintenant : 0 ≤

4 Vers le cas multidimensionnel


L’objectif des prochains chapitres de ce cours est d’exposer les techniques de la statistique
descriptive multidimensionnelle. Or, sans connaˆıtre ces techniques, il se trouve qu’il est
possible de de´buter une exploration de donne´es multidimensionnelles en adaptant simplement les
me´thodes de´ja` e´tudie´es.

1. Matrices des covariances et des corre´lations


Lorsqu’on a observe´ simultane´ment plusieurs variables quantitatives (p variables, p ≥ 3)
sur le meˆme e´chantillon, il est possible de calculer d’une part les variances de toutes ces
variables,
d’autre part les p ( p2− 1 ) covariances des variables prises deux a` deux. L’ensemble de ces quantite
peut alors eˆtre dispose´ dans une matrice carre´e (p × p) et syme´trique, comportant les
´s
variances sur la diagonale et les covariances à l’exte´rieur de la diagonale ; cette matrice, appele
´e matrice des variances-covariances (ou encore matrice des covariances) sera note´e S. Elle
sera utilise´e par la suite, mais n’a pas d’interpre´tation concre`te. Notons qu’il est possible de ve
´rifier que S est semi de´finie positive.
De la meˆme manie`re, on peut construire la matrice syme´trique p × p, comportant des 1
sur toute la diagonale et, en dehors de la diagonale, les coefficients de corre´lation line´aire
entre les variables prises deux à deux. Cette matrice est appele´e matrice des corre´lations, elle
est e´galement semi de´finie positive, et nous la noterons R. Elle est de lecture commode et
indique quelle est la structure de corre´lation des variables e´tudie´es.

4.2 Tableaux de nuages


Notons X 1 , . . . , X p les p variables quantitatives conside´re´es ; on appelle tableau de nuages
le graphique obtenu en juxtaposant, dans une sorte de matrice carre´e p × p, p2 sous-graphiques ;
cha- cun des sous-graphiques diagonaux est relatif a` l’une des p variables, et il peut s’agir, par
exemple, d’un histogramme ; le sous-graphique figurant dans le bloc d’indice (j, j ' ), j /= j ' ,
'
est le nuage de points re´alise´ avec la variable X j en abscisses et la variable X j en ordonne´es.
Dans certains logiciels anglo-saxons, ces graphiques sont appele´s splom (Scatter PLOt Matrix).
Le tableau de nuages, avec la matrice des corre´lations, fournit ainsi une vision globale des
liaisons entre les variables e´tudie´es.

5 Proble`mes
Les quelques outils de ce chapitre permettent de´ja` de se faire une premie`re ide´e d’un jeu
de donne´es mais surtout, en pre´alable a` toute analyse, ils permettent de s’assurer de la fiabilite
´ des
26 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE

0 500000 200000 300000


1000000 0 0

10 11 12 13 14 15

FIG. 2.7 – Obe´site´ : La simple transformation (log(x)), de l’expression d’un ge`ne, re´sout
bien les proble`mes pose´s par l’allure “log-normale” de sa distribution avec son corte`ge de
valeurs aty- piques.

donne´es, de repe´rer des valeurs extreˆmes atypiques, e´ventuellement des erreurs de mesures ou
de saisie, des incohe´rences de codage ou d’unite´.
Les erreurs, lorsqu’elle sont de´cele´es, conduisent naturellement et ne´cessairement a` leur
cor- rection ou à l’e´limination des donne´es douteuses mais d’autres proble`mes pouvant
apparaˆıtre n’ont pas toujours de solutions e´videntes.
• Le mitage de l’ensemble des donne´es ou absence de certaines valeurs en fait partie. Faut-
il supprimer les individus incrimine´s ou les variables ? Faut-il comple´ter, par une
mode´lisation et pre´vision partielles, les valeurs manquantes ? Les solutions de
´pendent du taux de va- leurs manquantes, de leur re´partition (sont-elles ale
´atoires) et du niveau de tole´rance des me´thodes qui vont eˆtre utilise´es.
• La pre´sence de valeurs atypiques peut influencer se´ve`rement des estimations de me
´thodes peu robustes car base´es sur le carre´ d’une distance. Ces valeurs sont-elles
des erreurs ? Sinon faut-il les conserver en transformant les variables ou en
adoptant des me´thodes robustes base´es sur des e´carts absolus ?
• Meˆme sans hypothe`se explicite de normalite´ des distributions, il est pre´fe´rable d’avoir
af- faire a` des distributions relativement syme´triques. Une transformation des
variables par une fonction monotone (log, puissance) est hautement recommande´e
afin d’ame´liorer la syme´trie de leur distribution ou encore pour line´ariser
(nuage de points) la nature d’une liaison.

6 Exemple : nutrition chez la souris


Comme annonce´ en introduction, ce jeu de donne´es est repris dans chaque chapitre. Dans
cet exemple, la repre´sentation des diagrammes en boˆıtes pour les souris, ordonne´es selon le ge
´notype et le re´gime suivi (Fig. 2.8) ne donne a priori aucune tendance spe´cifique sur le
comportement de l’ensemble des ge`nes. Cette repre´sentation atteste de la qualite´ de la
production et de pre´traitement des donne´es. En effet, celles-ci ont e´te´ recueillies en utilisant
une membrane par souris ; ainsi,
6. EXEMPLE : NUTRITION CHEZ L A SOURIS 27

une quelconque anomalie sur un support, affectant l’ensemble des mesures relatives a` une
souris particulie`re, apparaˆıtrait ne´cessairement sur cette repre´sentation. Notons seulement que
quelques ge`nes atypiques, facilement repe´rables sur la figure 2.9 comme les plus surexprime´s, se
retrouvent dans les valeurs extreˆmes pour chaque souris sur la figure 2.8.


● ●

● PPAR WT ● ●
● ● ● ● ● ● ● ●
● ● ● ●

● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
1

● ● ● ● ● ● ● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●

● ●
● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ●●
● ● ● ● ●
● ● ● ●
0

● ●
● ● ● ● ● ●

● ● ● ● ● ● ● ● ●
● ● ● ●


● ● ● ● ●
● ● ●
● ● ● ●

1

● ●
● ● ● ●
● ● ●
● ● ●

dha efad lin ref tsol dha efad lin ref

2

tsol
1 3 5 7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
40 souris

FIG. 2.8 – Souris : iagrammes en boˆıtes pour les 40 souris. La ligne verticale et e´paisse se
´pare les souris selon leur ge´notype. Les lignes verticales et fines se´parent les souris selon le
re´gime qu’elles ont suivi. La ligne horizontale repre´sente la me´diane de l’ensemble des valeurs.

Les diagrammes en boˆıtes pour chaque ge`ne (Fig. 2.9) re´ve`lent des ge`nes dont
l’expression est, sur l’ensemble des souris, nettement diffe´rentes des autres (par exemple,
16SR, apoA.I, apoE). Les ge`nes des ARN ribosomiques comme le 16SR (ARN 16s
ribosomique mitochondrial), pre´sentent, dans toutes les cellules de l’organisme, des niveaux
d’expression plus e´leve´s que tous les ge`nes codant des ARN messagers. Ces ARN servent en
effet a` la traduction des ARN messagers en prote´ines. Par ailleurs, on peut constater que les
expressions de certains ge`nes varient beaucoup plus que d’autres sur l’ensemble des souris (par
exemple, FAS, S14 et THIOL). Pour ces derniers ge`nes, on peut supposer qu’une part de cette
variabilite´ est due aux facteurs conside´re´s, ce que nous essaierons de confirmer par la suite au
moyen de techniques de mode´lisation.
L’inte´reˆt de ces repre´sentations re´side davantage dans la vision synthe´tique qu’elles
offrent que dans l’information biologique que l’on peut en extraire. Elles nous orientent e
´galement dans les premiers choix me´thodologiques a` e´tablir avant de poursuivre l’analyse. En
effet, les boˆıtes relatives a` la distribution des ge`nes mettent clairement en e´vidence un certain
nombre de ge`nes dont l’expression est syste´matiquement supe´rieure à celle des autres, quelles
que soient les condi- tions expe´rimentales. De plus, la variabilite´ de ces expressions est, le plus
souvent, tre`s faible. Ce constat nous conduit a` effectuer un centrage des ge`nes (en colonnes),
afin d’e´viter un effet taille lors de la mise en œuvre de techniques factorielles. En revanche,
rien dans ces repre´sentations ne nous pousse a` centrer les e´chantillons (en lignes), ce qui,
par ailleurs, ne se justifierait pas
28 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE

16SR
1

SPI1.1
apoE

apoA.I

FAS ●

THIOL
0


S14



● ●

● ● ●
● ●



● ● ●
● ●

● ●


● ●
● ●


1

● ●

● ●
● ●
● ●



● ●
● ● ●

● ●

● ●

[Link]

2

ACAT1 AM2R Bcl.3 CBS CYP26 CYP8b1 [Link] Lpin LXRb MS PAL PPARd S14
GK Tpbeta

FIG. 2.9 – Souris : diagrammes en boˆıtes pour les 120 ge`nes. Quelques ge`nes particuliers ont e
´te´ e´tiquete´s.

sur le plan biologique. En effet, nous travaillons sur des donne´es acquises via des puces de´die
´es sur lesquelles les ge`nes conside´re´s ont e´te´ pre´se´lectionne´s et sont donc, a priori,
potentielle- ment diffe´rentiellement exprime´s dans les conditions e´tudie´es. Un centrage des e
´chantillons serait susceptible de cacher des phe´nome`nes biologiques. Ce raisonnement ne
tiendrait pas pour une expe´rimentation pange´nomique, ou` l’on pourrait supposer que
globalement les ge`nes s’expriment de la meˆme fac¸on et que les surexprime´s compensent les
sous-exprime´s.
Chapitre 3
Analyse en Composantes Principales

1 introduction
Lorsqu’on e´tudie simultane´ment un nombre important de variables quantitatives (ne serait-
ce que 4 !), comment en faire un graphique global ? La difficulte´ vient de ce que les individus e
´tudie´s ne sont plus repre´sente´s dans un plan, espace de dimension 2, mais dans un espace de
dimension plus importante (par exemple 4). L’objectif de l’Analyse en Composantes Principales
(ACP) est de revenir a` un espace de dimension re´duite (par exemple 2) en de´formant le moins
possible la re´alite´. Il s’agit donc d’obtenir le re´sume´ le plus pertinent possible des donne´es
initiales.
C’est la matrice des variances-covariances (ou celle des corre´lations) qui va permettre de re
´aliser ce re´sume´ pertinent, parce qu’on analyse essentiellement la dispersion des donne´es conside´re
´es. De cette matrice, on va extraire, par un proce´de´ mathe´matique ade´quat, les facteurs que l’on re-
cherche, en petit nombre. Ils vont permettre de re´aliser les graphiques de´sire´s dans cet espace de
petite dimension (le nombre de facteurs retenus), en de´formant le moins possible la configuration
globale des individus selon l’ensemble des variables initiales (ainsi remplace´es par les facteurs).
C’est l’interpre´tation de ces graphiques qui permettra de comprendre la structure des donne
´es analyse´es. Cette interpre´tation sera guide´e par un certain nombre d’indicateurs nume
´riques, ap- pele´s aides à l’interpre´tation, qui sont la` pour aider l’utilisateur à faire l’interpre
´tation la plus juste et la plus objective possible.
L’analyse en Composantes Principales (ACP) est un grand classique de l”’analyse des donne
´es” en France pour l’e´tude exploratoire ou la compression d’un grand tableau n × p de donne´es
quan- titatives. Le livre de Jolliffe (2002) en de´taille tous les aspects et utilisations de fac¸on
exhaus- tive. Elle est introduite ici comme l’estimation des parame`tres d’un mode`le, afin de
pre´ciser la signification statistique des re´sultats obtenus. L’ACP est introduite d’abord
intuitivement a` tra- vers l’e´tude de donne´es fictives e´le´mentaires. Elle est ensuite plus de
´taille´e d’un point de vue me´thodologique et illustre´e par deux jeux de donne´es Le premier est
constitue´
donc (32 ×des moyennes
12). sur dix
Les colonnes sont ans des tempe´ratures
l’observation moyennes
a` diffe´rents instants mensuelles
d’une meˆmedevariable.
32 villes
franc¸[Link]
Le
deuxie`me Laconcerne
matrice initiale X est de ge`nes.
des expressions
L’ACP joue dans ce cours un roˆ le central ; cette me´thode sert de fondement the´orique
aux autres me´thodes de statistique multidimensionnelle dites factorielles qui en apparaissent
comme des cas particuliers. Cette me´thode est donc e´tudie´e en de´tail et aborde´e avec diffe´rents
niveaux de lecture. La premie`re section pre´sente les grands principes de fac¸on tre`s e´le´mentaire,
voire intuitive, tandis que les suivantes explicitent les expressions matricielles des re´sultats.

29
30 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2 Pre´sentation e´le´mentaire de l’ACP


1. Les donne´es
Conside´rons les notes (de 0 a` 20) obtenues par 9 e´le`ves dans 4 disciplines (mathe
´matiques, physique, franc¸ais, anglais) :

MATH PHYS FRAN ANGL


jean 6.00 6.00 5.00 5.50
alan 8.00 8.00 8.00 8.00
anni 6.00 7.00 11.00 9.50
moni 14.50 14.50 15.50 15.00
didi 14.00 14.00 12.00 12.50
andr 11.00 10.00 5.50 7.00
pier 5.50 7.00 14.00 11.50
brig 13.00 12.50 8.50 9.50
evel 9.00 9.50 12.50 12.00

Nous savons comment analyser se´pare´ment chacune de ces 4 variables, soit en faisant
un graphique, soit en calculant des re´sume´s nume´riques. Nous savons e´galement qu’on peut
regarder les liaisons entre 2 variables (par exemple mathe´matiques et franc¸ais), soit en faisant un
graphique du type nuage de points, soit en calculant leur coefficient de corre´lation line´aire, voire
en re´alisant la re´gression de l’une sur l’autre.
Mais comment faire une e´tude simultane´e des 4 variables, ne serait-ce qu’en re´alisant un
gra- phique ? La difficulte´ vient de ce que les individus (les e´le`ves) ne sont plus repre´sente´s
dans un plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun e´tant
caracte´rise´ par les 4 notes qu’il a obtenues). L’objectif de l’Analyse en Composantes
Principales est de revenir a` un espace de dimension re´duite (par exemple, ici, 2) en de´formant
le moins possible la re´alite´. Il s’agit donc d’obtenir le re´sume´ le plus pertinent des donne´es
initiales.
2.2 Re´sultats pre´liminaires
Tout logiciel fournit la moyenne, l’e´cart-type, le minimum et le maximum de chaque
variable.
Il s’agit donc, pour l’instant, d’e´tudes univarie´es.
Statistiques ´el´ementaires

Variable Moyenne Ecart-type Minimum Maximum

MATH 9.67 3.37 5.50 14.50


PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00

Notons au passage la grande homoge´ne´ite´ des 4 variables conside´re´es : meˆme ordre de


gran- deur pour les moyennes, les e´carts-types, les minima et les maxima.
Le tableau suivant est la matrice des corre´lations. Elle donne les coefficients de corre
´lation line´aire des variables prises deux a` deux. C’est une succession d’analyses bivarie´es,
constituant un premier pas vers l’analyse multivarie´e.
31
2. PRE´ SENTATION E´ LE´ MENTAIRE DE
L’ACP
Coefficients de corr
´elation
MATH PHYS FRAN ANGL

MATH 1.00 0.98 0.23 0.51


PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00

Remarquons que toutes les corre´lations line´aires sont positives (ce qui signifie que
toutes les variables varient, en moyenne, dans le meˆme sens), certaines e´tant tre`s fortes (0.98
et 0.95), d’autres moyennes (0.65 et 0.51), d’autres enfin plutoˆt faibles (0.40 et 0.23).

2.3 Re´sultats ge´ ne´ raux


Continuons l’analyse par celui de la matrice des variances-covariances, matrice de
meˆme nature que celle des corre´lations, bien que moins “parlante” (nous verrons ne´anmoins
plus loin comment elle est utilise´e concre`tement). La diagonale de cette matrice fournit les
variances des 4 variables conside´re´es (on notera qu’au niveau des calculs, il est plus commode
de manipuler la variance que l’e´cart-type ; pour cette raison, dans de nombreuses me´thodes
statistiques, comme en A.C.P., on utilise la variance pour prendre en compte la dispersion d’une
variable quantitative).

Matrice des variances-covariances


MATH PHYS FRAN ANGL

MATH 11.39 9.92 2.66 4.82


PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91

Les valeurs propres donne´es ci-dessous sont celles de la matrice des variances-
covariances.

Valeurs propres ; variances expliqu´ees


FACTEUR VAL. PR. PCT. VAR. PCT. CUM.

1 28.23 0.70 0.70


2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00

40.30 1.00

Interpre´tation
Chaque ligne du tableau ci-dessus correspond à une variable virtuelle (voila` les facteurs)
dont la colonne VAL. PR. (valeur propre) fournit la variance (en fait, chaque valeur propre repre
´sente la variance du facteur correspondant). La colonne PCT. VAR, ou pourcentage de variance,
correspond
32 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM. repre
´sente le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice
des variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des
individus conside´re´s, en dimension 4, est ainsi e´gale a` 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 =
40.30. Le nuage de points en dimension 4 est toujours le meˆme et sa dispersion globale n’a pas
change´. Il s’agit d’un simple changement de base dans un espace vectoriel. C’est la re
´partition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou
composantes principales, qui se trouve modifie´e : les 2 premiers facteurs restituent à eux seuls
la quasi-totalite´ de la dispersion du nuage, ce qui permet de ne´gliger les 2 autres.
Par conse´quent, les graphiques en dimension 2 pre´sente´s ci-dessous re´sument presque
par- faitement la configuration re´elle des donne´es qui se trouvent en dimension 4 : l’objectif (re
´sume´ pertinent des donne´e en petite dimension) est donc atteint.

2.4 Re´sultats sur les variables


Le re´sultat fondamental concernant les variables est le tableau des corre´lations
variables- facteurs. Il s’agit des coefficients de corre´lation line´aire entre les variables initiales
et les facteurs. Ce sont ces corre´lations qui vont permettre de donner un sens aux facteurs (de
les interpre´ter).

Corr´elations variables-facteurs
FACTEURS --> F1 F2 F3 F4

MATH 0.81 -0.58 0.01 -0.02


PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01

Les deux premie`res colonnes de ce tableau permettent, tout d’abord, de re´aliser le


graphique des variables (version SAS) donne´ ci-dessous.
Mais, ces deux colonnes permettent e´galement de donner une signification aux facteurs
(donc aux axes des graphiques).
On notera que les deux dernie`res colonnes ne seront pas utilise´es puisqu’on ne retient que
deux dimensions pour interpre´ter l’analyse.
Interpre´tation
Ainsi, on voit que le premier facteur est corre´le´ positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un e´le`ve obtient de bonnes notes dans chacune des 4
disciplines, plus il a un score e´leve´ sur l’axe 1 ; re´ciproquement, plus ses notes sont mauvaises,
plus son score est ne´gatif. En ce qui concerne l’axe 2, il oppose, d’une part, le franc¸ais et
l’anglais (corre´lations positives), d’autre part, les mathe´matiques et la physique (corre´lations ne
´gatives). Il s’agit donc d’un axe d’opposition entre disciplines litte´raires et disciplines
scientifiques, surtout marque´ par l’opposition entre le franc¸ais et les mathe´matiques. Cette
interpre´tation peut eˆtre pre´cise´e avec les graphiques et tableaux relatifs aux individus que nous
pre´sentons maintenant.
33
2. PRE´ SENTATION E´ LE´ MENTAIRE DE
L’ACP

0.
MATH

6
PHYS

0.
2
Axe
2
ANGL

−0.2
−0.6
FRAN

−0. 0.2 1.
2 0.6 0
Axe 1

FIG. 3.1 – Donne´es fictives : Repre´sentation des variables

2.5 Re´sultats sur les individus


Le tableau ci-dessous contient tous les re´sultats importants sur les individus.

Coordonn´ees des individus ; contributions ; cosinus carr


´es
POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2

jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03


alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73

On notera que chaque individu repre´sente 1 e´le´ment sur 9, d’ou` un poids (une ponde´ration)
de
1/9 = 0.11, ce qui est fourni par la premie`re colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonne´es des individus (les e´le`ves) sur les
deux premiers axes (les facteurs) et ont donc permis de re´aliser le graphique des individus. Ce
dernier permet de pre´ciser la signification des axes, donc des facteurs.
Interpre´tation
On peut ainsi voir que l’axe 1 repre´sente le re´sultat d’ensemble des e´le`ves (si on prend
leur score – ou coordonne´e – sur l’axe 1, on obtient le meˆme classement que si on prend leur
moyenne ge´ne´rale). Par ailleurs, l’e´le`ve “le plus haut” sur le graphique, celui qui a la
coordonne´e la plus e´leve´e sur l’axe 2, est Pierre dont les re´sultats sont les plus contraste´s en
faveur des disciplines litte´raires (14 et 11.5 contre 7 et 5.5). C’est exactement le contraire
pour Andre´ qui obtient la moyenne dans les disciplines scientifiques (11 et 10) mais des re
´sultats tre`s faibles dans les disci-
34 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2
and bri

−1 0 1
r g did
jea
ala i mon
Axe n
n
2 ann eve i

3
i piel
r
−3

−3 −1 0 1
2 3

Axe 1

FIG. 3.2 – Donne´es fictives : Repre´sentation des individus


plines litte´raires (7 et 5.5). On notera que Monique et Alain ont un score voisin de 0 sur l’axe
2 car ils ont des re´sultats tre`s homoge`nes dans les 4 disciplines (mais à des niveaux tre`s
distincts, ce qu’a de´ja` re´ve´le´ l’axe 1).
Les 3 colonnes suivantes du tableau fournissent des contributions des individus a`
diverses dispersions : CONT1 et CONT2 donnent les contributions des individus à la variance
selon les axes 1 et 2 (rappelons que c’est la variance qui caracte´rise la dispersion) ; CONTG les
contributions à la dispersion en dimension 4 (il s’agit de ce que l’on appelle l’inertie du nuage
des e´le`ves ; la notion d’inertie ge´ne´ralise celle de variance en dimension quelconque, la
variance e´tant toujours relative a` une seule variable). Ces contributions sont fournies en
pourcentages (chaque colonne somme a` 100) et permettent de repe´rer les individus les plus
importants au niveau de chaque axe (ou du nuage en dimension 4). Elles servent en ge´ne´ral a`
affiner l’interpre´tation des re´sultats de l’analyse.
Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (premie`re valeur propre). On peut
la retrouver en utilisant la formule de de´finition de la variance :

V ar(C 1 ) = 9(c1 )2
i
9
i=1

(il faut noter que, dans une A.C.P., les variables e´tant centre´es, il en va de meˆme pour les
facteurs ; ainsi, la moyenne de C 1 est nulle et n’apparaˆıt pas dans la formule de la variance). La
de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = 8.61 ; sa contribution est
coordonne´e
— 1 2 donc :
9 (—
8.61) × 100 = 29.19
28.2
%.
3
A` lui seul, cet individu repre´sente pre`s de 30 % de la variance : il est pre´ponde´rant (au meˆme
titre que Monique) dans la de´finition de l’axe 1 ; cela provient du fait qu’il a le re´sultat le plus
faible, Monique ayant, a` l’oppose´, le re´sultat le meilleur.
Enfin, les 2 dernie`res colonnes du tableau sont des cosinus carre´s qui fournissent la (*
qualite´ de la repre´sentation *) de chaque individu sur chaque axe. Ces quantite´s
s’additionnent axe par
3. REPRE´ SENTATION VECTORIELLE DE DONNE´ ES QUANTITATIVES
35

axe, de sorte que, en dimension 2, E´ velyne est repre´sente´e a` 98 % (0.25 + 0.73), tandis que les
8 autres individus le sont a` 100 %.
Lorsqu’on conside`re les donne´es initiales, chaque individu (chaque e´le`ve) est repre´sente´
par un vecteur dans un espace de dimension 4 (les e´le´ments – ou coordonne´es – de ce vecteur
sont les notes obtenues dans les 4 disciplines). Lorsqu’on re´sume les donne´es en dimension 2, et
donc qu’on les repre´sente dans un plan, chaque individu est alors repre´sente´ par la projection du
vecteur initial sur le plan en question. Le cosinus carre´ relativement aux deux premie`res
dimensions (par exemple, pour E´ velyne, 0.98 ou 98 %) est celui de l’angle forme´ par le vecteur
initial et sa projec- tion dans le plan. Plus le vecteur initial est proche du plan, plus l’angle en
question est petit et plus le cosinus, et son carre´, sont proches de 1 (ou de 100 %) : la repre
´sentation est alors tre`s bonne. Au contraire, plus le vecteur initial est loin du plan, plus l’angle
en question est grand (proche de 90 degre´s) et plus le cosinus, et son carre´, sont proches de 0
(ou de 0 %) : la repre´sentation est alors tre`s mauvaise. On utilise les carre´s des cosinus, parce
qu’ils s’additionnent suivant les diffe´rentes dimensions.

3 Repre´sentation vectorielle de donne´es quantitatives


1. Notations
Soit p variables statistiques re´elles X j n (j = 1, . . . , p) observe´es sur n individus i (i
Σ
= 1, . . . , n) affecte´s
∀i = 1,des ,n :w
. . .poids wii : > 0 et w = 1i ;
i=1
∀i = 1, . . . , n : j
i = X (i), mesure de X j sur le ie`me individu.
j

x
Ces mesures sont regroupe´es dans une matrice X d’ordre (n ×
p).
X1 ··· X j ··· Xp
j
x1 x xp
1 1 ··· 1 ··· 1

. . . .
x1
i i ··· i ··· i

. . . .
x1 xj xp
n n ··· n ··· n

• A` chaque individu i est associe´ le vecteur x i contenant la i-e`me ligne de X mise en


colonne. C’est un e´le´ment d’un espace vectoriel note´ E de dimension p ; nous
choisissons IRp muni de la base canonique E et d’une me´trique de matrice M
lui confe´rant une structure d’espace euclidien : E est isomorphe a` (IRp, E ,
M); E est alors appele´ espace des individus.
• A` chaque variable X j est associe´ le vecteur x j contenant la j - e`me colonne centre´e
(la moyenne de la colonne est retranche´e a` toute la colonne) de X . C’est un e´le
´ment d’un espace vectoriel note´ F de dimension n ; nous choisissons IRn muni de
la base canonique F et d’une me´trique de matrice D diagonale des poids
lui confe´rant une structure d’espace euclidien : F est isomorphe à (IRn, F ,
D) avec D = diag(w1, . . . , wn); F est alors appele´ espace des variables.
36 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.2 Interpre´tation statistique de la me´trique des poids


L’utilisation de la me´trique des poids dans l’espace des variables F donne un sens tre`s
parti- culier aux notions usuelles de´finies sur les espaces euclidiens. Ce paragraphe est la cle´
permettant de fournir les interpre´tations en termes statistiques des proprie´te´s et re´sultats mathe
´matiques.
'
Moyenne empirique de X j : xj = X ej , 1n = ej X ' D 1 n .
D
Barycentre des individus : x = X ' D1 n .
Matrice des donne´es centre´es : X = X — ¨ j¨
= (x j ' j 1/2
D x ) = ¨x ¨ .
Ecart-type de X j : σj 1n x . j k
' D
Covariance de X et X :
j k xj
' = x ,x D .
Σ n
Dx k Matrice des covariances : S j k = i = 1 w i (x i — x)(xi — x) =
'

⟨x ,x ⟩D '
Corre´lation de X j et X k : = cos θ DX(xD j,Xx k. ).
xj D xk D

Attention : Par souci de simplicite´ des notations, on de´signe toujours par x j les colonnes de
la matrice centre´e X . On conside`re donc que des vecteurs “variables” sont toujours centre´s.
Ainsi, lorsque les variables sont centre´es et repre´sente´es par des vecteurs de F :
• la longueur d’un vecteur repre´sente un e´cart-type,
• le cosinus d’un angle entre deux vecteurs repre´sente une corre´lation.

3. La me´thode
Les objectifs poursuivis par une ACP sont :
• la repre´sentation graphique “optimale” des individus (lignes), minimisant les de
´formations du nuage des points, dans un sous-espace E q de dimension q (q < p),
• la repre´sentation graphique des variables dans un sous-espace F q en explicitant au
“mieux” les liaisons initiales entre ces variables,
• la re´duction de la dimension (compression), ou approximation de X par un tableau de
rang
q (q < p).
Les derniers objectifs permettent d’utiliser l’ACP comme pre´alable à une autre technique pre´fe
´rant des variables orthogonales (re´gression line´aire) ou un nombre re´duit d’entre´es (re´seaux
neuro- naux).
Des arguments de type ge´ome´trique dans la litte´rature francophone, ou bien de type
statistique avec hypothe`ses de normalite´ dans la litte´rature anglo-saxonne, justifient la de
´finition de l’ACP. Nous adoptons ici une optique interme´diaire en se re´fe´rant à un mode`le “alle
´ge´” car ne ne´cessitant pas d’hypothe`se “forte” sur la distribution des observations (normalite´).
Plus pre´cise´ment, l’ACP admet des de´finitions e´quivalentes selon que l’on s’attache à la repre
´sentation des individus, à celle des variables ou encore a` leur repre´sentation simultane´e.

4 Mode`le
Les notations sont celles du paragraphe pre´ce´dent :
• X de´signe le tableau des donne´es issues de l’observation de p variables quantitatives X j
sur n individus i de poids wi,
• E est l’espace des individus muni de la base canonique et de la me´trique de matrice M,
• F est l’espace des variables muni de la base canonique et de la me´trique des poids D =
diag(w1, . . . , wn).
4. MODE` LE 37

FIG. 3.3 – Principe de l’ACP dans l’espace des individus avec p = 3.

De fac¸on ge´ne´rale, un mode`le s’e´crit :

Observation = Mode`le + Bruit

assorti de diffe´rents types d’hypothe`ses et de contraintes sur le mode`le et sur le bruit.


En ACP, la matrice des donne´es est suppose´e eˆtre issue de l’observation de n vecteurs ale
´atoires inde´pendants {x 1 , . . . , x n }, de meˆme matrice de covariance σ 2 Γ, mais d’espe´rances
diffe´rentes z i , toutes contenues dans un sous-espace affine de dimension q (q < p) de E .
Dans ce mode`le, E(x i ) = z i est un parame`tre spe´cifique attache´ à chaque individu i et appele´
effet fixe. Ceci s’e´crit en re´sume´ :
{x i ; i = 1, . . . , n}, n vecteurs ale´atoires inde´pendants de
E, E ( ε i ) = 0, var(ε i ) = σ 2 Γ,
x i = z i + ε i , i = 1, . . . , n (3.1)
σ > 0 inconnu, Γ re´gulie`re et
avec connue,
I A q , sous-espace affine de dimension q de E tel que ∀i, z i ∈ A q (q <
Σp).
n
Soit z = i = 1 w i z i . Les hypothe`ses du mode`le entraˆınent que z appartient a` A q . Soit donc E q
sous-espace vectoriel
le de E de dimension q tel que :

Aq = z + Eq .

Les parame`tres a` estimer sont alors E q et z i , i = 1, . . . , n, e´ventuellement σ ; z i est la


part syste´matique, ou effet, suppose´e de rang q ; e´liminer le bruit revient donc a` re´duire la
dimension.

4.1 Estimation
PROPOSITION 3.1. — L’estimation des parame`tres de (3.1) est fournie par l’ACP de (X, M ,
D)
Σq 1/2
c’est-a`-dire par la de´composition
Z^ =en valeurs k k'
λ usingulie`res
v = U de Λ1 (X, M , D) :
/2 ' .
q k q Vq
k=1
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

• Les u k sont les vecteurs propres D-orthonorme´s de la matrice X M X ' D associe´s aux
va- leurs propres λ k range´es par ordre de´croissant.
• Les v k , appele´s vecteurs principaux, sont les vecteurs propres M - orthonorme´s de la
ma- trice X ' D X M = S M associe´s aux meˆmes valeurs propres ; ils
engendrent des s.e.v. de dimension 1 appele´s axes principaux.
Les estimations sont donc donne´es par :
^
z = x,
Σq '
^q
Z = λ 1/2 uk vk = U q Λ1/2 V 'q = X ^
'
Pq ,
k=1

ou` P^q = V q Vq' M est la matrice de


projection M - orthogonale sur ^
E q,

E^ = vect{v1, . . . ,
v }, appele´ plan principal,
q
Eq ^
est
2zi = P^q x i +
^ x.
Remarques
i. Les solutions sont emboˆıte´es pour q = 1, . . . , p :

E 1 = vect{v1} ⊂ E 2 = vect{v1, v 2 } ⊂ E 3 = vect{v1, v 2 , v 3 } ⊂ . . .

ii. Les espaces principaux sont uniques sauf, e´ventuellement, dans le cas de valeurs
propres multiples.
iii. Si les variables ne sont pas homoge`nes (unite´s de mesure diffe´rentes, variances
disparates), elles sont pre´alablement re´duites :
˜
X = X Σ − 1/2 ou` Σ = diag σ 12, . . . , 2p , avec σj2 = Var ( X j ) ;
( σ )
˜
S est alors la matrice R = Σ − 1/2
SΣ −1/2
des corre
´lations.
4.2 De´finition e
´quivalente
On conside`re p variable statistiques centre´es X 1 , . . . , X p . Une combinaison line´aire de
coef- ficients f j de ces variables,
Σ p
c= f j xj =
Xf , j=1
de´finit une nouvelle variable centre´e C qui, a` tout individu i, associe la “mesure”

C(i) = (x i — x)'f .

PROPOSITION 3.2. — Soient p variables quantitatives centre´es X 1 , . . . , X p observe´es sur


n in- dividus de poids wi ; l’ACP de (X, M , D) est aussi la recherche des q combinaisons line
´aires norme´es des X j , non corre´le´es et dont la somme des variances soit maximale.

• Les vecteurs f k = M v k sont les facteurs principaux. Ils permettent de de´finir les
combi- naisons line´aires des X j optimales au sens ci-dessus.
39
5. REPRE´ SENTATIONS
GRAPHIQUES
• Les vecteurs c k = X f k sont les composantes principales.
• Les variables C k associe´es sont centre´es, non corre´le´es et de variance λ k ; ce sont les
va- riables principales ;
' '
cov(C k , C l ) = (Xf k ) DX f l = f k Sf l
' '
= v k M S M v l = λ l v k M v l = λ lδ kl .
• Les f k sont les vecteurs propres M − 1 - orthonorme´s de la matrice MS.
• La matrice
C = X F = X M V = UΛ 1 / 2
est la matrice des composantes principales.
• Les axes de´finis par les vecteurs D-orthonorme´s u k sont appele´s axes factoriels.

5 Repre´sentations graphiques
1. Les individus
Les graphiques obtenus permettent de repre´senter “au mieux” les distances euclidiennes
inter- individus mesure´es par la me´trique M.
Projection
Chaque individu i repre´sente´ par x est approche´ par sa projection M - orthogonale z q sur le
i ^i
^
sous-espace E q engendre´ par les q premiers vecteurs principaux {v1 , . . . , vq }. En notant ei un
vecteur de la base canonique de E , la coordonne´e de l’individu i sur v k est donne´e
par : k k k
D E i i i
xi — x, v k M = (x — x) ' Mv = e' X M v =
c .
PROPOSITION 3.3. — Les coordonne´es de la projection M - orthogonale dei x — x sur ^E
sontq premiers e´le´ment de la i-e`me ligne de la matrice C des composantes principales.
les q

Mesures de “qualite´”
La “qualite´ globale” des repre´sentations est mesure´e par la part de dispersion explique´e
: Σ q
^q
t r SM P λ
rq = Σ pk = 1 k .
=
trSM k=1 λ k

Remarque. — La dispersion d’un nuage de points unidimensionnel par rapport a` sa moyenne


se
mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage U par rapport
son barycentre x se mesure par l’inertie, ge´ne´ralisation de la
a`
variance : Σ 2
I g (U ) = n i x i — x 2M = ¨ X ¨ M , D = tr ( X ' D X M ) = tr (SM).
w i=1

La qualite´ de la repre´sentation de chaque x i est donne´e par le cosinus carre´ de l’angle


qu’il forme avec sa projection :
P (x — x)¨ 2 Σ
¨ ^q i q
(ck)2
[cosθ(x i — x, z^
iq 2
= ¨ x — 2 M =
Σ pk = 1 k i 2 .
)] i M (c )
k=1 i
x
40 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

4
2 stra
emb
nanbcesa nmi
r dijogrelyncleon mon per
reimvich r pa tour t tlse bordmarenice
p
0

stqu olimrleo
s
lillri roue ajactoul
Axe

ren
−2

ango
2

angneant n bia
r
−4

bres
−6

−4 −2 2 4 6
0
Axe 1

FIG. 3.4 – Tempe´ratures : premier plan des individus.

Pour e´viter de consulter un tableau qui risque d’eˆtre volumineux (n lignes), les e´tiquettes
de chaque individu peuvent eˆtre affiche´es (macro SAS) sur les graphiques avec des caracte`res
dont la taille est fonction de la qualite´. Un individu tre`s mal repre´sente´ est a` la limite de la
lisibilite´.
Contributions
Les contributions de chaque individu a`2l’inertie Σdepleur nuage
wi x i — x w (ck)2

γi = M = pk = 1 i ,
trSM k=1 λ k

ainsi qu’a` la variance d’une variable


principale
k wi(cki)2
γi = ,
λk
permettent de de´celer les observations les plus influentes et, e´ventuellement, aberrantes. Ces
points apparaissent visiblement lors du trace´ des diagrammes-boˆıtes paralle`les des
composantes princi- pales qui e´vitent ainsi une lecture fastidieuse de ce tableau des
contributions. En effet, ils se sin- gularisent aussi comme “outliers” hors de la boˆıte (au dela`
des moustaches) correspondant a` une direction principale. Les individus correspondants,
conside´re´s comme individus supple´mentaires, peuvent eˆtre e´limine´s lors d’une nouvelle
analyse.
Individus supple´mentaires
Il s’agit de repre´senter, par rapport aux axes principaux d’une analyse, des individus qui
n’ont pas participe´ aux calculs de ces axes. Soit s un tel vecteur, il doit eˆtre centre´, e
´ventuellement re´duit,
41
5. REPRE´ SENTATIONS
GRAPHIQUES
puis projete´ sur le sous-espace de repre´sentation. Les coordonne´es sont fournies par :
D E ' '
vk, V q Vq' M(s — x) M = v k M V q Vq' M(s — x) = ek Vq'
M(s dans
Les coordonne´es d’un individu supple´mentaire — x).
la base des vecteurs principaux sont donc :
Vq' M(s — x).

5.2 Les variables


Les graphiques obtenus permettent de repre´senter “au mieux” les corre´lations entre les
va- riables (cosinus des angles) et, si celles-ci ne sont pas re´duites, leurs variances (longueurs).
Projection
Une variable X j est repre´sente´e par la projection D-orthogonale ^
Qq xj sur le sous-espace F
engendre´ par les q premiers axes factoriels. La coordonne´e de x sur uqk
j

est : D E 1 √
j k
j '
k j '
k j '
k k
x , u D = x Du = √1 k x' D X M v = √ k e X D X M v = λ k v j .
λ λ

PROPOSITION 3.4. — Les coordonne´es de la projection D-orthogonale de x j sur le sous-


espace
F q sont les q premiers e´le´ments de la j - e`me ligne de la matrice VΛ 1 / 2 .

Mesure de “qualite´”

La qualite´ de la repre´sentation de chaque x j est donne´e par le cosinus carre´ de l’angle


qu’il forme avec sa projection : ¨Q^ x j ¨2 Σ q
h i2 q ¨ j 2
¨ D k = 1 λ k (v k )
cos θ(x , Q^q x ) =
j j = Σ p
.
j 2
x j D2 k = 1 λ k (v k )

Corre´lations variables×facteurs
Ces indicateurs aident a` l’interpre´tation des axes factoriels en exprimant les corre´lations
entre variables principales et initiales.
xj , uk √
cor(X , C ) = cos θ(x , c ) = cos θ(x , u ) =
j k j k j k D λk k ;
j
xj D = σj v

ce sont les e´le´ments de la matrice Σ −1/2


VΛ 1/2
.
Cercle des corre´lations
Dans le cas de variables re´duites x = 1, les xj
˜j = σ j− 1 x j , ¨ ˜x j ¨D ˜ sont sur la sphe`re unite
S n de F . L’intersection S n ∩ F 2 est un cercle centre´ sur l’origine et de rayon
´ 1 appele´ cercle
des corre´lations. Les projections de x j et x j sont coline´aires, celle de x j e´tant a` l’inte´rieur du
cercle : ¨Q ¨
¨ ^2 x˜j j ^
¨D = cos θ(x , Q 2x j ) ≤ 1.
Ainsi, plus Q^2 j est proche de ce cercle, meilleure est la qualite´ de sa repre´sentation. Ce
graphique
˜
x commode a` interpre´ter a` condition de se me´fier des e´chelles, le cercle devenant une
est
ellipse si elles ne sont pas e´gales. Comme pour les individus, la taille des caracte`res est aussi
fonction de la qualite´ des repre´sentations.
42 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Variables Variables
1.

1.
0

0
0.

0.
5

5
jjuui
maoa
il n
ui t
novoecto
Axe

Axe
0.

0.
jdaenfcveevr
0

0
2

3
moc
asevr aojutil
septmars
atros mjuaiinavri
pit
− 0.

− 0.
n o v
f e v
5

5
e
r
− 1.

− 1.
jdaenc
0

0
− 1. −0. 0.0 0.5 1.0
ve − 1. − 0. 0.0 1.0
0 5 0 5 0.5
Axe 1

Axe 2

FIG. 3.5 – Tempe´ratures : Premier et deuxie`me plan des variables.

5.3 Repre´sentation simultane´e ou “biplot”


valeur
p
A` partir de la de´composition en valeurs singulie`res h de (X, Mi,j D), on remarque que
Σ
chaque x j — xj = λ k u k j
v = U Λ 1/2V ' i
i √
k=1
i k

s’exprime comme produit scalaire usuel des vecteurs


h i
h i j 1/2
i
c i = UΛ 1 / 2 i et v ou encore u et V Λ j .

Pour q = 2, la quantite´ z en est une approximation limite´e aux deux premiers


j
termes.
^i
Cette remarque permet d’interpre´ter deux autres repre´sentations graphiques en ACP projetant
simultane´ment individus et variables.
i. la repre´sentation isome´trique ligne utilise les matrices C et V ; elle permet d’interpre´ter
les distances entre individus ainsi que les produits scalaires entre un individu et une
variable qui sont, dans le premier plan principal, des approximations des valeurs observe
´es X j (ωi) ;
ii. la repre´sentation isome´trique colonne utilise les matrices U et V Λ 1 / 2 ; elle permet
d’in- terpre´ter les angles entre vecteurs variables (corre´lations) et les produits scalaires
comme pre´ce´demment.
Remarques
[Link] le cas fre´quent ou` M = Ip et ou` les variables sont re´duites, le point repre´sentant X j ,
en superposition dans l’espace des individus se confond avec un pseudo individu supple
´mentaire qui prendrait la valeur 1 (e´cart-type) pour la variable j et 0 pour les autres.
iv. En pratique, ces diffe´rents types de repre´sentations (simultane´es ou non) ne diffe`rent
que par un changement d’e´chelle sur les axes ; elles sont tre`s voisines et suscitent
souvent les meˆmes interpre´tations.
43
5. REPRE´ SENTATIONS
GRAPHIQUES

−10 0 5 10 15
−5 20
bre
0.
6

2
0
s

1
5
0.
4

bia

1
0
ren
r
n
0.
Comp.

5
djaen nant
ange
ango
roue s
v
2

cocemto lillpoarei
nic limottqu u

0
0.
0

e
tfoe
nars mi
pseerppa t
a
ocrrvirle
le
ao ju u bensa
i
in
−0.

u l
ovrbaijuil
vor t
j tdlseo crh
m a lygorannc ednij
−10
m
2

mnt ni

−5
reac
mrse oestmrabr

−0. 0.0 0. 0.
2 0.2 4 6

Comp.1
FIG. 3.6 – Tempe´ratures : Repre´sentation simultane´e du premier plan.
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

6 Choix de dimension
La qualite´ des estimations auxquelles conduit l’ACP de´pend, de fac¸on e´vidente, du choix
de q, c’est-a`-dire du nombre de composantes retenues pour reconstituer les donne´es, ou encore
de la dimension du sous-espace de repre´sentation.
De nombreux crite`res de choix pour q ont e´te´ propose´s dans la litte´rature. Nous pre´sentons
ici ceux, les plus courants, base´s sur une heuristique et un reposant sur une quantification de la
sta- bilite´ du sous-espace de repre´sentation. D’autres crite`res, non explicite´s, s’inspirent des
pratiques statistiques de´cisionnelles ; sous l’hypothe`se que l’erreur admet une distribution
gaussienne, on peut exhiber les lois asymptotiques des valeurs propres et donc construire
des tests de nullite´ ou d’e´galite´ de ces dernie`res. Malheureusement, outre la ne´cessaire
hypothe`se de normalite´, ceci conduit à une proce´dure de tests emboˆıte´s dont le niveau global
est incontroˆlable. Leur utilisation reste donc heuristique.

1. Part d’inertie
La “qualite´ globale” des repre´sentations est mesure´e par la part d’inertie explique´e :

Σ q
λk .
rq = Σ pk = 1
k=1 λk

La valeur de q est choisie de sorte que cette part d’inertie explique´e rq soit supe´rieure a` une
valeur seuil fixe´e a priori par l’utilisateur. C’est souvent le seul crite`re employe´.

2. Re`gle de Kaiser
On conside`re que, si tous les e´le´ments de Y sont inde´pendants, les composantes
principales sont toutes de variances e´gales (e´gales a` 1 dans le cas de l’ACP re´duite). On ne
conserve alors que les valeurs propres supe´rieures a` leur moyenne car seules juge´es plus
“informatives” que les variables initiales ; dans le cas d’une ACP re´duite, ne sont donc retenues
que celles plus grandes que 1. Ce crite`re, utilise´ implicitement par SAS/ASSIST, a tendance a`
surestimer le nombre de composantes pertinentes.

3. E´ boulis des valeurs propres


C’est le graphique (figure 6.3) pre´sentant la de´croissance des valeurs propres. Le
principe consiste a` rechercher, s’il existe, un “coude” (changement de signe dans la suite des
diffe´rences d’ordre 2) dans le graphe et de ne conserver que les valeurs propres jusqu’a` ce
coude. Intuitive- ment, plus l’e´cart (λq — ^ λ q + 1 ) est significativement grand, par exemple supe
et plus on peut eˆtre assure´ de la stabilite´ de q
E . a` (λ q − 1 — λq ),
´rieur
6.4 Diagramme en boˆıte des variables principales
Un graphique (figure 6.4) pre´sentant, en paralle`le, les boˆıtes-a`-moustaches des variables
prin- cipales illustre bien leurs qualite´s : stabilite´ lorsqu’une grande boˆıte est associe´e à de
petites mous- taches, instabilite´ en pre´sence d’une petite boˆıte, de grandes moustaches et de
points isole´s. Intui- tivement, on conserve les premie`res “grandes boˆıtes”. Les points isole´s ou
“outliers” de´signent les points a` forte contribution, ou potentiellement influents, dans une
direction principale. Ils ne´cessitent une e´tude clinique : une autre analyse dans laquelle ils sont
de´clare´s supple´mentaires (poids nuls) afin d’e´valuer leur impact sur l’orientation des axes.
6. CHOIX DE DIMENSION 45

[Link]

4
0
3
0
Variance

2
0
s
1
0
0

Comp. Comp. Comp.


1 5 9

FIG. 3.7 – Tempe´ratures : e´boulis des valeurs propres.


5
0
−5
−1
0

Comp.1 Comp.3 Comp.5 Comp.7 Comp.1


Comp.9 2

FIG. 3.8 – Tempe´ratures : composantes en boˆıtes.


46 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

7 Interpre´tation
Les macros SAS de´crites en exemple, de meˆme que la plupart des logiciels, proposent,
ou autorisent, l’e´dition des diffe´rents indicateurs (contributions, qualite´s, corre´lations) et
graphiques de´finis dans les paragraphes pre´ce´dents.
• Les contributions permettent d’identifier les individus tre`s influents pouvant de´terminer
a`
eux seuls l’orientation de certains axes ; ces points sont ve´rifie´s, caracte´rise´s, puis e
´ventuellement conside´re´s comme supple´mentaires dans une autre analyse.
• Il faut choisir le nombre de composantes a` retenir, c’est-a`-dire la dimension des espaces de
repre´sentation.
• Les axes factoriels sont interpre´te´s par rapport aux variables initiales bien repre´sente´es.
• Les graphiques des individus sont interpre´te´s, en tenant compte des qualite´s de repre
´sentation, en termes de regroupement ou dispersions par rapport aux axes factoriels
et projections des variables initiales.
Les quelques graphiques pre´sente´s suffisent, dans la plupart des cas, a` l’interpre´tation
d’une ACP classique et e´vitent la sortie volumineuse, lorsque n est grand, des tableaux usuels
d’aide a` l’interpre´tation. On e´chappe ainsi a` une critique fre´quente, et souvent justifie´e, des
anglo-saxons vis-a`-vis de la pratique franc¸aise de “l’analyse des donne´es” qui,
paradoxalement, cherche a` “re´sumer au mieux l’information” mais produit plus de chiffres en
sortie qu’il n’y en a en entre´e !
Remarque. — L’ACP est une technique line´aire optimisant un crite`re quadratique ; elle ne
tient donc pas compte d’e´ventuelles liaisons non line´aires et pre´sente une forte sensibilite´ aux
valeurs extreˆmes.

7 Donne´es d’expression
Les exemples illustratifs pre´ce´dents ont l’avantage d’eˆtre simples et d’interpre´tation
triviale. La re´alite´ des donne´es d’expression est tout autre et ce, en particulier, en raison du
nombre de ge`nes en pre´sence, c’est-a`-dire en faite du nombre de variables d’expression
observe´es p sur un nombre en ge´ne´ral beaucoup plus re´duit n d’individus. C’est le cas des
donne´es sur le cancer du pancre´as pour lesquels 871 ge`nes sont observe´s pour seulement 65
tissus ou ligne´es cellulaires. L’incitation est e´videmment forte à conside´rer les ge`nes comme
des individus ce qui n’est pas sans conse´quence.

1. Exploration e´le´mentaire
Il n’est pas question de tracer 871 histogrammes. En revanche il est possible de repre
´senter simultane´ment ces distributions par des diagrammes en boˆıtes meˆme si celles-ci, les
boˆıtes, de- viennent tre`s squelettiques compte tenu de leur nombre. La figure 8.1 affiche ces
distributions qui se caracte´risent par une certaine de´rive des moyennes qui apparaissent pour
le moins peu homoge`nes d’un ge`ne a` l’autre.

2. Analyse en composantes principales


Diverses options peuvent eˆtre mises en œuvre correspondant a` plusieurs questions : quelles
sont les variables (tissus, ge`nes) ? Quel centrage ? Faut-il re´duire les variables ? Quelle repre
´sentation simple ou biplot faut-il privile´gier ?
Dans R comme dans Splus, deux fonctions (prcomp, princomp), trois si l’on
conside`re la librairie multidim de Carlier et Croquette, sont disponibles pour calculer des
analyses en composantes principales. Deux extraient les valeurs propres et vecteurs propres de
la matrice des
8. DONNE´ ES D’EXPRESSION 47

G1 G94 G208 G332 G456 G580 G704


G828

−5 0 5

FIG. 3.9 – Pancre´as : diagrammes boˆıte affichant globalement les distributions des 871
ge`nes.
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

covariances ou des corre´lations tandis qu’une (prcomp) calcule directement la de


´composition en valeurs singulie`res (SVD) de la matrice X des donne´es centre´es. L’ACP est
donc centre´e par de´faut mais pas re´duite par de´faut sauf pour la fonction acp. Ces conside
´rations techniques ont des conse´quences importantes sur le soin a` apporter dans le choix des
options et sur le choix de la fonction : prcomp accepte un nombre p de colonnes supe´rieur
au nombre n de lignes de la matrice ce qui n’est pas le cas de (princomp) . Tous les
programmes sont de´taille´s dans les se´ances de travaux pratiques.
Quelques essais syste´matiques fournissent les graphiques de la figure 8.2 avec les diffe
´rentes options de centrage et re´duction. De toute fac¸on, l’ACP centre par de´faut les colonnes. Il
apparaˆıt important de centrer les ge`nes sinon (fig. 8.2 a) un effet taille, masque l’essentiel des
donne´es : certains ge`nes s’expriment de toute fac¸on plus pour l’ensemble des tissus et emportent
la de´finition du premier axe. Un centrage pre´alable des ge`nes ou lignes de la matrice (fig. 8.2
b) reme´die a` ce proble`me. Une re´duction des “variables” tissus (fig. 8.2 c) n’apporte rien de
mieux alors qu’une re´duction des “variables” ge`nes (fig. 8.2 d) augmente se´rieusement la
confusion. C’est logique dans la mesure ou` cela revient à ne´gliger la variance de l’expression
des ge`nes qui affichent donc tous la meˆme capacite´ d’expression. Cette re´duction a un sens
lorsqu’un sous-ensemble re´duit de ge`nes sont conside´re´s : ceux dont on sait a priori qu’ils sont
diffe´rentiellement exprime´s. La struc- ture de corre´lation fournit alors des informations sur les
possibles co-re´gulations ou inhibitions.

Nous retiendrons plus particulie`rement le graphique de la figure 8.2 croisant les tissus
en ligne et les ge`nes en colonne qui sont donc centre´s. Elle semble la plus explicite et
informative compte tenu du proble`me pose´. Ce graphe est strictement e´quivalent à celui de la
figure 8.2 b qui ne´cessite un centrage pre´alable des lignes. Pour cette ACP, la de´croissance des
valeurs propres ou, plus pre´cise´ment, les distributions des composantes principales (fig. 8.2)
sugge`re de conside´rer 4 composantes ne´cessitant ainsi des graphiques et des interpre´tations plus
e´labore´es.

A` ce niveau de l’analyse on voit combien le nombre de ge`nes est susceptible de


compliquer lecture et interpre´tation des graphiques. Diverses approches sont envisageables afin
de se limiter aux plus ”pertinents”. Plusieurs re´pe´titions permettent de tester d’un ge`ne s’il est
significativement diffe´rentiellement exprime´ mais la re´pe´tition de ce test à chaque ge`ne rend le
proce´de´ peut fiable. Une re´flexion approfondie doit accompagner cette de´marche pour le de
´pistage des ”faux positifs” qui, sur le seul fait du hasard, rend 5% de tests significatifs en
moyenne. C’est l’objet d’un autre cours.
Dans le cadre de l’analyse en composante principale, il est cohe´rent de rechercher quels
sont les ge`nes contribuant le plus à la de´finition
Σ 4 des axes retenus. Une adaptation de
w(section
l’expression de la contribution d’un individu (c5.1)
k)2
Σ 4 k = 1 i :,
i
γi =
k=1 λ k

permet de rechercher les, par exemples, 5% des ge`nes contribuant le plus à la de´finition de
l’espace propre à 4 dimensions juge´ pertinent. La figure 8.2 ne repre´sentant que ces ge`nes se
´lectionne´s dans le premier plan factoriel devient beaucoup plus lisible. Naturellement, une ACP
calcule´e sur ces seuls ge`nes les plus influents varie peu de celle calcule´e sur l’ensemble. La
lecture de ce graphique permet, en particulier, de repe´rer les ge`nes contribuant le plus a` une sorte
de double discrimination :
• entre les e´chantillons biologiques issues des ligne´es cellulaires et les e´chantillons pre´leve
´s sur les patients,
• et, pour ces derniers e´chantillons, une distinction entre pancre´as sains et pie`ces tumorales.
8. DONNE´ ES D’EXPRESSION 49

−20 −10 0 10 −20 −10 0 10 20

1
0

2
0
K562.1A1
HCT K1156.21..1 GG2G27743 49 G719
HC CTHC KAK1K5C51 GG1GG 23G22
G707 K562 K.25A62.2A3
0.0

2 7 G571
HH TTC62212 GG G1G5G 114 G7462 K562.1A2
G8G3 7 8G83
88 GG 4 4 G1
5

S1SAW 1 WP 62S1 A 2 . GG1116 82 1G 6369


2 8 G846 4 G184
BSxW .2. P4 0.C 5 34 G17G823G8G2 4G720

0.1
S
W
56O 626 . . 2 ..1 7G GG 9 GG 22G4 G 1 809G8 G1G980
SC9CA91 SWA ..C.3P 6A 3W 4.O 7G G25G4 1G 9 3G5G 44 76G87G21
A S G 8
GG
46G18G49G 2G9 G34
0
G1G 4G8
866 4
83G2 54G1
1G93233
CW8S
A
CA0
.
261AM
0 N1 2
[Link]
SMW
3
A AP
.B2 236 1I.I.A
5.1
M
A. Ax3242.S22P 21
Px AC1.. G GG71 6 G 6 G6 4
7 G 1 G7 G4 88G 7

1
0
1N B . 1 G1G1 G
5420 11
0G8G5 7 5
G1009124 9 60 2762 2711G3 7 PancNorm2A
22
. G 4 G 234
1G1 0 3 G2 G8G3359 CACO2.2
0.0

P.2 4 75G 04
3 10 G GG PancNorm2B

0
P AP 2
A 9. AN 9 2
2G G 6 4 45 1
1C1..1 W
.A8.
A S P .A .1N .4 G G4G 72 G 8
448GG7
1G19G8
3GG 1316
2G0G
G2
42G
70 4
G5
G84G G9
8G0G43
232G
127
91G1
05
5 31
2 G 92
42 861G4
28 9 7G5G15 G519
04I . A313 0. C3.2 8 9 G 51 7 PancNorm1
0

A. ANP29.2.
I2P [Link] .C G214 GGG19 G71 G5 7 499 8G
6G 37
2446G 14 4G7 G2G 4
1
0 3G 12G
2 3
00G GGGSG8465GW50G6156G7293
0 P
Bx.PC3.2. 32G5 G G 6 7 1 5G
26 74 9 G 8G
24
1 2 0 G1
6 2 3 9 13
1 08 G668 9
P 141N. 8.2. NC 8C01 41G
2G1G2842 5
1G4429 4681
1GG 1 G 429 56
17 16 387
G99G
G6
9 G1 2 3G
G59 2420 GG 52 0
G4 8G
1
72
3G 3
28 51
G G6 65 335 5
GG 4 1G 95 816 4 634
9GG21G 1 22G 41G 325
23 40 3 8 G
1..b..s3i3Bx.PC3.1. G51 3G26 1 24G G 248 7 129 7G56
81 G50 7 TP440.g2ex
13 2 ..21..323. GG18 2G
GGG 1G
2
13
0
G G8
168 5
3
5 63
53
43 9
0 7
5G02 1
4 9
1
G
G
3
G G
G4 5
2G218GG 2
1 64G
93
0 8 73
G
281 8 G4G15
4
14 5G
3 4 G6G7 15G96 6 6G78G 581 G43 673 G G0336
8 G G568G
G551G
3690 3G 7G5772G0
2G 2
22 .1 3.
0 .1 21
. . 2..2 32 85G G62
G1G25G
1 9
4
9 1
1
8 8
G
15G1
4G
G
2G
94G6G 5G5G
GG
10G35G2
33G 5
6
6600
G 32
G 7G2
9G
G10G6
4
G5G
68G
6G
1 GG 424G2
5 66
10 3
283 G
0G1 G TTPP34. 24205. g.g3G G G 6GG767 G 0G 9G6G 63G6 5
GSGG4W2 79
7
G6G77G
79 8 2
6G6 6 e76 17G14 G 9 G.491
. 1 G3 18 G130

0.0
G21
G 9267 3 1 5 8
7T
6
G G P7 1 G
8 3 8P P3. 3 1 4
2 9 25
G ..7 21 6965 6G1
21G
6 6G1 1
47G1
6 G
8422 99 124G1 25G9 3
G3 1G240G
5 G02 G39G4GG
6G2 4G5 9 G 2 G
G5101 TGPTT5 P
TP 1 T3P
T
.1522P
6 4G . g13ex
50.6G 7G0 1.G8792571
6 3.
G1 54 8
G7 4.0219 55gG G5.g1G
3G
6G
g. g9 G 6xG9 G 057

0
G 1 7G
3 .4.
.42..1..232. 3
44.2. ... 0G G712G
G
71 GG
7 G
59G
03
5 G 49
G 3
G82G721
2G5 G7
3G 9
146
1G
G3
G37 2
G
8G2 002
G174
5
6 10
53 3G4
7G5
245G 77 518
9G3021
20G4 2G
3G 2
GGG3 8
29652
51
G
8154954G 3G4 0G 11
850 21
G8 9C686.25 2 A 46CO2
4
5G 0G
01C
9.1
8M A.5 C623O2.1.1
9G238
G
−0.10

35G21 2
3G3 G
367 9 1 G3G
6 37
G2G85
6 9
3G6 4
G 4 G
2323G41 G3 1 3
6G 3 7G173G G 8GG8 2
65G7
0 G 9 G 65 23 4G8G G
G5
87G9G 5G
6 .2 G 51
G
G4 1 1 74 6 2G25
1 2 0
5 G1e912x67 G4 82
6 63 G 05
G 07
Comp.

Comp.
.2
.2 ....2 G212G1 10G14 9 G
25 30 G 0 6 56 3
7G 6 5 04
19 G 03 6G0 4G G
G5 2
51 2 868 G 1 G 6 6
17 9G8 G
7G 8 0 2714 5 G5 G4
3 G 6 G6 5 5G
5G G65 30
72 6
6134G2
6
G
2 7G
2G9
365 4
6 GG
12435
49656
G0 G 735G6
G 37
37120231
4 G 3G 844 GG
28 97239 83G
−1
6GGG6G G85G
G15 526
9G6G27G05G
34G329 8
6G 65 35602 8G064 B3 GG67
G 1G G9
72 G G6G
G 48x2
8GG5 43
G1580
2567G7 55 62G.2 276
6
5G 5122G 4G55 2 5698
G
26
9
59 0
5
52
N
3
45
G 2
06 G
6 3 G3
2
9G
50 r168
7 6 800639 8 2
89
8
0 71 4A 23129 GG3
07 8 G5641 30N G 7
P4766G2 G3 7I61 1213
2 G0
936G 79
52A 0G
G
35G973 51 58
56
624
76
G G
G4.57 5
27 4
2 3 1 c3G 3 5 6 G 2G
5G
3 1314
3 3 G6
7 G TP225.g 8G 648 9G 68 654
32 2 7G 5 2G 6G 69 56 625
43 08
GGG 2P1 a6 7n N o 32r9 m 21 B
1.. G 6G G 3 G 21G 9
6 6
9
2 22G 9 24G 452
9 5 G230
7
G 6
02 238
31G5 4
G
7
G6
G
73G
57
5G GGG 3G4
G9
61G G 6
8338 94
G
086
7 3
8
7G72G
8
4
126 25 8G
3584
1763 0 G2446B9 1G6
5 114GG 55 .G 35
G 437G G626 89 G6 16G 1 930 2433
5 44
6G 2404C3 14
52 3 4
PanGc1N7oG mr61
14
72
45
G13
7 2G 78 1
G 1 82
2
6 7G 08
13 G
761 353
5 G6
863405170336254
668 5
03889 6
2 5
17444294 643
G9 S26 7G12 347 66 G 5S0995W8G 4
33
G 70GG
9G9 6G6
6 x0
7 G
631 P G G5
533
10G
460
G 54.0 P95 G0
G5G96G 754G
5G4G3
46
1C 444G 6
82
2 G1 2G G125
5 G43GG0 G
66
8G 2 3 601
5 1 G7559 472 0 G 5 3G
G6 5G 302 W5 218 514 2.1G 5G
G
G196 5 7 1 913G G4G 4G 3887
23 876G 7 830 379
05 6 75
59 4G46
G7 G GG 8 7 168 156G G G 08 4 231
2

2
6G 1
2G 5G 348G 0G 7512 51 6G 65 1
25 8 22G 4 0G G 2 G6 G G3 9G 5 4S 3 04 35A3
G100G3 6G
8 223226 5 G54 7G
0 72 8 5G0
0674
G3G7
76
G
G
7 9
75
8
33
37
79
19
G 7G
102
8
G0
6961
7
9 2 8476
4 8
4657
G
84 613
8
7
1
0
6
7
7
4
6
4
1
25
G
2
21
2
186
67
84786
764
7G
7
4
3
2 3
10
5149
4
G
G87G
G62
4 3 4
7
056
2 31
4
65
G
6
6376 7
59
64 3590
68
6
07
7
5 5
460
95 927 G0 4 BGx 51.5GG
TP640.g
G 8501
G6856P 5.
7G13G 2
1
6
0
6G 2C1
6 G
M 47
G
289G
572 3
6G17
27
G
G
1
17
25 57
7
3621
G
79
GAG
G31
0 06
5G462
9G
G0
4 3PA 5 12.8
5
G 4I
30
1
386G13 5 G4
2G0 8
7570 301567183 9 646G
24 850
19
65209273 6529 8 4
65 4G4
G058 31 34
30
G36G7 55G
4 24 2
C1 44 22
8 33G63 9
G.3911G 53 8C 3947 10 G35 19G
6325G3
G0108G .8G26 .4
G26G50 7 0G
9 1G5G
3 385 22G 923G 9GN 3 9G0 42G
3592

−1
58G39G1 G 94
GG 065 8 692
843 5603G685 G527 5G9 .41
340G 2 34 7 136 G 4
91 323G G 725403934
26 0 10 G9 6520P1 24 3
G 53536
682 64232.
−0.15

69 5 807G2 0 G37
1 4 338 G 2 1 4 2G 94 G G
332478120
9
91 G3
47757273
G2971 3189 18
601
98 08
94G527 745364467389688 G 423126G2 .G1G177
7G 3
2 6
429 G
0G1 5 1 96
G 1 4G
5G3210
6 2.G12
8 G G2
3 G G502
2G 18C4A
42
G 1
. 25
2 418
4
41
15G4G20
70G73
753 2
40 GM
G35G2 91 1
G2
G6G
G 2 2 7G 3 7G7 2 2309G

0
4 9 9 3

−0 .
G WG G . 413 63 8.7283 31
72506 358 7449 4 1 GG 8 0
6G3 G142G
514
2 2G3 41
0
624A
G 0
8275G G
G
35G
11 0
2
S84 745
G 765.
CG 54
3
G9
25
6SG7 4N
C0 13
A74
P0P 0
7.6
G
21G
G2
21135
3 P
5 8G9P21
2 18314 4
117
G
69..0
TTT PTPPP5544T41T040P.0 Pg2 . G4G56720 68G 797305 7G
7G 2 37938793172 1G10G8G3G1 G70G2G 1G 2.W1G
5G B
82G
016 2 3915 7 3 25 0
HG513 53A
08 9 0
P1 46G2431 1
N7
G5
Gx
121 1.G390 2 2
9413
A 5
G226 2P
92
1 00
8 A
G 0C
424 23
16 4 013.C
1 414
72
66
92307
2 22x5 53

1
2902G1G 614.G 10G G AG2956 1G 8 3 14 8 1C
. G G 696 2GC 21
2I.A5
70 681
.G3
S
0 4 05
G53
9G.G A7
3
1 1 4092
4G4 1
1 4 G9
33 P0G
1 3
231 17
5 GC2C
1G 6 45
A3 4 1
92 5G 33472
1G 6 G3
4G 32 45G1
TP62T4 220 .45.P..g
123 1030563780 079 9271G10 9 5131AG 14 05G527 53W162
2 G
4955
C12G
G
GG
6
27 254G2
0G 9G
53A 34
234
4322
P1G 1
GN5
22NG03
234
GA6G436G15B1M
.N 721
15. G3 42
.5C
.3
1293
PG548G
066.60
..7.
G 892
.847G5CGS9
−2

G G 7 2. .5
41 7 81 G2
6
g132TP.e33ex2 x5g
. 0 0 8
2796797 4 3 4 0
2 053370257 3TG091
70 119723G2
486 119.6131.H61
21TC
.93 2G814
4 HT29.3.125
G A97 G
4S
7 N
95.06AP3
1921.G 4.1 92
G
PC2A1.1 8 3G2 ..N
0

42 . 4g15032..e5 G177 718 4 51 5 A78 S 8 712


P9 GG648G1
4 P84 5
A2C 283
C 6 H
4N4N 3
GG169 H1 189 07T65T2 9 . 2P 9A .
6 G1 2 7 S N375
G W 1
62.
0.1
5 7 9 GG. 2 4 A 7 PAN2.1.
.612 14 2 80 17
−0.20

GI b 0 s A19 G1 6 0 36
−0 .0 5

02.2g5..g. 4 2 2 35 2 1
92 315 G2 0 47 10 2 1G14 9 1. 8
G690 8 4 18 .6 2 . G 8 GG 7. 12 1i ..25.2
G W 4 G3 G GH.
3129 432092

−2
86 G196
G6
ggx.2ge x 6235 34N .14 21.
2..1C 28 .1.8 3

0
2126.13. 34.12861
G688 942867 3
G170 7140G80749.8G
75C1.6 2469 21
7 8.3G4
2.80.21
1
6T 6 G48
.1.

−0 .
G176 328
1
G531236
878
1

2
−0.20 −0.15 −0.10 −0.05 0.05 −0. −0.1 0.1
0.00 2 0.0
Comp.1 Comp.1

−20 −10 10 20 −0.1 0 −0.05 0.00 0.10


0 0.05
0.2

G571
2
0

3
0

G198
SW 4 8G0 1.
S W
SK4 W5684281.

0.1
G589
0.1

G135

0
18 .42 K562.K1K5A561622.22 . KAA54
1
0

2
0

0 1
3. 0 .K562. .2 .2A4
G562G138 S
1GG 0K151 62 9. 9 21WAKA22 546820..12A.
26C SC2SAMW 1 K562.1A2GGG2GG7680G704
7G
6
2
5
G 7 G S49W46 1G9 GG 2422 G907 1
G
56G96GG7 GG7453 G16 G5 36 5106461456G56863
3622.A2 7 G G 43 10G 48 9GG
WGGG5
1 G 8G8 1G4G6399 86 93 258G8103 G
mA
2ro
N
cnaP G 7
78364G1G G 6 G 61a7 A236 0 8C 1G5
G I . S G
9.C 376A 1G
O W6
0
GoN8r6.O
2 6127G
G.72G10 267. 16G49 76 G G 2G3G2 72G 2 8458253 49G5 9 67465 G
TPTG6 G6 89G 15G384 8 5 15 PancNorm2A

0.0
PP4 . 2 P 2 0
n c g 3
G43 G 56G 94G 64
7G 8G7 86
T
TTPP4244003 g.g 01
. 3ex . 3 P . g 2 5a 25G
4
1 2 0
3 5
18
.n 2
eg M AI 3
.
9.G1. 3
.
c. x o
g17352 9I0 G 8A 7. 3 3
G76G58G4 8G 7
039638
2G 7
5 13484 27 65 8 8G G5G568G
0.0

2.M 462.. 0 4
GG0G PancNorm2B

5
5.76 G8 1 G45 1. 3
1
0

02689 .108G 1053 4G 26 0 2 7 9 2 PancNorm1


0

TPTm 512G 0G
54. 02. 912
g5 [Link] 6 42. 3 23G3 G4GG 9G2 G846P4 C
ACGGGO 53G 8G 5628 G8 G8 6 1.43 1G 113G 610G
TP1.12 P 2 2T1 0
BP 3
TP640.g
G
225. G 7 .8 G 15G G 7 7
6G 2G 7 4 560G 7 .1.2
1
OC
A
C 1 3 5
2 0
04G 6 2G 5
G275
66 185 8G .g G 50 209G
7 2232
Comp.

GrGG 5G68G GG1 GG 63G78G 6G 6G5 2 G5


1 C AGCG4 GO8 39 5.7 78G 9G G3
60 53
11G G 6 6G66
G 6G 6 6G 8G2
716G 129 5.94G17 G0
GG61 G2GG7 435 G
83G
2 7 15G
8 7 G
75 8060 7G 9 9 1
G 6 TP440.g2ex
PC2

G 9G 27 691 584 4737 G 1 424 9G1 G 7 478G


8 G 3 1 G2 8 144 90
I718 6 58.43C . A.
9609 78 56G G7 5 2G 4 .G 1 34
594143512 804 58G 6 G6GG1G75
GG6
g 8G
G51G
2 678G66928G6G60A G 85
0G
70 6N7C35G
x.A1GG
P H0
2
N .C
7GGC.38
T1 676G 7
..5
1985G 1P6 MG..32.6
77
.1
42631 4A 5347454H 8G 329G 1 G G 61GG
6G31 20 7 G6 5 27
6768G6
B
G5G
68
GG 05G
19 7G 9G59
xG
14 B
P8 G
4G7
G55C6G 6
G753
65 7.
54
G1
G
6G8H G 5C
G5
G4250G
8 33
1
264 G
1
T3 7
1
G
4G
15 761
14G3G9 644 291 51 37682 HC
T108
2
G4160 GG G4 4G12
14 G532 GG 84 3GG
6G
7612751184 7G26 G81 4 G
G6 8
8.79G3
3 4 G51 2 4
7G
G56G607 6G41G5 G 84
49G G7253G
0G1 6BG 7G 3xGG
484 1.46
G2 G3G4P3 G G23
G
34
2G3 0 3GC
G 0G
G 2G2G
1152 G 5
03 G453G53212 GG3 GG G 3234
8 3
84G 42
5 05 7
904
G
5 41 14903 153 77G6G 27 86 491 57G 243
G93G
8G
G4 73 0
31G 34G
639 2G5 68 234485
42G G 2 G0 73 265 TP5TTT4PT
P0P21g
4P141.
2

2O .1
G.161GG
1TCHG1G42G22 30 9 GG 3 69
2
025G6G61G5 G 54 0
5G G 2 G 6 NPG2290.
787G184 12 59 2 5
S 21.G
G5 4
W 2 G6
3
446T18 36 5
G
0342 2 5 3G.
20
3GG
1116 172 27 1
2035 3
0 .4.31 2..21 G61
263
8G
2932 6
G8 3
0G1
6G 25 G 74G8G 118
G 7G292M
0 G18725
82577 8 9856 7
2G1G65 35 1
17 0T16
8630
89
3
1S072 . 4.12

0.0
G51 434 G
5544 C2 46 .5G
361G2 G4596 M 4 I2TG A 05S8
0

G685 1 GG G 1 8 18
9424G8538 0G51 213G37G7
26G9 25G1C4 GG 8
G 38G G
6861
G .G 5
6 105 8195 0 2
G85
G8 G
H 62G G1
G 5G6 C1HG 7 84G013 G87 .853 G 7
G 3 5154 91265 7
−0 .

91 1 8 8 G 34
0 9 13GW G6 96G G8
G 28 37G
G2
03 G 0G 4 9 3 G 3G 14 31 3072
4 2 G812
3 1 1 4 786 6G G 957 472 G
−1

2 5 27 15 619 9 2 5 G S2G G G1G 2G G 317


412TP3.225.g
2 9G 5G 12
3 G 5G23019 G 440G
4 .4 2G G 426
42G1 9352 53 23.223G21

0
0G4G2 GG4 G2G 7 3G9
G1
05 9 0137GG G 3894 2
1G8477513 36
.6 208A
81
G
36 292GG586 5 G6
04G
39G
70G
9G 0G2G03
31
5G
5.74235428G663 2W
6S.S W
21
8 G2 0H492
19
G5G2
41 7
8G
GG2
03G 12
GG398 14
2 G19 8 01
34 G5
083 5 G
G
4 3T6
4515
G4 3 50 7G19
G
19 62 8
77
G
4 6
5635
4G97 17
G 512
57
G 4
36G
G
2G 0. g2050235.
0G1 7 32G G1
4 .42
5 G70 70G 02 6 84 9
6 G 3 5 9 S 2 4 9 1GI 24 W 2GA83G 1 0A2.3A
eg5G
0

G3G1 9G 01 SPC1 425 15 7I9G 5 G


GG52191
G1C 6A1 G810G 3 G9566G 26 G .2 3G8 931810 6G x.g
061 5G2 45 762G 6 2 3 073 42GG 954 G 5G 2 G7 4 8G 4 49
1

7141 G 3 5G 72 G 54 70
37 28 1
G 0
6G
5 G25 G
5 5G 457
3 53G622 3G
74G81
1 957
6 74
45 620295 44
86 1 8G 8C8
8H 2S
G58T W
7G
9502
152 9 058
3G 0
. M
.
2G .
6 1 .
17G3 2
276 9 1 23
G34 G 1 2W
3. A 5G539 21 61
G
G0PG 5853G
G 0 P 4
035 2 . 8
G525 94 G1 2GG 36G
21G0 13G G326 9G7 2 2 4 0 825
5
4 G. 9
2419 95 626S1462 G
9P60G 7 0 8423G
9 8 7 54 724G
46 G 28G033 6 011 G W330 01 9 2 311894 394 17 17 GC 5 2
G13 G0GG3G25 2G13 253GGG8 01
7 G1
21 7
3G6G 3
02 4 1AG 023G482G
G 5 2G13
2G 4
68N 2
G1 4P
G2
7 11 G4
5
1
2
3 9
CAPAN1.1. 289709 G 1G G3 G 2 24 G
0 .P2
9 80A.1 21 73
4 G 2 93A .9 5
4G 2
02 e.g.Ggx21G2
G2
916G 1248342
1G 5G74238 92G 7G 58073
56 31
27
44694G52
5 G
1G
6
Bx.PC3.5H.T29.3.1 69181 2301
3 571
2G 180
8
098718
3 G415
8 298C
30 G2
53 G3
5 C0 G
53 A92CG
G G 378G9
G7 88M 4
6
746 P
G2G2 3
863
65 7
38 5
A1
S
6 7 8
15 4
G414
3GG
0G9
177G 6 AG
32 2
GP
G I0
6 B
67G3 GGA
71 8
5G
GW
0 7
35A
5G
P 083.G
8 743 76431G
1328G.1
6
960 5 63 5B3G 8 082344 7G1
9 1G G G
02 1G
2 G
G196
G
A2285 0
7G5175
32 G
64
1
7G 0
152 8
92
25 8
313 21 90 2 95
85G5 11
1 1
2G 9 G46G6N02G G N 3
9
G2 3G2G C
5 .
26
72
580G 6
1263
0B
AG
G
2
31
G
6
7323949
2
1 G
4G3 3 9
56 0
4 G
13 G
457G3
1.G 9
P
461
G2
8
0
5.76A2 G.1343
31 G
GC270G 20
4G 921 0
218
68G
1 G
7.
G10G
74.4
A
449 2.5
G.0
537G 5G.
5G84
8
4 G
9
G4 4
2G9GG1 3 3. 0 .7
3G 2 B 5
160G1210
G0 G4.7G1 1T 8x259G 9 G04 S Gx3 .3 P .2W2 49 .G5G
1G8G
1 19870G 9G 168G 3G1G .H 2H
5G3 T.9G 3G
CAPAN1.2. .1
72.CAPAN2.2.
5.9
2 G 30 .5G
1.G31
4 2 215 17 9 GN G048 2.G
GC5G 3913
.75 1
G3G 4
3G166
G3 27GP461
6N 5G.G 24G G 6G4 G
2 3
2121
032 1G 5 8
73G 4C G 951P 5
G9
GG 1.7 5
4
2 436
03 G924G6921 93G3
26 4 8 8
329 21 1G.
CN
A5G5G.3
P11 41
GG9 5
G
7G 1BN
78
PGGAG1N1
A
C
12G G.74
8
7 x
9G
A1586N
2B21
71 G 3
24G
51 6.
G
769
72G x2
G2 0G7
9P730
5294142 9 .3.
072G
GN
G 7665
1
P38
G G
G3.7
9
2 77 G
36
.1C
G8671
G4
478
412
385 65294G.432 C2 6N44P79
CAPAN2.1. 0302G 83x3
01
G G N 56G G80
.4 3G 670 61 G G 59 81215 397x .2585 0 .4 08G 0
1
7 2
9 3 G67848.0G0
−0 .

7237199520 G9 1G84 464G G7 1 9 4 9 3 78


−2

932 7 11 9 49 23 7134
G 70
.88 G2
67 .G568
G53.
5G CG.3 G G GA 29 1 GP92
S9552
30
G544G5
1P
G G
3
6 3 G
C C6
G1A29 821
7G
6836G1 48
G 142 1 .14G7
.4
7
G62.542063G21P 4S 31G0292G91 168G4CAPAN2.3.4.
8G 0152 93712 136 4562330 GG1 G612G1 G
.35 P
S
A1G .G
65 8
G
C
01
3.4GGA
4.5920 2AG1
34
164
1G
26
G
443 G
.645 4.
.34G 29
2 2N
0
2P49
1076
55 G
71
2N
.G 634
71 32
G 9
01043
6
13GG G. G7
1
G 31
07 G
6
65
G2G 123
636G
9
G2
5 3N4G43 2
.4 2G29
0

4 8 3 6 G6
4 1
7 G 162 4 052 G4
65
36 1 9
56
2 5 3G
8. 67G
0237 69 0
36G1 0 . 2 2 G8G 65
G52 4 G G296
2

3
78 475 8 G 871 2 9 G 537 G PG
409
1G 153 G 0 4
80 4 5
2 8 3 57 G6 0 8 4
6 G48G3
2
0G. 330 3 G 3 .1 41 ..4 2 1.8 1.5921 1.2 3
5 3
3PG 7
15
8 C
0ACPA
420 231C1
A
CPCN ACAP
58 ib7
2NAPA. 13PAN.
G40C0 6G G2763G65
0567 5G6G.5G7267
G 04 .G
G
1 3A
GG
66225 G 7..6
4
S41G
76785
6
.
7G3
9
b2G14 G G
8P142G
3
3i
s
6G987G62
6
96
4.
G.G
C 6
778
475 7935
.5
4
6G 4 G3
2.
1
G1
63G76
G8
7
37 7
G41G
5 45911
G
G4
3 0GG 0 G G
51 6
TP3.1325.g
56 5
6
32
.s1 2.
7G5
3 G6 6
47G G6
34 5G3
6.1 46 1G
32922 71867G 0
41G
49G2 13 719G
5 G 41
7536 G.G
59.G
65
469
6 3G 5G62
6G74G 161G8 4 25
G GGG73
1 72
93 9
G3031172
−20
−10

793C1703815.738. 1G9 .43942G19428G7632418 1162 G 29 5G 42 3 7G 154G G


66G
32G 13 G
4G 2.2G
G
18 G 7 G 4
55537 1203 .96168
−0 .1 0
−0 .0 5

1 86165 196 7G8 6


1 874G 29G15G5
G
5 365
86
. G 3
6 16 29 402
4 5 GG5
1 05
543 1
2
G212 1
85G 6
G5G42
TP540.g3ex
79
2 419 G
32AN.2N213..13..3.33...4. 06562G 6G5
98 7 G.G
4
2231 7G
3 G
89
7 53G596
1 9 3 G 3
G7 144
0 G
2G2 G60 6 5 0
1 43 1
G 02 4 79
5 37 22
30
G531 574040
G4 4013 .4G 7545G
G 9875
41 3326
20
45260 27
G 3G
4 4 9
17605
G0G
90
5 84
367
1 72
G 2
4 26
38715232749T 1
4 g
2
17 8
.5
2 P71 63513
34G45G913
8
55 57
467 48613 3
673.1
G 75
1575 17
9 5 5
22
7 61
6526 2 G
35 75
6 3 G
06
7648 8
3 6
5 G
610
G 55 92391
746274362783 97 G8
2250G0
89
46G6 05G
316 6 7G
44
1G
7G 7
50
8 90
59GG
TP640.g
831 2.
1 7 8 23 4G66 676 6
6 3976 875
75G174 92430
538417151859G 036 25G 0G 323 355 2 05762616 40
48
3 25G
098 G63GG8
6G
6 77G
54743 51G647G54 841 27 363 68G0 753 9 8
6708 067 20
−0. −0. 0.0 0.1 0.2 −20 −10 0 20 30
0 13
85
2 1 9828910
Comp.1
PC1

FIG. 3.10 – Pancre´as : diffe´rentes options de l’ACP. a : ge`nes X tissus centre´s. b : ge`nes centre´s
X tissus centre´s. c : ge`nes centre´s X tissus centre´s re´duits. d : tissus X ge`nes centre´s re´duits.
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

−0.2 −0.1 0. 0. 0.
0.0 1 2 3

0.
3
2
0

K562.1A1
K56K2K.5265A2643.21.

0.
2
A2A22

G571 G719
1
0

G184 G707
PancNorm2
PancNorm2

0.
1
CACCAOC2 A PancNorm
CACO2.1.1 B
WG8 G2408G 60179 1TP440.g2e
PC2

O 2 S S.2W 4 68 0.G 2 .
. 1
SW480M.2I.A1.1G.
S W
HCTS1W1 4 G 8 S 0
612 8
W5 G .
S2.21 9 1 8
6 9 . M 2 xT4P403.g
230 1 W3G1. G2.4 72
SW 4
HCT116.1. 8 0 .1 M
GG6 . 3 I A TP
1.2GG2G.5 7 G1
G 42G2G 3G2G 12 99 1 TPT5TPT4PTP11P0.
0

SW620 H .2 C . T 1 11 G 6G . G 2 TP5 T4 P0 .1

0.
G G 4
1 3243168.IG40G3APAG 4G0 42 GG 1 1 1 8G
67 G 5
2
1.2GG803
G G 34G

0
G GNG G1M4G G21
5 .G2 G GG
69
.238.1 72 8G G 4G C
5
81 9
73G 2G
G6 1 58 2 32e5x.g
1G 91H 3
5 1G.6 T8 G
179 268G G G
15.61 0 G 4
56262.3G
G 1 2
8 84 GG G 2 0G0
1327 G 67 P . 3 22ge435.2x10. .5
. 23
GG G64
5PANC
3G GH
4 6
G8GG17TG 9
23
G1 G
G
19
IG4622
1
3 G
G94 .9 9 3
2A 0 4G
.G4G1
G
8 73G8 2 30 93 G201
G97
1 g . 1 2 5.
TP225.
.
5 .G7 1. G8 02 9 1 2G6 G3G941 31
G
2 G 2 G G 4.25 1 3
7 .1G 8 G G
G 1G 6
HT29.3. Bx.P
5 6 8
G 8 23G1
C 1 B
1G 0 5G G
2
9G3 .123414 2 7 2 G4
G G
987 G 1 2. g 5 .g
18.G 5G122
97214
9
5GG
7
04G 9
6 50
7
3172
2817 4
8563G 8
G
G4 73
G9G21 G12
G0
9 9 G2
G1 4G
58 G G
7
G11G 1212 13
G739182
G17 37G g gg .x 2 g5 .g
9 e3 −0.
2G6G12Bx.P
2
9G2 312G3G 2
1 50 293
355.GG2
G
A8.
8 C4G S16
C 3
6 9
2NP
881
G6PG
.GG
A
5
5 92
5
1 47
GG8
P C0 G .
2
36
4
6
G 029
7
A G
G19
9
4
G
4
7
G
1
2 38
41B CA 4
2G .15 3G
4G
2 G05G1
3A
x6PxG 35
25 N3 G19.72 1027.G
G2B43G2
−1

03G 2S5 6G 1 G3 70
1
7
56 859CA A P51G 4 9S9P 22
NC 43036 C81
666133 8G.52
1 GP 1.421
05
86G 7 TP640.g
43 12
9G1 0G8
764
G2 06
9
G
181G1 41 C3A2
893 A 14
47G PG
G9
1G G7 P G1
7 G 1A1G
1 6 5G8
1 8
4N33 N
5
678
5 .
2.21 1
0

8 GCA
G56G 6 G
8 P .
35
1G G3
G
4 G5
A
5 7 N G342C. G93
0 183 0GA GG 9
G 6 5
20
57 .
8 51G
G G
CAPAN1.
G2 16
1 G 1
431 N
G P G841
3 G
1 .
1G5 G x126 10
2 G 1 3 5
60
G 1
. 5
G8 1
563G 39 G N 0
CAPAN2.1.
876 96 P 44 2 34 2
.
6GG13
5G65
452 162
4G3
1 1G196
2G .6 1 5
35 GC 5
. 45
42.G 54AG
3 2
2298 2. 5G 20G
3G3
632G9
G 10
G G 114 .143 675 64G 5
6.05 3
2 51
7.4G2867
78957G7 1b G G40
71 2.5
395G1G
2P5
4 G5
G 114
G1961228
.
4472
6
2517i
53
2
G
A 83
1G 5
3G
28
Gs.N
16
195 8250
G170
2
4
4 3
861
9 7 4G 670
5 87
−0.

44 040.G
1 2
G 4G
0.9 3834
P
0 C
.755
G25 0973 8.3 C.2 172 725G03.0
621 7
3 1G723676
G30
.G1.16.
4
6G2 4067G
178 4121G7
289 83 621
G. 544
0 948
2561.2.
26
9669P5 3.G527
5
G690
31 6G
2
2 2G 261 27
G531 3 2G7
G94G6676 GN
81G. 2
3 3
2 8 19 4 0 2 7 6
2

1
. 515253
0673 4 G1G 919
45 0 415G
60103G6 15
2G 12 344686G 3
2 0 5G
85G7 G929156 G 3G6 976 G1147666G9
5176 073 5.2.91 751
7 40185796 53G1G 3603 625 9296 71G2 8291
754 34G4G
4530
− 16826 4GG97G21.6 0 469480641
618786 2
085G13 725242837G620G860 0
.0G3828G6.
1G798686549087370 PC1
6 95

FIG. 3.11 – Pancre´as : ACP du tableau mesurant les expressions de 871 ge`nes (variables centre
´es) sur 65 e´chantillons biologiques.
8. DONNE´ ES D’EXPRESSION 51

2
0
1
0
0
−1
0

PC1 PC7 PC13 PC20 PC27 PC34 PC41 PC48 PC55 PC62

FIG. 3.12 – Pancre´as : Distribution des composantes principales dans l’ordre de´croissant de leur
variance. Quatre composantes ou dimensions semblent pertinentes a` retenir sur les 65
initiales (pas 871) qui est le rang de la matrice diagonalise´e.
52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

−0. 0. 0. 0.
2 0 2 4

1
5
G53

0.
4
1
G170
G19
1
0

G16 6
9G1G28
CAPAN2.1. G52 G527

0.
CCA194 P A N

2
5 G17
G6C5 AA PPG A CN
5

CACC ANP SN A
PSA P PP TGP562
[Link].3. .
PC2

HT29.3.
G152 1CP3N21A. 410.g
7 G685
P3A A1N
Bx.PC3.4.1. 1
C 2 1 9 .
1 C AA PNB Ax .PN C 3 . 1
B x. 2P. C 3. 2 .
BAxPA .NHPT
.SHP CCTC 231219.5.29... G69
GGG .3.143
[Link]..Bx.PC3.4.2 ..2 G . .
2 . 2.T P225.g
TPTT5TPP54P110.3..2.31.g
.
0

0.
GG2127.8
23 .i3
3s.2.

0
1218 Hb5
1 .4.2NP29.2.
CT1 H2316 C. T P 5 4P4P443020..4
3
G484
G1
SW4
7682
9
2 HCS
82W0. STW 28S.1
M 1WM6WG1MTII 6PTT 7G67
S 4
P A.2GNG.1C190 G13 0 .2. G2T382P440
3525GeG G67
.5.e7g..gGxxg.0g6
SW62
T21.11016.2 1g .g 02G3.1 e
CAC 2 6OACI6A 2A62
0.C.A .1S.
.1 2.0O
2
3W 21.214..2
5 8.6 gx92
19.21. 6 ACSW M2 C.O .I1.
−5

SW 48 g 5
692 6 e 92x
G690
01.12.3 PancNo
7 1 8rrm
G691 GG618786

−0.
8G18
00.1.2
2 3.A.[Link].31..22.

2
PancNorm1
4
K562.1AG270 G125 2AB G198
GK557K61252.622
K562.1A
−1

7
0

1 A.243A2
G719
−1 −5 0 5 1 1
0 0 5
PC1

FIG. 3.13 – Pancre´as : Repre´sentation dans le premier plan des 46 ge`nes contribuant le plus à
la de´finition des 4 premiers axes.

Bien e´videmment, cette dernie`re distinction est la plus inte´ressante et ouvre des pistes de
re- cherches cible´es sur ces ge`nes. Ne´anmoins, l’introduction des ligne´es cellulaire semble
apporter une contribuation inte´ressante sous la forme d’une “calibration” des anbalyses.
D’autres approches sont possibles qu’il serait inte´ressant de comparer pour apporter ainsi
plus de ”confiance” dans l’analyse des re´sultats. Des tests lie´s à un mode`le d’analyse de
variance plus ou moins sophistique´ (a` effet ale´atoire) ou la recherche d’un mode`le susceptible
de discriminer au mieux certains facteurs. Le choix des ge`nes s’apparente, dans ce dernier
cas, a` un choix de variables en re´gression ; les foreˆts ale´atoires de Breiman (2001) ou d’autres
me´thodes issues de la the´orie de l’apprentissage (cf. Besse, 2003 pour une introduction)
semblent apporter des re´ponses inte´ressantes. Cela sort du strict cadre exploratoire de ce cours.

9 Exemple : nutrition chez la souris


Nous donnons pour cet exemple le graphique des premie`res valeurs propres (figure 3.14)
qui conduit a` conside´rer trois dimensions repre´sentant environ les deux tiers de l’inertie
globale.
Les figures 3.15 et 3.16 donnent la repre´sentation des souris et celle des ge`nes,
d’abord
9. EXEMPLE : NUTRITION CHEZ L A SOURIS 53

0.4
0.3
Variances

0.2
0.1
0.0
FIG. 3.14 – Souris : e´boulis des dix premie`res valeurs propres de l’ACP.

dans le premier plan principal, ensuite dans celui correspondant aux dimensions 1 et 3.
Dans le cadre de cette ACP, il est cohe´rent de rechercher quels sont les 25% des ge`nes
contribuant le plus a` la de´finition de l’espace propre a` trois dimensions juge´ pertinent. Avec
cette se´lection, la repre´sentation des variables ainsi restreinte a` 30 ge`nes est plus facilement
lisible sur les fi- gures 3.15 et 3.16. Toutefois, dans le cas d’une puce pange´nomique, avec
potentiellement plusieurs milliers de ge`nes, une telle repre´sentation ne serait pas exploitable.
Le premier plan (Fig. 3.15) doit eˆtre interpre´te´ globalement puisque sa premie`re
bissectrice se´pare exactement les souris WT des souris PPAR. Les ge`nes à coordonne´es ne
´gatives sur l’axe 1 et positives sur l’axe 2 sont sensiblement plus exprime´s chez les souris WT,
en particulier CYP3A11, CYP4A10, CYP4A14, THIOL, PMDCI, GSTpi2, [Link] et FAS. A`
l’inverse, les ge`nes à forte coordonne´e ne´gative sur l’axe 2 s’expriment davantage chez les
souris PPAR, par exemple, S14, PAL et CAR1. Ceci est en partie connu des biologistes
(Aoyama et al., 1998).
Le phe´nome`ne le plus marquant concernant l’axe 3 (Fig. 3.16) est l’opposition, chez les
souris WT, entre les re´gimes dha (1), dont les coordonne´es sont toutes positives, et efad
(2), dont les coordonne´es sont toutes ne´gatives. Les ge`nes les plus exprime´s dans le premier
cas (re´gime dha chez les souris WT) sont CYP3A11, CYP4A10, CYP4A14, CYP2c29 et
CAR1 ; dans le second cas (re´gime efad chez les meˆmes souris), il s’agit des ge`nes FAS,
S14, Lpin et Lpin1. Parmi ces re´gulations, on note une opposition entre les CYP4A, connus
pour eˆtre implique´s dans le catabolisme des acides gras, et les ge`nes FAS et S14 implique´s eux
dans la synthe`se des lipides. Par ailleurs, la re´gulation de CYP3A11 par le DHA a de´ja` e´te´ de
´crite dans Berger et al. (2002).
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

1.
5

CYP3A11
1.
0

0.
2

3 5 4 PMDCI GSTpi2
1 31 3 CTYHYPIPO
4 [Link]
2 4LA104
0.
5

FAS GG6SPTa
5 mHMGCPECI
1 4 1 AoOAX
Dimension

Dimension

S smeu
BGIEK
0.

5
0

1 1
3 2 4 N HMGCoAred
CLYPPK2c2
0.

54
0

5 51 9
2 4 12 cHMGCoMACSACDOT
3 ANGFiB
CLLSpCpTHi2ni
2

2 RPn1a1
2 3 5 4
−0.

HS14 PAL CAR1


−0.
5

3
2

3
2
−1.
0

4 2
−0.
4
−1.
5

−1.5 −1.0 0.0 0.5 1.0 1.5 −0.4 −0.2 0.0 0.2
−0.5
Dimension Dimension 1
1

FIG. 3.15 – Repre´sentations de l’ACP sur le premier plan principal. A` gauche : individus-
souris identifie´s par leur ge´notype (WT en gras, PPAR en italique) et leur re´gime (1-dha, 2-
efad, 3-lin
, 4-ref, 5-tsol). A` droite : 30 variables-ge`nes qui contribuent le plus aux trois premiers axes.
9. EXEMPLE : NUTRITION CHEZ L A SOURIS 55

CYP4A14
1.
5
1.

0.
0

CYP4A10

2
1 1 CYP3A11 CYP2c29 CAR1
1 MCAACDOT
3
0.

mHMGPCEoCAISGSHSTHp
5

P
MD
CIGB SE T m
3 5 5 I
A O N Xu
3 P2i 1 G6PasePAL
NGFiB
0.
Dimension

Dimension

TRa
0

1 2 34
3 3
2 3 1 2 [Link]
5 1
0.
0

4 4
5 2 1 P
LAPCK
4 5
4 cHHMMGGCCoo
3

GKC2
1 4
−0.

35
−0.

4 AASred
2 Lpin1
2

Lpin
5

2 4
2
S14
−1.

2
0

−0.
4
−1.

FAS
5

−1.5 −1.0 0.0 0.5 1.0 1.5 −0. −0. 0.0 0.2
−0.5 4 2
Dimension Dimension
1 1

FIG. 3.16 – Repre´sentations de l’ACP sur le plan compose´ des axes principaux 1 et 3 avec les
meˆmes conventions que pour la figure 3.15.
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4
Analyse Factorielle Discriminante

1 Introduction
1. Donne´es
Les donne´es sont constitue´es de
• p variables quantitatives X 1 , . . . , X p jouant le roˆle de variables explicatives comme
dans le mode`le line´aire,
• une variable qualitative T , a` m modalite´s {T1, . . . , T m }, jouant le roˆle de variable a`
expli- quer.
La situation est analogue a` celle de la re´gression line´aire multiple mais, comme la variable
expliquer
a` est qualitative, on aboutit a` une me´thode tre`s diffe´rente.
Σ Les variables sont observe´es
sur
l’ensemble Ω des n individus affecte´s des poids wi > , ( ni= 1 wi = 1), et l’on pose
0
D = diag(wi ; i = 1, . . . , n).

La variable T engendre une partition {Ω l ; l = 1, . . . , m} de l’ensemble Ω des individus


dont chaque e´le´ment est d’effectif n l .
On note T (n × m) la matrice des indicatrices des modalite´s de la variable T ; son
ge´ne´ral
terme est
1 si T (ωi) = Tl
tli = t l (ωi ) = .
0 sinon
En posant Σ
wl = wi ,
i∈ΩÆ
il vient
D = T ' D T = diag(w1, . . . , wm).

1.2 Objectifs
Deux techniques cohabitent sous la meˆme appellation d’analyse discriminante :
descriptive : cette me´thode recherche, parmi toutes les ACP possibles sur les variables X j ,
celle dont les repre´sentations graphiques des individus discriminent “au mieux” les m
classes engendre´es par la variable T (e.g. recherche de facteurs de risque en statistique me
´dicale) ;
de´cisionnelle : connaissant, pour un individu donne´, les valeurs des Y j mais pas la modalite´
de T , cette me´thode consiste a` affecter cet individu a` une modalite´ (e.g.
reconnaissance de formes). Cette me´thode est de´crite dans la partie mode´lisation de ce
cours. 57
58 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

Remarque. — Lorsque le nombre et les caracte´ristiques des classes sont connues, il s’agit
d’une discrimination ; sinon, on parle de classification ou encore, avec des hypothe`ses sur les
distribu- tions, de reconnaissance de me´langes.

1.3 Notations
On note X la matrice (n × p) des donne´es quantitatives, G la matrice (m × p) des
des barycentres
classes :  
g1 '
−1 1 Σ
G = D T' DX =  ..  ou` g l = wi xi ,
  w l
gm ' i∈ΩÆ

et X e la matrice (n × p) dont la ligne i est le barycentre g l de la classe Ω l a` laquelle


appartient l’individu i :
Xe = T G = P G ;

P = T D − 1 T ' D est la matrice de projection D-orthogonale sur le sous-espace engendre´ par


les indicatrices de T ; c’est encore l’espe´rance conditionnelle sachant T .
Deux matrices “centre´es” sont de´finies de sorte que X se de´compose en

X = X r + Xe

avec
X r = X — X e et X e = X e — 1 n x ' .
On note e´galement G la matrice centre´e des barycentres :

G = G — 1 m x '.

On appelle alors variance intraclasse (within) ou re´siduelle :


Σm Σ
Sr = X r ' DX r = wi (xi — gl )(xi — lg)'
, l = 1 i∈ΩÆ

et variance interclasse (between) ou explique´e :

' ' Σm
S e = G D G = X eD X e = wl (gl — x)(gl —
x)'. l=1

PROPOSITION 4.1. — La matrice des covariances se de´compose en

S = Se + S r .

2 De´finition
1. Mode`le
Dans l’espace des individus, le principe consiste a` projeter les individus dans une
direction permettant de mettre en e´vidence les groupes. A` cette fin, Il faut privile´gier la
variance interclasse au de´triment de la variance intraclasse conside´re´e comme due au bruit.
3. RE´ ALISATION DE L’AFD
59

En ACP, pour chaque effet z i a` estimer, on ne dispose que d’une observation x i ; dans le
cas de l’AFD on conside`re que les e´le´ments d’une meˆme classe Ω l sont les observations re´pe´te
Σ
´es n l fois du meˆme i ; i =z l 1,
{x effet . . . , n},parn w
ponde´re´ l =
vecteurs Ω Æ wi. Le mode`le
i ∈inde´pendants de devient donc :
E, E ( ε i ) = 0, var(ε i ) = Γ,
∀l, ∀i ∈ Ω l , x i = z l + ε i
Γ re´gulie`re et (4.1)
avec
I A q , sous-espace affine de de dimension inconnue, q de E tel que
∀l, z l ∈ A q , (q < min(p, m — 1)).
Σ m
Remarque. — Soit z = l = 1 w l z l . Le mode`le entraˆıne que z ∈ A q . Soit E q le sous-espace
dimension q de E tel que A q =dez + E q . Les parame`tres a` estimer sont E q et {z l ; l = 1, . . . ,
w
m}l est
; un parame`tre de nuisance qui ne sera pas conside´re
´.

2.2 Estimation
L’estimation par les moindres carre´s s’e´crit ainsi :
, ,
Σ m Σ 2 
min wi xi — l M ; dim(Eq ) = q, z l — z ∈ E q .
,
Eq,zÆ , Æz
l = 1 i∈Ω
Comme on a
Σm Σ 2
Σm Σ Σm
wi x i — l M = wi x i — gl 2M + l g l — zl 2
M ,
l=1 i∈ΩÆ z l=1 i∈ΩÆ w l=1

on est conduit a` re
´soudre : ( )
Σm 2
min w l gl — zl M ; dim(Eq ) = q, z l — z ∈ E q .
E q ,z Æ
l=1

La covariance σ 2 Γ du mode`le (4.1) e´tant inconnue, il faut l’estime´e. Ce mode`le stipule


que l’ensemble des observations d’une meˆme classe ΩL suit une loi (inconnue) de moyenne
z e ll et de variance Γ. Dans ce cas particulier, la matrice de covariances intraclasse ou matrice
des co- variances re´siduelles empiriques S r fournit donc une estimation “optimale” de la me
´trique de re´fe´rence :
M = Γ ^− 1 = Sr−1

P ROPOSITION 4.2. — L’estimation des parame`tres E q et z l du mode`le 4.1 est obtenue par
l’ACP de (G, Sr−1, D). C’est l’Analyse Factorielle Discriminante (AFD) de (X|T, D) .

3 Re´alisation de l’AFD
Les expressions matricielles de´finissant les repre´sentations graphiques et les aides a`
l’in- terpre´tation de´coulent de celles de l’ACP.
60 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

1. Matrice a` diagonaliser
L’ACP de (G, Sr−1, D) conduit a` l’analyse spectrale de la matrice positive Sr−1-syme´trique :

G ' D GS r − 1 = S e S r −1 .

Comme Sr−1 est re´gulie`re, cette matrice est de meˆme rang que S e et donc de meˆme rang que
G qui est de dimension (m × p). Les donne´es e´tant centre´es lors de l’analyse, le rang de la
matrice a` diagonaliser est
h = rang(SeSr−1) ≤ inf(m — 1, p),
qui vaut en ge´ne´ral m — 1 c’est-a`-dire le nombre de classes moins un.
On note λ 1 ≥ · · · ≥ λ h > 0 les valeurs propres de S e S r −1 et v 1 , . . . , v h les
vecteurs propresSr−1-orthonorme´s associe´s. On pose

Λ = diag(λ 1 , . . . , λ h ) et V = [v1, . . . , vh].

Les vecteurs v k sont appele´s vecteurs discriminants et les sous-espaces vectoriels de


dimension 1 qu’ils engendrent dans IRp les axes discriminants.

2. Repre´sentation des individus


L’espace des individus est (IRp, b. c., Sr−1). Une repre´sentation simultane´e des individus x i
et des barycentres g l des classes par rapport aux meˆmes axes discriminants est obtenue dans
cet espace au moyen des coordonne´es :
−1
C C= =G S −XS
r Vr =VD
1 −1
pourTles
'
Dindividus
C pour lesetbarycentres.

Les individus initiaux sont projete´s comme des individus supple´mentaires dans le syste`me
des axes discriminants. Comme en ACP, on peut calculer des cosinus carre´s pour pre´ciser la
qualite´ de repre´sentation de chaque individu.
Il est utile de diffe´rencier graphiquement la classe de chaque individu afin de pouvoir appre
´cier visuellement la qualite´ de la discrimination.

3. Repre´sentation des variables


L’espace des variables est (IRm, b. c., D). Chaque variable X j est repre´sente´ par un
vecteur dont les coordonne´es dans le syste`me des axes factoriels est une ligne de la matrice
VΛ 1 / 2 .

4. Interpre´tations
Les interpre´tations usuelles : la norme est un e´cart-type, un cosinus d’angle est un
coefficient de corre´lation, doivent eˆtre faites en termes d’e´carts-types et de corre´lations
explique´es par la partition.
La repre´sentation des variables est utilise´e pour interpre´te´e les axes en fonction des variables
j
initiales
La Σ e− 1 e´tant la matrice
matriceconjointement avec ladiagonale
matrice des
dese´carts-types
corre´lationsexplique´s eσ c’est-a`-dire
explique´es variables×facteurs
des :
Σ e VΛdes .e´le´ments diagonaux de la matrice Se .
racines
carre´es
− 1 1 / 2

Le point pratique essentiel est de savoir si la repre´sentation des individus-barycentres et


des individus initiaux permet de faire une bonne discrimination entre les classes de´finies par la
variable
4. VARIANTES DE L’AFD 61

T . Si ce n’est pas le cas, l’AFD ne sert a` rien, les X j n’expliquent pas T . Dans le cas
favorable, le graphique des individus permet d’interpre´ter la discrimination en fonction des axes
et, celui des variables, les axes en fonction des variables initiales. La synthe`se des deux permet
l’interpre´tation de T selon les X j .

4 Variantes de l’AFD
1. Individus de meˆmes poids
L’AFD peut eˆtre de´finie de diffe´rentes fac¸on. Dans la litte´rature anglo-saxonne, et donc
dans la version standard d’AFD du logiciel SAS (proce´dure candisc), ce sont les
estimations sans biais des matrices de variances “intra” (within) et “inter” (between) qui sont
conside´re´es dans le cas d’individus de meˆmes poids 1/n.
Dans ce cas particulier,

1 1
D = I n et D = n diag(n1 , . . . , nm ) ou` nl = l
n
card(Ω ) empiriques ont alors pour termes ge´ne´raux
et les matrices de covariances
:
(S)k = 1Σ k
j n (x ji — x j ) x i k — ,
n
i=1 ( x )
Σ m
1
(S e)kj = n l (glj — xj ) glk — k ,
n
l=1 ( x )
Σ m Σ
1
(S r )kj = (x ji — glj ) x ki — lk .
n
l = 1 i∈ΩÆ ( g )

Du point de vue de le Statistique infe´rentielle, on sait que les quantite´s calcule´es ci-dessus
ont respectivement (n — 1), (m — 1) et (n — m) degre´s de liberte´. En conse´quence, ce point
de vue est obtenu en remplac¸ant dans les calculs
n
S par S∗ S,
n—
= n
S ∗e = 1
B = S e,
m—
Se par n
S r par S ∗r = W = 1 Sr.
n—
m
Les re´sultats nume´riques de l’AFD se trouvent alors modifie´s de la fac¸on suivante
:
– matrice a` diagonaliser : = nm−−m1 S S −1 ,
Se∗Sr∗− e r
– valeurs propres : = nm−−m1 Λ,
q
– vecteurs propres : 1 Λ∗ n
= n−m V,
q
– repre´sentation des V = n−m
C,
q n
barycentres : ∗ n 1/2
= m−1 V Λ ,
– repre´sentation des variables : C

= Σ −1 V Λ 1/2 .
e
– corre´lations variables-facteurs :
Ainsi, les repre´sentations graphiques sont identiques a` un facteur d’e´chelle pre`s tandis que
V ∗Λ ∗ 1 / 2
les parts de variance explique´e et les corre´lations variables-facteurs sont inchange´es.

Σ e ∗− 1V ∗Λ∗1/2
62 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

4.2 Me´trique de Mahalanobis


L’AFD est souvent introduite dans la litte´rature francophone comme un cas particulier
d’Ana- lyse Canonique entre un ensemble de p variables quantitatives et un ensemble de m
variables indi- catrices des modalite´s de T . La proposition suivante e´tablit les relations entre les
deux approches :

PROPOSITION 4.3. — l’ACP de (G, Sr−1, D) conduit aux meˆmes vecteurs principaux que
l’ACP de (G, S − 1 , D). Cette dernie`re est l’ACP des barycentres des classes lorsque l’espace
des in- dividus est muni de la me´trique dite de Mahalanobis M = S − 1 et l’espace des
variables de la me´trique des poids des classes D.

Les re´sultats nume´riques de l’AFD


– matrice se trouvent
a` diagonaliser : alors modifie´s de la fac¸on suivante :
Se S− 1 ,
– valeurs propres : Λ(I + Λ) − 1 ,
– vecteurs propres : V (I + Λ) 1 / 2 ,
– repre´sentation des C ( I + Λ) − 1 / 2 ,
barycentres :
– repre´sentation des variables : V Λ 1/2,
– corre´lations variables-facteurs : Σ e −1 V Λ 1/2 .
Les repre´sentations graphiques des individus (voir ci-dessus) ne diffe`rent alors que d’une
ho- mothe´tie et conduisent à des interpre´tations identiques, les corre´lations variables-facteurs
ainsi que les repre´sentations des variables sont inchange´es.

5 Exemples
Ce chapitre est illustre´ par une comparaison des sorties graphiques issues d’une ACP et
d’une AFD. Les donne´es de´crivent trois classes d’insectes sur lesquels ont e´te´ re´alise´es 6
mesures ana- tomiques. On cherche à savoir si ces mesures permettent de retrouver la typologie
de ces insectes. Ce jeu de donne´es est tre`s “scolaire” mais il montre bien le roˆle joue´ par la me
´trique en AFD qui a tendance a` rendre les classes plus sphe´riques autour de leur barycentre.
Cette technique n’est pas tre`s adapte´e aux proble`mes lie´s aux donne´es d’expression. En
effet, le nombre de parame`tre discriminants y tre`s important et conduit le plus souvent a` un
proble`me d’inde´termination. Plus pre´cise´ment, avec le nombre de variables/ge`nes pre´sents, il
est toujours possible de trouver un ou des axes discriminants diffe´rents types d’e´chantillons
biologiques. Le proble`me est en fait mal pose´ (plus d’inconnues que d’e´quations). Une se
´lection drastique du nombre de ge`nes pre´alable à l’AFD doit donc eˆtre re´alise´e ; elle a e´te´ ici
conduite à la l’aide de la proce´dure discrim de SAS qui recherche avec un algorithme de
type backward les variables les plus discriminantes. Cela conduit aux re´sultats de la figure 5.
5. EXEMPLES 63

A 0
x
e

2
-
1

-
2

-
3

- - - - - 0 1 2 3 4
4 4 3 2 1
A x e
1

FIG. 4.1 – Insectes : premier plan factoriel de l’ACP.

2
A
x 1
e
2 0

-
1

-
2

-
3 - 8 - 7- 6 - 5 - 4 - 3 - 0 1 2 3 4 5 6
2 - 1 7
A x e
-
4 1

FIG. 4.2 – Insectes : premier plan factoriel de l’AFD.


64 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

FIG. 4.3 – Souris : premier plan factoriel de l’AFD. Repre´sentation des ge`nes participant le
plus a` la discrimination des re´gimes des souris sauvages.

FIG. 4.4 – Souris : premier plan factoriel de l’AFD. Repre´sentation des souris sauvages en fonc-
tion de leur classe de re´gime.
Chapitre 5
Positionnement multidimensionnel

1 Introduction
Conside´rons n individus. Contrairement aux chapitres pre´ce´dents, on ne connaˆıt pas les
obser- vations de p variables sur ces n individus mais dans certains cas les n(n — 1)/2 valeurs
d’un in- dice (de distance, dissimilarite´ ou dissemblance) observe´es ou construites pour chacun
des couples d’individus. Ces informations sont contenues dans une matrice (n × n) D. L’objectif
du position- nement multidimensionnel (multidimensional scaling, ou MDS, ou ACP d’un
tableau de distances) est de construire, a` partir de cette matrice, une repre´sentation euclidienne
des individus dans un espace de dimension re´duite q qui approche au “mieux” les indices
observe´s. Autrement dit, vi- suellement le graphique obtenu repre´sente en dimension (en ge´ne
´ral) 2 la meilleure approximation des distances observe´es entre les individus pouvant eˆtre des
ge`nes ou des e´chantillons biologiques.
Le principal inte´reˆt de cette technique est donc de pouvoir observer graphiquement le
meˆme ensemble de donne´es à travers diffe´rentes ”optiques” et meˆme d’en comparer les repre
´sentations ; chaque optique est de´finie par la fac¸on dont on mesure des distances ou
dissimilarite´s entre les objets.
Citons trois exemples typiques dans le cas spe´cifique de ge`nes de´crits par leurs
transcrits :
• chaque ge`ne est un vecteur dans un espace vectoriel muni de la distance euclidienne
clas- sique (racine de la somme des carre´s des e´carts). Le MDS ou ACP du tableau des
distances qui en de´coule est e´quivalent a` l’ACP dans laquelle les ge`nes sont les
individus (les lignes).
• On
√ Xcorre´le´s)
et X k seront
mesure d’inhibition
la dissimilarite´ entre deux ge`nes j par 1—cor(X j , X k ) faisant
me´canisme (fortement ne´gativement aussi
• intervenir
proches.
On la corre´lation
mesure la distance entre deuxline´aire de Pearson
ge`nes par ou j celle
1 — cor(X ,k X2robuste
) . Ellesur les rangs
ve´rifie, dans cede
Spearman.
cas, Lesquige`nes
les proprie´te´s co-re´gule´s
en font une distance (fortement
euclidienne. positivement
Co-re´gule´s corre´le´s)
ou inhibe´s, sont corre
les ge`nes tre`s
proches, les ge`nesouassocie´s
´le´s positivement dans unsont proches dans les repre´sentations graphiques.
ne´gativement
Exemple e´le´mentaire : Conside´rons un tableau contenant les distances kilome´triques par
route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces
valeurs sont range´es dans le triangle infe´rieur d’une matrice carre´e avec des 0 sur la diagonale.
La structure du re´seau routier, le relief, font que cette matrice de distances n’est pas
euclidienne qui, dans ce cas, correspondrait a` la distance a` ”vol d’oiseau”. Mais, comme le
montre le graphique issu d’un positionnement multidimensionnel, l’approximation euclidienne
en est tre`s proche.
Le MDS e´tant encore une technique factorielle, comme en ACP il est ne´cessaire de de
´terminer le nombre de dimensions fixant la taille de l’espace de repre´sentation. Le graphique
repre´sentant

65
66 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

hend
bres
lour

laba
40

bord roya
0

stma
ando toul nant renn

poit ange cher


20

limo lema
0

caen
tour

perp leha
orle
roue
cp2

bour
clem
0

mon pari
t
amie
boul
cala
troy
−20

mars lyon lill


reim
0

gren dijo
nice brux
gene
besa
cham nanc
−40

mleut
0

mul
h xze
bale
s
t
r
−80 −60 −40 −20 0 a 200 400
0 0 0 0
cp1

FIG. 5.1 – Villes : Positionnement de 47 villes a` partir de la matrice de leurs distances


ki- lome´triques.
2. DISTANCE, SIMILARITE´ S
67

la de´croissance des valeurs propres aide a` ce choix.


Les preuves et de´veloppements the´oriques sont omis dans cet expose´ succinct, ils sont a`
cher- cher dans la bibliographie. Voir par exemple Mardia et col. (1979).

2 Distance, similarite´s
Rappelons quelques proprie´te´s et de´finitions e´le´mentaires mais basiques a` propos de la
notion de distance.

1. De´finitions

DE´ FINITION 5.1. —


• Une matrice (n × n) D est appele´e
dj = 0 matrice dej distance
et ∀(j, k), /= k, dksi≥elle est syme´trique et si :
j j
0.
• Une matrice (n × n) C est appele´e matrice de similarite´ si elle est syme´trique et
si
∀(j, k), c kj ≤ cj j.

Une matrice de similarite´ se transforme en matrice de distance par


:
djk = (cj j + ck k— j k ) −1/2.
2c

DE´ FINITION 5.2. — Une matrice de distance est dite euclidienne s’il existe une
configuration de vecteurs {x 1 , . . . , x n } dans un espace vectoriel euclidien E de sorte que
2
dkj = ⟨x j — xk , xj — k
x ⟩ .
2
On note A la matrice issue de D de terme ge´ne´ral dkj = dkj /2 et H la matrice de centrage :

H = I — 11'D,

qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1 dans l’espace
eucli- dien F des variables muni de la me´trique des poids.

PROPOSITION 5.3. —
• Soit D une matrice de distance et B la matrice obtenue par double centrage de la
matrice
A issue de D :
B = HAH' ,

alors D est une matrice euclidienne si et seulement si B est positive (toutes ses
valeurs propres sont positives ou nulles).
• Si la matrice de similarite´ C est positive alors la matrice de distance D de´duite est
eucli- dienne.
68 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

2.2 Distances entre variables


L’un des inte´reˆts pratiques du positionnement multidimensionnel est d’aider a`
comprendre, visualiser, les structures de liaison dans un grand ensemble de variables. On
obtient ainsi des indications pour guider le choix d’un sous-ensemble de variables, par exemple
les plus lie´es à une variable à expliquer. Cette approche ne´cessite la de´finition d’indices de
similarite´ entre variables. Beaucoup sont propose´s dans la litte´rature et concre`tement utilise´s
pour les donne´es d’expression. Les ge`nes e´tant conside´re´s comme des variables, on s’inte´resse
alors à diffe´rents crite`res base´s sur la corre´lation line´aire usuelle de Pearson ou robuste (non
parame´trique de Spearman).
On note X et Y deux variables statistiques dont les observations sur les meˆmes n
individus sont range´es dans les vecteurs centre´s x et y de l’espace euclidien F muni de la me
´trique des poids D. On ve´rifie facilement :

cov(X, Y ) = x ' Dy
σX = x D
x'Dy
cor(X, Y ) = .
x D y D

La valeur absolue ou le carre´ du coefficient de corre´lation de´finissent des indices de


similarite´ entre deux variables quantitatives. Il est facile d’en de´duire des distances. Le carre´ du
coefficient de corre´lation line´aire a la particularite´ d’induire une distance euclidienne :

d 2 (X, Y ) = 2(1 — cor 2 (X, Y )).

PROPOSITION 5.4. — La distance entre variables quantitatives d 2 (X, Y ) est encore le carre´
de la distance P x — P y D entre les projecteurs D-orthogonaux sur les directions engendre´es
par les vecteurs x et y.

Des indices de dissimilarite´ peuvent e´galement eˆtre de´finis pour un couple de variables
qualitatives (a` partir de l’indice de Tschuprow) ou pour une variable quantitative et une variable
qualitative (a` parti du rapport de corre´lation). Ils ont moins d’inte´reˆt pour des donne´es
d’expression et sont laisse´s de coˆ te´ .

3 Recherche d’une configuration de points


Le positionnement multidimensionnel est la recherche d’une configuration de points dans
un espace euclidien qui admette D comme matrice de distances si celle-ci est euclidienne ou,
dans le cas contraire, qui en soit la meilleure approximation à un rang q fixe´ (en ge´ne´ral 2) au
sens d’une norme sur les matrices. Nous ne nous inte´ressons dans ce chapitre qu’a` la version
“me´trique” du MDS, une autre approche “non me´trique” construite sur les rangs est de´veloppe
´e dans la biblio- graphie.
Ainsi pose´, le proble`me admet une infinite´ de solutions. En effet, la distance entre deux
vec- teurs x i et x k d’une configuration est invariante par toute transformation affine z i = Fx i +
b dans laquelle F est une matrice orthogonale quelconque et b un vecteur de IRp. Une solution
n’est donc connue qu’a` une rotation et une translation pre`s.
3. RECHERCHE D’UNE CONFIGURATION DE POINTS 69

1. Proprie´ te´ s
La solution est donne´e par les re´sultats (Mardia et col.79) ci-dessous :

PROPOSITION 5.5. — Soit D une matrice de distance et B = H A H la matrice centre´e en


lignes et colonnes associe´e.
• Si D est la matrice de distance euclidienne d’une configuration {x 1 , . . . , x n } alors B
est la matrice de terme ge´ne´ral
k
b = (x j — x)'(x k —
j
x)
qui se met sous la forme
B = (HX)(HX) ' .

Elle est donc positive et appele´e matrice des produits scalaires de la configuration centre´e.
• Re´ciproquement, si B est positive de rang p, une configuration de vecteurs admettant B
pour matrice des produits scalaires est obtenue en conside´rant sa de´composition
spectrale B = U ∆ U ' . Ce sont les lignes de la matrice centre´e X = U ∆ 1 / 2
qui fournissent les coordonne´es des vecteurs de la repre´sentation
euclidienne.

3.2 Explicitation du MDS


Pour re´sume´, dans le cas d’une matrice D euclidienne suppose´e de rang q, le MDS est
obtenu en exe´cutantdeleslae´tapes
i. construction matricesuivantes : ge´ne´ral — k 2
A de terme j
1/2d ,
ii. calcul de la matrice des produits scalaires par double centrage B = H A H ' ,
iii. diagonalisation de B = U ∆ U ' ;
iv. les coordonne´es d’une configuration, appele´es coordonne´es principales, sont les lignes
de la matrice X = U∆ 1 / 2 .
Dans le cas euclidien, ACP et MDS sont directement connecte´s.

PROPOSITION 5.6. — Soit Y la matrice des donne´es habituelles en ACP. L’ACP de (Y, M ,
1/nI) fournit les meˆmes repre´sentations graphiques que le positionnement calcule´ a` partir de la
de distances de terme ge´ne´ral yi — yj M . Si C de´signe la matrice des composantes
matrice √
les coordonne´es principales sont nC.
principales,
alors

L’inte´reˆt du MDS apparaˆıt e´videmment lorsque les observations Y sont inconnues ou


en- core si l’on cherche la meilleure repre´sentation euclidienne de distances non-euclidiennes
entre les individus ; c’est l’objet du the´ore`me suivant. En ce sens, le MDS “ge´ne´ralise” l’ACP
et per- met, par exemple, de conside´rer une distance de type robuste a` base de valeurs
absolues mais la repre´sentation des variables pose alors quelques proble`mes car le “biplot” n’est
plus line´aire.

PROPOSITION 5.7. — Si D est une matrice de distance, pas ne´cessairement euclidienne, B


la matrice Σ pour ^k 2 ) qminimum
MDS a unedematrice
produitdescalaire associe´e,
distance D alors,
^ qui rend n
j,k=1
une
({d kdimension
j } 2—d
j
fixe´e, la configuration
et, c’est e issue
du ¨ ´quivalent,2
^ ^¨
une matrice de produit scalaire B qui minimise ¨B — B ¨ .
70 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

4 Application au choix de variables


La se´lection d’un sous-ensemble de variables pour la mise en œuvre de techniques
factorielles (Jolliffe 2002) n’est pas aussi claire que dans le cadre de la recherche d’un mode`le
line´aire parci- monieux. Le proble`me vient souvent de la confusion de deux objectifs :
• supprimer des variables tre`s lie´es, donc redondantes, et dont la multiplicite´ vient
renforcer artificiellement l’influence de certains phe´nome`nes,
• supprimer des variables afin de simplifier l’interpre´tation des axes tout en conservant
au mieux les repre´sentations graphiques.
Le premier objectif modifie donc les repre´sentations en visant a` eˆtre plus proche de la “re´alite´” ou
au moins d’une re´alite´ moins triviale tandis que, par principe, le deuxie`me objectif recherche le
sous-ensemble restreint de variables susceptibles d’engendrer le meˆme sous-espace de repre
´sentation.
Il n’existe pas de solution miracle, ne´anmoins les outils pre´sente´s dans ce chapitre :
indices de similarite´ entre variable et positionnement multidimensionnel, peuvent aider a` ces
choix sur- tout lorsque l’analyse d’un grand nombre de variables ne´cessite de segmenter
l’analyse en sous- groupes. Les algorithmes de classification (hie´rarchique ou centres
mobiles) applique´s sur les meˆmes tableaux de distance apportent un e´clairage comple
´mentaire.

5 Donne´es d’expression
Une analyse en composantes principales (cf. chapitre 3) fournit un premier aperc¸u de
la repre´sentation de ge`nes relativement aux e´chantillons biologiques par l’interme´diaire d’un
biplot. Le but ici est de s’inte´resser aux e´ventuelles co-re´gulations ou inhibitions entre
ge`nes. Le cas e´che´ant, ceux-ci apparaˆıtront corre´le´s positivement ou ne´gativement.
Deux options sont possibles :
• utiliser une dissimilarite´ d’un moins la corre´lation rend proches deux ge`nes co-re´gule´s
et e´loigne deux ge`nes dont on peut conside´rer que l’un inhibe l’autre.
• utiliser un moins la corre´lation au carre´ rapproche deux ge`nes lie´s qu’il y ait co-re
´gulation ou inhibition.
En cas de proble`me de robustesse (valeurs atypiques) encore pre´sent apre`s transformation en
lo- garithme, remplacer la corre´lation line´aire de Pearson par celle sur les rangs de Spearman
peut s’ave´rer utile.
Dans l’exemple des donne´es d’obe´site´, plusieurs options sont possibles pour la repre
´sentation des ge`nes. La premie`re utilise l’ACP dans laquelle les ge`nes sont les variables. La
figue 5 montre une sorte d’effet taille. Les expressions de tous les ge`nes sont corre´le´es
positivement avec une direction particulie`re sans soute associe´e a` la ”taille” des cellules des
sujets.
Cette repre´sentation n’est donc pas ”optimale”, influence´e par un artefact relativement fort.
Une autre approche est pre´fe´rable. Le double centrage, en lignes et colonnes, implicitement
contenu dans le MDS, e´limine cet artefact.
Comme en ACP, un graphique repre´sentant la de´croissance des valeurs propres aide au
choix de la dimension. Dans le cas de la matrice calcule´e avec les carre´s des corre´lations, deux
dimen- sions, au moins dans une premie`re approche, s’ave`rent suffisantes (cf. figure 5-b). A la
vue de ces graphique (figure 5 et 5), seul le biologiste peut juger de la pertinence des re´sultats ;
il choisira, en connaissance de cause, le graphique le plus explicite.
D’autres repre´sentations sont possibles sous forme d’arbres. C’est l’objet du chapitre
suivant.
5. DONNE´ ES D’EXPRESSION 71

−5 0 5

X7
a7Xn2pX7ra2

0.
X15

5
piX32k
X52X583
aX 0da8nd6Xr1n
XX8 C X9 5X2X3i6d 8367e
0. X79alpha X 6XA2R9 X7
Xl5Xxr3a7
1 X70
X9 732 r2 2
5a X55
Comp.

7
X21
X49 cpX64
epbaprab angiopXtpea3nr
X
XX47 6
fo99X7 7X
3tx leptin
9 X11cbhfda

0
fatbpp1aX61cpt
psmXpX
0.

ppara X 465 3up


0

p gc 1 X a 7
8a 4n p 8sg itn1oom t gen
2

X24X73XX
X2 l1X
X19
95
Xn6ic6fX 666a12 hs3slrXe8
parg2 d
s 6 lpl b8 p
X31 g l u
38
XX5176 8X91
X 14 5 cy
−0.

p aX85 X
Xi 10 X58 3 5
X50 9 7 XX5 X438 1X1
316128
c8X28sX
12
XX980m cocxX94a44dX6X3X2X t 44X3
1

4 1
fabp

−5
c lo
u c X12 X p
p X82 28 hilin
X10X09 3XX6XX32 10 50d9ea3 4
40parcpX84
−0.

X5 X95 X34
3 4
2

Xpbm111

− 0.2 −0.1 0.0 0.1 0.2

Comp.1

FIG. 5.2 – Obe´site´ : Repre´sentation du premier plan de l’analyse en composantes principales


faisant apparaˆıtre un certain “effet taille”.
2.5
mdsScree$ei

1.5
g
0.5

2 4 6 8 14
10
Inde
x

FIG. 5.3 – Obe´site´ : De´croissance des valeurs propres et choix de la dimension de l’espace dans
lequel rechercher une repre´sentation euclidienne des ge`nes la plus conforme à leurs distances
au sens de la corre´lation au carre´.
72 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

rac(1−cor^2)

ppara
0.4

cebpa
fabppmlepti
n
pparb

fatp1

adnr
0.2

cpdp3a6r
2
gtot
adnr1lxr
asp
a
pparg
2
fasangiotensinoge
lpl
cp2

n X11bhd
cpt1m
u
0.0

cyclophili hsl anpra


n alpha2AR
pi3k
paai1n
ucp2 foxc2
srebpg1luc p Cidea
t4 pgc1a
−0.

il6
2

fabp4 tnf
pdsep3a
brc
a
mccaodx4

apm1

−0. 0.0 0.2 0.4


2
cp1

FIG. 5.4 – Obe´site´ : repre´sentation des ge`nes en fonction de leur proximite´ au sens de
la corre´lation au carre´.
5. DONNE´ ES D’EXPRESSION 73

1−cor, k=2
0.8

pai1
0.6

sparc
0.4

foxc2
pde3b

pgc1a
fabp4
anp
0.2

apm1 ucp2 il6


tnfa
cox4
X11bhd

mcad
0.0

cyclophsiglrilnuetb4p1c
Cidpe3
i
angiotensinoge
hsl
cpt1mun ak
alpha2AR
lpl asp lxra
pparg2
ppargto
−0.

ppar
cd3fa6s t
b adnra2dnr
2

fabfpatppm 1
1
lep
cebpa
tin anpra
ppara
−0.
4

−0. −0. 0.0 0.2 0.4 0.6


4 2

FIG. 5.5 – Obe´site´ : repre´sentation des ge`nes en fonction de leur proximite´ au sens de
la corre´lation.
74 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

CYP4A14 GSTpi2 CYP4A14


CYP4A14 THB
MCAD
CYP2c2 9 ACOTH CYP4AT1p0alpha
Pex11a CAR1 mHMGPCEoCAIS
0.5

THB RXRb2

0.2
MCAD
YP3A11 CYP3A11 CYP3A11 Tpbeta
CYP4A10 IL.2 IL.o2B PON RXRFARg 1
X R
GSTpi2 CYP2c29
CAR1 CYP4A10 PMDACOI X CACP C16SRp PXR a
ACAT1PON VLDLr
OCTNAL2DPILSP
apoB RXRb2 CAR1

0.2
MCADACOTH PPARd BIEN
PMDCI SPI1.1 G6Pase
PECTIpalpha C16SR LXRb apoE Ra
MTHFRCGIMDSEDAR1
mHMGCGoSPATESmCIu Tpalpha LoCEE GST
mHMmGuCaopAoSE LCE
M.CPT1 RXRa .LBXARTa
i SIAT4c
G6PaseAOBXIEN CTSPI1.1 ApCbPaetpa CACP P PMPTAFHRXVgL
PMDCI [Link]
0.0

0.0
PexT1HM1a
BALDH3 CPCoP
TB2 ST cMOAT .l 26ShHA
PB
NT1
CURRC1aYPn2
i37b
[Link] L2FX X
XLAM BCYCRb
BRPTR
C
A PR 2A
O1OXb2r
D6RA2C cXC NT
L BaR i6
C
. .D1NRYfRoYSO
T
p
beMit.aB2XRA3B6
A b4 DLr PPexP1A1Raad THIOL CBYcP3 RL1p
MPCA
[Link]
1 6A3RAS PMMR 6R PDmRP MXCRL FX2CPD aCa
LdA4NA1D GPT
1YpH
R LIPDTR
FNLER2 1
THIOL BP2
X
HPNC LR SaB
CiE OY
OP BP27aA1CA bTC
G6 CT a IGT
FTR O
X
P CC R
Dimension

Dimension

Dimension
LN
AXhC Ba p A
UC .B
P
basX PS27PSR
c1A C2pl AOX
[Link] PY U 2VaM .ibg
1 FAB1S 3R
B
.I APSD
I

0.0
DH
ABCIEANT2 BACTcMOPA PT
gPoWF D 1 RK MDGRi.S1BAT
DRDTR.TSLLpin2 ER 2HP PSPI1A
11LDLr
RS 2ie
D
C c4b
C
U TBa YCi3 2 1
ff CBS GSTmu
PLTPAA FPAL R A b
NFS 3aI1
P S
P7 i3
Rn1b3apoA.I C AR
LXRa BcSl.H3P1
LPPC0KTYP8b1
g2424 pctN
SIAT4c
[Link]
CPT2 CYP26 CYP2L7pbi1n3

−0.2
HMGCoAreAdCC2
−0.5
2

2
GK cHMGCoAS THIOL HAPLNDCHL3 ACC1

−0.2
[Link] CRNAPYbOR2P aSbR U7 ALDH3 G6Pase BACT
[Link]

0.4
Lpin1 1aC0MR PSg3S1RB
.I
Lpin
MDRm2ABC1 [Link] oYSsaPXSf211b13VD PPA
CYP2c29
ACBP COPXD2K4 R [Link] GSTpi2
NGFiB HPNCL Ntcp ap2
BSECPYP27a1MRP6 apoC3 RARUbC2P2Ntcp GSTa U MC PS 3
CRYAPR2abV1DR RX R g
Lpin2 1

−0.4
CO
T PAL
MDRA2CAT2 i .NCOTYRSPb2 0
CYP7a
−1.0

ACBP X1 b13
S14 FDF n eCifY2Pg24 ACCC1OX2
BSEP MRP6 mABC1 [Link]
[Link] KP42
FAT
CYP27a1
3 FAT RAeRifCYP24
b 22g
G6PDH PAL
apoA.I
LCPYKP8 apoC

−0.6
−0.4
FAS FDFT i. FABP
b1 Lpin2
LDLr apoA.I
CYP8b1 G6PDH
−1.0 −0.5 0.5 −0.5
GK 0.0 n1 0.5 −0.6 −0.4 −0.2 0.0 0.2 0.4
0.0 ACC2
GKFAS
Dimension Dimension Dimension
1 PLTPLLpipi 1 LPK 1
LLppiin1
LDLr
FAS
HMGCcoHAMreGdCoAS

S14 cHMPGLCToPAS ACC2


HMGCoAred
S14

FIG. 5.6 – Souris : positionnement multidimensionnel des ge`nes sur les axes 1 et 2 selon 3
dis- tances diffe´rentes : distance euclidienne (d1 a` gauche), corre´lation (d3 au centre), corre
´lation carre´e (d2 a` droite).

6 Exemple : nutrition chez la souris


Applique´ a` ces donne´es, le positionnement multidimensionnel permet de conside´rer diffe
fac¸on de prendre en compte des distances√ inter-ge`nes
´rentes Σ n :
• distance euclidienne, d1 ( X , Y ) = i = 1 ( X i — Y i ) 2 , positive
√ ou
• distance associee´ a` la correlation´ ´ d2nulle ( X , ;Y ) = 1 — X , Y )2, comprise entre 0
et 1carree,
; cor(
• distance associe´e a` la corre´lation, d 3 (X, Y ) = 1 — cor(X, Y ), comprise entre 0 et 2.
Remarquons tout d’abord que dans les trois cas, plus la valeur est petite, plus les ge`nes dont
on mesure l’e´loignement sont proches. Ensuite, pour d2 et d3, une valeur proche de 1 caracte´rise
deux ge`nes non corre´le´s, ce qui n’est pas ne´cessairement le cas de la distance euclidienne.
Enfin, il est important de noter qu’une corre´lation forte et ne´gative entre deux ge`nes conduit a`
deux re´sultats oppose´s selon d2 (valeur proche de 0) et d3 (valeur proche de 2).
La figure 5.6 illustre les trois possibilite´s avec le positionnement multidimensionnel des
ge`nes. L’analyse conjointe de ces trois graphiques conduit a` de nombreuses interpre´tations
sur le plan biologique. Sans rentrer dans les de´tails, nous noterons que ces trois graphiques
tendent à se´parer deux groupes de ge`nes qui interviennent dans deux fonctions biologiques
oppose´es : les CYP4A, PMDCI, PECI, AOX, BIEN, THIOL, CPT2, mHMGCoAS, Tpalpha et
Tpbeta sont implique´s dans le catabolisme des lipides et la ce´toge´ne`se alors que les ge`nes
FAS, S14, ACC2, cHMGCoAS, HMGCoAred et, plus indirectement, GK et LPK sont implique´s
dans la synthe`se de lipides au ni- veau he´patique. On observera qu’aucun des trois graphiques
de la figure 5.6, analyse´ individuel- lement, ne conduit a` la totalite´ de cette interpre´tation mais
que c’est bien l’analyse conjointe de ces repre´sentations qui permet d’affiner la connaissance
du biologiste sur ces donne´es. Succinte- ment, notons e´galement que d’autres ge`nes tendent à
participer à ces groupes. Par exemple, le ge`ne Lpin1 est proche des ge`nes implique´s dans la
lipoge´ne`se. Bien que sa fonction soit actuellement inconnue, Peterfy et al. (2001) ont observe´
que la ligne´e de souris de´ficiente pour Lpin1 pre´sente des alte´rations du me´tabolisme des
lipides.
Les ge`nes dont la position sur le graphique sera le plus modifie´ en passant de la distance d2
a` la distance d3 seront ceux pre´sentant des corre´lations ne´gatives et importantes avec de
nombreux
6. EXEMPLE : NUTRITION CHEZ L A SOURIS 75

autres ge`nes. Un cas typique dans notre exemple est celui de CAR1 dont l’ACP (ainsi, que la
ma- trice des corre´lations) a montre´ qu’il e´tait ne´gativement corre´le´s avec des ge`nes tels que
GSTpi2, CYP3A11, FAS... La position relative des couples de ge`nes ainsi obtenus change de
fac¸on impor- tante entre les deux graphiques. On observera en particulier le couple CAR1-
GSTpi2 totalement oppose´ sur l’axe 1 selon d3 et relativement proche selon d2 (tandis qu’il
pre´sente une opposi- tion moins marque´e selon d1). La surexpression du ge`ne CAR1 et la
sous-expression du ge`ne GSTpi2 chez les souris de´ficientes en re´cepteur PPARα n’a pas e´te´
de´crite et constitue l’un des re´sultats originaux de ce travail. L’e´tude d’un lien potentiel entre
ces deux modifications d’expres- sion ne´cessitera la mise en œuvre d’expe´riences comple
´mentaires.
D’une manie`re ge´ne´rale, on peut retenir que l’utilisation de la distance euclidienne tend
a` rapprocher des ge`nes dont les expressions sont proches. En revanche, les deux autres
indicateurs conside`rent que deux ge`nes sont proches si leur expression varie dans le meˆme
sens selon les conditions expe´rimentales. La corre´lation (d3) distingue les ge`nes corre´le´s ne
´gativement, ce que ne permet pas la corre´lation carre´e (d2) qui doit donc eˆtre utilise´e en
connaissance de cause.
Notons que la distance d1 est plus courante en statistique alors que d3 l’est davantage
dans les e´tudes relatives aux biopuces. Autant que possible une comparaison des trois
distances est recommande´e. On se re´fe´rera à Draghici (2003, chapitre 11) pour une discussion
plus de´taille´e sur le sujet.
76 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
Chapitre 6
Classification

1 Introduction
1. Les donne´es
Comme dans le cas du chapitre pre´ce´dent (MDS), les donne´es peuvent se pre´senter
sous diffe´rentes formes ; elles concernent n individus suppose´s affecte´s, pour simplifier, du
meˆme poids :
• un tableau de distances (ou dissimilarite´s, ou mesures de dissemblance), n × n, entre
les individus pris deux a` deux ;
• les observations de p variables quantitatives sur ces n individus ;
• les observations, toujours sur ces n individus, de variables qualitatives ou d’un me´lange
de variables quantitatives et qualitatives.
D’une fac¸on ou d’une autre, il s’agit, dans chaque cas, de se ramener au tableau des
distances deux a` deux entre les individus (c’est-a`-dire au premier cas). Le choix d’une matrice
de produit scalaire permet de prendre en compte simplement un ensemble de variables
quantitatives tandis que le troisie`me cas ne´cessite plus de de´veloppements ; il n’est pas pre´sente´
ici car de peu d’inte´reˆt pour des donne´es d’expression.

2. Les objectifs
L’objectif d’une me´thode de classification de´borde le cadre strictement exploratoire. C’est
la recherche d’une typologie, ou segmentation, c’est-a`-dire d’une partition, ou re´partition des
indivi- dus en classes, ou cate´gories. Ceci est fait en optimisant un crite`re visant à regrouper les
individus dans des classes, chacune le plus homoge`ne possible et, entre elles, les plus
distinctes possible. Cet objectif est à distinguer des proce´dures de discrimination, ou encore de
classement (en anglais classification) pour lesquelles une typologie est a priori connue, au
moins pour un e´chantillon d’apprentissage. Nous sommes dans une situation d’apprentissage
non-supervise´, ou en anglais de clustering1.

3. Les me´thodes
Un calcul e´le´mentaire de combinatoire montre que le nombre de partitions possibles
d’un ensemble de n e´le´ments croˆıt plus qu’exponentiellement avec n. Ainsi, pour n = 20, il
est de l’ordre de 1013. Il n’est donc pas question de chercher a` optimiser le crite`re sur toutes les
partitions

1
Faire attention aux faux amis franc¸ais / anglais : discrimination / classification (supervise´e) et classification / clus-
tering (non-supervise´e)

77
78 CHAPITRE 6. CLASSIFICATION

possibles. Les me´thodes se limitent a` l’exe´cution d’un algorithme ite´ratif convergeant vers
une “bonne” partition qui correspond en ge´ne´ral à un optimum local. Meˆme si le besoin de
classer des objets est tre`s ancien, seule la ge´ne´ralisation des outils informatiques en a permis
l’automatisation dans les anne´es 1970. Celeux et col. (1989) de´crivent en de´tail ces algorithmes.
Diffe´rents choix sont laisse´s a` l’initiative de l’utilisateur :
• une mesure d’e´loignement (dissemblance, dissimilarite´ ou distance) entre individus ;
• le crite`re d’homoge´ne´ite´ des classes a` optimiser : il est, dans le cas de variables
quantitatives, ge´ne´ralement de´fini a` partir de la trace d’une matrice de variances-
covariances ; soit les variances et covariances interclasses (la trace
correspond alors a` l’inertie de la partition), soit les variances et covariances
intraclasse ;
• la me´thode : la classification ascendante hie´rarchique et celle par re´allocation
dynamique sont les plus utilise´es, seules ou combine´es ;
• le nombre de classes : c’est un point de´licat.
Enfin, diffe´rents outils recherchent une interpre´tation, ou des caracte´risations, des classes
obte- nues.
On notera que les principes algorithmiques de ces me´thodes sont relativement e´le
´mentaires.
Classification ascendante hie´rarchique, ou CAH
Il s’agit de regrouper ite´rativement les individus, en commenc¸ant par le bas (les deux
plus proches) et en construisant progressivement un arbre, ou dendrogramme, regroupant
finalement tous les individus en une seule classe, à la racine (cf. figure 2 qui reprend les donne
´es e´le´mentaires du chapitre pre´ce´dent). Ceci suppose de savoir calculer, a` chaque e´tape ou
regroupement, la dis- tance entre un individu et un groupe ainsi que celle entre deux
groupes. Ceci ne´cessite donc, pour l’utilisateur de cette me´thode, de faire un choix supple
´mentaire : comment de´finir la distance entre deux groupes connaissant celles de tous les
couples d’individus entre ces deux groupes. Diffe´rents choix, appele´s saut en franc¸ais et
linkage en anglais, sont de´taille´s plus loin. Le nombre de classes est de´termine´ a posteriori, a`
la vue du dendrogramme ou d’un graphique repre´sentant la de´croissance de la hauteur de
chaque saut, ou e´cart de distance, ope´re´ a` chaque regroupement.
Classification par re´allocation dynamique
Dans ce cas, le nombre de classes, k, est fixe´ a priori. Ayant initialise´ k centres de
classes par tirage ale´atoire, tous les individus sont affecte´s a` la classe dont le centre est le
plus proche au sens de la distance choisie (en principe, euclidienne pour cette me´thode). Dans
une deuxie`me e´tape, l’algorithme calcule des barycentres de ces classes qui deviennent les
nouveaux centres. Le proce´de´ (affectation de chaque individu a` un centre, de´termination des
centres) est ite´re´ jusqu’a` convergence vers un minimum (local) ou un nombre d’ite´rations
maximum fixe´.
Classification mixte
La CAH ne´cessite impe´rativement la construction d’un tableau de distances n × n et
son stockage en me´moire ; le nombre maximum d’individus traite´s peut s’en trouver limite´. Ce
n’est pas le cas dans l’algorithme de re´allocation, d’ou` l’inte´reˆt possible d’une approche mixte
pour, a` la fois, classer de grands volumes de donne´es et se´lectionner le nombre de classes par
CAH.
Dans le cas plus spe´cifique de donne´es d’expression, et comme pour le chapitre pre´ce
´dent (MDS), le choix principal est celui de la distance (ou dissimilarite´) utilise´e. S’ajoute en
plus le choix du crite`re de saut en CAH et celui du nombre de classes (a priori avec la re
´allocation dyna- mique, ou a posteriori avec la CAH). La plupart des logiciels de´die´s a` ces
donne´es proposent une
2. ILLUSTRATION 79

4000
3000
Hauteu
r
2000
1000
5000
5 10 15

nb de
classes

FIG. 6.1 – Villes : De´croissance de la variance interclasses a` chaque regroupement dans le cas
du saut de Ward.

double CAH des lignes (ge`nes) et des colonnes (e´chantillons biologiques) dans une repre
´sentation graphique habilement colore´e.

2 Illustration
En guise de premie`re illustration sur les me´thodes de classification, nous reprenons l’e´tude
des meˆmes donne´es que dans le chapitre pre´ce´dent : un tableau contenant les distances kilome
´triques par route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes.
Toutes ces valeurs sont range´es dans le triangle infe´rieur d’une matrice carre´e avec des 0 sur
la diagonale. Il s’agit donc de regrouper au mieux ces villes, en tenant compte de leurs proximite
´s relatives au sens de cette distance routie`re.

A` l’issue de l’exe´cution, la classification ascendante hie´rarchique fournit les deux


graphiques pre´cise´s ci-dessous.
• Un graphique d’aide au choix du nombre de classes (cf. figure 2). Il repre´sente à rebours,
en fonction du nombre de classes, la de´croissance de la distance interclasses. La pre
´sence d’une rupture importante dans cette de´croissance aide au choix du nombre de
classes comme dans le cas du choix de dimension en ACP, avec l’e´boulis
des valeurs propres. Dans ce cas, il faut lire le graphe de droite à gauche et
s’arreˆter avant le premier saut juge´ significatif. Avec l’indice de Ward, cela
revient à couper l’arbre avant une perte, juge´e trop importante, de la variance
interclasses. Dans le cas des villes repe´re´es par leurs distances kilome´triques, le
choix de 5 classes semble raisonnable.
• Le dendrogramme (cf. figure 2) est une repre´sentation graphique, sous forme d’arbre bi-
naire, des agre´gations successives jusqu’a` la re´union en une seule classe de tous
les indi- vidus. La hauteur d’une branche est proportionnelle à l’indice de
dissemblance ou distance entre les deux objets regroupe´s. Dans le cas du saut de
Ward, c’est la perte de variance interclasses.
Une fois un nombre de classes se´lectionne´ a` l’aide du premier graphique, une coupure
de l’arbre fournit, dans chaque sous-arbre, la re´partition des individus en classes. Ces classes
peuvent ensuite eˆtre repre´sente´es dans les axes d’une analyse factorielle, en ge´ne´ral une ACP
ou un MDS (figure 2).
Signalons qu’il est courant, dans la pratique, de mettre en œuvre, a` l’issue d’une CAH,
une me´thode de re´allocation dynamique avec pour nombre de classes celui choisi par CAH et
pour
Heigh
t
80
0 100 200 300 400 500
0 0 0 0 0
lux
e

saut de Ward.
metz
nanc
reim
troy
besa
dijo
stra
bal
e
mul
h
mar
s
nic
e
cha
m
gen
e
gre
n
lyo
n
hen
d
bord
roya
mont
perp
ando
lo
ur
to
ul
boul
cala
brux
lil
l
cae
n
che
r
leha
rou
e
ami
CHAPITRE 6. CLASSIFICATION

FIG. 6.2 – Villes : Exemple d’un dendrogramme issu de la classification des donne´es par CAH et
pari
b
r
e
s
ren
n
stm
a
lab
a
nan
t
2. ILLUSTRATION 81

hen
bre
lou d
s
r lab
40

bor roy
0

and tou a stm


d a ren
o l nant n a
poi che
20

lim t ange r
0

tou lema caen


o
per r leh
p orl a
bou
cp

cle
0

e roue
2

mon m r par
t i boul
cal
amie
lil
a
−20

mar lyo tro l


rei
s gre n dij y
0

nic m bru
n gen o
e bes x
e nanc
−40

cham a mul ex
0

tze
mba

ulleh stra
−80 −60 −40 −20 0 20 40
0 0 0 0 0 0
cp1

FIG. 6.3 – Villes : Repre´sentation des classes (couleurs) obtenues par CAH dans les coordonne
´es du MDS.
82 CHAPITRE 6. CLASSIFICATION

centres initiaux les barycentres des classes obtenues : on stabilise ainsi les classes.
Notons e´galement que l’exemple pre´sente´ ici est relativement simple et bien structure´.
Modi- fier le crite`re de saut ne change pas grand chose dans ce cas. Mais, attention, il est facile
de ve´rifier expe´rimentalement qu’une classification ascendante est un objet tre`s sensible. En
effet, il suffit de modifier une distance dans le tableau, par exemple de re´duire sensiblement la
distance de Grenoble à Brest, pour que la classification (nombre de classes, organisation)
devienne tre`s sensible au choix du crite`re de saut. En revanche, la structure des donne´es fait
que la repre´sentation factorielle de l’ACP du tableau de distance (MDS) est tre`s robuste a` ce
type d’“erreur de mesure”.

3 Mesures d’e´loignement
Ω × Ω diffe´rentes { i = 1,d’e´loignement
Notons Ω =mesures . . . , n} l’ensemble des individus.
entre deux individus. Cette section se et
Les hypothe`ses propose de dee
proprie´te´s
de ´finirensurplus fortes.
´tant
plus

3.1 Indice de ressemblance, ou similarite´


C’est une mesure de proximite´ de´finie de Ω × Ω dans IR+ et ve´rifiant :

s(i, j) = s(j, i), ∀(i, j ) ∈ Ω × Ω : syme´trie ;


s(i, i) = S > 0, ∀i ∈ Ω : ressemblance d’un individu avec lui-meˆme
s(i, j) ; S, ∀(i, j ) ∈ Ω × Ω : la ressemblance est majore´e par
≤ S.
Un indice de ressemblance norme´ s ∗ est facilement de´fini a` partir de s
par :
s ∗(i, j ) = s(i, j), ∀(i, j ) ∈ Ω × Ω ;
1
S

s ∗ est une application de Ω × Ω dans [0, 1].

3.2 Indice de dissemblance, ou dissimilarite´


Une dissimilarite´ est une application d de Ω × Ω dans IR+ ve´rifiant :

d(i, j ) = d(j, i), ∀(i, j ) ∈ Ω × Ω : syme´trie ;


d(i, i) = 0, ∀i ∈ Ω : nullite´ de la dissemblance d’un individu avec lui-meˆme.

Les notions de similarite´ et dissimilarite´ se correspondent de fac¸on e´le´mentaire. Si s est un


indice de ressemblance, alors
d(i, j ) = S — s(i, j), ∀(i, j ) ∈ Ω × Ω

est un indice de dissemblance. De fac¸on re´ciproque, si d est un indice de dissemblance avec D


= sup ( i , j ) ∈ Ω × Ω d(i, j), alors s(i, j ) = D — d(i, j ) est un indice de ressemblance. Comme
s ∗ , un indice de dissemblance norme´ est de´fini par :

d∗(i, j ) = d(i, j), ∀(i, j ) ∈ Ω ×


1
D

avec d∗ = 1 — s ∗ et s ∗ = 1 — d∗. Du fait de cette correspondance imme´diate, seule la notion
de dissemblance, ou dissimilarite´, norme´e est conside´re´e par la suite.
3. MESURES D’E´ LOIGNEMENT
83

3. Indice de distance
Un indice de distance est, par de´finition, un indice de dissemblance qui ve´rifie de plus
la proprie´te´ :
d(i, j ) = 0 =⇒ i = j.
Cette proprie´te´ e´vite des incohe´rences pouvant apparaˆıtre entre dissemblances, par
exemple :

I k ∈ Ω : d(i, k) /= d(j, k), avec pourtant i /= j et d(i, j ) = 0.

4. Distance
Une distance sur Ω est, par de´finition, un indice de distance ve´rifiant en plus la proprie
´te´ d’ine´galite´ triangulaire. Autrement
d(i, j) = d(j,dit,
i), une j ) ∈ Ω ×d Ω
∀(i,distance est; une application de Ω × Ω dans
IR+ ve´rifiant :
d(i, i) = 0 ⇐⇒ i = j ;
d(i, j) ≤ d(i, k) + d(j, k), ∀(i, j, k) ∈ Ω3.

Si Ω est fini, la distance peut eˆtre norme´e.

5. Distance euclidienne
Dans le cas ou` Ω est un espace vectoriel muni d’un produit scalaire, donc d’une norme,
la distance de´finie a` partir de cette norme est appele´e distance euclidienne :

d(i, j ) = < i — j, i — j > 1 / 2 = i —j .

La condition pour qu’une matrice donne´e de distances entre e´le´ments d’un espace
vectoriel soit issue d’une distance euclidienne est explicite´e dans le chapitre pre´ce´dent. Toute
distance n’est pas ne´cessairement euclidienne ; voir, par exemple, celle construite sur la valeur
absolue.

6. Utilisation pratique
Concre`tement, il peut arriver que les donne´es à traiter soient directement sous la forme
d’une matrice d’un indice de ressemblance ou de dissemblance. Il est alors facile de la
transformer en une matrice de dissemblances norme´es avant d’aborder une classification.
Nous pre´cisons ci-dessous les autres cas.
Donne´es quantitatives
Lorsque les p variables sont toutes quantitatives, il est ne´cessaire de de´finir une matrice M
de produit scalaire sur l’espace IRP . Le choix M = Ip, matrice identite´, est un choix e´le
´mentaire et courant ; mais il est vivement conseille´ de re´duire les variables de variances he´te
´roge`nes, comme en ACP, ce qui revient a` conside´rer, comme matrice de produit scalaire, la
matrice diagonale compose´e des inverses des e´carts-types :
1
M = Σ − 1 = diag (σ1 · · · σp ).
1

La me´trique dite de Mahalanobis (inverse de la matrice des variances-covariances) peut aussi


eˆtre utilise´e pour atte´nuer la structure de corre´lation.
84 CHAPITRE 6. CLASSIFICATION

Donne´es qualitatives
Dans le cas tre`s particulier ou` toutes les variables sont binaires (pre´sence ou absence de
ca- racte´ristiques), de nombreux indices de ressemblances ont e´te´ propose´s dans la litte´rature.
Ils ne sont pas de´taille´s dans le cadre d’un cours spe´cifique aux donne´es d’expression.

7. Bilan
Une fois ces pre´liminaires accomplis, nous nous retrouvons donc avec
• soit un tableau de mesures quantitatives n × p, associe´ a` une matrice de produit
scalaire
p × p (en ge´ne´ral Ip) de´finissant une me´trique euclidienne,
•soit directement un tableau n × n de dissemblances ou de distances entre individus.
Attention, si n est grand, la deuxie`me solution peut se heurter rapidement a` des proble`mes
de stockage en me´moire pour l’exe´cution des algorithmes.

3 Classification ascendante hie´rarchique


1. Principe
L’initialisation de cet algorithme consiste, s’il n’est de´ja` donne´, a` calculer un tableau de
dis- tances (ou de dissemblances) entre les individus à classer. L’algorithme de´marre alors de la
parti- tion triviale des n singletons (chaque individu constitue une classe) et cherche, a` chaque
e´tape, a` constituer des classes par agre´gation des deux e´le´ments les plus proches de la partition
de l’e´tape pre´ce´dente. L’algorithme s’arreˆte avec l’obtention d’une seule classe. Les
regroupements succes- sifs sont repre´sente´s sous la forme d’un arbre binaire ou dendrogramme.

2. Distance, ou dissemblance, entre deux classes

A` chaque e´tape de l’algorithme, il est ne´cessaire de mettre à jour le tableau des distances
(ou des dissemblances). Apre`s chaque regroupement, de deux individus, de deux classes ou
d’un in- dividu a` une classe, les distances entre ce nouvel objet et les autres sont calcule´es et
viennent remplacer, dans la matrice, les distances des objets qui viennent d’eˆtre agre´ge´s. Diffe
´rentes ap- proches sont possibles a` ce niveau, donnant lieu a` diffe´rentes CAH.
Notons A et B deux classes, ou e´le´ments, d’une partition donne´e, w A et w B leurs ponde
´rations, et d i , j la distance entre deux individus quelconques i et j.
Le proble`me est de de´finir d(A, B), distance entre deux e´le´ments d’une partition de Ω.
Cas d’une dissemblance
Les strate´gies ci-dessous s’accomodent d’un simple indice de dissemblance de´fini entre
les individus. Elles s’appliquent e´galement à des indices plus structure´s (distance) mais n’en
utilisent pas toutesles proprie´te´s.
d(A, B ) = min (d i j ) (saut minimum, single linkage),
i∈A,j∈B
d(A, B ) = sup (d i j ) (saut maximum ou diame`tre, complete
i∈A,j∈B linkage),
1 Σ
d(A, B ) = di j (saut moyen, group average
card(A)card(B)
i ∈ A , j ∈ B linkage).
5. AGRE´ GATION AUTOUR DE CENTRES MOBILES
85

Cas d’une distance euclidienne


Les strate´gies suivantes ne´cessitent la connaissance de repre´sentations euclidiennes des
indi- vidus : matrice n × p des individus afin, au minimum, de pouvoir de´finir les barycentres
note´s gA et g B des classes.
wA wB
d(A,BB) ) == wd(g+A,wg B )d(gA ,(distance
d(A, gB ) (saut
desde
barycentres, centro¨ıd),
A B
Ward).
Important
Le saut de Ward joue un roˆle particulier et est la strate´gie la plus courante ; c’est meˆme
l’option par de´faut (SAS) dans le cas d’une distance euclidienne entre individus. En effet, ce
crite`re induit, a` chaque e´tape de regroupement, une minimisation de la de´croissance de la
variance interclasse.

3. Algorithme
ALGORITHME 6.1 :

classification ascendante hie´rarchique


• Initialisation Les classes initiales sont les singletons. Calculer la matrice de
leurs distances deux a` deux.
• It´erer les deux e´tapes suivantes jusqu’a` l’agre´gation en une seule classe :
i. regrouper les deux classes les plus proches au sens de la “distance” entre classes
choisie,
ii. mettre a` jour le tableau de distances en remplac¸ant les deux classes regroupe´es par
la nouvelle et en calculant sa “distance” avec chacune des autres classes.

4. Graphes
Les graphes obtenus à l’issue d’une CAH ont e´te´ pre´sente´s et illustre´s dans le paragraphe
2. Il s’agit du graphique d’aide au choix du nombre de classes et du dendrogramme.

5 Agre´gation autour de centres mobiles


1. Principes
Diffe´rents types d’algorithmes ont e´te´ de´finis autour du meˆme principe de re´allocation
dy- namique des individus a` des centres de classes, eux-meˆmes recalcule´s a` chaque ite
´ration. Ces algorithmes requie`rent une repre´sentation vectorielle des individus dans IRp muni
d’une me´trique, ge´ne´ralement euclidienne. Une adaptation de cet algorithme, PAM (pour
Partitioning — clustering
— of the data into k clusters Around Medo¨ıds ; Kaufman & Rousseeuw, 1990), en est une
version robuste, e´galement adapte´e à une matrice de dissimilarite´s. Ce dernier algorithme est
en revanche limite´ au niveau du nombre d’observations (200).
Il est important de noter que, contrairement a` la me´thode hie´rarchique pre´ce´dente, le
nombre de classes k doit eˆtre de´termine´ a priori.
Ces me´thodes sont ite´ratives : apre`s une initialisation des centres consistant, le plus
souvent, à tirer ale´atoirement k individus, l’algorithme re´pe`te deux ope´rations jusqu’a` la
convergence d’un crite`re :
86 CHAPITRE 6. CLASSIFICATION

i. Chaque individu est affecte´ a` la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constitue´es.

2. Principale me´thode
Il s’agit de la me´thode (kmeans) propose´e dans Forgy (1965).

ALGORITHME 6.2 :
• Initialisation Tirer au hasard, ou se´lectionner pour des raisons exte´rieures a`
la me´thode, k points dans l’espace des individus, en ge´ne´ral k individus de l’ensemble,
appele´s centres ou noyaux.
• It´erer les deux e´tapes suivantes, jusqu’a` ce que le crite`re de variance interclasses
ne croisse plus de manie`re significative, c’est-a`-dire jusqu’a` la stabilisation des
classes.
i. Allouer chaque individu au centre (c’est-a`-dire a` la classe) le plus proche au sens
de la me´trique euclidienne choisie ; on obtient ainsi, a` chaque e´tape, une
classification en k classes, ou moins si, finalement, une des classes devient vide.
ii. Calculer le centre de gravite´ de chaque classe : il devient le nouveau noyau ; si une
classe s’est vide´e, on peut e´ventuellement retirer ale´atoirement un noyau comple
´mentaire.

3. Proprie´ te´ s
Convergence Le crite`re (la variance interclasses) est majore´ par la variance totale. Il est
simple de montrer qu’il ne peut que croˆıtre a` chaque e´tape de l’algorithme, ce qui en
assure la convergence. Il est e´quivalent de maximiser la variance interclasses ou de
minimiser la va- riance intraclasse. Cette dernie`re est alors de´croissante et minore´e par 0.
Concre`tement, une dizaine d’ite´rations suffit ge´ne´ralement pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, c’est-a`-dire que la re´partition en
classes de´pend du choix initial des noyaux. Plusieurs exe´cutions de l’algorithme permettent
de s’as- surer de la pre´sence de formes fortes, c’est-a`-dire de classes, ou partie de classes,
pre´sentes de manie`re stable dans la majorite´ des partitions obtenues.

4. Variantes
Algorithme kmeans
Il s’agit d’une modification de l’algorithme pre´ce´dent, propose´e par Mac Queen (1967).
Les noyaux des classes, ici les barycentres des classes concerne´es, sont recalcule´s a` chaque
alloca- tion d’un individu a` une classe. L’algorithme est ainsi plus efficace, mais il de´pend de
l’odre des individus dans le fichier.
Nue´es dynamiques
La variante propose´e par Diday (1971) consiste a` remplacer chaque centre de classe par
un noyau constitue´ d’e´le´ments repre´sentatifs de cette classe. Cela permet de corriger
l’influence d’e´ventuelles valeurs extreˆmes sur le calcul du barycentre.
Partitionning Around Medo¨ıds
Cet algorithme, propose´ par Kaufman & Rousseeuw (1990), permet de classifier des donne
´es de fac¸on plus robuste, c’est-a`-dire moins sensible a` des valeurs atypiques. Il permet e
´galement de
5. AGRE´ GATION AUTOUR DE CENTRES MOBILES 87

hen
bre
lou d
s
r lab
40
bor roy

0
and tou a stm
d a ren
o l nant n a
poi ang che
20

lim t e r
0

tou lema caen


o
per r leh
p orl a
bou
cp

cle
0

e
par roue
2

mon m r
t i amie boul
cal
lil
a
−20

mar lyo tro l


rei
s gre n dij y
0

nic m bru
n gen o
e bes x
e nanc
−40

cham a mu l ex
0

tze
mba

ulleh stra
−80 −60 −40 −20 0 20 40
0 0 0 0 0 0
cp1

FIG. 6.4 – Villes : Repre´sentation des classes (couleurs) obtenues par PAM dans les coordonne
´es du MDS.

traiter des matrices de dissimilarite´s. Les re´sultats sont fournis dans la figure 5.4, pour lequels
le nombre de classe est fixe´ a priori a` 5, comme le sugge`re la CAH, mais pour lesquels les
classes obtenues sont sensiblement diffe´rentes.

5. Combinaison
Chaque me´thode pre´ce´dente peut eˆtre plus ou moins adapte´e a` la situation rencontre´e.
La classification hie´rarchique, qui construit ne´cessairement la matrice des distances, n’accepte
qu’un nombre limite´ d’individus ; de son coˆte´, la re´allocation dynamique ne´cessite de fixer
a priori le nombre de classes. La strate´gie suivante, adapte´e aux grands ensembles de donne
´es, permet de contourner ces difficulte´s.

i. Exe´cuter une me´thode de re´allocation dynamique en demandant un grand nombre de


classes, de l’ordre de 10% de n.
ii. Sur les barycentres des classes pre´ce´dentes, exe´cuter une classification hie´rarchique
puis de´terminer un nombre “optimal” k de classes.
iii. Exe´cuter une me´thode de re´allocation dynamique sur tout l’ensemble en fixant à k le
nombre de classes. Pour initialiser l’algorithme, il est habituel de choisir pour noyaux les
barycentres (calcule´s en ponde´rant par les effectifs de classes) des classes de l’e´tape pre
´ce´dente.
88 CHAPITRE 6. CLASSIFICATION

TP3.125.
TP3.225.
g
TP3.325.
gTP640.
gTP225.
g
TP540.g3e
g
TP540.g2e
xTP240.
x
TP1.225.
g
TP1.125.
g
TP1.325.
g
TP440.g3e
g
TP440.g2e
xPancNorm
x
PancNorm2
1
PancNorm2
B
CAPAN1.1.
A
CAPAN2.1.
CAPAN2.2.
CAPAN2.3.4.
CAPAN2.3.3.
CAPAN2.3.2.
CAPAN1.2.
CAPAN1.3.4.
CAPAN1.3.3.
CAPAN1.3.2.
K562.2A
K562.2A
2
K562.2A
4
K562.1A
3
K562.1A
1
SW480.1.
2
SW480.1.
3
SW480.2.
2
SW480.2.
1
ASPC1.2bis.
2
ASPC1.2.
ASPC1.1.
MIA.1.
MIA.3.2
MIA.3.4
.MIA.3.3
.
NP29.2
.
NP29.1
.Bx.PC3.1.
.Bx.PC3.2.
Bx.PC3.4.1
Bx.PC3.4.2
.Bx.PC3.5.
.
CACO2.1.1
CACO2.1.2
CACO2.2
PANC1.2.
PANC1.1.
SW620.1.
SW620.1.
1
SW620.1.
2
SW620.2.
3
SW620.2.
2 HCT116.
1
HCT116.1.
2
HCT116.1.
2
HT29.3.
1
HT29.3.
1
HT29.
2
4
6G88
4G39

4G65

5G23
G19
G67
G13
G12
G70
G71
G57
G19
G19
G18
G11
G48

G12
G18
G27
G27
G31
G19
G16
G12
G15
G69
G68
G17
G69
G67
G56
G56
G57
G71
G69
G66
G67
G69
G68
G17
G53
G52
G52
G17
G52
G19
8
4
8
5
7
9
1
9
1
4

2
5
3
2
3
9
8
2
0
8
6
1
8
2
9
0
8
5
9
1
2
5
7
1
7
0
1
6

FIG. 6.5 – Pancre´as : Double classification ascendante hie´rarchique des ge`nes et e


´chantillons biologiques avec saut de Ward. La repre´sentation utilise des fausses couleurs pour
visualiser les proximite´s.

6 Donne´es d’expression
Pour ce type de donne´es, les biologistes appre´cient particulie`rement de construire une
double classification hie´rarchique ope´rant a` la fois sur les lignes et sur les colonnes. Une repre
´sentation en fausses couleurs fournit une lecture susceptible de prendre en compte les
“distances” respec- tives des lignes (ge`nes) d’une part et des colonnes (e´chantillons
biologiques) d’autre part, et de se faire ainsi une ide´e des ge`nes pouvant influencer la hie
´rarchie obtenue pour les e´chantillons. Ne´anmoins, cette lecture, meˆme en se limitant à une se
´lection des ge`nes propose´s par l’analyse en composantes principales (chapitre 3), n’est pas tre`s
aise´e (figure 6).
Le choix de la distance est pre´ponde´rant dans les re´sultats d’une classification. Les figure 6
et 6 fournissent les dendrogrammes de la CAH dans le cas d’une dissimilarite´ calcule´e a`
partir de la corre´lation et dans celui d’une distance base´e sur la corre´lation au carre´. Comme
pour le MDS (chapitre pre´ce´dent), c’est au biologiste de choisir la ou les repre´sentations
aidant au mieux sa compre´hension des re´gulations et/ou inhibitions entre ge`nes.
Comme pour les donne´es conside´rant les distances entre villes, il serait facile de coupler
pour
6. DONNE´ ES D’EXPRESSION 89

FIG. 6.6 – Obe´site´ : Classification ascendante hie´rarchique des ge`nes avec saut de
Ward conside´rant la corre´lation.
90 CHAPITRE 6. CLASSIFICATION

FIG. 6.7 – Obe´site´ : Classification ascendante hie´rarchique des ge`nes avec saut de
Ward conside´rant le carre´ de la corre´lation.
7. EXEMPLE : NUTRITION CHEZ L A SOURIS 91

les donne´es d’expression une repre´sentation des classes par des couleurs dans le graphe du
MDS, ou encore de celui d’une ACP. Nous laissons au lecteur l’appre´ciation sur le nombre de
combinai- sons d’options possibles (centrage, re´duction, distance, crite`re de saut, projection,
classification) qui sont offertes par l’ensemble de ces outils.

7 Exemple : nutrition chez la souris


Pour ce type de donne´es, les biologistes appre´cient particulie`rement de construire une
double classification hie´rarchique ope´rant à la fois sur les lignes et sur les colonnes (ge`nes et e
´chantillons). Une repre´sentation en fausses couleurs fournit une lecture susceptible de prendre
en compte les “distances” respectives des lignes (ge`nes) d’une part et des colonnes (e
´chantillons biologiques) d’autre part, et de se faire ainsi une ide´e des ge`nes pouvant influencer
la hie´rarchie obtenue pour les e´chantillons. Ne´anmoins, cette lecture, meˆme en se limitant à une
se´lection des ge`nes propose´s par l’analyse en composantes principales (chapitre 3), n’est pas
tre`s aise´e (figure 6).
Le choix de la distance est e´videmment important. La plus fre´quemment rencontre´e
pour l’e´tude du transcriptome est du type de d3, base´e sur la corre´lation. Il nous semble pertinent
d’uti- liser les trois types de distances et d’en appre´cier leur comple´mentarite´ quant à l’interpre
´tation des re´sultats. Nous avons fait le choix de limiter cette comparaison des distances au MDS
et nous nous contenterons ici de pre´senter une classification base´e sur la distance euclidienne d1.
Le deuxie`me choix intervenant en classification concerne le crite`re d’agglome´ration, c’est-a`-
dire la fac¸on dont est de´finie la distance entre deux groupes, et n’a pas d’interpre´tation
biologique simple. Ce choix a plus une implication ge´ome´trique, sur la forme des classes
obtenues. Nous avons utilise´ le crite`re de Ward parce qu’il favorise la construction de classes
relativement “sphe´riques” et qu’on peut lui associer des crite`res guidant la de´termination du
nombre de classes.
L’interpre´tation de la double classification (Fig. 6.8) pre´sente des analogies avec celle de
l’ACP sur le premier plan principal. Si l’on s’inte´resse aux individus-souris, on peut constater
que les deux ge´notypes sont diffe´rencie´s en deux groupes, a` l’exception de trois souris de
type PPAR ayant suivi les re´gimes efad (pour deux d’entre elles) et ref. Ce sont ces trois
meˆmes individus que l’on retrouve projete´s dans la partie ne´gative du premier axe de l’ACP
(Fig. 3.15). Pour les variables-ge`nes, on peut distinguer deux grandes classes correspondant,
d’apre`s les donne´es, a` deux niveaux d’expressions : à gauche, les ge`nes dont l’expression est
relativement faible, à droite les ge`nes dont l’expression est globalement plus e´leve´e. Dans
cette seconde classe, un groupe attire particulie`rement l’attention sur l’image : sur une bande
verticale correspondant a` 14 ge`nes, les couleurs sont nettement plus variables que sur le reste
de l’image. Il s’agit des ge`nes

CYP4A10, CYP4A14, CYP3A11, [Link], THIOL, PMDCI, S14,


Lpin1, Lpin, FAS, GSTmu, GSTpi2, CYP2c29, G6Pase

qui apparaissent tous parmi les ge`nes les plus corre´le´s aux deux premiers axes principaux de
l’ACP (Fig. 3.15).
MDS et classification apparaissent donc comme des techniques comple´mentaires, mais
elles ne sont pas sensibles de la meˆme fac¸on aux perturbations. La perturbation d’une donne´e
peut for- tement influencer la structure d’un dendrogramme alors qu’en MDS, la prise en
compte conjointe de toutes les distances deux à deux assure une certaine robustesse pour le
calcul des coordonne´es principales. Pour cette raison, il est utile de repre´senter les classes dans
une projection sur des axes factoriels obtenus soit par MDS soit par ACP. L’e´boulis des valeurs
propres (Fig. 6.9) nous oriente vers une repre´sentation du MDS en deux dimensions.
92 CHAPITRE 6. CLASSIFICATION

PPAR −
efad PPAR
− efad
PPAR − ref
WT − efad
WT − efad
WT − efad
WT − dha
WT − dha
WT − dha
WT − dha
WT − tsol
WT − tsol
WT − lin
WT − lin
WT − lin
WT − lin
WT − ref
WT − ref
WT − tsol
WT − efad
WT − tsol
WT − ref
WT − ref
PPAR −
tsol PPAR
− tsol
PPAR − lin
PPAR − lin
PPAR − ref
PPAR − lin
PPAR − dha
PPAR − lin
PPAR − ref
PPAR − tsol
PPAR − tsol
PPAR −
efad PPAR
− efad
PPAR − dha
PPAR − dha
Pex11a
apoC3

X36b4
Bcl.3
Ntcp

mABC1

apoA.I
HMGCoAred

ALDH3
[Link]

OCTN2

GSTmu

acMOAT
VLDLr
[Link]

hABC1

ACAT1

apoB
ap2

Lpin
RXRg1

Waf1

RXRb2
SIAT4c

NURR1

GSTpi2

mHMGCoAS
ACOTH

THIOL

G6Pase

G6PDH

apoE
RARb2

M.CPT1

MDR1

CYP2c29

LDLr

cHMGCoAS

SPI1.1
MDR2
IL.2
CYP2b13

CYP2b10

CYP27b1

C16SR

S14

CYP27a1
TRb

ADSS1

MS

HPNCL
MCAD

[Link]

PMDCI
NGFiB

PDK4

AOX
LXRb

MTHFR

THB

CYP8b1

AM2R
GK
CYP26
CYP24

CIDEA

aMRP6
CAR1

3 GS

ACC1

CYP4A10
CYP4A14
CYP3A11

ACC2
COX2

VDR

COX1

CYP7a
[Link]

PON

SHP1

CPT2
TRa
UCP2

UCP3

LXRa

ADISP

LCE
RXRa

LPL

BIEN

CBS

BACT
LPK
PPARg

PPARd

FDFT
RARa

PXR

FXR

[Link]
gFAT

CACP

GSTa
PECI
[Link]

ACBP
PPARa
PAL
[Link]

1FAS

BSEP
Tpbet
Tpalph
eif2

PPAR − dha
Lpin

Lpin

Lpin
PLTP
s

PPAR − ref

FIG. 6.8 – Souris : double classification ascendante hie´rarchique des individus-souris et


des variables-ge`nes selon la me´thode de Ward, avec la distance euclidienne.
12
10
Valeurs propres

8
6
4
2
14
0

1 2 3 4 5 6 7 8 9 10

Dimension

FIG. 6.9 – Souris : e´boulis des valeurs propres pour le MDS de la matrice de distance
euclidienne interge`nes.
7. EXEMPLE : NUTRITION CHEZ L A SOURIS 93

1.
0

CYP4A14
0.

CYP3A11
5

CYP4A10
GSTpi2 CYP2c29
CAR1
MCAADCOT
PMDCI PECI
mHMG H P
GCSoTAmS uTpalpha
G6Pase
ABBOIXEN
CTApCbaPeLCE ptoaEM
e.xTC1HP
ALDH3 CCPTB2S
1 aT1 cMO CAXYTLh PXCAC
0.

PAIaM RLBPC pm L.F C2AG


0
Dimension

MR VA DPA MR
TC2
L6APRS
THIOL HPNACP
SPI1.1 BCCiSP
M.1
LY E P263
XPB27AaC1A
P A F
OATD B
[Link] ACGAcCi2
BoLpin2
[Link] Y.D O
CB1LRXNR6 O
pRYU
XP12fP
C
R ATRP
B C OL
RCRY
apoA.I D
D r
TS
1 P YR
aHPW
6MNa FapGR
B 2CRC TXLR
N
PAL
P AC
oU LbAFeC
T PPDI
cRbC FiTRCYid4Bf3RT
l2RS2.
o P S 2 OX MX
N P s 2 1 S
i.GFAb6P gLB1DbR
D Pb
a a 11aD40NRtc
27Vr fK
ASRLRNFLRCEI
UDA2bPTg24 PRYHHS p1RS
KP8b1 2ARaPiPIn
SP 73p [Link]
2

1AGK HMGCoAAreCdC
13T4ccHMGCoAS
−0.

2
5

Lpin1
Lpin
−1.

S14
0

FAS

−1. −0. 0.0 0.5 1.0


0 5
Dimension
1

FIG. 6.10 – Souris : repre´sentation par positionnement multidimensionnel (distance euclidienne)


des 5 groupes issues de la classification hie´rarchique des ge`nes.
94 CHAPITRE 6. CLASSIFICATION

La repre´sentation de la figure 6.10 est analogue a` celle de´ja` pre´sente´e (Fig. 5.6). Elle
est comple´te´e par un codage en couleurs des ge`nes, selon leur appartenance a` une classe issu
de la classification hie´rarchique. Pour cela, nous avons coupe´ l’arbre afin d’en extraire 5 classes.
Brie`vement, on peut noter que l’axe 1 met en e´vidence l’opposition pre´ce´demment e´voque
´e entre CAR1 (surexprime´ chez les souris PPAR) et un groupe de ge`nes (CYP3A10,
CYP4A10, CYP4A14, PMDCI, THIOL et L-FABP) qui est surexprime´ chez les souris WT. De
manie`re simi- laire, l’axe 2 oppose les ge`nes induits par le re´gime dha (valeurs positives, ge`nes
implique´s dans le catabolisme des lipides et dans le me´tabolisme des xe´nobiotiques) aux ge`nes
induits par le re´gime efad (valeurs ne´gatives, ge`nes principalement implique´s dans la synthe`se
de lipides). En remon- tant vers les feuilles de l’arbre de classification, on notera que le groupe
des ge`nes repre´sente´s en vert est se´pare´ en deux sous-groupes qui conservent une cohe´rence
vis-a`-vis des fonctions bio- logiques de catabolisme et de synthe`se des lipides respectivement.
Une observation des donne´es individuelles re´ve`le que ces re´gulations ope´re´es par les re´gimes
semblent plus marque´es chez les souris WT. Baccini et col. (2005) montrent que d’autres
techniques (foreˆts ale´atoires par exemple) permettent de confirmer ces observations de manie`re
plus objective.
Chapitre 7

Mode` le line´ aire et re


´1 gression
Introduction
Ce chapitre fait suite aux pre´ce´dents sur les analyses descriptives en adoptant un esprit diffe
´rent puisqu’abordant la statistique infe´rentielle.
Un mode`le line´aire est une expression qui relie une variable quantitative (la variable a`
expli- quer) a` des variables, quantitatives et/ou qualitatives (les variables explicatives).
Les analyses des mode`les line´aires portent des noms diffe´rents selon la nature des
variables explicatives utilise´es dans le mode`le. Le tableau suivant contient le nom des diffe
´rentes analyses par nature des variables explicatives.

Variables explicatives Nom de l’analyse


1 quantitative re´gression simple
plusieurs quantitatives re´gression multiple
plusieurs qualitatives analyse de variance
1 ou plusieurs quantitatives et plusieurs qualitatives analyse de covariance

Il existe cependant une the´orie statistique englobant ces divers types de mode`les : le
mode`le line´aire.
Notons que si non plus une, mais plusieurs variables quantitatives sont a` expliquer
conjoin- tement, on se place dans le cadre de la re´gression multivarie´e, qui est fortement lie´e
a` l’analyse canonique. D’autre part, si la variable a` expliquer est qualitative plutoˆt que
quantitative, d’autre mode`les sont a` mettre en place comme la re´gression logistique ou la re
´gression logline´aire qui s’inte`grent dans la famille du mode`le line´aire ge´ne´ral.
Dans la suite, nous aborderons en de´tail le mode`le de re´gression simple, puis nous
passerons en revue les autres mode`les avec leurs spe´cificite´s en gardant en me´moire que les me
´thodes d’es- timation des parame`tres, les tests et les analyses diagnostics sont identiques.

2 Le mode`le de re´gression simple


Le but d’une analyse de re´gression est d’e´tudier les relations qui existent entre des
facteurs/variables mesurables a` partir d’observations (donne´es) prises sur ces facteurs. Des objectifs
plus pre´cis d’une telle analyse peuvent eˆtre :
• la pre´vision (ex : e´tant donne´ l’aˆge, fumeur/non fumeur, le poids, etc ..., combien d’anne´es

95
96 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´
un individu devrait-il survivre ?) ;GRESSION
• la se´lection de variables (ex : Parmi la tempe´rature, l’ensoleillement, la pluie, l’altitude,
le bruit ambiant, etc ..., quels facteurs ont une influence significative sur la
croissance des pins des landes ?) ;
• la spe´cification de mode`le (ex : Comment la dure´e de vie de transformateurs e
´lectriques varie-t-elle en fonction de leur grosseur ?) ;
• l’estimation de parame`tres (ex : la luminosite´ en fonction de la distance des e´toiles
d’une certaine galaxie est de la forme L = K 1 + K 2 d + σϵ, ou` K 1 , K 2 et σ sont des
parame`tres inconnus a` estimer a` partir des observations).
Donne´es pH. On veut e´tudier sur des carpes le pH (x) du milieu ambiant et le pH (y) de
leur sang (donne´es simule´es) :
R ¿ x<- round(runif(30)*5+1,1)
R ¿ y<-2+3*x+rnorm(30,0,1)
Les donne´es consistent en 30 unite´s statistiques (u.s.). Pour l’u.s. i, on a (x i , yi). Au vu de la
20
15
y

10

2 3 4 5 6

FIG. 7.1 – Donne´es pH : le pH sanguin de 30 carpes vs. le pH ambiant.

figure 7.1, on pressent qu’il existe une relation line´aire entre x et y : y=˙ β1 + β 2 x. On e´crit donc
le mode`le de re´gression suivant, expliquant y par une combinaison line´aire de parame`tres a`
estimer (β1 et β2) :
y i = β1 + β 2 x i + ei, pour i = 1, ...30;

(7.1)
ou` ei est un re´sidu que l’on espe`re le plus petit possible. La variable y est appele´e variable
en- doge`ne (variable re´ponse, variable de´pendante) ; les variables x i sont appele´es variables
exoge`nes (variables explicatives, facteurs, covariables, variables inde´pendantes).
Hypothe`ses : Les observations y i sont des re´alisations de 30 variables ale´atoires inde
´pendantes Y i de moyenne β1 + β 2 x i et de variance σ 2 . De manie`re e´quivalente, les re´sidus
e i sont des re´alisations de 30 variables ale´atoires inde´pendantes E i de moyenne 0 et de variance
σ2 .

2.1 Ecriture et hypothe`ses du mode`le


Nous observons n paires (y1, x 1 ), ..., (y n , x n ) et supposons que :
97
2. LE MODE` LE DE RE´ GRESSION
SIMPLE

y i = β1 + β 2 x i + ei, i = 1, ..., n;

ou`
y1, y2, ..., y i , ..., y n sont les n observations de la variable endoge`ne (ou variable a` expliquer),
x 1 , ..., x n sont les n observations de la variable exoge`ne (ou variable explicative),
e1, ..., en sont les n termes d’erreur,
β1 est le parame`tre d’ordonne´e a` l’origine (la valeur moyenne de y lorsque x prend la valeur 0),
β2 est le parame`tre de pente (si x augmente d’une unite´, alors y augmente de β2 unite´s
en moyenne).
Trois hypothe`ses sont essentielles a` faire sur la distribution des termes d’erreur :
(i) les re´sidus sont de moyenne nulle (hypothe`se de line´arite´)

E(ei) = 0, ∀i = 1, ..., n

(ii) les ei ont une variance identique (homosce´dasticite´)

Var(ei) = σ 2 , ∀i = 1, ..., n

(iii) les ei sont inde´pendants (donc non corre´le´s)

Cov(ei, e j ) = 0, ∀i /= j

En supposant les valeurs x i , (i = 1, ..., n) comme e´tant non ale´atoires (de´terministes),


les hypothe`ses ci-dessus impliquent que E(yi) = β1 + β 2 x i ; Var(yi) = σ2 et Cov(yi, y j ) = 0.
On voit bien que quelle que soit la valeur de la variable explicative, seule l’espe´rance de y de
´pend de x, c’est a` dire que la variance de y et la covariance entre deux observations de la
variable a` expliquer ne de´pendent pas de la valeur de la variable explicative.
La droite de re´gression (β1 +β 2 x) repre´sente la valeur attendue de y en fonction de la
valeur de
x. Les valeurs observe´es de y sont distribue´es de fac¸on ale´atoire autour de cette droite. Les
termes d’erreur sont les diffe´rences entre les valeurs observe´es de y et la droite. Comme la
variance de ces termes d’erreur est constante en x, la distance moyenne des points à la droite
est la meˆme pour toute valeur de x. Finalement la non-corre´lation entre les termes d’erreur
signifie que la valeur d’un terme d’erreur n’est pas influence´e par la valeur des autres termes
d’erreur.
L’expression 2.1 se de´compose de manie`re classique en :

observation = mode`le + re´sidu.

2.2 Le mode`le line´aire gaussien


Dans le mode`le line´aire explique´ au paragraphe pre´ce´dent, seuls les deux premiers
moments des termes d’erreur (espe´rance et variance) sont suppose´s connus. Dans un mode`le
line´aire gaus- sien, on se donne une hypothe`se supple´mentaire : la distribution des re´sidus est
suppose´e normale.

ei ~ U(0, σ2)

Cette hypothe`se implique que les variables ale´atoires y i sont normalement distribue´es.
98 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION

3. Estimation des parame`tres β1 et β2


Dans cette partie, la variance σ2 est suppose´e connue. Les parame`tres inconnus sont β1 et
β2 et ils sont estime´s a` partir des donne´es observe´es (y i , x i , i = 1, ..., n). Deux grandes me
´thodes sont utilise´es :
• la me´thodes des moindres carre´s, qui ne suppose connues que l’espe´rance et la variance
de
y;
• la me´thode du maximum de vraisemblance, qui suppose les re´sidus gaussiens.
On notera classiquement les estimations avec un ”chapeau”. Par exemple, βˆ1 de´signe
l’estimation de β1, c’est-a`-dire une fonction de y (et de x). Rappelons ici que x est suppose´
connu, alors que y est une variable ale´atoire (ou sa re´alisation).
On appelle ie`me valeur ajuste´e ou pre´dite ou attendue la fonction de y suivante :

yˆi = βˆ1 + βˆ2xi

et le re´sidu correspondant vaut :


eˆi = y i — yˆi.

Les moindres carre´s ordinaires


L’ide´e est de trouver la droite qui explique la plus grande partie possible de la relation
entre la variable endoge`ne et la variable exoge`ne, c’est a` dire trouver la droite qui minimise
la partie inexplique´e ou la partie due à la fluctuation ale´atoire. On cherche donc la droite qui
passe le plus pre`s possible de tous les points ou, en d’autres termes, la droite qui minimise la
distance des points a` lan droite (les termes d’erreurs).
Σ Σn Σn
min
La me´thode des moindres ˆ 2
i = min (
carre´s consistey i — 2
= min
a`i trouver les valeurs(y i — ˆβde ˆ 2
βˆ1β2et iβˆ2 (estimateurs de
1 —
βeˆ1 ,βˆ2 i = 1 βˆ1 ,βˆ 2 i = 1 yˆ ) βˆ1 ,βˆ 2 i = 1 x )
β1 et β2) qui minimisent la somme des carre´s des e´carts entre les valeurs observe´es et les
valeurs ajuste´es
Puisque (sommea`des
la fonction carre´s desa re´sidus)
minimiser de bonnes : proprie´te´s (lisse, convexe), elle se minimise
en prenant les de´rive´es de la somme par rapport à βˆ1 et βˆ2, en posant ces de´rive´es e´gales à ze
´ro et en re´solvant le syste`me de deux e´quations a` deux inconnues. On obtient :

βˆ1 = y¯ — βˆ2x¯
Σ n
et βˆ 2 = i = 1Σ(y i — y¯)(xi — x¯) S xy
n 2
=
i = 1 (x i — S xx
x¯)
Prenons l’exemple des donne´es pH. Avec le logiciel R, on peut ajuster le mode`le (7.1)
:
> reg1 <- lm(y ~ x)

Coefficients :
(Intercept) x
5.572096 0.1951841

Degrees of freedom : 7 total ; 5


residual Residual standard error :
0.05754663
99
2. LE MODE` LE DE RE´ GRESSION
SIMPLE

> plot(x,y,xlab="pH ambiant (x)",ylab="pH sanguin (y)")


> lines(x,reg1$[Link])

On ve´rifie graphiquement que l’ajustement est cohe´rent en comparant valeurs observe´es


et valeurs ajuste´es (figure 7.2)

18
16 14
reg$[Link]

12
s
10
8
6

10 15 20

FIG. 7.2 – Donne´es pH : droite de re´gression du mode`le (7.1).

La me´thode du maximum de vraisemblance

. Cette me´thode ne´cessite l’ajout de l’hypothe`se de normalite´ des re´sidus : ei ~ iidN (0,
σ2), ce qui implique que les y i sont des variables ale´atoires normales inde´pendantes :

y i ~ N (β1 + β 2 x i , σ2).

Cette me´thode repose sur l’ide´e suivante : si les donne´es de l’e´chantillon ont e´te´ observe
´es, cela provient du fait que ces donne´es sont les plus vraisemblables. Les estimateurs des
parame`tres inconnus du mode`le sont donc calcule´s en maximisant une quantite´
(vraisemblance) qui mesure la probabilite´ d’observer l’e´chantillon. Dans le cadre de la re
´gression line´aire simple, on cherche donc a` maximiser la fonction de vraisemblance :

Yn
L(β 1 , β2, σ )
2
= f (yi ; i
i=1 x )
Yn 1 —1
(yi − β 1 − β 2 x i ) 2
= √
2σ 2
2
i = 1 2 πσ
( )
e 1 Σ
n
= (2π) − n / 2 (σ 2 ) − n / 2 exp — σ2 (yi — β1 — β 2 x i ) 2
i=1
2
100 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
Le logarithme de la vraisemblance, multiplie´ par (-2), s’e
´crit
Σn
2 2 2 −2 2
l(β 1, β 2, σ ) = 2 ln L(β1 , β2 , σ ) = n π) + n ln σ + σ (y i — β1 — β2 i
— ln(2 i=1 x )

Maximiser la vraisemblance e´quivaut donc a` faire des moindres


carre´s.

2.4 Proprie´te´s des estimateurs


Pour le mode`le de re´gression simple, on peut montrer que :

E(βˆ1) = β1 et E(βˆ2) = β2

On dit alors que les estimateurs des parame`tres sont sans biais. Rappelons que l’espe´rance
est calcule´e par rapport a` la loi de y.

S xy σ2
D’autre part, Var( βˆ 2) = Var( )=
S xx S xx
ˆ ¯ ) = σ ( 1 + x¯2
Var(βˆ1) = Var(ȳ — β 2 x 2
n xx
)

S x¯σ2
Cov(βˆ1, βˆ2) = Cov(y¯ — βˆ 2 x ,¯ βˆ2) = x x
On remarque ici que les deux
— estimateurs peuvent eˆtre tre`s fortement corre´le´s. Pour e´viter cela,
S
on peut ope´rer une reparame´trisation :
β0 + β 2 (x i — x¯)

avec β0 = β1 + β2x¯. Les estimateurs de ces deux parame`tres ne sont pas corre´le´s : Cov(βˆ0, βˆ2)
= 0, et la variance d’estimation de β0 est plus faible que celle de β1 : Var(βˆ0) = σ 2 /n <
Var(βˆ1). Cette remarque souligne l’importance d’une bonne parame´trisation sur la pre´cision
des estima- tions. Des proble`mes nume´riques sont aussi e´vite´s.

2.5 Estimation ponctuelle de σ2


En ge´ne´ral, on ne connait pas la valeur de σ 2 , il faut alors l’estimer. Comme les re´sidus eˆi
= y i — yˆi peuvent eˆtre vus comme des estimateurs des e i , la variance d’e´chantillonnage des eˆi
Σ n
est un estimateur raisonnable de σ 2 = Var(ei(y ). iUn yˆi 2)
— estimateur
SSE
sans bais est donne´ par :
2
s = i = 1 = n—
n —2
Σ 2
ou` SSE = ni= 1 eˆi 2 est la somme des carre´s re
´siduels.
2.6 Tests d’hypothe`se et intervalles de confiance

Si les y i sont des variables ale´atoires normales, puisque les βˆ sont des combinaisons line
´aires des y i , alors ces estimateurs sont donc aussi des variables ale´toires normales. Plus
particulie`rement : 1
βˆ 1 ~ N β 1 , σ2 ( + ))
( x¯ n
2 Sx x
101
2. LE MODE` LE DE RE´ GRESSION
SIMPLE
2
β̂ 2 ~ N β 2, σ ).
S xx
(
On peut donc standardiser les estimateurs pour
obtenir :
qβˆ1 — β1 ~ N (0,
σ n1 + Sx¯
xx
2
1)

β̂ 2 — 2
β √
σ/ ~ N (0,
S xx
1)
Comme σ2 n’est pas connue, nous remplac¸ons dans les expressions ci-dessus σ2 par son esti-
mation s 2 . Ce faisant, on doit corriger la distribution (cf. Annexe D, plus le fait que s2 ~ χ n2− 2 )
afin
d’obtenir :
qβˆ1 — β1
2 ~ t n−2
s n1 + Sx¯ xx

β̂2 — 2
β √ S x x ~ tn − 2
s/

Les deux e´quations ci-dessus nous me`nent aux intervalles de confiance a` (1—α)100%
poursuivants
β1 et β2 :  s 
βˆ 1 2
 1 ± t α/2;n−2 s + 

n Sxx
h √ i
β̂ ± t s/ S
2 α/2;n−2 xx

On peut aussi tester l’hypothe`se de nullite´ d’un des parame`tres. Par exemple, pour tester
l’hy- pothe`se nulle H 0 : β1 = 0 vs l’hypothe`se alternative H 1 : β1 /= 0, on utilise la
statistique :
t1 =
q
~ t n−2
s 1 β+ˆ1 nx¯2 Sx x

qui est distribue´e selon une loi de Student a` n — 2 degre´s de


liberte´.
On rejettera donc l’hypothe`se nulle si t1 > t α / 2 ; n − 2 au niveau α. Il est clair que ce test
a` la pre´sence (H 0 ) ou a` l’absence (H 1 ) de 0 dans l’intervalle de confiance.
correspond

7. Ve´rification des hypothe`ses


Tous les re´sultats (estimation, tests, intervalle de confiance) du mode`le line´aire reposent sur
des hypothe`ses fondamentales faites sur la distribution des termes d’erreur. Les re´sidus du
mode`le sont donc des outils privile´gie´s pour ve´rifier ces hypothe`ses. Voici un plan de ve
´rification qu’il serait bon de suivre apre`s chaque analyse (les hypothe`ses à ve´rifier sont classe
´es par ordre d’importance de´croissante) :
i. Ve´rifier que les re´sidus sont centre´s : E(e) = 0 (hypothe`se de line´arite´) ;
ii. Ve´rifier l’homosce´dasticite´ (la variance des re´sidus doit eˆtre constante) ;
iii. Ve´rifier l’inde´pendance des observations (hypothe`se de non corre´lation) ;
iv. Ve´rifier la normalite´ des re´sidus.
102 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
Plusieurs versions de ces re´sidus existent :
Re´sidus ordinaires : le i e`me re´sidu (ordinaire) est de´fini comme e´tant ei = y i — yˆi.
Si l’hypothe`se 1) est vraie, alors E(ei) = 0. Si les hypothe`ses 2) et 3) sont vraies, alors

Var(ei) = (1 — h i i )σ 2 etCov(ei, e j ) = —h i j σ 2 ,

ou` h i j = 1/n + (x i — x¯)(xj — x¯)/S xx .


Enfin, si l’hypothe`se iv) est vraie, ei ~ N (0, σ2(1 — hii)).
Avec le logiciel R, ces re´sidus sont obtenus avec la commande monmodele$residuals,
ou` monmodele est le re´sultat de la fonction lm : monmodele <- lm(y ~ x) e i
Re´sidus standardise´s : le i e`me re´sidu standardise´ est de´fini comme e´tant r i s √1 − h .
ii
=
Avec le logiciel R, on obtient ces re´sidus par la commande
rstandard(monmodele). e
Re´sidus studentise´s : ce sont de le´ge`res modifications des pre´ce´dents : t i = s √ 1i − h , ou` s2i
i ii
est une estimations sans biais de V ar(eˆi). On montre que les t i suivent une loi de Student a` n
degre´s
— 3 de liberte´.
Avec le logiciel R, on obtient ces re´sidus par la commande rstudent(monmodele).
Ve´rification de la line´arite´

Graphique des re´sidus vs valeurs ajuste´es : yˆi vs eˆi (figure 7.3)


Ce graphique permet surtout de cerner les proble`mes avec l’hypothe`se 1) de line´arite´. Si
l’hy- pothe`se est raisonnable, ce graphique devrait montrer un nuage de points centre´s
horizontalement autour de 0. Le graphique devrait avoir une allure comple`tement ale´atoire, c’est
à dire qu’il ne de- vrait y avoir aucune tendance discernable (ei croissant ou de´croissant avec
yˆi, graphique à l’allure quadratique, etc...). Ce graphique peut e´galement cerner des proble`mes
avec les autres hypothe`ses, mais les graphiques base´s sur les re´sidus studentise´s sont plus
approprie´s dans ces cas.
Residuals vs
Fitted

2
14
2
1
Residuals

0
−1

17
−2

6 8 10 12 14 16 18

Fitted values
lm(formula = y ~
x)

FIG. 7.3 – Donne´es pH : plot des re´sidus vs valeurs ajuste´es, pour le mode`le (7.1
).

Graphique des re´sidus vs variable explicative : x i vs eˆi (figure 7.4)


2. LE MODE` LE DE RE´ GRESSION SIMPLE
103

Encore une fois, ce type de graphique permet de de´tecter des proble`mes avec l’hypothe`se
de line´arite´ ; il devrait avoir l’air d’un nuage de points disperse´s horizontalement de fac¸on ale
´atoire autour de 0.

2
1
reg$residuals

0
−1
−2

2 3 4 5 6

FIG. 7.4 – Donne´es pH : plot des re´sidus vs variable explicative, pour le mode`le (7.1).

Ve´rification de l’homosce´dasticite´
Cette hypothe`se est importante. Une forte violation de cette dernie`re entraˆıne des conse
´quences de´sastreuses sur : les erreurs standards des parame`tres, les risques des tests, les
intervalles de confiance. La me´thode la plus couramment utilise´e est la ve´rification graphique.
Elle consiste a` repre´senter les re´sidus en fonction des valeurs ajuste´es, des valeurs observe´es
ou des valeurs de
x. On peut e´galement utiliser les re´sidus studentise´s pour ve´rifier l’hypothe`se d’homosce
´dasticite´. Un graphique ayant une apparence d’entonnoir indique que la variance ne semble
pas constante (proble`me d’he´te´rosce´dasticite´). Si certains re´sidus ont des valeurs plus grandes
que 2 en valeur absolue, ceci peut indiquer un manque de normalite´ ou la pre´sence de donne´es
atypiques.
Ve´rification de l’inde´pendance

Graphique des re´sidus vs nume´ro d’observations : eˆi vs i


Ce graphique sert à ve´rifier l’hypothe`se de non corre´lation des re´sidus. Si les re´sidus de
grande (faible) valeur ont tendance à suivre des re´sidus de grande (faible) valeur, alors il y a un
proble`me d’autocorre´lation positive. Si les re´sidus de grande (faible) valeur ont tendance à
suivre des re´sidus de faible (grande) valeur, alors il y a un proble`me d’autocorre´lation ne´gative.
Quand la re´gression est re´alise´e sur des donne´es qui varient au cours du temps, les
Σ n
observations peuvent ne pas eˆtre inde´pendantes. Pour ve´rifier l’inde´pendance, un test est
d = i = 2 (ei — ei − 1 )2
habituellement utilise´ : le test de Durbin-Watson.ΣnIl est base´ sur la statistique :
i=1 e2i
Les ei sont les re´sidus de la re´gression
Σ n et n est le nombre d’observations. On peut montrer que
2
= 2 (e i e i − 1 )
0 ≤ d ≤ 4 et que d ' 2 — iΣ
' 2 — 2ρe ou` ρe est le coefficient d’autocorre
in= 1 ei 2
2 ´lation
104 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION

d’ordre 1 des re´sidus. Il est obtenu en calculant la corre´lation entre la se´rie des re´sidus et la
meˆme se´rie de´cale´e de 1. Si ρe = 0 soit d ' 2 alors les re´sidus sont non corre´le´s. Si par
contre ρe /= 0 ou encore d /= 2 alors les re´sidus sont corre´le´s.

Ve´rification de la normalite´
Cette e´tape n’est pas aussi importante qu’on le croit ge´ne´ralement. La normalite´ est une
pro- prie´te´ qui permet aux estimateurs de converger rapidement. Le the´ore`me central limite
nous as- sure que pour des e´chantillons assez grands, les estimateurs que nous utilisons sont
normalment distribue´s. La syme´trie des distributions observe´es est un crite`re important qui
assure une conver- gence rapide vers la loi normale. Les me´thodes pour ve´rifier la normalite´
sont nombreuses, parmi celles-ci on peut citer les me´thodes graphiques (QQplot, PPplot,
histogrammes, boxplot, etc...) et les tests (Chi2, Shapiro-Wilk, Kolmogorov-Smirnov, ...).
Graphique des re´sidus studentise´s vs quantiles de la loi normale : t i vs u i (figure 7.5)
Ce graphique permet de de´tecter les proble`mes avec le postulat de normalite´. Il est parfois
appele´ QQplot normal ou droite de Henry, tout de´pend de la forme utilise´e pour les u i . Dans le
QQplot, il s’agit des quantiles de la loi normale standard. Dans le cas de la droite de Henry, il
s’agit de l’espe´rance des statistiques d’orde de la loi normale standard. Dans les deux cas, si
l’hypothe`se de normalite´ est raisonnable, le graphique devrait avoir la forme d’une ligne droite
de pente positive. Des graphiques à l’allure de courbe concave ou convexe indiquent une
distribution non syme´trique des re´sidus, alors qu’un graphique en forme ”d’inte´grale inverse´e
couche´e” indique que les re´sidus proviennent d’une distribution ayant des queues plus e´paisses
que celles de la loi normale.
Normal Q − Q
plot

2
14
2
1
Standardized
residuals
0 −1
−2

17

−2 −1 0 1 2

Theoretical
Quantiles
lm(formula = y ~
x)

FIG. 7.5 – Donne´es pH : QQplot du mode`le (7.1).

Boxplot des re´sidus : Le Boxplot des re´sidus (ordinaires ou studentise´s) sert à de´terminer
si ces derniers proviennent d’une distribution syme´trique et si certains re´sidus sont de valeur
extreˆme. Une distribution non syme´trique est indique´e par une moustache plus longue que
l’autre, ou une ligne me´diane proche d’une extremite´ de la boˆıte. Un re´sidu extreˆme est
indique´ par un point a` l’exte´rieur des moustaches.
2. LE MODE` LE DE RE´ GRESSION SIMPLE
105

De´tection et e´limination de valeurs atypiques


Un examen critique des donne´es est une e´tape importante en statistique. Il existe deux
grands types de donne´es ge´ne´ralement classe´es comme atypiques : les donne´es qui ne sont pas
habituelles, et les donne´es qui violent une hypothe`se de l’analyse statistique utilise´e. Diffe´rentes
attitudes de- vraient eˆtre adopte´es suivant la nature du proble`me rencontre´. Les donne´es
provenant d’erreurs grossie`res de mesures ou d’erreurs de frappe doivent eˆtre supprime´es de
l’analyse. Seul un ju- gement biologique permet de de´clarer une valeur comme aberrante.
Souvent, apre`s un examen attentif des donne´es on trouve des valeurs inhabituelles. Un expe
´rimentateur prudent doit alors rechercher la (les) causE(s) de telles valeurs. Deux cas de figures
se pre´sentent alors : soit la cause est identifie´e et il faut changer la donne´e ou la me´thode
d’analyse ; soit la cause n’est pas identifie´e et un test statistique peut eˆtre utilise´e pour de´tecter
une valeur atypique.
L’examen graphique des re´sidus est un bon outil (graphique des eˆ en fonction de yˆ). Une
autre technique consiste a` calculer des indices pour chaque re´sidu. La plupart des indices
calcule´s par les logiciels de statistique ont une signification infe´rentielle. Les trois les plus
couramment usite´s sont : les re´sidus standardise´s, les distances de Cook, les contributions.
Avec les re´sidus standardise´s, il est donc possible de tester l’”aberrance” de chaque re´sidu
en utilisant un test de Student. Attention toutefois aux tests multiples (voir plus loin).
Les contributions (leverage) et les mesures de Cook mesurent la contribution de chaque re
´sidu a` la variance re´siduelle (non explique´e par le mode`le). Sous les hypothe`ses usuelles
(hypothe`ses du mode`le), les distancesDde =Cook hsuivent
ii
, loi de Fisher a` p et n — p degre´s
r 2une
i
de liberte´. Elles s’obtiennent par : 2(1 — h i i ) i

tenant compte ainsi de l’importance du re´sidu i et de l’influence h i i de l’observation i sur la


droite de re´gression (effet ”levier”). Une me´thode pour identifier les observations qui
contribuent trop a` la variance re´siduelle consiste a` re´aliser un test de Fisher sur le re´sidu de
Cook (i.e. de comparer sa valeur limite a` un seuil donne´ d’une loi de Fisher a` p et n — p ddl).
p
Pour des donne´es gaussiennes, les leverage devraient eˆtre voisines de n ; p repre´sente le
nombre de parame`tres inde´pendants estime´s dans le mode`le. Si pour un re
´sidu,
pondantle leverage corres-
est supe´rieur a` n2p , la donne´e peut eˆtre conside´re´e comme
suspecte.
Comment re´gler les proble`mes ?
Manque de line´arite´ : Ceci est en ge´ne´ral duˆ à une mauvaise spe´cification de la forme de
la relation entre la variable endoge`ne et la variable exoge`ne. Le proble`me peut eˆtre re´gle´ par
une ou plusieurs options suivantes :
• transformer la variable exoge`ne, ajouter au mode`le des termes en x2i , x3i , ...
• ajouter
; au mode`le de nouvelles variables exoge`nes ;
• transformer la variable endoge`ne.
He´te´rosce´dasticite´ : La transformation de Box-Cox pourra souvent prescire une
transforma- tion de la variable endoge`ne qui re`glera ce proble`me (transformation stabilisatrice
de la variance). Si la transformation de Box-Cox ne fonctionne pas, alors la re´gression ponde´re
´e ou l’utilisation d’une autre me´thode statistique peut eˆtre utile.
Me´thode de Box-Cox : Cette me´thode suppose un mode`le de re´gression ge´ne´ral de la
forme :
g(yy;λ λ)
− 1 = β + β x + e ou` λ est un parame`tre inconnu et qu’il faut estimer a` partir des
g(y; λ) = λ si λ /= 0 et g(y; λ) = ln λ si λ = 0. On estime λ en meˆme temps que les
i 1 2 i i

autres donne´es ;
106 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
Cook’s distance
plot

14

0.3
0.2
distance
Cook’s

20
0.1
0.0

0 5 10 15 20 25 30

Obs. number
lm(formula = y ~
x)

FIG. 7.6 – Distance de Cook pour le mode`le (7.1) sur les donne´es pH.

parame`tres par la me´thode du maximum de vraisemblance.


Auto-corre´lation des re´sidus : ce proble`me est plus difficile a` re´gler. Il est parfois
possible de le re´gler en ajoutant une variable exoge`ne qui explique pourquoi il y a autocorre
´lation (par exemple, si les premie`res mesures sont faites sur l’individu A, les mesures suivantes
sur l’individu B, etc., alors peut-eˆtre ajouter une variable exoge`ne de´notant l’individu sur
lesquelles les mesures ont e´te´ faites pourra re´gler le proble`me). Mais en ge´ne´ral, il faut avoir
recours a` un mode`le plus complexe que le mode`le line´aire simple (se´ries temporelles, mode`le
line´aire mixte).
Manque de normalite´ : Encore une fois, la transformation de Box-Cox re`gle souvent le
proble`me. Parfois, le manque de normalite´ est tout simplement duˆ a` quelques observations
extreˆmes. Dans ces cas, nous pourrons re´gle´r le proble`me en traitant ces observations de fac¸on
approprie´e. Une autre option consiste a` utiliser des me´thodes de re´gression robustes ou non
parame´triques (non aborde´es dans ce cours).

3 Re´gression lineaire multiple


Quand on dispose de plusieurs variables explicatives, on peut mettre en oeuvre un
mode`le de re´gression line´aire multiple. Supposons que l’on dispose de n observations sur
une variable continue y et p variables continues x 1 , ..., x j , ...xp. On note y i (resp. x j , i ) la ie`me
observation de y (resp. x j ). Le mode`le suivant :

y i = β 1 x 1 , i + β 2 x 2 , i + ... + β j x j , i + ... + β p x p , i + ei

est un mode`le de re´gression multiple, cherchant a` expliquer la variable y par p variables


explica- tives x 1 , ...x j , ...xp, a` l’aide d’un e´chantillon de taille n.
Les re´sidus ei sont suppose´s de moyenne nulle, de variance e´gale σ2, et mutuellement inde
´pendants, e´ventuellement gaussiens.

Les parame`tres inconnus β1, ...β j , ...βp (et e´ventuellement σ2) sont estime´s par
moindres
3. RE´ GRESSION LINEAIRE MULTIPLE
107

carre´s (la somme des carre´s des re´sidus la plus petite possible), ou par maximum de
vraisemblance si les re´sidus sont suppose´s gaussiens, exactement comme dans le cas de la re
´gression simple.

1. Multicoline´arite´
Des proble`mes d’estimation des parame`tres et de variance peuvent arriver lorsque dans
le mode`le de re´gression, on utilise des variables explicatives corre´le´es entre elles. On parle
alors de 2multicoline´arite´ et cela conduit a` des estimations biaise´es des parame`tres avec des
ficient
variancesR j im-
de chacune
[Link] Pour
ces re´gressions
diagnostiquer R j situations,
(ou`ces est le coefficient
une desdeme´thodes
corre´lation
estmultiple
de faire la re
en
obtenu
re´gressant la variable x j sur les (k — 1) autres variables explicatives). On
´gression de 2chaque variable en fonction des autres variables explicatives et de mesurerappelle tole´rance,
les
valeur
la 1 — Rj . Une tole´rance qui est proche de 1 signifie une absence de multicoline´arite´ entre
liaisons a` l’aide du coef-
les
variables explicatives. En revanche, si la tole´rance tend vers 0, alors on de´tecte un proble`me
de multicoline´arite´ entre les variables explicatives.

3.2 Crite`res de se´lection de mode`le


Pour obtenir un compromis satisfaisant entre un mode`le trop simple (grands re´sidus) et
un mode`le faisant intervenir beaucoup de variables (donc tre`s instable), on dispose de
plusieurs crite`res qui ne donnent pas ne´cessairement le meˆme re´sultat.
Coefficient de de´termination et ses variantes
Pour mesurer la qualite´ d’un mode`le de re´gression line´aire, ou pour comparer des mode`les
de re´gression line´aire entre eux, on de´finit le coefficient de de´termination :
Σ n ˆ ¯ 2
2 SSE = i = 1 (Y i — i Var(yˆ)
R = S S Reg = 1 Σ n Y ) = = corr 2 (y,
S S T ot — ¯ 2
i = 1 (Y i — i Var(y)
S S T ot yˆ)
Y )
On a que 0 ≤ R 2 ≤ 1. Quand R 2 = 0, toute la variabilite´ est due a` l’erreur ale´atoire et
le mode`le n’explique absolument rien de la valeur de y i . Quand R 2 = 1, tous les points tombent
sur la droite de re´gression, c’est à dire que l’ajustement du mode`le est parfait et que la valeur de
y i est une fonction exacte de x i .
Le coefficient de de´termination R 2 peut donc eˆtre interpre´te´ comme la proportion de la
varia- bilite´ dans les y i qui est explique´e par le mode`le de re´gression.
Bien que facilement interpre´te´ et naturellement attrayant, le coefficient de de´termination
souffre de quelques proble`mes qui font qu’il ne peut pas eˆtre utilise´ pour comparer
n’importe quels mode`les de re´gression l’un avec l’autre. L’inconve´nient principal est que de`s
que l’on ajoute un terme à un mode`le de re´gression, le coefficient de de´termination augmente.
Afin de circonscrire a` ce proble`me, nous pouvons utiliser le coefficient de de´termination ajuste´ :

2 (n — 1) (n — 1)R2 — p
R ajust = 1 (1 — R2 ) =
(n — p — n —p—1

1)
avec n le nombre d’observations et p le nombre de parame`tres. Avec le R 2ajust , l’ajout
variable
d’une explicative peut aussi re´sulter en une diminution de la statistique. La comparaison
de mode`les sur la base de ce crite`re revient à comparer deux mode`les sur la base de leur estime´
de la variance des termes d’erreur s2. Le meilleur mode`le sera celui ayantajust
le R 2 le plus grand.
108 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION

C p de Mallows
SS E
C p = C p de Mallows
Une autre crite`re appele´, le coefficient — n + peut eˆtre utilise´. Il est de´fini par :
σˆ
2p
2
ou` S S E est la somme des carre´s re´siduels du mode`le et σˆ 2 est l’estimation de la variance re
´siduelle sous le mode`le complet. On choisira la mode`le pour lequel le coefficient C p est
minimum.
Test de Fisher pour mode`les emboite´s
Il se peut qu’on veuille tester si le mode`le à p variables explicatives peut eˆtre re´duit à q (q
petit devant p) variables ; c’est a` dire que l’on veut tester si un sous-mode`le plus simple
explique une partie suffisamment grande de la variabilite´ dans les y i pour qu’il ne soit pas ne
´cessaire d’utiliser le mode`le le plus complexe (car trop de parame`tres à estimer). Cela revient à
tester l’hypothe`se de nullite´ de k (= p — q) parame`tres du mode`le :

H 0 : β1 = β2 = ... = β k = 0 avec k petit devant p

Sous l’hypothe`se alternative, au moins un des parame`tres β1, ..., β k est non-nul.
Ce test peut eˆtre formule´ comme la comparaison de deux mode`les emboite´s, l’un a` p +
S S E 0 — S SE 1 n — p — 1
F caL =
parame`tres et l’autre1a` q+1 ~ F (k, n — p —
L’hypothe`se H 0 peut eˆtre teste´e au moyen de la
S S Eparame`tres.
1 1)
k statistique :
ou` S S E 0 est la somme des carre´s re´siduelles du mode`le re´duit sous H 0 et S S E 1 est la somme
des carre´s re´siduelles du mode`le de re´fe´rence (mode`le complet a` p variables explicatives).
On compare FcaL a` la valeur limite de la statistique d’une loi de Fisher F α (k, n — p — 1).
Si
FcaL > F α (k, n — p — 1) alors on rejette H 0 .
Remarque : Dans le cas ou` k = 1, on teste la nullite´ d’un seul parame`tre du mode`le.
Etant donne´ la proprie´te´ selon laquelle une variable ale´atoire distribue´e selon une loi F (1, m)
est le carre´ d’une variable ale´atoire de Student a` m degre´ de liberte´ ; le test de Fisher ci-
dessus et le test de Student donnent les meˆmes conclusions.
Chapitre 8

Mode` le line´ aire : analyse de


variance
L’analyse de variance est un cas particulier de la re´gression. La diffe´rence essentielle est
la structure que posse`dent les variables explicatives. L’objectif de l’analyse de variance est la
re- cherche de relations entre une variable quantitative et des variables qualitatives (appele´es
aussi facteurs de variation). Quand un seul facteur de variation est utilise´ pour expliquer les
variations de Y , on re´alise une analyse de la variance à un facteur (a` une voie). Dans le cas ge´ne
´ral, plusieurs facteurs (p) sont pre´sents pour expliquer les variations de Y , on parle alors
d’analyse de variation a` p facteurs.

1 ANOVA a` un facteur
1. Un exemple
Donne´es Ampoules. On conside`re maintenant plusieurs proce´de´s de fabrication de lampes
a` ultra-violets : On nume´rote les u.s. (i, j), ou` i est le nume´ro du proce´de´ de fabrication et j
est le

TAB. 8.1 – Observations de dure´es de vie d’ampoules e´chantillonne´es pour 6 proce´de´s de


fabrica- tion. F1 1602 1615 1624 1631
F2 1472 1477 1485 1493 1496 1504 1510
F3 1548 1555 1559 1563 1575
F4 1435 1438 1448 1449 1454 1458 1467 1475
F5 1493 1498 1509 1516 1521 1523
F6 1585 1592 1598 1604 1609 1612

nume´ro de la lampe a` i fixe´. On note y i j la dure´e de vie de la j e`me lampe fabrique´e suivant
le proce´de´ i, et µ i la dure´e de vie moyenne d’une lampe fabrique´e suivant le proce´de´ i.
Le mode`le s’e´crit :
y i j = µi + ei j , i = 1, ...6 j =
1, ...n i (8.1)

ou` e i j est un re´sidu tel que e i j ~ N (0, σ2) et n i le nombre d’observations pour le proce´de´ i.
Les re´sidus sont suppose´s eˆtre inde´pendantes. Le mode`le peut e´galement s’e´crire comme celui
d’une re´gression line´aire multiple :

y i j = β 1 x 1 + β 2 x 2 + ... + β 6 x 6 + e ij

109
110 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE

avec x i = 1 si y i j est une observation faite dans la classe i et x i = 0 sinon. On a la


relation suivante entre l’e´criture des deux mode`les d’analyse de variance : β i = µ i .

2. Diverses parame´trisations
Analysons les donne´es Ampoules.
Avec le logiciel R
> options(contrasts="[Link]")

> reg2 <-lm(dvie ~ proc)

> summary(reg2)
Call : lm(formula = dvie proc)
Residuals :
Min 1Q 3Q Max
-19
Median -9 4.996e-15 22
9.5
Coefficients :
Value [Link] t value Pr(>|t|)
(Intercept) 1618.0000 6.2022 260.8773 0.0000
procF2 -127.0000 7.7748 -16.3348 0.0000
procF3 -58.0000 8.3211 -6.9703 0.0000
procF4 -165.0000 7.5961 -21.7218 0.0000
procF5 -108.0000 8.0069 -13.4883 0.0000
procF6 -18.0000 8.0069 -2.2480 0.0321
Residual standard error : 12.4 on 30 degrees of freedom
Multiple R-Squared : 0.9644
F-statistic : 162.7 on 5 and 30 degrees of freedom,
the p-value is 0
¿ reg2$[Link]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1618 1618 1618 1618 1491 1491 1491 1491 1491 1491 1491 1560 1560 1560 1560
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1560 1453 1453 1453 1453 1453 1453 1453 1453 1510 1510 1510 1510 1510 1510
31 32 33 34 35 36
1600 1600 1600 1600 1600 1600

Avec le logiciel SAS


proc glm
data=ampoules ; class proc
;
model dvie=proc / solution
p ; run ;

T
Dependent Variable : dvie he
Sum
GL of
Source DF Squares
M Mean Square F Value Pr >
Model 5 125144.7500
F Pr 25028.9500 162.67 <.0001
Error 30 4616.0000
oc 153.8667
Corrected Total 35 129760.7500
ed
ur
e
1. ANOVA A` UN FACTEUR 111

R-Square Coeff Var Root MSE dvie Mean


0.964427 0.812021 12.40430 1527.583
Source DF Type I SS Mean Square F Value Pr > F
proc 5 125144.7500 25028.9500 162.67 <.0001
Source DF Type III SS Mean Square F Value Pr > F
proc 5 125144.7500 25028.9500 162.67 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 1600.000000 B 5.06403440 315.95 <.0001
proc F1 18.000000 B 8.00694143 2.25 0.0321
proc F2 -109.000000 B 6.90111562 -15.79 <.0001
proc F3 -40.000000 B 7.51117686 -5.33 <.0001
proc F4 -147.000000 B 6.69908783 -21.94 <.0001
proc F5 -90.000000 B 7.16162613 -12.57 <.0001
proc F6 0.000000 B . . .
NOTE : The X’X matrix has been found to be singular, and a generalized
inverse was used to solve the normal equations. Terms whose estimates are
followed
by the letter ’B’ are not uniquely estimable.
Observation Observed Predicted Residual
1 1602.0000000 1618.0000000 -16.0000000
2 1615.0000000 1618.0000000 -3.0000000
3 1624.0000000 1618.0000000 6.0000000
4 1631.0000000 1618.0000000 13.0000000
5 1472.0000000 1491.0000000 -19.0000000
6 1477.0000000 1491.0000000 -14.0000000
7 1485.0000000 1491.0000000 -6.0000000
8 1493.0000000 1491.0000000 2.0000000
9 1496.0000000 1491.0000000 5.0000000
10 1504.0000000 1491.0000000 13.0000000
etc ...
On observe que les valeurs ajuste´es (reg2$[Link] pour R et colonne Predicted pour
SAS) sont les meˆmes avec R et SAS, et pourtant les estimations des β (Value pour R,
Estimate pour SAS) sont diffe´rentes. Pourquoi ?
Explication
En fait, il existe plusieurs parame´trisations possibles, que nous allons de´crire.
• Parame´trisation du mode`le : les parame`tres sont les Σµ i pour i =
• De´composition
1, ...p. centre´e : on e´crit µi = µ + αi avec iα =
• 0.
De´composition SAS/R : une cellule de re´fe´rence. On e´crit µ i = µ p + a i avec ap = 0 :
dans SAS, le dernier niveau du facteur sert de re´fe´rence ; soit a i = (µ i — µ p )
le contraste entre le niveau i et le niveau p. Ou encore µ i = µ 1 + a i avec a1
facteur
= sert
0 dans R,de
le re´fe´rence ; soit adu
premier niveau i = (µi —
Toutesµces
1). parame´trisations sont e´quivalentes car on peut passer de l’une a` l’autre par une
bijection.

1.3 Ve´rification des hypothe`ses - Diagnostics


Comme dans le cadre de la re´gression, des ve´rifications sont a` effectuer : normalite´ des re
´sidus, homosce´dasticite´, valeurs aberrantes ...
112
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
Residuals vs
Fitted

24

20
11

10
Residuals

0
−1
0

5
−2
0

1450 1500 1550 1600

Fitted values
lm(formula = dvie ~
[Link](amp))

FIG. 8.1 – Donne´es Ampoules : visualisation des re´sidus.

1.4 Estimation des parame`tres


Comme pour la re´gression, les parame`tres du mode`le d’analyse de variance peuvent eˆtre
time´s
es-par la me´thode des moindre carre´s ou par la me´thode du maximum de
vraisemblance.
µ i est estime´ par la moyenne empirique :

µˆi = yi. = n i yi j .
ni j = 1

Cette estimation est d’autant plus pre´cise que le nombre d’observations pour la cellule i est
grand :
V ar(µˆ i ) = .
n
σ2i
La variance re´siduelle est estime´e
par :
ΣI Σn i (y i j — 2
σˆ2 = i.
.
y n) —
i=1 j=1
p
1.5 Intervalle de confiance et tests d’hypothe`ses
Soit le mode`le y i j = µ i + e i j ou` les e i j sont iid suivant une loi centre´e de variance σ2 qui
sera suppose´e N (0, σ2) pour la construction des tests. Dans le cadre ge´ne´ral du mode`le
gaussien, on a montre´ que les estimateurs des parame`tres du mode`le sont distribue´s selon une
loi normale, donc :

µˆ i ~ N (µ i , σ 2 /n i )

 de confiance de µ isde se´curite´


On peut en de´duire un intervalle  1—α :
2
σ 

µˆ i ± t ( n − I ) , ( 1 − α / 2 ) ˆn i
1. ANOVA A` UN FACTEUR 113

Normal Q − Q
plot

2
24

11

1
Standardized
residuals
0 −1

−2 −1 0 1 2

Theoretical Quantiles
lm(formula = dvie ~
[Link](amp))

FIG. 8.2 – Donne´es Ampoules : QQplot des re


´sidus.

L’hypothe`se H 0 : µ1 = ... = µ I revient à dire que la moyenne est inde´pendante du niveau


ou encore que le facteur n’a pas d’effet et l’hypothe`se alternative H 1 est de´finie par I(i, k) tel
que µ i /= µ k . Cette dernie`re hypothe`se revient à reconnaˆıtre un effet ou une influence du
facteur sur la variable Y . L’e´tude de cette hypothe`se revient a` comparer par un test de Fisher
un mode`le com- plet (les moyennes sont diffe´rentes) avec un mode`le re´duit supposant la nullite´
des parame`tres et donc l’e´galite´ des moyennes à celle de la dernie`re cellule ou à la moyenne
ge´ne´rale. Les re´sultats ne´cessaires a` la construction du test qui en de´coule sont re´sume´s dans
la table d’analyse de va- riance :
Source de variation ddl Somme des carre´s Variance F
Mode`le (inter) p-1 SSB MSB=SSB /(p-1) MSB/MSW
Erreur (intra) n-p SSW MSW=SSW/(n-p)
Total n-1 SST
Σ 2
Σ 2
Σ 2
Avec SSB= i,j (y i. — y.. ) ; SSW= i,j (y i j — yi. ) ; SST= i,jΣ(y i j — y.. ) ; un point a`
place d’un indice veut dire la moyenne sur l’indice conside´re´ (yi. 1 lan i y i j ).
ni j=1
= La statistique F peut s’interpre´ter comme le rapport de la variabilite´ inter-groupe sur la
variabi- lite´ intra-groupe. En effet, le carre´ moyen du mode`le mesure l’e´cart des moyennes des
groupes à la moyenne ge´ne´rale (c’est une mesure de variabilite´ inter). Le carre´ moyen re´siduel
mesure l’e´cart de chaque unite´ statistique à la moyenne du groupe (c’est une mesure de la
variabilite´ intra). Si le facteur a un effet sur la variable a` expliquer, la variation INTER sera
importante par rapport a` la variation INTRA.

Dans le cas d’un facteur à 2 classes (p = 2), on retrouve un test e´quivalent au test de
Student de comparaison des moyennes de deux e´chantillons inde´pendants.
114
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
Scale−Location
plot

1.4
24

15
1

1.2
1.00.8
Standardized
residuals
0.6 0.4
0.2
0.0

1450 1500 1550 1600

Fitted values
lm(formula = dvie ~
[Link](amp))

FIG. 8.3 – Donne´es Ampoules : recherche de liaison moyenne-variance.

2 ANOVA a` deux facteurs croise´s


La conside´ration de deux (ou plus) facteurs explicatifs dans un mode`le d’analyse de
variance engendre plusieurs complications dont en particulier la notion d’interaction entre
variables expli- catives. La pre´sence d’interaction atteste du fait que les effets d’un des facteurs
de´pend des effets de l’autre facteur.
Les niveaux du premier facteur sont note´s par un indice i variant de 1 a` p, ceux du
deuxie`me facteur par un indice j variant de 1 a` q. Pour chaque combinaison, on observe un
meˆme nombre n i j = c > 1 de re´pe´titions, ce qui nous place dans le cas particulier d’un
plan e´quilibre´ ou e´quire´pe´te´. Cecntroduit des simplifications importantes dans les estimations
des parame`tres ainsi que dans la de´composition des variances.
Le mode`le ge´ne´ral s’e´crit :

y i j k = µ i j + e ijk

On suppose que les termes d’erreur e i j k sont mutuellement inde´pendants et de meˆme loi
gaus- sienne. Le mode`le d’analyse de variance a` deux facteurs s’e´crit e´galement de la manie`re
suivante :

y i j k = µ + αi + β j + γ i j + ei j k
Σ p Σ q Σp Σ
avec les i=1αi = j = 1 β j = 0, ∀j, qi = 1 γi j = 0 et ∀i, j=1 γi j =
contraintes :
Lorsque les parame`tres d’interaction 0. γ i j sont tous nuls, le mode`le est dit additi f , ce qui
cor- respond à une situation tre`s particulie`re. Ceci signifie que les e´carts relatifs au premier
facteur sont inde´pendants du niveau k du 2e`me facteur et vice versa. Dans le cas e´quire´pe´te´, les
tests des effets sont re´sume´s dans la table d’analyse de variance suivante :
2. ANOVA A` DEUX FACTEURS CROISE´ S 115

Cook’s distance
plot

0.12
0.10
24
4

0.08
distance
Cook’s

0.06
0.04
0.02
0.00

0 5 10 15 20 30 35
25

Obs. number
lm(formula = dvie ~
[Link](amp))

FIG. 8.4 – Donne´es Ampoules : distance de Cook pour de´tection d’observations aberrantes.

Source de variation ddl Somme des carre´s Variance F


1er facteur p-1 SS1 MS1=SS1/(p-1) MS1/MSE
2e`me facteur q-1 SS2 MS2=SS2/(q-1) MS2/SSE
Interaction (p-1)(q-1) SSI MSI=SSI/(p-1)(q-1) MSI/MSE
Erreur n-pq SSE MSE=SSE/(n-pq)=σˆ 2
Total n-1 SST

avec
Σ
SS1 = qc (y i.. — ... 2
i y ) ;
Σ
SS2 = pc (y .j. — ... 2
j y ) ;
Σ
SSI = c (y ij. — yi.. — y.j. + y ... )2 ;
ij
Σ
2
SSE = (y i j k — ij.
ijk y ) ;
Σ
2
SST = (y i j k — ...
ijk y ) .

Ici aussi, plusieurs parame´trisations sont possibles et sont en


•correspondance
Parame´trisationbijective.
du mode`le : les parame`tres sont ici µ i j pour Σi = 1, ...pΣet j = Σ
• De´composition
Σ ...q.x
1, centre´e : On e´crit µi j = µ +Li α +cj α +xi α
j avec i iL α = j j α = j ixj α
L
=
i α i j = 0.
• De´composition SAS/R. On e´crit : µi j = pqµ +L a +c a +x a avecL a =c a pj = a iq =
i j ij p q
= a SAS), ou µ i j = µ11 + aLi + acj + a xi j avec aL1 = a1c = a 1 j = ai1 = 0 (dans 0R).
(dans
L’estimation et l’infe´rence sur les parame`tres, ainsi que les analyses post-mode´lisations sont
les meˆmes que dans le cadre de la re´gression.
On peut se faire une ide´e de la pre´sence d’interactions en trac¸ant le graphe des
moyennes
116 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE

empiriques y¯ij en fonction de i, pour chaque j (figure 2). Si les droites sont paralle`les, l’effet
du premier facteur s’additionne a` l’effet du deuxie`me, il n’y a donc pas d’interaction. Si par
contre des droites se croisent, on peut suspecter la pre´sence d’interactions.
Pas d’interactions Interactions
5

5
4

4
j=
3

3
2

j=
m

m
u

j=
2

j=
3

j= j=
1

1 1
0

1 2 3 4 5 6 1 2 3 4 5 6
7 7
i i

3 Analyse de covariance
L’analyse de covariance se situe encore dans le cadre ge´ne´ral du mode`le line´aire et ou`
une variable quantitative est explique´e par plusieurs variables a` la fois quantitatives et
qualitatives. Dans les cas les plus complexes, on peut avoir plusieurs facteurs (variables
qualitatives) avec une structure croise´e ou hie´rarchique ainsi que plusieurs variables
quantitatives intervenant de manie`re line´aire ou polynomiale. Le principe ge´ne´ral est toujours
d’estimer des mode`les intra—groupes et de faire apparaˆıtre (tester) des effets diffe´rentiels
inter — groupes des parame`tres des re´gressions. Ainsi, dans le cas simple ou` seulement une
variable parmi les explicatives est quantitative, nous sommes amene´s a` tester l’he´te´roge´ne´ite´
des constantes et celle des pentes (interaction) entre diffe´rents mode`les de re´gression line´aire.
Prenons un cas simple, le mode`le est explicite´ dans le cas e´le´mentaire ou` une variable
quan- titative Y est explique´e par une variable qualitative T a` q niveaux et une variable
quantitative, appele´e encore covariable, X . Pour chaque niveau j de T , on observe n j valeurs
x 1 j , ..., x n j j de X et n j valeurs y 1 j , ..., y n j j de Y ; n est la taille de l’e´chantillon. Le mode`le s’e
´crit :

y i j = β 0j + β 1 j x i j + e ij
4. TESTS MULTIPLES 117

ou` les e i j sont iid suivant une loi centre´e de variance σ


e qui sera suppose´e N (0, eσ ) pour
2 2

construction des tests.


la
Diffe´rentes hypothe`ses peuvent alors eˆtre teste´es par un test de Fisher
:
i. Test des interactions : les droites partagent la meˆme pente ;
ii. Test de l’influence du facteur quantitatif ;
iii. Test de la significativite´ des diffe´rences des termes constants.

On commence par tester l’hypothe`se (i), si le test n’est pas significatif, on regarde (ii) qui s’il
n’est pas non plus significatif, conduit a` l’absence d’effet de la variable X. De meˆme,
toujours si (i) n’est pas significatif, on s’inte´resse a` (iii) pour juger de l’effet du facteur T .

4 Tests multiples
1. Rappels sur les risques de premie`re et seconde espe`ce
Risque de premie`re espe`ce : note´ α. Le risque de premie`re espe`ce est le risque de rejeter (avec
la re`gle de´cision) l’hypothe`se H 0 alors qu’en re´alite´ cette hypothe`se est vraie.
Risque de seconde espe`ce : note´ β. Le risque de seconde espe`ce est le risque d’accepter (avec
la re`gle de de´cision) l’hypothe`se H 0 alors qu’en re´alite´ cette hypothe`se est fausse.

De´cision
Re´alite´ H0 H1

H0 1—α α
H1 β 1—β

La quantite´ 1 — β est une probabilite´ de bonne de´cision appele´ puissance du test.


Remarque : Accepter H 0 ne signifie pas que cette hypothe`se est vraie mais seulement
que les observations disponibles ne sont pas incompatibles avec cette hypothe`se et que l’on n’a
pas de raison suffisante de lui pre´fe´rer l’hypothe`se H 1 compte tenu des re´sultats expe
´rimentaux.

4.2 Tests multiples


Supposons que p moyennes (m1, m 2 , ..., mp) soient a` comparer et que ces p moyennes soient
de tailles respectives n 1 , n 2 , ...,¯ np. ¯En comparant les moyennes deux a` deux, il faut faire p ( p − 1 )
respectivement estime´es par : X 1, X 2, ..., X¯p et que ces moyennes soient estime´es sur des e 2
comparaisons. Chaque comparaison de 2 moyennes est effectue´e en utilisant la re`gle de de
´chantillons
´cision
suivante : si
√ |X¯i — X ¯ j | > t1 − α / 2 ; n i + n j − 2
σˆ2 (1/ni + j
1/n )
alors on rejette l’hypothe`se H 0 : m i = m j .
Si deux comparaisons sont re´alise´es avec un risque de premie`re espe`ce de α, il est faux
de penser que la de´cision globale peut eˆtre prise avec un risque α. Cela provient du fait
qu’une succession de tests de risque α ne permet pas de prendre une de´cision globale avec
ce meˆme risque.
118
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
2 3 4 5 6
Erreur nominale de type I 5% 5% 5% 5% 5%
Erreur globale de type I 5% 12.2 % 20.3 % 28.6% 36.6%

La me´thode de Bonferroni est une me´thode qui ne permet pas un strict controˆle de α mais
en revanche elle en donne une majoration. L’ide´e de Bonferroni est de se placer dans le pire des
cas (pour α). Par exemple si on a p = 5 moyennes à comparer, il faut effectuer 10 comparaisons.
Pour avoir un risque global α, il faut que chacune des 10 comparaisons soit effectue´e avec un
risque α ' = α/10.
En pratique, Bonferroni fournit une liste de ge`nes diffe´rentiellemnt exprime´s dans laquelle
on controˆle le nombre de faux positifs. Quand le nombre des ge`nes est grand, cette liste est
souvent vide.
A l’oppose´, le LSD (Least Square Difference), c’est a` dire le test de Student sans
correction, est le plus laxiste : il va de´tecter des ge`nes diffe´rentiellement exprime´s qui en fait ne
le sont pas.
En ge´ne´ral, on pre´sente ces taux d’erreurs dans le tableau suivant :
Re´alite´ De´cision
H 0 vraie H 1 vraie Total
H 0 vraie U V m0
H 1 vraie T S m1
W R m

ou` m tests sont effectue´s. Pour une analyse de biopuces dans laquelle on teste les
effets diffe´rentiels de m ge`nes, m1 est le nombre de ge`nes de´clare´s diffe´rentiellement exprime
´s, alors que R est le nombre re´el (mais inconnu) de ge`nes diffe´rentiellement exprime´s.
Diverses me´thodes sont propose´es pour controˆler ces divers taux d’erreurs.
Le FWER (Family Wise Error Rate) repre´sente la probabilite´ d’effectuer au moins une
erreur de premie`re espe`ce sur l’ensemble des comparaisons :
P [V ≥ 1] = m 0 α.
On prend donc un seuil nominal de α ' = α/m 0 .
Au meˆme titre que Bonferroni, plus il y a de tests (soit de ge`nes a` tester), moins on
rejette H 0 (moins de ge`nes de´clare´s diffe´rentiellement exprime´s). La notion suivante est tre`s
utile pour pallier a` cet inconve´nient.
La FDR (False Discovery Rate) controˆle l’espe´rance du taux de faux positifs, ou le
nombre de faux positifs parmi les diffe´rences de´clare´es significatives. Pratiquement, on
desmm tests (les ge`nes) et on recherche le plus haut rang k des p-values tel que p
p-values les
ordonne

value(k) ≥ αk/m..
Il existe d’autres approches re´centes ou en cours de de´veloppement pour controˆler la
FDR positive, le nombre moyen d’erreurs, etc ...

5 Mode`le line´aire mixte gaussien


Dans les mode`les line´aires classiques (cf. chapitre 7), toutes les variables explicatives
sont suppose´es de´terministes. La plupart du temps, cette situation simple ne permet pas de re
´pondre de fac¸on effective aux questions pose´es. Pour illustrer cette insuffisance, prenons
quelques exemples.
5. MODE` LE LINE´ AIRE MIXTE GAUSSIEN
119

1. Exemple 1
Supposons que l’on cherche a` comparer 2 traitements A et B ; 4 e´levages ont e´te´ se´lectionne
´s pour participer a` cet essai. Dans chaque e´levage un e´chantillon d’animaux a e´te´ tire´ au
hasard, une moitie´ des animaux de l’e´chantillon ont rec¸u le traitement A et l’autre moitie´ le
traitement
B. Les donne´es brutes ont e´te´ analyse´es et les analyses ont montre´ que le traitement B a
une plus grande efficacite´ que le traitement A. Que peut-on conclure ?. Pour re´pondre
convenablement a` cette question, il est ne´cessaire de pre´ciser la nature du facteur e´levage :
• si les e´levages ont e´te´ choisis, le facteur e´levage est un facteur fixe et les re´sultats de
l’ana- lyse ne peuvent pas eˆtre extrapole´s a` d’autres e´levages,
• si les e´levages ont e´te´ tire´s au hasard parmi tous les e´levages susceptibles d’utiliser
ces produits, le facteur e´levage est alors un facteur ale´atoire et les re´sultats de
cette analyse peuvent eˆtre extrapole´s aux autres e´levages.
Dans une analyse de variance, on s’inte´resse a` l’effet particulier de chacun des niveaux de
la variable explicative sur la variable à expliquer. Cette fac¸on de proce´der suppose que l’on
introduise dans le mode`le tous les niveaux du facteur susceptibles d’avoir un inte´reˆt. Mais cela
n’est pas tou- jours possible. Par exemple, si on s’inte´resse aux performances au champ d’une
varie´te´ de ble´, ou aux performances de croissance (ou production laitie`re) des animaux d’une
race particulie`re, il est impossible de tester ces performances sur tous les champs ou animaux
possibles. On peut e´galement vouloir s’inte´resser à l’effet d’un re´gime alimentaire sur la
croissance des porcs, on ne pourra pas le tester sur tous les porcs. A chaque fois, pour re´aliser
l’expe´rience, il faudra prendre quelques individus (ici, des champs ou des porcs) et chercher a`
e´tendre les re´sultats obtenus a` la population entie`re. Si on suppose que les individus ont e´te´ tire
´s au hasard dans la population, on ne s’inte´resse plus à l’effet particulier associe´ à tel individu
particulier, mais à la distribution de l’en- semble des effets possibles. L’effet associe´ à
l’individu n’est plus un effet fixe mais devient un effet ale´atoire et il faut en tenir compte dans
l’analyse. Le mode`le line´aire e´tudie´ contient un me´lange d’effets fixes et d’effets ale´atoires,
on parle alors de mode`le line´aire mixte. Le mode`le line´aire mixte constitue une extension du
mode`le line´aire classique. D’une manie`re ge´ne´rale, on pourra y faire appel chaque fois que
l’on de´sirera e´tendre a` une population toute entie`re des re´sultats obtenus sur quelques
individus pris au hasard dans cette population.

2. Exemple 2
On a releve´ les dure´es de gestation de 16 filles de 30 taureaux qui avaient e´te´ tire´s au sort
dans la population devant eˆtre e´tudie´e. On voudrait savoir dans quelle mesure la dure´e de
gestation est un caracte`re he´re´ditaire. On conside`re que ce caracte`re se transmet (aussi) par les
pe`res : un taureau ayant de bons ge`nes les transmettra a` ces filles, qui seront donc meilleures
en moyenne que des vaches descendantes de ”mauvais” taureaux. Il s’agit de re´pondre, graˆce à
un e´chantillon comportant peu de taureaux, à une question concernant toute la population.
Pour pouvoir e´tendre les re´sultats obtenus sur l’e´chantillon, il faut que celui-ci soit repre
´sentatif de toute la population et donc qu’il ait e´te´ obtenu par tirage au sort (inde´pendants et e
´quiprobables). Il en de´coule que les taureaux de l’e´chantillon sont ale´atoires et leurs effets
sur leurs descendants sont a fortiori ale´atoires.
Le mode`le s’e´crira

y i j = µ + a i + e ij j = 1, ...16 i = 1, ...30

ou` y i j repre´sente la dure´e de gestation de la fille j du pe`re i, µ est la moyenne ge´ne´rale,


a i est l’effet du pe`re i, suppose´ ale´atoire puisque le pe`re est un individu tire´ ale´atoirement,
e i j est le re´sidu.
120
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
On suppose les distributions
suivantes :
ai ~ N (0, σa 2)
e ij
~ N (0, σe2)
Les a i et les e i j sont suppose´s mutuellement inde
´pendants. σ 2a
On appelle σa2 et σ2 les composantes de la variance. La quantite σ a2 + σ 2e
est la part de variance
´ e
”ge´ne´tique” de comprendre
Il faut bien la variance que µ + a i n’est pas l’espe´rance de y, mais son espe´rance
totale.
condition- nelle : E(y i j |ai) = µ + a i . De la meˆme manie`re, la variance conditionnelle de y vaut
σ2e. ij |ai) =
Var(y
5.3 Exemple 3
Une compagnie pharmaceutique veut tester les performances d’une me´thode de
spectroscopie (NIR = Near Infrared Reflectance) permettant de de´terminer le contenu en
substance active de comprime´s. La me´thode utilise´e en routine (HPLC) est plus couˆteuse et
laborieuse. Pour cela, 10 comprime´s ont e´te´ tire´s au hasard et les 2 me´thodes ont e´te´ utilise´es
sur chacun des comprime´s.
Comprime´ HPLC NIR Diffe´rence
1 10.4 10.1 0.3
2 10.6 10.8 -0.2
3 10.2 10.2 0.0
4 10.1 9.9 0.2
5 10.3 11.0 -0.7
6 10.7 10.2 0.2
7 10.3 10.2 0.1
8 10.9 10.9 0.0
9 10.1 10.4 -0.3
10 9.8 9.9 -0.1
y¯1 = y¯2 = d¯ = 0.05
10.34 10.36
s d = 0.2953
s1 = s2 =
Text de Student 0.3239 0.4033
L’analyse la plus simple consiste a` conside´rer les donne´es comme un e´chantillon apparie´
et d’utiliser le test de Student correspondant. La moyenne et l’e´cart-type des diffe´rences d
sont e´gaux a` d¯ = 0.05 et s d = 0.2953 respectivement. La statistique du test de Student
d¯ √
−0.05 = —0.535 qui donne une p-value e´gale a` 0.61. On en conclut qu’il n’y a
SEd¯ =
vaut t =0.2953/ (10)
pasentre les 2 me´thodes de mesure. L’intervalle de confiance a` 95% du
diffe´rence significative
biais de la me´thode vaut d ¯ ± t0.975(9)SEd¯ = —0.05 ± 0.21.
Sous R, par exemple, on obtient
> [Link](d)
One-sample t-Test
data : d
t = -0.5354, df
= 9, p-value =
0.6054
alternative
hypothesis :
true mean is not
equal to 0
95 percent
confidence
interval :
-0.2612693
0.1612693
121
5. MODE` LE LINE´ AIRE MIXTE
GAUSSIEN
mean of x
-0.05
Anova
Le mode`le d’analyse de variance pour cette situation s’e´crit :

y i j = µ + α i + β j + e ij e i j ~ N (0, σ2)

avec µ la moyenne ge´ne´rale, α i l’effet du ie`me comprime´, β j l’effet de la me´thode j.


La statistique du test F de Fisher est e´gal au carre´ de la statistique de Student : F = t2
= (—0.535)2 = 0.29.

L’estimation de l’e´cart-type re´siduel est donne´e par σˆ√ = 20.209 = 2s d . L’incertitude sur
moyenne des diffe´rences est donne´e par SE(y¯1 —¯ 2) = σ (1/10 + 1/10) = 0.0934,
la
yment comme dans l’approche simple. exacte-

Si maintenant on s ’inte´resse a` la pre´cision de la valeur moyenne pour la me´thode NIR,


donne SE(y¯ 1 ) = σˆ / √10 = 0.066. D’un autre coˆte´, si√on conside`re l’e´chantillon des 10
l’ANOVA
NIR, on obtient s 1 = 0.4012, et donc SE(y¯ 1 ) = s 1 / 10 = 0.127, valeur tre`s diffe´rente
mesures
de
de
0.066.
L’ANOVA sous-estime beaucoup l’incertitude sur l’estimation de l’effet moyen de NIR.
C’est ainsi parce que la variance σ2 mesure la variabilite´ re´siduelle apre`s que les effets des
comprime´s ont e´te´ corrige´s. La diffe´rence conceptuelle entre les 2 approches est que l’ANOVA
conside`re que les 10 comprime´s n’ont pas e´te´ tire´s au hasard, alors que la seconde (e´chantillon
des 10 mesures NIR) si. L’ANOVA n’est valide que si l’on s’inte´resse aux effets spe´cifiques des
10 comprime´s.
L’ide´e du mode`le mixte est de combiner les 2 approches : utiliser un mode`le line´aire et
y conside´rer certains facteurs comme ale´atoires.
Mode`le mixte
On conside`re maintenant le mode`le line´aire mixte

y i j = µ + ai + β j + εi j

mentou`distribue´s : ai ~
a i est l’effet N (0, a2du ie`me comprime´. Ses effets sont suppose´s inde´pendants et
ale´atoire
σ ).On peut montrer que
identique-
ANOVA Mode`le mixte
E(yi j ) µ + αi + βj µ + βj
V ar(y i j ) σ2 + σ2a
σ2
σ2a si i = i’et 0
Cov(y i j , y iattendu
L’e´cart-type ' j ' ), j /= j
' sinon de NIR vaut dans le cadre du mode`le line
de la moyenne des valeurs
´aire
mixte : 0
SE(y¯1 ) = √ σˆa2 + ˆ 2 / √10 =
σ 0.115,
ce qui est conforme a` ce que l’on attendait.
Notons que les mesures HPLC et NIR sur un meˆme comprime´ sont corre´le´es dans le
mode`le mixte. Un mode`le line´aire mixte permet donc aussi de prendre en compte de fac¸on
simple des corre´lations entre observations.
122 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE

5.4 De´finition
Un mode`le line´aire mixte se de´finit comme un mode`le line´aire dans lequel toute ou partie
des parame`tres associe´s a` certaines unite´s expe´rimentales sont traite´s comme des variables ale
´atoires du fait de l’e´chantillonnage de ces unite´s dans une population plus large.

6 Exemple : nutrition chez la souris


1. Analyses de variance et mode`le mixte
2. Principe des analyses de variance
L’analyse de variance (ANOVA) permet d’appre´cier l’effet d’une ou plusieurs variables qua-
litatives (les facteurs) sur une variable quantitative (la variable re´ponse, ici le niveau
d’expres- sion des ge`nes). Dans le domaine de l’analyse transcriptomique, cette approche a e´te
´ largement de´veloppe´e, en particulier par Kerr et al. (2000). Pour l’analyse de nos donne
´es, un mode`le d’ANOVA à trois facteurs (ge´notype, re´gime, ge`ne) permet de mettre en e
´vidence des effets d’in- teraction d’ordre 3 tre`s significatifs a` l’aide du test de Fisher. Cela
signifie qu’il existe des ge`nes re´gule´s simultane´ment par le re´gime et le ge´notype, les effets du
re´gime et du ge´notype e´tant non additifs. Le mode`le d’ANOVA conside´re´ s’e´crit

y i j k L = gi + r j + G k + gr i j + gG i k + r G j k + gr G i j k + e ij kL (8.2)
ou` y i j k L repre´sente le logarithme du niveau d’expression du ge`ne k (k = 1, ..., 120),
pour le re´gime j (j = 1, ..., 5) et le ge´notype i (i = 1, 2), mesure´ chez la souris l (l = 1,
..., 4) ; gi repre´sente l’effet du ge´notype i, r j celui du re´gime j , G k celui du ge`ne k, gr i j
repre´sente l’effet de l’interaction du ge´notype i et du re´gime k, gG i k l’effet de l’interaction
du ge´notype i et du ge`ne k, r G j k l’effet de l’interaction du regime j et du ge`ne k et gr G i j k
repre´sente l’interaction d’ordre 3 combinant le ge´notype i, le re´gime j et le ge`ne k. On
suppose que les re´sidus e i j k L du mode`le sont inde´pendants et identiquement distribue´s suivant
une loi normale de moyenne nulle et de variance σ2. L’e´criture d’un tel mode`le suppose que les
ge`nes sont tous de meˆme variabilite´. Cette hypothe`se est discutable (en effet la figure 2.9
montre clairement quelques ge`nes fortement variables) ; nous verrons par la suite comment
lever cette hypothe`se. A` partir de ce mode`le, on peut estimer les effets principaux des 120
ge`nes, effectuer des comparaisons de moyennes à l’aide du test de Fisher, puis ope´rer des
corrections pour des tests multiples afin de repe´rer les ge`nes surexprime´s ou sous-exprime´s
selon le ge´notype et le re´gime.
Dans cette se´quence de tests, les variances des ge`nes sont suppose´es e´gales, contrairement
aux tests de Student de comparaison de moyennes par re´gime et ge´notype pour un ge`ne fixe´. Ce
dernier cas revient a` e´crire une mode`le d’ANOVA par ge`ne, sous la forme suivante

y i j L = gi + r j + gr i j + eijL (8.3)
ou` les notations utilise´es ici sont identiques a` celles du mode`le (8.2). Ici, il est ne
´cessaire de faire autant d’analyses de variance que de ge`nes e´tudie´s (soit 120 dans notre
exemple) mais nous disposerons d’une variance estime´e par ge`ne. Toutefois une telle analyse
n’est pas toujours recom- mande´e car en re`gle ge´ne´rale le nombre d’observations par ge`ne est
tre`s faible, ce qui conduit a` des estimations de variance tre`s peu pre´cises. Notons cependant
que ces 120 analyses conduisent à 120 estimations des 10 effets genotypei × regime j . Un
mode`le e´quivalent, mais utilisant simul- tane´ment l’ensemble des donne´es pour estimer les
parame`tres, s’e´crit comme le mode`le (8.2) en posant
6. EXEMPLE : NUTRITION CHEZ L A SOURIS 123

var(eijkL) = σ2e,k .
(8.4)
D’autre part, entre le mode`le (8.2), supposant toutes les variances des ge`nes e´gales, et
le mode`le (8.4) supposant une variance diffe´rente pour chaque ge`ne, il est possible d’ajuster
un mode`le interme´diaire prenant en compte les he´te´roge´ne´ite´s de variances de l’expression des
ge`nes, en de´finissant simplement des groupes de ge`nes de variabilite´ homoge`ne (Robert-
Granie´ et al., 1999 ; Foulley et al., 2000 ; San Cristobal et al., 2002). Ainsi, sur les 120
ge`nes analyse´s, un histogramme des variances nous a conduit a` de´finir trois groupes de
ge`nes ayant des variabi- lite´s tre`s diffe´rentes : un groupe contenant les ge`nes FAS,
G6Pase, PAL et S14, pre´sentant des variabilite´s re´siduelles importantes (variances supe
´rieures a` 0.02) ; un deuxie`me groupe a` variabilite´ mode´re´e (variances comprises entre 0.009
et 0.02), comprenant les ge`nes CYP2c29, CYP3A11, CYP4A10, CYP4A14, CYP8b1, GSTmu,
GSTpi2, L-FABP, Lpin, Lpin1, TRa et
cHMGCoAS ; enfin un dernier groupe à faible variabilite´ (variances infe´rieures à 0.009),
contenant l’ensemble des autres ge`nes. A` partir de ces trois groupes de ge`nes, nous pouvons
construire un mode`le dont la variance de´pend de cette nouvelle variable à trois classes. Le
mode`le s’e´crit encore comme les mode`les (8.2) et (8.4) en posant cette fois

var(eijkL ) = σ2 ,
(8.5)
h

ou` h = {1, 2, 3} repre´sente l’indice d’he´te´roge´ne´ite´ de variance.


Nous pouvons ainsi comparer les ge`nes diffe´rentiellement exprime´s selon les 3
mode`les :
• Mode`le (8.2), mode`le d’ANOVA avec une unique variance pour l’ensemble des ge`nes ;
• Mode`le (8.4), mode`le d’ANOVA avec une variance diffe´rente par ge`ne ;
• Mode`le (8.5), mode`le d’ANOVA avec trois groupes de variances diffe´rentes.
Notons que le mode`le (8.4) implique l’estimation de 120 variances diffe´rentes, alors que
le mode`le (8.5) ne ne´cessite l’estimation que de trois parame`tres de variances ; ce dernier est
donc beaucoup plus e´conome en nombre de parame`tres à estimer. Enfin, d’un point de vue
technique et ope´rationnel, la mise en oeuvre de ces mode`les peut eˆtre re´alise´e en utilisant la
fonction lme du logiciel statistique R ou la proce´dure mixed du logiciel SAS.

6.3 Synthe`se des tests multiples


L’objectif de l’analyse statistique est de de´terminer quels sont les ge`nes diffe
´rentiellement exprime´s entre les 2 ge´notypes et les 5 re´gimes. Quelle que soit la me´thode
statistique utilise´e, il existera une probabilite´ non nulle (risque de premie`re espe`ce α) de de
´tecter des faux positifs (ge`nes de´clare´s diffe´rentiellement exprime´s alors qu’ils ne le sont
pas) et une autre probabilite´ non nulle (risque de deuxie`me espe`ce β) de ne pas eˆtre capable
de de´tecter des ge`nes re´ellement diffe´rentiellement exprime´s (faux ne´gatifs). Il est bien entendu
souhaitable de minimiser ces deux probabilite´s d’erreur sachant que, toutes choses e´gales par
ailleurs, la seconde augmente quand la premie`re diminue et re´ciproquement. Le test de
Student est couramment utilise´ pour tester l’e´galite´ de deux moyennes (l’hypothe`se nulle e´tant
de conside´rer que les moyennes des intensite´s des signaux d’un ge`ne donne´ dans chaque
condition 1 et 2 sont e´gales). Ainsi, quand la statistique de Student exce`de un certain seuil (de
´pendant du risque de premie`re espe`ce α choisi, ge´ne´ralement 5%), les niveaux d’expression du
ge`ne e´tudie´ entre les deux populations teste´es sont conside´re´es comme significativement diffe
´rentes. Lorsque l’on souhaite tester plus de deux conditions, le test de Fisher, qui est une
extension du test de Student, est utilise´. L’hypothe`se nulle constitue l’absence d’expression diffe
´rentielle d’un ge`ne entre les diverses conditions et l’hypothe`se alternative montre une diffe´rence
d’expression.
124 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE

Enfin, prendre un risque de 5% dans une expe´rimentation ou` 10 000 ge`nes, par exemple,
sont e´tudie´s simultane´ment peut conduire a` obtenir 500 faux positifs, ce qui est parfaitement
inaccep- table. C’est pourquoi ont e´te´ propose´es des modifications du test de Student adapte´es
a` l’analyse du transcriptome (me´thodes de Bonferroni, FWER, FDR...). Le lecteur souhaitant
des de´tails sur ces approches peut se re´fe´rer, par exemple, a` Benjamini & Hochberg (1995),
Bland & Altman (1995), Dudoit et al. (2002) ou Speed (2003).
La me´thode de Bonferroni, rappelons le, est une me´thode qui ne permet pas un strict
controˆle de α, mais qui en donne une majoration. Pour avoir un risque global α, il faut que
chacune des p comparaisons soit effectue´e avec un risque α ' = α/p. En pratique, Bonferroni
fournit une liste de ge`nes diffe´rentiellemnt exprime´s dans laquelle on controˆle le nombre de
faux positifs. Mais, lorsque le nombre des ge`nes est grand, cette liste est souvent vide.
En ge´ne´ral, on pre´sente ces taux d’erreurs dans le tableau 4.2.
Pour revenir a` notre e´tude, a` partir de chaque mode`le propose´ dans le paragraphe pre´ce
´dent, nous pouvons rechercher les ge`nes diffe´rentiellement exprime´s entre les deux ge´notypes à
re´gime fixe´ (120 comparaisons pour chacun des 5 re´gimes) ou entre re´gime a` ge´notype fixe´
(1200 com- paraisons par ge´notype), ce qui conduit à effectuer 3000 comparaisons. Le tableau
8.2 pre´sente le nombre de ge`nes se´lectionne´s selon les trois mode`les conside´re´s et selon le
test ou l’ajustement utilise´e (Student, Bonferroni, Benjamini-Hochberg qui correspond a`
l’approche FDR).

Tests Mode`le (8.2) Mode`le (8.4) Mode`le (8.5)


[Link]
8.2 – Nombre
a` 5% de ge`nes se´lectionne´s
85 selon 103
le mode`le et le test
97 utilise´s.
Student a` 1% 55 65 67
Benjamini-Hochberg a` 5% 44 56 59
Benjamini-Hochberg a` 1% 35 40 38
Bonferroni a` 5% 53 62 65
Bonferroni a` 1 pour mille 18 19 21

On peut remarquer que le nombre de ge`nes se´lectionne´s est peu diffe´rent selon le
mode`le utilise´ et que, globalement, les trois mode`les se´lectionnent le meˆme groupe de ge`nes.
Les petites diffe´rences sont principalement lie´es a` l’ordre de se´lection de ces ge`nes.
D’autre part, on peut, a` partir de crite`res de se´lection de mode`le tels que le crite`re
d’Akaike (AIC ; Akaike, 1974) ou le crite`re de Schwarz (BIC ; Schwarz, 1978), ou encore en
effectuant un test du rapport de vraisemblance, choisir le mode`le le plus ade´quat.
Le tableau 8.3 pre´sente les valeurs des crite`res AIC et BIC pour les trois mode`les mis
en compe´tition.

TAB. 8.3 – Valeurs des crite`res AIC et BIC.

Mode`les -2AIC -2BIC


(8.2) -6576.9 -6570.7
(8.4) -6946.6 -6612.1
(8.5) -7044.5 -7036.2
6. EXEMPLE : NUTRITION CHEZ L A SOURIS 125

−10 −5 0 50
0 0

5
0
CYP4A14
dha

0.4
PECI CYP4A10

0.0
B
m HM I EN GCoAS PM
TTCDCI pCaA THIO
GpHGOA S SXTiLN
PL6 P p CYP3A11

0
ACCS A

− 0. 4 − 0. 2
GAC S
PL MCAeD
c b lH p
H TM T G m6C h
CpOiinL2uX tso

Comp.
A G n pP 2
S PT 12 23 YC l
GtPC PB
o
aaN
CaH APo lin
[Link]

2
RLPS14 LHAO ItPS
srAeS efad

−5
CT.1cDpPB

0
CYCPA2GcR

− 0. 6
L8TPpT.2iHn1I
K219
1baHr1fe

−10
− 0. 8
FAS

0
0.2
−0.8 −0.6 −0.4 −0.2 0.0
0.2 0.4

Comp.1

FIG. 8.5 – Souris : repre´sentation sur le premier plan principal de l’ACP du logarithme des p-
value des ge`nes diffe´rentiellement exprime´s entre les deux ge´notypes a` re´gime fixe´.

Le meilleur mode`le est celui pour lequel les valeurs des crite`res -2AIC ou -2BIC sont les
plus petits. Dans les deux cas, il s’agit du mode`le (8.5).
Le test du rapport de vraisemblance consiste, quant à lui, à comparer deux mode`les
emboˆıte´s (par exemple, (8.2) vs (8.4)) ; l’hypothe`se nulle conside´re´e suppose alors que toutes
les variances sont e´gales. La statistique du rapport de vraisemblance ne´cessite de calculer la
diffe´rence entre les logarithmes des vraisemblances sous chacun des deux mode`les. Sous
l’hypothe`se nulle, cette statistique suit asymptotiquement une loi de khi-deux dont le nombre de
degre´ de liberte´ est e´gal à la diffe´rence des nombres de parame`tres à estimer sous chacun des
deux mode`les conside´re´s. Si nous effectuons ces diffe´rents tests du rapport de vraisemblance ((
8.2) vs (8.4), (8.2) vs (8.5), (8.4) vs (8.5)), il en ressort que le mode`le (8.5), avec trois groupes
de variances, est encore le meilleur.

A` partir de ce mode`le (8.5), on peut estimer les diffe´rents effets du mode`le, et s’inte
´resser aux diffe´rences d’expression des ge`nes entre ge´notypes a` re´gime fixe´ ou encore aux
diffe´rences d’expression des ge`nes entre re´gimes a` ge´notype fixe´.
En raison de la multiplicite´ des tests, la correction propose´e par Benjami & Hochberg
(1995) a e´te´ utilise´e. Lorsque nous conside´rons les diffe´rences d’expression des ge`nes entre
ge´notypes a` re´gime fixe´, l’hypothe`se nulle repre´sente l’absence d’expression diffe´rentielle
d’un ge`ne entre les deux ge´notypes. On peut visualiser l’ensemble des re´sulats des p-values de
ces diffe´rents tests en effectuant une ACP centre´e sur le logarithme des p-values, les ge`nes en
ligne et les re´gimes en colonne. La figure 8.5 pre´sente le premier plan principal des ge`nes diffe
´rentiellement exprime´s entres les deux ge´notypes a` re´gime fixe´. Les deux premiers axes
principaux repre´sentent 93% de la variance totale. Pour des raisons de visibilite´, les re´sultats
sont pre´sente´s sur les 59 ge`nes diffe´rentiellement exprime´s selon le mode`le (8.5) et en
utilisant la correction de Benjamini & Hochberg a` 5% (Tab. 8.2).
On observe que les ge`nes CYP3A11, CYP4A10, CYP4A14, [Link], PMDCI et THIOL
diffe´rencient les deux ge´notypes pour les re´gimes dha, lin et tsol. Certains de ces
ge`nes pre´sentent des expressions constitutives diffe´rentielles entre les souris des deux ge´notypes.
De plus ces ge`nes sont re´gule´s positivement par ces trois re´gimes riches en acides gras
polyinsature´s d’une
126
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
−5 0 50 −4 −2 0 20 40
0 0 0

4
0
S14

0.
6
0.
6

0.2
0.

2
0
FAS
4

5
0
Lpin
efadref Lpin Lpin
lintsol
1 dhat

− 0. 6 − 0. 4 − 0. 2 0.0
GC6YPPas3
0.

aefa efadLtpsi
2

s
Comp.

Comp.
d HcTp
mCMGCpabYe lpPGt
SA
efadlin eH

0
onl1HMGCoAre ACC2 A C A BC A
O1C 1H
GcSHTMpGPGiG hLGa
Se 8adGpbi1n
fTah2

0
SGC6
0.

PYCPH
2

2
SLSC NPtpAP SCd1hX 4alinPh
M
0

e
rt
s
fol RC O d
dha mllii P
linre A H An s L.F
I A aefadlin
C
BEKBrurPef
Y CP2c29
reftso
62LKP CHAD
TB oIH
OHE
I
A
S md
CYP4dACYP2cG2S9Tm iIcn.1TC P 2.P PCPNLM SPGPL
efadtsol
h1af0 t
soNt
lC BCBpAPp XfPNa1N 2eCf a l
−0.

MT LMoA
ONPXL S

−2
AMGRAPDI PEHCrIe
Tlin
G6Paseu
2

1IL Ld

0
P4CAdYh1Pa Gp.2ClYCGEFDAO
OtGT14D4AScC

−5
−0.

43er Af11 HLabACAGPCAOS Of L

0
[Link].B

0.4
4

eRPLXpCo8TSBtIT
ClD FAS
ACAT2

−4
T APA pLCH
p C T

0
HIh1aAb2PaHa
31S
1 H A
1 02. 2ICi3IH1
− 0. 4 − 0. 2 0.0 0.2 0.4 − 0 . 6 − 0 . 4 P− 0.0 0.2 0.4
0.6 0.6 o2aIPr4o0Ae1A
Comp. Comp.
1 SS 1

FIG. 8.6 – Souris : repre´sentation sur le premier plan principal de l’ACP du logarithme des p-
value des ge`nes diffe´rentiellement exprime´s entre les re´gimes pour le ge´notype WT a` gauche
et PPAR a` droite.

famille particulie`re (Ome´ga 3 pour dha et lin et Ome´ga 6 pour tsol) chez les souris WT
alors que la re´gulation de plusieurs de ces ge`nes est alte´re´e chez les souris PPAR. Les ge`nes
mHMGCoAS, PECI et BIEN apparaissent dans le contraste entre ge´notypes pour le re´gime
dha, alors que les ge`ne S14 et FAS apparaissent pour le re´gime efad. Les souris des deux ge
´notypes pre´sentent la` encore des re´gulations diffe´rentielles de ces ge`nes, soulignant ainsi le
roˆle du re´cepteur PPARα dans ces modulations d’expression provoque´es par les re´gimes
alimentaires.
La meˆme approche sur les effets diffe´rentiels entre couples de re´gimes, a` ge´notype fixe
´, est re´alise´e. Les repre´sentations de la figure 8.6 pre´sentent le premier plan principal des
ge`nes diffe´rentiellement exprime´s entre re´gime pour le ge´notype WT (a` gauche) et pour le
ge´notype PPAR (a` droite). Les deux premiers axes, pour chacune des figures, repre´sentent
respectivement 79% et 78% de la variance totale. Les ge`nes Lpin et Lpin1 apparaissent
dans des contrastes impliquant le re´gime efad pour le ge´notype WT, et le re´gime tsol pour
le ge´notype PPAR. Le ge`ne CYP3A11 est implique´ dans le re´gime dha, quel que soit le ge
´notype. Les ge`nes FAS et S14 apparaissent dans les contrastes impliquant le re´gime efad
pour le ge´notype WT, alors que le meˆme ge`ne FAS apparaˆıt dans les contrastes impliquant le re
´gime ref pour le ge´notype PPAR. L’ensemble de ces re´sultats confirme les re´sultats obtenus
pour l’ACP.

6.4 Mode`le mixte


Les souris e´tant issues d’une ligne´e consanguine, elles ont e´te´ conside´re´es dans un
premier temps comme des re´pe´titions inde´pendantes et identiquement distribue´es. Cependant, à
l’aide d’un mode`le line´aire mixte, chaque souris peut eˆtre conside´ree comme un tirage ale
´atoire dans une population plus large de souris. Le mode`le line´aire mixte mis en oeuvre s’e´crit

2
y i j k L = gl’effet
ou` souris L repre´sente i + r j ale´atoire
+ G k + gr gG i k +l, ravec
dei j la+ souris G j k souris
+ gr GLi j k~+ U(0,
souris e'ijkLdiffe
sσ L ),+ les ,
, σ 2 ), les re
re´alisations
´rentes e´tant inde´pendantes, et e i j k L repre´sente les re´sidus, avec eijkL ~ U(0 e
'

e´tant inde´pendants
(8.6) entre eux et inde´pendants de l’effet ale´atoire ´sidus
souris.
6. EXEMPLE : NUTRITION CHEZ L A SOURIS
127

Dans ce cas, les estimations des composantes de la variance sont pour la variance « souris »
de
0.001 et pour la variance re´siduelle de 0.007. La variabilite´ indivuelle est tre`s faible. La
variance des observations est identique a` celle obtenue a` l’aide d’une ANOVA (mode`le a`
effets fixes) puisque nous sommes dans le cadre d’un plan e´quilibre´ et que la me´thode
d’estimation pour le mode`le mixte est la me´thode du maximum de vraisemblance restreinte
(REML). Nous pouvons e´galement e´tendre ce mode`le aux cas de variances re´siduelles he´te
´roge`nes, comme c’e´tait le cas dans le mode`le (8.5).
L’application du mode`le line´aire mixte est beaucoup plus approprie´e dans le cas ou` les
varia- bilite´s dues a` la technique, a` la diversite´ ge´ne´tique, aux ge`nes de la biopuce, ont un inte
´reˆt. C’est le cas dans l’e´tude transcriptomique de´crite dans Bonnet et al. (2004) dans laquelle
le logarithme du signal est mode´lise´ en fonction des facteurs membrane, truie, aiguille (ou
bloc), jour d’hybri- dation, et des covariables logarithme de l’intensite´ du bruit de fond et de
l’hybridation en sonde vecteur. Apre`s une e´tape de choix de mode`le (a` l’aide du test de Fisher),
le mode`le line´aire mixte permet d’appre´hender et de quantifier la part de variabilite´ due aux
diffe´rentes sources de varia- tion. La part de variabilite´ due à la diversite´ ge´ne´tique repre´sente
8%, celle due à la technique 4% et celle due aux ge`nes 75%. Toute infe´rence base´e sur ce
mode`le sera valide pour tout animal, toute membrane... car l’e´chantillonnage des animaux, des
membranes... de cette e´tude, dans une population plus large d’animaux, membranes... est pris en
compte. Conside´rer les membranes (par exemple) comme effets fixes dans ce mode`le aurait
entraˆıne´ des conclusions valides uniquement sur les membranes de l’expe´rience. De plus, une
structure de covariance non diagonale est prise en compte par ce mode`le mixte puisque deux
signaux d’une meˆme membrane totaLee´gale a` σ
seront corre´le´s, la corre´lation e´tant /σ 2 .
2
membrane
128
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
En guise de conclusion

Ce document explore de´ja` une grande varie´te´s d’approches statistiques en taˆchant de les
adap- ter au mieux aux caracte´ristiques tre`s particulie`res des donne´es d’expression. Ne
´anmoins, beau- coup d’autres approches sont encore possibles mais, faute de place ou de
compe´tences, elles ont e´te´ laisse´es de coˆte´ comme les mode`les de me´lange. Baccini et col.
(2005) proposent d’ailleurs, sur le meˆme jeu de donne´es, d’autres approchent a` base de
discrimination : plutoˆt que de rechercher quelles sont les ge`nes dont on peut dire qu’ils sont
significativement diffe´renciellement exprime´s, on peut rechercher un sous-ensemble de ge`nes
permettant la construction d’un meilleur mode`le de pre´diction des groupes d’e´chantillons. Par
exemple quels sont les ge`nes qui permettent de discri- miner au mieux les deux ge´notypes de
souris ou encore, plus difficle, les diffe´rents re´gimes.
De´ja` au niveau de ce cours, l’e´tude de´roule´e sur l’exemple des donne´es de nutrition
permet de mettre en exergue le fait qu’il n’existe pas “une” me´thode unique qui permettraient
de traiter des donne´es d’expression. La question ”Quelle me´thode dois-je utiliser pour traiter
mes donne´es d’expression ?” n’a pas de sens. En revanche, à une question pre´cise du type
”Puis-je effectuer une partition des ge`nes ?”, une me´thode statistique (ici la classification) peut
apporter des e´le´ments de re´ponses par des sorties nume´riques et/ou des graphiques mais la re
´ponse pre´cise a` la question ne peut eˆtre apporte´e que par le praticien qui sait interpre´ter les
re´sultats statistiques en termes biologiques. Finalement, chaque me´thode ou technique
statistique associe´e à diffe´rents jeux d’op- tions (comme diffe´rentes me´triques) fournit diffe
´rentes optiques pour appre´hender les donne´es. Seule une forte interaction entre le biologiste
et le statisticien est susceptible d’aboutir a` des in- terpre´tations cohe´rentes des re´sultats afin d’e
´baucher des nouvelles pistes de recherche pertinentes et prometteuses.

129
130
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
Bibliographie

1 A. BACCINI et P. BESSE : Data mining : 1. exploration statistique, 2000. [Link]-


[Link]/Besse/[Link].
2 Y. B ENJAMINI et Y. H OCHBERG : Controlling the false discovery rate : a practical and
powerful approach to multiple testing. Journal of the Royal Statistical Society,
(85):289– 300, 1995.
3 P. BESSE : Pratique de la mode´lisation statistique, 2000.
[Link]- [Link]/Besse/[Link].
4 P. BESSE : Data mining : 2. mode´lisation statistique et apprentissage, 2004. [Link]-
[Link]/Besse/[Link].
5 J. BLAND et D. ALTMAN : Multiple significance tests : the bonferroni method. British
medical Journal, (310), 1995.
6 A. BONNET, F. BENNE, C. DANTEC, N. GOBERT, P.O. FRAPPART, M. S AN CRISTOBAL ,
F. HATEY et G T OSSER -KLOPP : Identification of genes and gene networks involved in pig
ovarian follicular development, by using c-dna microarrays. In III International
Workshop on the Development and Function of Reproductive organs, 2004.
7 L. B REIMAN : Random forests. Machine Learning, 45:5–32, 2001.
8 L. B REIMAN , J. F RIEDMAN , R. OLSHEN et C. STONE : Classification and regression trees.
Wadsworth & Brooks, 1984.
9 P.B. BROCKHOFF : Statistical models with random effects,
2004. [Link]/ per/Netmaster/courses/st113/Intro/[Link].
10 P. D ALGAARD : Introductory Statistics with R. Springer, 2003.
11 S. D RAGHICI : Data Analysis Tools for DNA Microarrays. Mathematical Biology and
Medicine Series. Chapman & Hall/CRC, 2003.
12 S. DUDOIT, Y. YANG, T. SPEED et M. CALLOW : Statistical methods for identifying diffe-
rentially expressed genes in replicated cdna microarray experiments. Statistica Sinica,
pages 111–139, 2002.
13 J.J. FARAWAY : Practical regression and anova using r, 2002. [Link]/ fara-
way/book/.

14 J.-L. F OULLEY , F. JAFFREZIC et C. ROBERT-G RANIE´ : Em-reml estimation of


covariances parameters in gaussian mixed models for longitudinal data analysis. Genetics
Selection Evo- lution, (32):129–141, 2000.
15 T. HASTIE, R. T IBSHIRANI et J F RIEDMAN : The elements of statistical learning : data
mining, inference, and prediction. Springer, 2001.
16 I. JOLLIFFE : Principal Component Analysis. Springer-Verlag, 2nd edition e´dition, 2002.

131
132 BIBLIOGRAPHIE

17 L. K AUFMAN et J. ROUSSEEUW, P. : Finding groups in data. Wiley, 1990.


18 Churchill G. KERR K., Martin M. : Analysis of variance for gene expression microarray
data. Journal of Computational Biology, pages 819–837, 2000.
19 S.S. LEE, T. PINEAU, J. DRAGO, E.J. LEE, J.W. OWENS, D.L. KROETZ, P.M. F ERNANDEZ -
S ALGUERO , H. WESTPHAL et F.J. GONZALEZ : Targeted disruption of the alpha isoform
of the peroxisome proliferator-activated receptor gene in mice results in abolishment of
the pleiotropic effects of peroxisome proliferators. Molecular and Cellular Biology,
15(6):3012– 22, 1995.
20 K.V. M ARDIA , J.T. KENT et J.M. BIBBY : Multivariate Analysis. Academic Press, 1979.
21 P.G.P. MARTIN et COL. : A nutrigenomic approach in mice reveals new aspects of pparα-
deficient phenotype with important implications in pharmacology. Gene Expression,
a` paraˆıtre.
22 P.G.P. MARTIN, F. LASSERRE, C. CALLEJA, A. VAN ES, A. ROULET, D. C ONCORDET ,
M. C ANTIELLO , R. B ARNOUIN , B. GAUTHIER et T. PINEAU : Transcriptional modulations
by rxr agonists are only partially subordinated to pparalpha signaling and attest
additional, organ-specific, molecular cross-talks. Gene Expression, a` paraˆıtre.
23 G.J. M C L ACHLAN , K.-A. DO et C. A MBROISE : Analysing microarray gene expression
data. Wiley, 2004.

24 C. ROBERT-G RANIE´ , B. BONAITI, D. B OICHARD et Barbat A. : Accounting for


variance heterogeneity in french dairy cattle genetic evaluation. Livestock Production
Science, (60): 343–357, 1999.

25 M. SAN CRISTOBAL, C. ROBERT-G RANIE´ et JL. F OULLEY : He´te´rosce´dasticite´ et


mode`les line´aires mixtes : the´orie et applications en ge´ne´tique quantitative. Journal de
la Socie´te´ Franc¸aise de Statistique, (143), 2002.
26 S.R. SEARLE : Linear Models. Wiley, 1971.
27 T. SPEED : Statistical Analysis of Gene Expression Microarray Data. Interdisciplinary
Statistics. Chapman & Hall/CRC, 2003.
28 V.N. VAPNIK : Statistical learning theory. Wiley Inter science, 1999.
Chapitre A
Annexes

1 Analyse canonique
A : Corre´lations entre
ge`nes PMDCI THIOL CYP3A11 CYP4A10 CYP4A14

PMDCI 1.00 0.84 0.79 0.85 0.75


THIOL 0.84 1.00 0.74 0.80 0.70
CYP3A11 0.79 0.74 1.00 0.76 0.74
CYP4A10 0.85 0.80 0.76 1.00 0.89
CYP4A14 0.75 0.70 0.74 0.89 1.00
Lpin -0.15 0.07 -0.02 -0.23 -0.29
Lpin1 -0.12 0.09 -0.03 -0.20 -0.28
GSTmu 0.42 0.57 0.62 0.44 0.53
GSTpi2 0.44 0.36 0.60 0.42 0.42
S14 0.09 0.33 -0.03 0.08 -0.11

Lpin Lpin1 GSTmu GSTpi2 S14

PMDCI -0.15 -0.12 0.42 0.44 0.09


THIOL 0.07 0.09 0.57 0.36 0.33
CYP3A11 -0.02 -0.03 0.62 0.60 -0.03
CYP4A10 -0.23 -0.20 0.44 0.42 0.08
CYP4A14 -0.29 -0.28 0.53 0.42 -0.11
Lpin 1.00 0.97 0.11 -0.15 0.58
Lpin1 0.97 1.00 0.06 -0.12 0.59
GSTmu 0.11 0.06 1.00 0.45 0.09
GSTpi2 -0.15 -0.12 0.45 1.00 -0.27
S14 0.58 0.59 0.09 -0.27 1.00

B : Corre´lations entre acides


gras C16_0 C18_0 C18_1n_9 C18_1n_7 C18_2n_6 C20_4n_6

C16_0 1.00 0.56 -0.20 0.11 -0.66 0.18


C18_0 0.56 1.00 -0.84 -0.57 -0.08 0.55
C18_1n_9 -0.20 -0.84 1.00 0.80 -0.23 -0.36
C18_1n_7 0.11 -0.57 0.80 1.00 -0.56 -0.17
C18_2n_6 -0.66 -0.08 -0.23 -0.56 1.00 0.15
C20_4n_6 0.18 0.55 -0.36 -0.17 0.15 1.00
C22_5n_6 -0.06 0.27 -0.23 -0.03 0.28 0.83
C18_3n_3 -0.37 -0.08 -0.22 -0.31 -0.06 -0.37
C22_6n_3 0.45 0.57 -0.60 -0.57 -0.03 -0.18

133
134 ANNEXE A. ANNEXES

C20_5n_3 0.26 0.44 -0.56 -0.46 -0.19 -0.39


C22_5n_3 0.18 0.29 -0.41 -0.38 -0.22 -0.44

C22_5n_6 C18_3n_3 C22_6n_3 C20_5n_3 C22_5n_3

C16_0 -0.06 -0.37 0.45 0.26 0.18


C18_0 0.27 -0.08 0.57 0.44 0.29
C18_1n_9 -0.23 -0.22 -0.60 -0.56 -0.41
C18_1n_7 -0.03 -0.31 -0.57 -0.46 -0.38
C18_2n_6 0.28 -0.06 -0.03 -0.19 -0.22
C20_4n_6 0.83 -0.37 -0.18 -0.39 -0.44
C22_5n_6 1.00 -0.32 -0.39 -0.44 -0.44
C18_3n_3 -0.32 1.00 -0.02 0.48 0.40
C22_6n_3 -0.39 -0.02 1.00 0.59 0.59
C20_5n_3 -0.44 0.48 0.59 1.00 0.70
C22_5n_3 -0.44 0.40 0.59 0.70 1.00

C : Corre´lations entre ge`nes et acides


gras C16_0 C18_0 C18_1n_9 C18_1n_7 C18_2n_6 C20_4n_6

PMDCI 0.70 0.68 -0.41 -0.14 -0.48 0.33


THIOL 0.75 0.41 -0.06 0.13 -0.62 0.19
CYP3A11 0.62 0.59 -0.52 -0.36 -0.34 -0.01
CYP4A10 0.60 0.51 -0.33 -0.16 -0.33 0.15
CYP4A14 0.45 0.39 -0.30 -0.19 -0.24 0.01
Lpin 0.18 -0.23 0.38 0.28 -0.46 -0.36
Lpin1 0.19 -0.21 0.38 0.27 -0.45 -0.31
GSTmu 0.48 0.14 -0.04 0.13 -0.35 -0.16
GSTpi2 0.35 0.55 -0.55 -0.53 0.07 0.12
S14 0.33 -0.19 0.44 0.48 -0.49 -0.05

C22_5n_6 C18_3n_3 C22_6n_3 C20_5n_3 C22_5n_3

PMDCI 0.07 -0.08 0.41 0.34 0.17


THIOL 0.01 -0.24 0.29 0.23 0.12
CYP3A11 -0.17 0.06 0.72 0.60 0.51
CYP4A10 0.03 -0.08 0.44 0.38 0.10
CYP4A14 -0.08 -0.04 0.53 0.36 0.15
Lpin -0.45 0.16 0.01 -0.02 0.29
Lpin1 -0.45 0.15 -0.00 -0.05 0.23
GSTmu -0.13 -0.33 0.49 0.15 0.38
GSTpi2 -0.14 -0.09 0.66 0.42 0.36
S14 0.01 -0.07 -0.37 -0.16 -0.04

2 Mode`le line´aire
D : Quelques rappels sur les lois
Loi du Chi-deux

Si X 1 , X 2 , . . . , X n sont des variables ale´atoires N (0, 1) et inde´pendantes


alors
Σn
Qn = X i2 ~ χ 2n
i=1
2. MODE` LE LINE 135

´ AIRE
avec E(Q n ) = n et Var(Qn) = 2n

Remarques :
La somme de 2 chi-deux inde´pendantes est aussi un chi-
deux. Une variable du chi-deux est toujours positive.
Loi de Student
Si X ~ N (0, 1) et Q ~ χ2n avec X et Q deux variables inde´pendantes
alors
X
Tn =
√ ~ tn
Q /n
Remarque :
Si n → + ∞ , t n tend vers une loi normale re
´duite.
Loi de Fisher 2
Si Q 1 ~ χ n 1 et Q2 ~ χn22 avec Q 1 et Q 2 deux variables inde´pendantes
alors
Q 1 /n 1
F n 1 ;n 2 = ~ F nn21
Q 2 /n 2

The´ore`me de Cochran

Soient X ~ N (µ, Σ ) ; A et B deux matrices carre´es, syme´triques (A ' = A et B ' = B )


et idempotentes ( A A = A et B B = B ) d’ordre n ; a un vecteur ale´atoire de IRn ; Q 1 =
X ' A X et Q 2 = X ' B X , deux formes quadratiques,
Alors,
i. A Σ B = 0 =⇒ Q 1 et Q 2 inde´pendantes,
ii. A Σ a = 0 =⇒ Q 1 et a ' X inde´pendantes,
iii. X — µ 2 ~ χ n2 ,
iv. Si rang(A) = r, Σ = I et µ = 0 alors X ' A X ~ 2
r
χ .

Vous aimerez peut-être aussi