Analyse Statistique
Analyse Statistique
donne´ es
d’expression
ALAIN BACCINI1, PHILIPPE BESSE 1 , SE´ BASTIEN DE´ JEAN1 ,
PASCAL MARTIN2, CHRISTE` LE ROBERT-GRANIE´ 3 & MAGALI SAN
CRISTOBAL 4
1Introduction 11
1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1. Jeux de donne´es
3 Application
. . . aux
. . donne´es
. . . . . d’expression
. . . . . . . .. .. .. .. .. .. .. .. .. .. .. .. .. . . . . . . . . . .
13
2. Spe´cificite´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3. Choix me´thodologiques initiaux . . . . . . . . . . . . . . . . . . . . . .
14
2Description statistique e´le´mentaire 17
14
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2
[Link] d’une variable
Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. .. .. .. .. .. . . .
17
2. Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3Liaison entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1. Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . .
20
2. Une variable quantitative et une qualitative . . . . . . . . . . . . . . . .
20
3. Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . .
22
4Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1. Matrices des covariances et des corre´lations
. . . . . . . . . . . . . . . . 25
2. Tableaux 25
5 Proble`mes . . . de
. . nuages
. . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..
25
6 Exemple : nutrition chez la souris
. . . . . . . . . . . . . . . . . . . . . . . . . 25
3
4 TABLE DES MATIE` RES
1. Matrice a` diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
2. Repre´sentation des individus . . . . . . . . . . . . . . . . . . . . . . . .
60
3. Repre´sentation des variables . . . . . . . . . . . . . . . . . . . . . . . .
4Variantes de l’AFD 60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.
4. Individus
Interpre´tationsde meˆmes poids. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . .
2. .Me´trique60de Mahalanobis
5Exemples .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . . . . . . . . . . . . 61
61
5Positionnement multidimensionnel 65
62
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
65
2
[Link], similarite´s
De´finitions . . . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . . .
67
2. Distances entre variables . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3Recherche d’une configuration de points . . . . . . . . . . . . . . . . . . . . . .
68
1. Proprie´te´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
2. Explicitation du MDS . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4 Application au choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5 Donne´es d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
6 Exemple : nutrition chez la souris
. . . . . . . . . . . . . . . . . . . . . . . . . 70
6 Classification 74
77
1Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.1Les donne´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.2Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.3Les me´thodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3Mesures d’e´loignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.1Indice de ressemblance, ou similarite´ . . . . . . . . . . . . . . . . . . . 82
3.2Indice de dissemblance, ou dissimilarite´ . . . . . . . . . . . . . . . . . . 82
3.3Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.7Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4Classification ascendante hie´rarchique . . . . . . . . . . . . . . . . . . . . . . . 84
4.1Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2Distance, ou dissemblance, entre deux classes . . . . . . . . . . . . . . . 84
6 TABLE DES MATIE` RES
4.3Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5 Agre´gation autour de centres mobiles . . . . . . . . . . . . . . . . . . . . . . . 85
5.1Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2Principale me´thode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3Proprie´te´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6 Donne´es d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 91
A Annexes 133
1 Analyse canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
2 Mode`le line´aire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
134
8 TABLE DES MATIE` RES
Avant-propos
Motivations
Le de´veloppement des moyens informatiques de stockage (bases de donne´es) et de
calcul permet le traitement et l’analyse d’ensembles de donne´es tre`s volumineux. De plus, le
perfec- tionnement des interfaces offre aux utilisateurs, statisticiens ou non, des possibilite´s de
mise en œuvre tre`s simples des outils logiciels. Dans ce contexte, le biologiste dispose d’un
corpus rela- tivement sophistique´ de techniques statistiques utilisables sur les donne´es
d’expression des ge`nes produites par PCR, macro ou microarrays (biopuces). Les logiciels
commerciaux ou non offrent des e´ventails plus ou moins larges d’acce`s a` ces techniques dans
une pre´sentation plus ou moins explicite voire “boˆıte noire”. Intentionnellement ce cours a fait
le choix d’illustrer les techniques par un logiciel, le plus complet et le plus explicite possible :
R. Meˆme s’il ne semble pas le plus simple d’utilisation par rapport a` certains produits
commerciaux privile´giant une interface gra- phique “conviviale”, son utilisation incite a`
l’indispensable compre´hension des me´thodes et de leurs limites. Il fait bien admettre qu’il ne
suffit pas d’obtenir des re´sultats, il faut leur donner du sens. Rien ne nous semble en effet plus
dangereux que des re´sultats ou des graphiques obtenus a` l’aide de quelques clics de mulot
dont ni les techniques, ni les options, ni leurs limites ne sont clairement explicite´es ou controˆle
´es par l’utilisateur. Il est par ailleurs risque´ de se laisser enfermer par les seules me´thodes et
options offertes par “un” logiciel. En pratique, le re´agencement ou la re´organisation de
quelques commandes R offrent une combinatoire tre`s ouvertes de possibilite´s contrairement à
un syste`me clos de menus pre´de´finis. Il offre par ailleurs, graˆce à de nombreuses boˆıtes a`
outils librement accessibles et continuellement mises a` jour, un ensemble exhaustif des
techniques et de leurs options ainsi que des interfaces à des gestionnaires de bases de donne´es
ou des outils spe´cifiques a` l’e´tude des biopuces (Bioconductor).
9
10 TABLE DES
MATIE` RES
Remerciements
Un grand merci a` Agne`s Bonnet, Heinrick Laurell, Pascal Martin, Gwenola Tosser-Klopp
et Nathalie Viguerie pour les discussions scientifiques autour de leurs donne´es respectives.
Chapitre 1
Introduction
1 Objectifs
Toute e´tude sophistique´e d’un corpus de donne´es et leur mode´lisation sont pre´ce´de´es d’une e
´tude exploratoire a` l’aide d’outils, certes rudimentaires mais robustes, en privile´giant les repre
´sentations graphiques. C’est la seule fac¸on de se familiariser avec des donne´es et surtout de de
´pister les sources de proble`mes :
• valeurs manquantes, errone´es ou atypiques,
• modalite´s trop rares,
• distributions “anormales” (dissyme´trie, multimodalite´, e´paisseur des queues),
• incohe´rences, liaisons non line´aires.
• ...
C’est ensuite la recherche de pre´-traitements des donne´es afin de les rendre conformes aux
tech- niques de mode´lisation ou d’apprentissage qu’il sera ne´cessaire de mettre en œuvre afin
d’atteindre les objectifs fixe´s :
• transformation : logarithme, puissance, centrage, re´duction, rangs. . . des variables,
• codage en classe ou recodage de classes,
• imputations ou non des donne´es manquantes,
• re´duction de dimension, classification et premier choix de variables,
• classification ou typologie des observations.
Attention, le coˆte´ rudimentaire voire trivial de ces outils ne doit pas conduire à les ne´gliger au
pro- fit d’une mise en œuvre imme´diate de me´thodes beaucoup plus sophistique´es, donc
beaucoup plus sensibles aux proble`mes cite´s ci-dessus. S’ils ne sont pas pris en compte, ils re
´apparaˆıtront alors comme autant d’artefacts susceptibles de de´naturer voire de fausser toute
tentative de mode´lisation.
Plus pre´cise´ment, ces me´thodes descriptives ne supposent, a priori, aucun mode`le sous-
jacent, de type probabiliste. Ainsi, lorsqu’on conside`re un ensemble de variables quantitatives
sur les- quelles on souhaite re´aliser une Analyse en Composantes Principales, il n’est pas ne
´cessaire de supposer que ces variables sont distribue´es selon des lois normales. Ne´anmoins,
l’absence de donne´es atypiques, la syme´trie des distributions sont des proprie´te´s importantes
des se´ries ob- serve´es pour s’assurer de la qualite´ et de la validite´ des re´sultats.
La de´marche traditionnelle consiste ensuite a` enchaˆıner sur des techniques dites d’infe
´rence statistique visant a` tester les hypothe`ses retenues. Selon le nombre de variables
explicatives ou a` expliquer, leur nature qualitative ou quantitative, diffe´rents types de mode`les
et tests associe´s sont a` conside´rer.
11
12 CHAPITRE 1. INTRODUCTION
2 Contenu
Ce cours se propose tout d’abord d’introduire brie`vement les techniques permettant de re
´sumer les caracte´ristiques (tendance centrale, dispersion, diagramme en boˆıte , histogramme,
estimation non parame´trique) d’une variable statistique ou les relations entre variables de meˆme
type quanti- tatif (coefficient de corre´lation, nuage de points), ou qualitatif (χ 2 , Cramer,
Tchuprow) ou de types diffe´rents (rapport de corre´lation, diagrammes en boˆıtes paralle`les). Les
notions pre´sente´es sont illustre´es sur des jeux de donne´es d’expression.
Apre`s cette approche uni puis bi-dimensionnelle, les techniques multidimensionnelles1
sont de´crites et illustre´es. Elles diffe`rent selon le type des variables conside´re´es mais permettent
toutes de re´duire la dimension par un ensemble de facteurs afin de re´sumer un tableau (n
× p) de grande dimension et re´ve´ler ses caracte´ristiques. L’analyse en composantes
principales (ACP) pour les variables quantitatives ; l’analyse des correspondances simples ou
multiples (AFCM) pour les variables qualitatives ainsi que l’analyse factorielle discriminante
sont laisse´es de coˆ te´. L’analyse canonique compare deux tableaux quantitatifs correspondant
aux observations de deux groupes de variables sur les meˆmes individus. Les me´thodes de
classification (hie´rarchiques ou par re´allocation dynamique) de´terminent une variable
qualitative de´finissant une partition de l’en- semble des donne´es. D’autres techniques sont plus
spe´cifiques, le positionnement multidimension- nel ou ACP sur tableau de distances est adapte´ à
des donne´es particulie`res mais permet e´galement de structurer un ensemble de variables trop
important.
Les outils infe´rentiels sont ensuites introduits en insistant tout particulie`rement sur le
mode`le line´aire et ses adaptations : re´gression line´aire simple pour introduire les concepts
principaux : les tests et diagnostics, son extension a` la re´gression line´aire multiple d’une
variable a` explique´e quantitative par plusieurs autres explicatives e´galement quantitatives. Le
cas de variables explica- tives qualitatives est toujours un mode`le de type line´aire : ANOVA ou
analyse de variance. Enfin un dernier mode`le est introduit prenant en compte des variables
explicatives ale´atoires. Il s’agit du mode`le mixte.
Ce cours ne couvre pas, loin s’en faut, l’e´ventail des techniques statistiques utilisables
pour de´tecter les ge`nes pertinents (diffe´rentiellement exprime´s) en relation avec d’autres
variables bio-
1
Elles constituent un ensemble commune´ment appele´ en France “Analyse de Donne´es”.
3. APPLICATION AUX DONNE´ ES D’EXPRESSION
13
1. Jeux de donne´es
Nutrition chez la souris
(T. Pineau, P. Martin, Unite´ de Pharmacologie-Toxicologie, INRA Toulouse)
Pour cette e´tude de nutrition, nous disposons de 40 souris re´parties selon un plan a` 2
fac- teurs (ge´notype a` 2 niveaux et re´gime a` 5 niveaux) avec 4 observations par cellule. Les
mesures effectue´es sont, d’une part, les mesures d’expression de 10 ge`nes releve´es sur
macroarray et, d’autre part, les proportions de 21 acides gras mesure´es dans le foie.
La question du praticien concerne l’existence de corre´lations entre certains ge`nes ou
groupes de ge`nes et certains acides gras he´patiques.
Cet exemple est plus particulie`rement de´veloppe´ au cours des travaux pratiques et joue
un roˆ le de fil rouge tout au long de ce document afin d’en illustrer les principaux aspects ou
point de vue. Les re´sultats de´crits ici sont repris d’un article (Baccini et col. 2005) qui en
font une analyse relativement exhaustive. C’est article est à paraˆıtre dans un nume´ro spe´cial du
Journal de La Socie´te´ Franc¸aise de Statistique consacre´ aux donne´es d’expression.
Obe´site´ humaine
(D. Langin, N. Viguerie, Unite´ de recherche sur les Obe´site´s - INSERM U586, Toulouse)
Pour cette e´tude, 50 patients re´partis sur 8 sites europe´ens ont e´te´ soumis a` 2 re´gimes diffe
´rents : plus ou moins riche en lipides et glucides avec meˆme apport calorique. Nous disposons
des expres- sions de 36 ge`nes pre´-se´lectionne´s mesure´es par PCR avant le re´gime et au bout de
10 semaines. Ces donne´es sont comple´te´es par les releve´s (avant et apre`s) de quelques
parame`tres cliniques di- rectement relie´s a` l’amaigrissement (masse, masse grasse...). Ces donne
´es sont par ailleurs traite´es par Viguerie et col. (2005).
Le proble`me consiste a` trouver un mode`le tenant compte des diffe´rents facteurs afin
d’en extraire les ge`nes diffe´rentiellement exprime´s.
14 CHAPITRE 1. INTRODUCTION
Transformations
Les donne´es traite´es sont issues des proce´dures de normalisation affe´rentes aux techniques
de marquage ou peuvent encore subir des transformations. Voici les plus courantes en pratique :
logarithme cette fonction corrige une distribution de variable trop dissyme´trique
(skewness) et re´duit l’influence de grandes valeurs qui pourraient eˆtre atypiques. Ceci
se justifie en conside´rant que dans certains syste`mes naturels, des effets peuvent eˆtre
mode´lise´s par des facteurs multiplicatifs plutoˆt qu’additifs.
centrage les donne´es se pre´sentent sous la forme d’une matrice, il est habituel, par exemple
lors d’une analyse en composantes principales, de centrer les colonnes. Chaque
variable est translate´e de la valeur de sa moyenne empirique qui devient donc nulle.
L’information lie´e à la “moyenne” peut eˆtre utile en soi mais est rarement tre`s
informative : cela concerne l’ex- pression moyenne d’un ge`ne pour toutes les puces ou
celle d’une puce pour tous les ge`nes. On verra que le roˆ le des lignes et colonnes ou la
distinction entre variables et individus n’e´tant pas toujours explicite, il peut eˆtre inte
´ressant de proce´der a` un double centrage a` la fois en lignes et en colonnes du tableau
des donne´es.
re´duction dans le meˆme ordre d’ide´e, l’unite´ de mesure utilise´e n’est pas toujours a` prendre
en compte surtout si elle change d’une variable a` l’autre ou encore si les variances sont
tre`s he´te´roge`nes. Pour e´liminer l’effet des variances de´pendant directement des choix
d’unite´ de mesure, il est d’usage de re´duire, c’est-a`-dire de diviser par son e´cart-type
chacune des variables qui deviennent ainsi des quantite´s sans unite´. Attention, pour des
donne´es d’ex- pression, cette transformation n’est pas toujours pertinente. En ramenant à
un les variances de ge`nes, les effets de sur ou sous-expressions de certains d’entre-eux
sont en effet e´limine´s.
marges unitaires une autre fac¸on d’e´liminer une unite´ de mesure consiste à diviser les lignes
(ou les colonnes) d’un tableau par ses marges ou sommes des valeurs en lignes (ou en
colonnes). C’est la pratique courante lorsque le tableau contient des effectifs : table de
contingence et cela conduit a` l’analyse des correspondances. Pour les raisons e´voque´es
ci-dessus (sur et sous expressions), cette approche ne semble pas approprie´e aux donne´es
d’expression.
rangs lorsque les donne´es sont parseme´es de valeurs atypiques sans qu’aucune
transformation fonctionnelle (logarithme, puissance) ne puisse en atte´nuer les effets, une
fac¸on “brutale” ou “robuste” de s’en sortir consiste a` remplacer une valeur par son rang
dans la se´quence ordonne´e. Ceci est à rapprocher des coefficients de corre´lation calcule´s
sur les rangs (Spear- man).
Distances et ponde´rations
Il peut eˆtre utile d’introduire des ponde´rations sur les lignes ou colonnes du tableau
des donne´es. Cette pratique permet de redresser un e´chantillon lors d’un sondage. Il peut
s’agir, par exemple, d’e´quiliblre l’importance de groupes qui se trouveraient sous repre´sente´s à
cause “d’inci- dents techniques” ou d’affecter des poids nuls à des lignes ou colonnes dites alors
supple´mentaires. Ils n’interviennent pas dans les calculs mais restent repre´sente´s dans les
graphiques. Par de´faut les poids sont 1/n pour les lignes et 1 pour les variables ou colonnes.
Chaque ligne (chaque colonne) est conside´re´e comme un vecteur d’un espace vectoriel muni
d’un produit scalaire induisant une norme euclidienne et donc une distance entre ces vecteurs.
Par de´faut, cette distance est celle clas- sique dont le carre´ est la somme des carre´s des e´carts
entre les coordonne´es de deux vecteurs. Introduire des ponde´rations sur les lignes (les
colonnes) conduit à ponde´rer le calcul de cette dis- tance. La matrice de produit scalaire associe
´e est alors une matrice diagonale faisant intervenir les ponde´rations (leur carre´) sur la diagonale
en lieu et place de la matrice identite´.
16 CHAPITRE 1. INTRODUCTION
cor(X
D’autres, Xmatrices
) . de´finissent des dissemblances entre variables : 1 — cor (X , X ) faisant
j k
inter- venir la corre´lation line´aire (Pearson) ou celle calcule´e sur les rangs (Spearman).
Factorisation et projections
Beaucoup des me´thodes propose´es proposent la recherche de facteurs associe´s a` la
construc- tion de nouvelles variables de´corelle´es obtenues par combinaison line´aires des
variables initiales et optimisant un crite`re : la variance pour l’analyse en composantes
principales. La de´composition ainsi obtenue a-t-elle un sens pour les donne´es conside´re´es ?
Combien de facteurs sont ne´cessaires pour ”re´sumer l’information” et fournir des repre
´sentations graphiques pertinentes des nuages de points (individus et variables) dans cette
nouvelle base ? Sur le plan mathe´matique, ces facteurs sont simplement les vecteurs propres
associe´s aux plus grandes valeurs propres d’une matrice (va- riance, corre´lation, produits
scalaire...) carre´e syme´trique positive relativement a` des me´triques a` de´finir dans les espaces
vectoriels des individus et des variables.
Classification
Une approche classique dans toute discipline scientifique consiste à faire de la taxinomie
c’est- a`-dire à rechercher des classes homoge`nes des objets e´tudie´s (ge`nes, e´chantillons
biologiques) au sens d’un crite`re qui se de´finit par une matrice de distances ou
dissemblances. Le choix de ce crite`re est e´videmment pre´ponde´rant pour la signification et
l’interpre´tation des re´sultats.
Test multiples
La pratique statistique usuelle vise à tester une hypothe`se H 0 : le ge`ne conside´re´ n’a pas
d’ex- pression diffe´rentielle significative. Cela conduit a` calculer une statistique de test dont la
valeur est compare´e aux quantiles de la loi de probabilite´s (Student ou Fisher) sous-jacente à
cette statis- tique. Plus pre´cise´ment, si la valeur calcule´e de la statistique de test est supe´rieure à
un α-quantile (par exemple, α = 5%), on dit que l’hypothe`se H 0 est rejete´ avec un risque de
premie`re espe`ce de 5%. EN d’autres termes et pour cet exemple, nous avons moins de 5
chances sur 100 de nous tromper en affirmant que le ge`ne en question est diffe´rentiellement
exprime´.
Le proble`me qui se pose alors est celui dit des faux positifs dus à la tre`s grande multiplicite´
des tests. En effet, en re´alisant simultane´ment autant de tests que de ge`nes, par exemple 1000,
rien que du fait du hasard, il est naturel de trouver qu’en moyenne, 5% (soit ici 50) des
statistique de ces tests de´passent la valeur critique sans pour autant que les ge`nes se soient re
´ellement exprime´s d’un point de vue biologique. Ce sont les 5% d’erreurs associe´s au risque de
premie`re expe`ce induisant donc des faux positifs. Evidemment des correctifs sur les valeurs
seuils sont apporte´s pour tenir compte de la multiplicite´ des tests. Bonferronni est la plus
classique mais, tre`s contraignante, elle semble peu adapte´e à l’e´tude des donne´es d’expression.
D’autres approches sont propose´es : FDR (false discovery rate, local FDR...) et une litte´rature
tre`s volumineuse est consacre´e à ce proble`me. L’utilisateur est donc confronte´ au choix d’une
strate´gie de correction des valeurs critiques. Les autres corrections, bibliographie.
Chapitre 2
Description statistique e´ le
´1 mentaire
Introduction
l’objectif des outils de Statistique descriptive e´le´mentaire est de fournir, si possible
graphique- ment, des re´sume´s synthe´tique de se´ries de valeurs, adapte´s a` leur type
(qualitatives ou quantita- tives), et observe´es sur une population ou un e´chantillon.
Dans le cas d’une seule variable, Les notions les plus classiques sont celles de me
´diane, quantile, moyenne, fre´quence, variance, e´cart-type de´finies paralle`lement a` des repre
´sentations graphiques : diagramme en baˆton, histogramme, diagramme-boˆıte, graphiques
cumulatifs, dia- grammes en colonnes, en barre ou en secteurs.
Dans le cas de deux variables, on s’inte´resse à la corre´lation, au rapport de corre´lation ou
en- core à la statistique d’un test du χ 2 associe´ à une table de contingence. Ces notions sont
associe´es à diffe´rents graphiques comme le nuage de points (scatterplot), les diagrammes-
boˆıtes paralle`les, les diagrammes de profils ou encore en mosa¨ıque.
Les de´finitions de ces diffe´rentes notions se trouvent dans n’importe quel ouvrage e´le
´mentaire de Statistique1, nous nous proposons simplement de rappeler dans ce chapitre certains
outils moins classiques mais efficaces et pre´sents dans la plupart des logiciels statistiques. Cela
nous permettra e´galement d’illustrer les premie`res e´tapes exploratoires a` re´aliser sur un jeu de
donne´es.
1
Un support de cours accessible a` la page [Link]/lsp/Besse.
17
18 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE
0 150000 250000
500000 0 0
50 8e−0
7
40 6e−0
7
Percent of
Densit
30
4e−0
y
7
Total
20
2e−0
10 7
0 0e+0
0
0e+0 1e+0 2e+0 3e+0 −1e+06 0e+00 1e+06 2e+06 3e+06
0 6 obes1[, 6 6 4e+06
8] obes1[, 8]
Estimation fonctionnelle
La qualite´ de l’estimation d’une distribution par un histogramme de´pend beaucoup du de
´coupage en classe. Malheureusement, plutoˆt que de fournir des classes d’effectifs e´gaux et donc
de mieux re´partir l’impre´cision, les logiciels utilisent des classes d’amplitudes e´gales et tracent
donc des histogrammes parfois peu repre´sentatifs. Ces 20 dernie`res anne´es, a` la suite du de
´veloppement des moyens de calcul, sont apparues des me´thodes d’estimation dites
fonctionnelles ou non- parame´triques qui proposent d’estimer la distribution d’une variable ou
la relation entre deux variables par une fonction construite point par point (noyaux) ou dans
une base de fonctions splines. Ces estimations sont simples a` calculer (pour l’ordinateur) mais
ne´cessitent le choix d’un parame`tre dit de lissage.
L’estimation de la densite´ par la me´thode du noyau se met sous la forme ge´ne´rale :
n
(x) = 1 Σ x— i
g^ λ K
nλ x λ
i=1
ou` λ est le parame`tre de lissage optimise´ par une proce´dure automatique qui minimise une
ap- proximation de l’erreur quadratique moyenne inte´gre´e (norme de l’espace L 2 ) ; K est une
fonction syme´trique, positive, concave, appele´e noyau dont la forme pre´cise importe peu. C’est
souvent la fonction densite´ de la loi gaussienne re´duite :
1 2
K (t ) = √ 2π exp(—t /2)
06KI
05UM
8
0
2
6
F
H
E
4
08UNOTT
12UNAV
09CS
2
11INSERM
10BHD
0
60
50
"CHOEPBL"]
40
obes[,
30
25 30 35 45 50
40
obes[,
"FATEPBL"]
FIG. 2.5 – Obe´site´ : Nuage de points illustrant la liaison line´aire entre deux variables
biologiques.
de la variation conjointe des deux variables et est appele´ nuage. On notera qu’on rencontre
parfois la terminologie de diagramme de dispersion, traduction plus fide`le de l’anglais scatter-
plot.
Le choix des e´chelles a` retenir pour re´aliser un nuage de points peut s’ave´rer de´licat.
D’une fac¸on ge´ne´rale, on distinguera le cas de variables homoge`nes (repre´sentant la meˆme
grandeur et exprime´es dans la meˆme unite´) de celui des variables he´te´roge`nes. Dans le
premier cas, on choisira la meˆme e´chelle sur les deux axes (qui seront donc orthonorme´s) ;
dans le second cas, il est recommande´ soit de repre´senter les variables centre´es et re´duites sur
des axes orthonorme´s, soit de choisir des e´chelles telles que ce soit sensiblement ces variables la`
que l’on repre´sente (c’est en ge´ne´ral cette seconde solution qu’utilisent, de fac¸on automatique,
les logiciels statistiques).
Indice de liaison
le coefficient de corre´lation line´aire est un indice rendant compte nume´riquement de la
n
manie`re dont les deux variables conside´re´es Σvarient simultane´ment. Il est de´fini a` partir de la
cov(X, Y ) = wi [x
covariance qui ge´ne´ralise a` deux variables la notion dei — x][yi —:
variance
i=1 y]
Σn
= [ wi xi yi ] — x
y. i = 1
La covariance est une forme biline´aire syme´trique qui peut prendre toute valeur re´elle et dont
la variance est la forme quadratique associe´e. Elle de´pend des unite´s de mesure dans lesquelles
sont exprime´es les variables conside´re´es ; en ce sens, ce n’est pas un indice de liaison
“intrinse`que”. C’est la raison pour laquelle on de´finit le coefficient de corre´lation line´aire
(parfois appele´ coeffi- cient de Pearson ou de Bravais-Pearson), rapport entre la covariance et le
produit des e´carts-types :
cov(X, Y )
corr(X, Y ) = σX σУ .
22 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´
Le coefficient de corre´lationMENTAIRE
est e´gal a` la covariance des variables centre´es et re´duites
res-
pectivement associe´es a` X et Y : corr(X, Y ) = cov( σXX− x , σУ Y− y ). Par conse´quent, corr(X, Y )
inde´pendant des unite´s de mesure de X et de Y . Le coefficient de corre´lation est syme´trique
est
et prend ses valeurs entre -1 et +1.
x1 , . . . , x l , . . . , xr
Σ
1 [Y (ωi ) — 2
σ2l = n l
ωi∈ΩÆ y ] .
l
Boˆıtes paralle`les
Une fac¸on commode de repre´senter les donne´es dans le cas de l’e´tude simultane´e d’une
va- riable quantitative et d’une variable qualitative consiste a` re´aliser des boˆıtes paralle`les ; il
s’agit, sur un meˆme graphique dote´ d’une e´chelle unique, de repre´senter pour Y un diagramme-
boˆıte pour chacune des sous-populations de´finies par X . La comparaison de ces boˆıtes donne
une ide´e assez claire de l’influence de X sur les valeurs de Y , c’est-a`-dire de la liaison entre les
deux variables.
Formules de de´composition
Ces formules indiquent comment se de´composent la moyenne et la variance de Y sur la
parti- tion de´finie par X (c’est-a`-dire comment s’e´crivent ces caracte´ristiques en fonction de
leurs valeurs partielles) ; elles sont ne´cessaires pour de´finir un indice de liaison entre les deux
r
variables. 1Σ
y = n l yl ;
n
l=1
r r
1Σ 2 1Σ
σ2У = n l (y l — y) + n σ2 = σ 2 + σ 2 .
n n l l E R
l=1 l=1
Le premier terme de la de´composition de σУ2 , note´ σE2 , est appele´ variance explique´e (par la
partition, c’est-a`-dire par X ) ou variance inter (between) ; le second terme, note´ Rσ2 , est
variance re´siduelle ou variance intra
appele´
(within).
3. LIAISON ENTRE VARIABLES 23
15000
0
10000
0
5000
0
0
apres avan
t
Rapport de corre´lation
Il s’agit d’un indice de liaison entre les deux variables X et Y qui est de´fini par :
s
σ 2E
= ;
sУ / X
σ2У
. . . . .
xA nA1 ··· nAh ··· nAc n A+
. . . . .
xr n r1 ··· n rh ··· n rc n r+
sommes n +1 ··· n +h ··· n +c n
24 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE
Repre´sentations graphiques
On peut envisager, dans le cas de l’e´tude simultane´e de deux variables qualitatives,
d’adapter les graphiques pre´sente´s dans le cas unidimensionnel : on de´coupe chaque partie
(colonne, par- tie de barre ou secteur) repre´sentant une modalite´ de l’une des variables selon
les effectifs des modalite´s de l’autre. Mais, de fac¸on ge´ne´rale, il est plus approprie´ de re
´aliser des graphiques repre´sentant des quantite´s tre`s utiles dans ce cas et que l’on appelle les
profils.
Indices de liaison
Lorsque tous les profils-lignes sont e´gaux, ce qui est e´quivalent a` ce que tous les
profils- colonnes soient e´gaux et que
n l+n +h
∀(l, h) ∈ {1, . . . , r } × {1, . . . , c} : n l h ,
n
=
on dit qu’il n’existe aucune forme de liaison entre les deux variables conside´re´es X et Y . Par
suite, la mesure de la liaison va se faire en e´valuant l’e´cart entre la situation observe´e et l’e´tat
de non liaison de´fini ci-dessus.
Khi-deux
Il est courant en statistique de comparer une table de contingence observe´e, d’effectif
conjoint ge´ne´rique n l h , à une table de contingence donne´e a priori (et appele´e standard),
d’effectif conjoint ge´ne´rique s l h , en calculant la quantite´
Σr Σc (n l h — sl h )2
.
l = 1 h=1 s lh
De fac¸on naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc
l’indice appele´ khi-deux (chi-square) et de´fini comme suit :
n n
r c
" r c #
Σ Σ (n l h — l +n + h )2 Σ Σ 2
χ2 = = n n lh —
n l + n+h
l = 1 h=1 l = 1 h=1 n l + n + h 1 .
n
Le coefficient χ 2 est toujours positif ou nul et il est d’autant plus grand que la liaison entre
les deux variables conside´re´es est forte. Malheureusement, il de´pend aussi des dimensions r et c
de la table e´tudie´e, ainsi que de la taille n de l’e´chantillon observe´ ; en particulier, il n’est pas
majore´. C’est la raison pour laquelle on a de´fini d’autres indices, lie´s au khi-deux, et dont
l’objectif est de palier ces de´fauts.
Autres indicateurs
Nous en citerons trois. 2
• Le phi-deux : Φ2 = nχ . Il ne de´pend plus de n, mais de´pend encore de r et .
de c
4. VERS LE C AS MULTIDIMENSIONNEL 25
• Le coefficient T de Tschuprow :
s
T = √ Φ2 .
(r — 1)(c —
1)
On peut ve´rifier : 0 ≤ T ≤
• Le
1 . coefficient C de r
Cramer : Φ2
C = ,
d—
1 T ≤ C ≤ 1.
avec : d = inf(r, c). On ve´rifie maintenant : 0 ≤
5 Proble`mes
Les quelques outils de ce chapitre permettent de´ja` de se faire une premie`re ide´e d’un jeu
de donne´es mais surtout, en pre´alable a` toute analyse, ils permettent de s’assurer de la fiabilite
´ des
26 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE
10 11 12 13 14 15
FIG. 2.7 – Obe´site´ : La simple transformation (log(x)), de l’expression d’un ge`ne, re´sout
bien les proble`mes pose´s par l’allure “log-normale” de sa distribution avec son corte`ge de
valeurs aty- piques.
donne´es, de repe´rer des valeurs extreˆmes atypiques, e´ventuellement des erreurs de mesures ou
de saisie, des incohe´rences de codage ou d’unite´.
Les erreurs, lorsqu’elle sont de´cele´es, conduisent naturellement et ne´cessairement a` leur
cor- rection ou à l’e´limination des donne´es douteuses mais d’autres proble`mes pouvant
apparaˆıtre n’ont pas toujours de solutions e´videntes.
• Le mitage de l’ensemble des donne´es ou absence de certaines valeurs en fait partie. Faut-
il supprimer les individus incrimine´s ou les variables ? Faut-il comple´ter, par une
mode´lisation et pre´vision partielles, les valeurs manquantes ? Les solutions de
´pendent du taux de va- leurs manquantes, de leur re´partition (sont-elles ale
´atoires) et du niveau de tole´rance des me´thodes qui vont eˆtre utilise´es.
• La pre´sence de valeurs atypiques peut influencer se´ve`rement des estimations de me
´thodes peu robustes car base´es sur le carre´ d’une distance. Ces valeurs sont-elles
des erreurs ? Sinon faut-il les conserver en transformant les variables ou en
adoptant des me´thodes robustes base´es sur des e´carts absolus ?
• Meˆme sans hypothe`se explicite de normalite´ des distributions, il est pre´fe´rable d’avoir
af- faire a` des distributions relativement syme´triques. Une transformation des
variables par une fonction monotone (log, puissance) est hautement recommande´e
afin d’ame´liorer la syme´trie de leur distribution ou encore pour line´ariser
(nuage de points) la nature d’une liaison.
une quelconque anomalie sur un support, affectant l’ensemble des mesures relatives a` une
souris particulie`re, apparaˆıtrait ne´cessairement sur cette repre´sentation. Notons seulement que
quelques ge`nes atypiques, facilement repe´rables sur la figure 2.9 comme les plus surexprime´s, se
retrouvent dans les valeurs extreˆmes pour chaque souris sur la figure 2.8.
●
● ●
●
● PPAR WT ● ●
● ● ● ● ● ● ● ●
● ● ● ●
●
● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
1
● ● ● ● ● ● ● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
●
● ●
● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ●●
● ● ● ● ●
● ● ● ●
0
● ●
● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ●
● ● ● ●
●
●
● ● ● ● ●
● ● ●
● ● ● ●
−
1
● ●
● ● ● ●
● ● ●
● ● ●
●
dha efad lin ref tsol dha efad lin ref
−
2
tsol
1 3 5 7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
40 souris
FIG. 2.8 – Souris : iagrammes en boˆıtes pour les 40 souris. La ligne verticale et e´paisse se
´pare les souris selon leur ge´notype. Les lignes verticales et fines se´parent les souris selon le
re´gime qu’elles ont suivi. La ligne horizontale repre´sente la me´diane de l’ensemble des valeurs.
Les diagrammes en boˆıtes pour chaque ge`ne (Fig. 2.9) re´ve`lent des ge`nes dont
l’expression est, sur l’ensemble des souris, nettement diffe´rentes des autres (par exemple,
16SR, apoA.I, apoE). Les ge`nes des ARN ribosomiques comme le 16SR (ARN 16s
ribosomique mitochondrial), pre´sentent, dans toutes les cellules de l’organisme, des niveaux
d’expression plus e´leve´s que tous les ge`nes codant des ARN messagers. Ces ARN servent en
effet a` la traduction des ARN messagers en prote´ines. Par ailleurs, on peut constater que les
expressions de certains ge`nes varient beaucoup plus que d’autres sur l’ensemble des souris (par
exemple, FAS, S14 et THIOL). Pour ces derniers ge`nes, on peut supposer qu’une part de cette
variabilite´ est due aux facteurs conside´re´s, ce que nous essaierons de confirmer par la suite au
moyen de techniques de mode´lisation.
L’inte´reˆt de ces repre´sentations re´side davantage dans la vision synthe´tique qu’elles
offrent que dans l’information biologique que l’on peut en extraire. Elles nous orientent e
´galement dans les premiers choix me´thodologiques a` e´tablir avant de poursuivre l’analyse. En
effet, les boˆıtes relatives a` la distribution des ge`nes mettent clairement en e´vidence un certain
nombre de ge`nes dont l’expression est syste´matiquement supe´rieure à celle des autres, quelles
que soient les condi- tions expe´rimentales. De plus, la variabilite´ de ces expressions est, le plus
souvent, tre`s faible. Ce constat nous conduit a` effectuer un centrage des ge`nes (en colonnes),
afin d’e´viter un effet taille lors de la mise en œuvre de techniques factorielles. En revanche,
rien dans ces repre´sentations ne nous pousse a` centrer les e´chantillons (en lignes), ce qui,
par ailleurs, ne se justifierait pas
28 CHAPITRE 2. DESCRIPTION STATISTIQUE E´ LE
´ MENTAIRE
16SR
1
SPI1.1
apoE
apoA.I
FAS ●
●
THIOL
0
●
●
S14
●
●
●
● ●
●
● ● ●
● ●
●
●
●
● ● ●
● ●
●
● ●
●
●
● ●
● ●
−
●
1
● ●
● ●
● ●
● ●
●
●
●
● ●
● ● ●
● ●
● ●
[Link]
−
2
ACAT1 AM2R Bcl.3 CBS CYP26 CYP8b1 [Link] Lpin LXRb MS PAL PPARd S14
GK Tpbeta
FIG. 2.9 – Souris : diagrammes en boˆıtes pour les 120 ge`nes. Quelques ge`nes particuliers ont e
´te´ e´tiquete´s.
sur le plan biologique. En effet, nous travaillons sur des donne´es acquises via des puces de´die
´es sur lesquelles les ge`nes conside´re´s ont e´te´ pre´se´lectionne´s et sont donc, a priori,
potentielle- ment diffe´rentiellement exprime´s dans les conditions e´tudie´es. Un centrage des e
´chantillons serait susceptible de cacher des phe´nome`nes biologiques. Ce raisonnement ne
tiendrait pas pour une expe´rimentation pange´nomique, ou` l’on pourrait supposer que
globalement les ge`nes s’expriment de la meˆme fac¸on et que les surexprime´s compensent les
sous-exprime´s.
Chapitre 3
Analyse en Composantes Principales
1 introduction
Lorsqu’on e´tudie simultane´ment un nombre important de variables quantitatives (ne serait-
ce que 4 !), comment en faire un graphique global ? La difficulte´ vient de ce que les individus e
´tudie´s ne sont plus repre´sente´s dans un plan, espace de dimension 2, mais dans un espace de
dimension plus importante (par exemple 4). L’objectif de l’Analyse en Composantes Principales
(ACP) est de revenir a` un espace de dimension re´duite (par exemple 2) en de´formant le moins
possible la re´alite´. Il s’agit donc d’obtenir le re´sume´ le plus pertinent possible des donne´es
initiales.
C’est la matrice des variances-covariances (ou celle des corre´lations) qui va permettre de re
´aliser ce re´sume´ pertinent, parce qu’on analyse essentiellement la dispersion des donne´es conside´re
´es. De cette matrice, on va extraire, par un proce´de´ mathe´matique ade´quat, les facteurs que l’on re-
cherche, en petit nombre. Ils vont permettre de re´aliser les graphiques de´sire´s dans cet espace de
petite dimension (le nombre de facteurs retenus), en de´formant le moins possible la configuration
globale des individus selon l’ensemble des variables initiales (ainsi remplace´es par les facteurs).
C’est l’interpre´tation de ces graphiques qui permettra de comprendre la structure des donne
´es analyse´es. Cette interpre´tation sera guide´e par un certain nombre d’indicateurs nume
´riques, ap- pele´s aides à l’interpre´tation, qui sont la` pour aider l’utilisateur à faire l’interpre
´tation la plus juste et la plus objective possible.
L’analyse en Composantes Principales (ACP) est un grand classique de l”’analyse des donne
´es” en France pour l’e´tude exploratoire ou la compression d’un grand tableau n × p de donne´es
quan- titatives. Le livre de Jolliffe (2002) en de´taille tous les aspects et utilisations de fac¸on
exhaus- tive. Elle est introduite ici comme l’estimation des parame`tres d’un mode`le, afin de
pre´ciser la signification statistique des re´sultats obtenus. L’ACP est introduite d’abord
intuitivement a` tra- vers l’e´tude de donne´es fictives e´le´mentaires. Elle est ensuite plus de
´taille´e d’un point de vue me´thodologique et illustre´e par deux jeux de donne´es Le premier est
constitue´
donc (32 ×des moyennes
12). sur dix
Les colonnes sont ans des tempe´ratures
l’observation moyennes
a` diffe´rents instants mensuelles
d’une meˆmedevariable.
32 villes
franc¸[Link]
Le
deuxie`me Laconcerne
matrice initiale X est de ge`nes.
des expressions
L’ACP joue dans ce cours un roˆ le central ; cette me´thode sert de fondement the´orique
aux autres me´thodes de statistique multidimensionnelle dites factorielles qui en apparaissent
comme des cas particuliers. Cette me´thode est donc e´tudie´e en de´tail et aborde´e avec diffe´rents
niveaux de lecture. La premie`re section pre´sente les grands principes de fac¸on tre`s e´le´mentaire,
voire intuitive, tandis que les suivantes explicitent les expressions matricielles des re´sultats.
29
30 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Nous savons comment analyser se´pare´ment chacune de ces 4 variables, soit en faisant
un graphique, soit en calculant des re´sume´s nume´riques. Nous savons e´galement qu’on peut
regarder les liaisons entre 2 variables (par exemple mathe´matiques et franc¸ais), soit en faisant un
graphique du type nuage de points, soit en calculant leur coefficient de corre´lation line´aire, voire
en re´alisant la re´gression de l’une sur l’autre.
Mais comment faire une e´tude simultane´e des 4 variables, ne serait-ce qu’en re´alisant un
gra- phique ? La difficulte´ vient de ce que les individus (les e´le`ves) ne sont plus repre´sente´s
dans un plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun e´tant
caracte´rise´ par les 4 notes qu’il a obtenues). L’objectif de l’Analyse en Composantes
Principales est de revenir a` un espace de dimension re´duite (par exemple, ici, 2) en de´formant
le moins possible la re´alite´. Il s’agit donc d’obtenir le re´sume´ le plus pertinent des donne´es
initiales.
2.2 Re´sultats pre´liminaires
Tout logiciel fournit la moyenne, l’e´cart-type, le minimum et le maximum de chaque
variable.
Il s’agit donc, pour l’instant, d’e´tudes univarie´es.
Statistiques ´el´ementaires
Remarquons que toutes les corre´lations line´aires sont positives (ce qui signifie que
toutes les variables varient, en moyenne, dans le meˆme sens), certaines e´tant tre`s fortes (0.98
et 0.95), d’autres moyennes (0.65 et 0.51), d’autres enfin plutoˆt faibles (0.40 et 0.23).
Les valeurs propres donne´es ci-dessous sont celles de la matrice des variances-
covariances.
40.30 1.00
Interpre´tation
Chaque ligne du tableau ci-dessus correspond à une variable virtuelle (voila` les facteurs)
dont la colonne VAL. PR. (valeur propre) fournit la variance (en fait, chaque valeur propre repre
´sente la variance du facteur correspondant). La colonne PCT. VAR, ou pourcentage de variance,
correspond
32 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM. repre
´sente le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice
des variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des
individus conside´re´s, en dimension 4, est ainsi e´gale a` 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 =
40.30. Le nuage de points en dimension 4 est toujours le meˆme et sa dispersion globale n’a pas
change´. Il s’agit d’un simple changement de base dans un espace vectoriel. C’est la re
´partition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou
composantes principales, qui se trouve modifie´e : les 2 premiers facteurs restituent à eux seuls
la quasi-totalite´ de la dispersion du nuage, ce qui permet de ne´gliger les 2 autres.
Par conse´quent, les graphiques en dimension 2 pre´sente´s ci-dessous re´sument presque
par- faitement la configuration re´elle des donne´es qui se trouvent en dimension 4 : l’objectif (re
´sume´ pertinent des donne´e en petite dimension) est donc atteint.
Corr´elations variables-facteurs
FACTEURS --> F1 F2 F3 F4
0.
MATH
6
PHYS
0.
2
Axe
2
ANGL
−0.2
−0.6
FRAN
−0. 0.2 1.
2 0.6 0
Axe 1
On notera que chaque individu repre´sente 1 e´le´ment sur 9, d’ou` un poids (une ponde´ration)
de
1/9 = 0.11, ce qui est fourni par la premie`re colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonne´es des individus (les e´le`ves) sur les
deux premiers axes (les facteurs) et ont donc permis de re´aliser le graphique des individus. Ce
dernier permet de pre´ciser la signification des axes, donc des facteurs.
Interpre´tation
On peut ainsi voir que l’axe 1 repre´sente le re´sultat d’ensemble des e´le`ves (si on prend
leur score – ou coordonne´e – sur l’axe 1, on obtient le meˆme classement que si on prend leur
moyenne ge´ne´rale). Par ailleurs, l’e´le`ve “le plus haut” sur le graphique, celui qui a la
coordonne´e la plus e´leve´e sur l’axe 2, est Pierre dont les re´sultats sont les plus contraste´s en
faveur des disciplines litte´raires (14 et 11.5 contre 7 et 5.5). C’est exactement le contraire
pour Andre´ qui obtient la moyenne dans les disciplines scientifiques (11 et 10) mais des re
´sultats tre`s faibles dans les disci-
34 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
2
and bri
−1 0 1
r g did
jea
ala i mon
Axe n
n
2 ann eve i
3
i piel
r
−3
−3 −1 0 1
2 3
Axe 1
(il faut noter que, dans une A.C.P., les variables e´tant centre´es, il en va de meˆme pour les
facteurs ; ainsi, la moyenne de C 1 est nulle et n’apparaˆıt pas dans la formule de la variance). La
de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = 8.61 ; sa contribution est
coordonne´e
— 1 2 donc :
9 (—
8.61) × 100 = 29.19
28.2
%.
3
A` lui seul, cet individu repre´sente pre`s de 30 % de la variance : il est pre´ponde´rant (au meˆme
titre que Monique) dans la de´finition de l’axe 1 ; cela provient du fait qu’il a le re´sultat le plus
faible, Monique ayant, a` l’oppose´, le re´sultat le meilleur.
Enfin, les 2 dernie`res colonnes du tableau sont des cosinus carre´s qui fournissent la (*
qualite´ de la repre´sentation *) de chaque individu sur chaque axe. Ces quantite´s
s’additionnent axe par
3. REPRE´ SENTATION VECTORIELLE DE DONNE´ ES QUANTITATIVES
35
axe, de sorte que, en dimension 2, E´ velyne est repre´sente´e a` 98 % (0.25 + 0.73), tandis que les
8 autres individus le sont a` 100 %.
Lorsqu’on conside`re les donne´es initiales, chaque individu (chaque e´le`ve) est repre´sente´
par un vecteur dans un espace de dimension 4 (les e´le´ments – ou coordonne´es – de ce vecteur
sont les notes obtenues dans les 4 disciplines). Lorsqu’on re´sume les donne´es en dimension 2, et
donc qu’on les repre´sente dans un plan, chaque individu est alors repre´sente´ par la projection du
vecteur initial sur le plan en question. Le cosinus carre´ relativement aux deux premie`res
dimensions (par exemple, pour E´ velyne, 0.98 ou 98 %) est celui de l’angle forme´ par le vecteur
initial et sa projec- tion dans le plan. Plus le vecteur initial est proche du plan, plus l’angle en
question est petit et plus le cosinus, et son carre´, sont proches de 1 (ou de 100 %) : la repre
´sentation est alors tre`s bonne. Au contraire, plus le vecteur initial est loin du plan, plus l’angle
en question est grand (proche de 90 degre´s) et plus le cosinus, et son carre´, sont proches de 0
(ou de 0 %) : la repre´sentation est alors tre`s mauvaise. On utilise les carre´s des cosinus, parce
qu’ils s’additionnent suivant les diffe´rentes dimensions.
x
Ces mesures sont regroupe´es dans une matrice X d’ordre (n ×
p).
X1 ··· X j ··· Xp
j
x1 x xp
1 1 ··· 1 ··· 1
. . . .
x1
i i ··· i ··· i
. . . .
x1 xj xp
n n ··· n ··· n
⟨x ,x ⟩D '
Corre´lation de X j et X k : = cos θ DX(xD j,Xx k. ).
xj D xk D
Attention : Par souci de simplicite´ des notations, on de´signe toujours par x j les colonnes de
la matrice centre´e X . On conside`re donc que des vecteurs “variables” sont toujours centre´s.
Ainsi, lorsque les variables sont centre´es et repre´sente´es par des vecteurs de F :
• la longueur d’un vecteur repre´sente un e´cart-type,
• le cosinus d’un angle entre deux vecteurs repre´sente une corre´lation.
3. La me´thode
Les objectifs poursuivis par une ACP sont :
• la repre´sentation graphique “optimale” des individus (lignes), minimisant les de
´formations du nuage des points, dans un sous-espace E q de dimension q (q < p),
• la repre´sentation graphique des variables dans un sous-espace F q en explicitant au
“mieux” les liaisons initiales entre ces variables,
• la re´duction de la dimension (compression), ou approximation de X par un tableau de
rang
q (q < p).
Les derniers objectifs permettent d’utiliser l’ACP comme pre´alable à une autre technique pre´fe
´rant des variables orthogonales (re´gression line´aire) ou un nombre re´duit d’entre´es (re´seaux
neuro- naux).
Des arguments de type ge´ome´trique dans la litte´rature francophone, ou bien de type
statistique avec hypothe`ses de normalite´ dans la litte´rature anglo-saxonne, justifient la de
´finition de l’ACP. Nous adoptons ici une optique interme´diaire en se re´fe´rant à un mode`le “alle
´ge´” car ne ne´cessitant pas d’hypothe`se “forte” sur la distribution des observations (normalite´).
Plus pre´cise´ment, l’ACP admet des de´finitions e´quivalentes selon que l’on s’attache à la repre
´sentation des individus, à celle des variables ou encore a` leur repre´sentation simultane´e.
4 Mode`le
Les notations sont celles du paragraphe pre´ce´dent :
• X de´signe le tableau des donne´es issues de l’observation de p variables quantitatives X j
sur n individus i de poids wi,
• E est l’espace des individus muni de la base canonique et de la me´trique de matrice M,
• F est l’espace des variables muni de la base canonique et de la me´trique des poids D =
diag(w1, . . . , wn).
4. MODE` LE 37
Aq = z + Eq .
4.1 Estimation
PROPOSITION 3.1. — L’estimation des parame`tres de (3.1) est fournie par l’ACP de (X, M ,
D)
Σq 1/2
c’est-a`-dire par la de´composition
Z^ =en valeurs k k'
λ usingulie`res
v = U de Λ1 (X, M , D) :
/2 ' .
q k q Vq
k=1
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
• Les u k sont les vecteurs propres D-orthonorme´s de la matrice X M X ' D associe´s aux
va- leurs propres λ k range´es par ordre de´croissant.
• Les v k , appele´s vecteurs principaux, sont les vecteurs propres M - orthonorme´s de la
ma- trice X ' D X M = S M associe´s aux meˆmes valeurs propres ; ils
engendrent des s.e.v. de dimension 1 appele´s axes principaux.
Les estimations sont donc donne´es par :
^
z = x,
Σq '
^q
Z = λ 1/2 uk vk = U q Λ1/2 V 'q = X ^
'
Pq ,
k=1
E^ = vect{v1, . . . ,
v }, appele´ plan principal,
q
Eq ^
est
2zi = P^q x i +
^ x.
Remarques
i. Les solutions sont emboˆıte´es pour q = 1, . . . , p :
ii. Les espaces principaux sont uniques sauf, e´ventuellement, dans le cas de valeurs
propres multiples.
iii. Si les variables ne sont pas homoge`nes (unite´s de mesure diffe´rentes, variances
disparates), elles sont pre´alablement re´duites :
˜
X = X Σ − 1/2 ou` Σ = diag σ 12, . . . , 2p , avec σj2 = Var ( X j ) ;
( σ )
˜
S est alors la matrice R = Σ − 1/2
SΣ −1/2
des corre
´lations.
4.2 De´finition e
´quivalente
On conside`re p variable statistiques centre´es X 1 , . . . , X p . Une combinaison line´aire de
coef- ficients f j de ces variables,
Σ p
c= f j xj =
Xf , j=1
de´finit une nouvelle variable centre´e C qui, a` tout individu i, associe la “mesure”
C(i) = (x i — x)'f .
• Les vecteurs f k = M v k sont les facteurs principaux. Ils permettent de de´finir les
combi- naisons line´aires des X j optimales au sens ci-dessus.
39
5. REPRE´ SENTATIONS
GRAPHIQUES
• Les vecteurs c k = X f k sont les composantes principales.
• Les variables C k associe´es sont centre´es, non corre´le´es et de variance λ k ; ce sont les
va- riables principales ;
' '
cov(C k , C l ) = (Xf k ) DX f l = f k Sf l
' '
= v k M S M v l = λ l v k M v l = λ lδ kl .
• Les f k sont les vecteurs propres M − 1 - orthonorme´s de la matrice MS.
• La matrice
C = X F = X M V = UΛ 1 / 2
est la matrice des composantes principales.
• Les axes de´finis par les vecteurs D-orthonorme´s u k sont appele´s axes factoriels.
5 Repre´sentations graphiques
1. Les individus
Les graphiques obtenus permettent de repre´senter “au mieux” les distances euclidiennes
inter- individus mesure´es par la me´trique M.
Projection
Chaque individu i repre´sente´ par x est approche´ par sa projection M - orthogonale z q sur le
i ^i
^
sous-espace E q engendre´ par les q premiers vecteurs principaux {v1 , . . . , vq }. En notant ei un
vecteur de la base canonique de E , la coordonne´e de l’individu i sur v k est donne´e
par : k k k
D E i i i
xi — x, v k M = (x — x) ' Mv = e' X M v =
c .
PROPOSITION 3.3. — Les coordonne´es de la projection M - orthogonale dei x — x sur ^E
sontq premiers e´le´ment de la i-e`me ligne de la matrice C des composantes principales.
les q
Mesures de “qualite´”
La “qualite´ globale” des repre´sentations est mesure´e par la part de dispersion explique´e
: Σ q
^q
t r SM P λ
rq = Σ pk = 1 k .
=
trSM k=1 λ k
4
2 stra
emb
nanbcesa nmi
r dijogrelyncleon mon per
reimvich r pa tour t tlse bordmarenice
p
0
stqu olimrleo
s
lillri roue ajactoul
Axe
ren
−2
ango
2
angneant n bia
r
−4
bres
−6
−4 −2 2 4 6
0
Axe 1
Pour e´viter de consulter un tableau qui risque d’eˆtre volumineux (n lignes), les e´tiquettes
de chaque individu peuvent eˆtre affiche´es (macro SAS) sur les graphiques avec des caracte`res
dont la taille est fonction de la qualite´. Un individu tre`s mal repre´sente´ est a` la limite de la
lisibilite´.
Contributions
Les contributions de chaque individu a`2l’inertie Σdepleur nuage
wi x i — x w (ck)2
iΣ
γi = M = pk = 1 i ,
trSM k=1 λ k
est : D E 1 √
j k
j '
k j '
k j '
k k
x , u D = x Du = √1 k x' D X M v = √ k e X D X M v = λ k v j .
λ λ
Mesure de “qualite´”
Corre´lations variables×facteurs
Ces indicateurs aident a` l’interpre´tation des axes factoriels en exprimant les corre´lations
entre variables principales et initiales.
xj , uk √
cor(X , C ) = cos θ(x , c ) = cos θ(x , u ) =
j k j k j k D λk k ;
j
xj D = σj v
Variables Variables
1.
1.
0
0
0.
0.
5
5
jjuui
maoa
il n
ui t
novoecto
Axe
Axe
0.
0.
jdaenfcveevr
0
0
2
3
moc
asevr aojutil
septmars
atros mjuaiinavri
pit
− 0.
− 0.
n o v
f e v
5
5
e
r
− 1.
− 1.
jdaenc
0
0
− 1. −0. 0.0 0.5 1.0
ve − 1. − 0. 0.0 1.0
0 5 0 5 0.5
Axe 1
Axe 2
−10 0 5 10 15
−5 20
bre
0.
6
2
0
s
1
5
0.
4
bia
1
0
ren
r
n
0.
Comp.
5
djaen nant
ange
ango
roue s
v
2
cocemto lillpoarei
nic limottqu u
0
0.
0
e
tfoe
nars mi
pseerppa t
a
ocrrvirle
le
ao ju u bensa
i
in
−0.
u l
ovrbaijuil
vor t
j tdlseo crh
m a lygorannc ednij
−10
m
2
mnt ni
−5
reac
mrse oestmrabr
−0. 0.0 0. 0.
2 0.2 4 6
Comp.1
FIG. 3.6 – Tempe´ratures : Repre´sentation simultane´e du premier plan.
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
6 Choix de dimension
La qualite´ des estimations auxquelles conduit l’ACP de´pend, de fac¸on e´vidente, du choix
de q, c’est-a`-dire du nombre de composantes retenues pour reconstituer les donne´es, ou encore
de la dimension du sous-espace de repre´sentation.
De nombreux crite`res de choix pour q ont e´te´ propose´s dans la litte´rature. Nous pre´sentons
ici ceux, les plus courants, base´s sur une heuristique et un reposant sur une quantification de la
sta- bilite´ du sous-espace de repre´sentation. D’autres crite`res, non explicite´s, s’inspirent des
pratiques statistiques de´cisionnelles ; sous l’hypothe`se que l’erreur admet une distribution
gaussienne, on peut exhiber les lois asymptotiques des valeurs propres et donc construire
des tests de nullite´ ou d’e´galite´ de ces dernie`res. Malheureusement, outre la ne´cessaire
hypothe`se de normalite´, ceci conduit à une proce´dure de tests emboˆıte´s dont le niveau global
est incontroˆlable. Leur utilisation reste donc heuristique.
1. Part d’inertie
La “qualite´ globale” des repre´sentations est mesure´e par la part d’inertie explique´e :
Σ q
λk .
rq = Σ pk = 1
k=1 λk
La valeur de q est choisie de sorte que cette part d’inertie explique´e rq soit supe´rieure a` une
valeur seuil fixe´e a priori par l’utilisateur. C’est souvent le seul crite`re employe´.
2. Re`gle de Kaiser
On conside`re que, si tous les e´le´ments de Y sont inde´pendants, les composantes
principales sont toutes de variances e´gales (e´gales a` 1 dans le cas de l’ACP re´duite). On ne
conserve alors que les valeurs propres supe´rieures a` leur moyenne car seules juge´es plus
“informatives” que les variables initiales ; dans le cas d’une ACP re´duite, ne sont donc retenues
que celles plus grandes que 1. Ce crite`re, utilise´ implicitement par SAS/ASSIST, a tendance a`
surestimer le nombre de composantes pertinentes.
[Link]
4
0
3
0
Variance
2
0
s
1
0
0
7 Interpre´tation
Les macros SAS de´crites en exemple, de meˆme que la plupart des logiciels, proposent,
ou autorisent, l’e´dition des diffe´rents indicateurs (contributions, qualite´s, corre´lations) et
graphiques de´finis dans les paragraphes pre´ce´dents.
• Les contributions permettent d’identifier les individus tre`s influents pouvant de´terminer
a`
eux seuls l’orientation de certains axes ; ces points sont ve´rifie´s, caracte´rise´s, puis e
´ventuellement conside´re´s comme supple´mentaires dans une autre analyse.
• Il faut choisir le nombre de composantes a` retenir, c’est-a`-dire la dimension des espaces de
repre´sentation.
• Les axes factoriels sont interpre´te´s par rapport aux variables initiales bien repre´sente´es.
• Les graphiques des individus sont interpre´te´s, en tenant compte des qualite´s de repre
´sentation, en termes de regroupement ou dispersions par rapport aux axes factoriels
et projections des variables initiales.
Les quelques graphiques pre´sente´s suffisent, dans la plupart des cas, a` l’interpre´tation
d’une ACP classique et e´vitent la sortie volumineuse, lorsque n est grand, des tableaux usuels
d’aide a` l’interpre´tation. On e´chappe ainsi a` une critique fre´quente, et souvent justifie´e, des
anglo-saxons vis-a`-vis de la pratique franc¸aise de “l’analyse des donne´es” qui,
paradoxalement, cherche a` “re´sumer au mieux l’information” mais produit plus de chiffres en
sortie qu’il n’y en a en entre´e !
Remarque. — L’ACP est une technique line´aire optimisant un crite`re quadratique ; elle ne
tient donc pas compte d’e´ventuelles liaisons non line´aires et pre´sente une forte sensibilite´ aux
valeurs extreˆmes.
7 Donne´es d’expression
Les exemples illustratifs pre´ce´dents ont l’avantage d’eˆtre simples et d’interpre´tation
triviale. La re´alite´ des donne´es d’expression est tout autre et ce, en particulier, en raison du
nombre de ge`nes en pre´sence, c’est-a`-dire en faite du nombre de variables d’expression
observe´es p sur un nombre en ge´ne´ral beaucoup plus re´duit n d’individus. C’est le cas des
donne´es sur le cancer du pancre´as pour lesquels 871 ge`nes sont observe´s pour seulement 65
tissus ou ligne´es cellulaires. L’incitation est e´videmment forte à conside´rer les ge`nes comme
des individus ce qui n’est pas sans conse´quence.
1. Exploration e´le´mentaire
Il n’est pas question de tracer 871 histogrammes. En revanche il est possible de repre
´senter simultane´ment ces distributions par des diagrammes en boˆıtes meˆme si celles-ci, les
boˆıtes, de- viennent tre`s squelettiques compte tenu de leur nombre. La figure 8.1 affiche ces
distributions qui se caracte´risent par une certaine de´rive des moyennes qui apparaissent pour
le moins peu homoge`nes d’un ge`ne a` l’autre.
−5 0 5
FIG. 3.9 – Pancre´as : diagrammes boˆıte affichant globalement les distributions des 871
ge`nes.
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Nous retiendrons plus particulie`rement le graphique de la figure 8.2 croisant les tissus
en ligne et les ge`nes en colonne qui sont donc centre´s. Elle semble la plus explicite et
informative compte tenu du proble`me pose´. Ce graphe est strictement e´quivalent à celui de la
figure 8.2 b qui ne´cessite un centrage pre´alable des lignes. Pour cette ACP, la de´croissance des
valeurs propres ou, plus pre´cise´ment, les distributions des composantes principales (fig. 8.2)
sugge`re de conside´rer 4 composantes ne´cessitant ainsi des graphiques et des interpre´tations plus
e´labore´es.
permet de rechercher les, par exemples, 5% des ge`nes contribuant le plus à la de´finition de
l’espace propre à 4 dimensions juge´ pertinent. La figure 8.2 ne repre´sentant que ces ge`nes se
´lectionne´s dans le premier plan factoriel devient beaucoup plus lisible. Naturellement, une ACP
calcule´e sur ces seuls ge`nes les plus influents varie peu de celle calcule´e sur l’ensemble. La
lecture de ce graphique permet, en particulier, de repe´rer les ge`nes contribuant le plus a` une sorte
de double discrimination :
• entre les e´chantillons biologiques issues des ligne´es cellulaires et les e´chantillons pre´leve
´s sur les patients,
• et, pour ces derniers e´chantillons, une distinction entre pancre´as sains et pie`ces tumorales.
8. DONNE´ ES D’EXPRESSION 49
1
0
2
0
K562.1A1
HCT K1156.21..1 GG2G27743 49 G719
HC CTHC KAK1K5C51 GG1GG 23G22
G707 K562 K.25A62.2A3
0.0
2 7 G571
HH TTC62212 GG G1G5G 114 G7462 K562.1A2
G8G3 7 8G83
88 GG 4 4 G1
5
0.1
S
W
56O 626 . . 2 ..1 7G GG 9 GG 22G4 G 1 809G8 G1G980
SC9CA91 SWA ..C.3P 6A 3W 4.O 7G G25G4 1G 9 3G5G 44 76G87G21
A S G 8
GG
46G18G49G 2G9 G34
0
G1G 4G8
866 4
83G2 54G1
1G93233
CW8S
A
CA0
.
261AM
0 N1 2
[Link]
SMW
3
A AP
.B2 236 1I.I.A
5.1
M
A. Ax3242.S22P 21
Px AC1.. G GG71 6 G 6 G6 4
7 G 1 G7 G4 88G 7
1
0
1N B . 1 G1G1 G
5420 11
0G8G5 7 5
G1009124 9 60 2762 2711G3 7 PancNorm2A
22
. G 4 G 234
1G1 0 3 G2 G8G3359 CACO2.2
0.0
P.2 4 75G 04
3 10 G GG PancNorm2B
0
P AP 2
A 9. AN 9 2
2G G 6 4 45 1
1C1..1 W
.A8.
A S P .A .1N .4 G G4G 72 G 8
448GG7
1G19G8
3GG 1316
2G0G
G2
42G
70 4
G5
G84G G9
8G0G43
232G
127
91G1
05
5 31
2 G 92
42 861G4
28 9 7G5G15 G519
04I . A313 0. C3.2 8 9 G 51 7 PancNorm1
0
A. ANP29.2.
I2P [Link] .C G214 GGG19 G71 G5 7 499 8G
6G 37
2446G 14 4G7 G2G 4
1
0 3G 12G
2 3
00G GGGSG8465GW50G6156G7293
0 P
Bx.PC3.2. 32G5 G G 6 7 1 5G
26 74 9 G 8G
24
1 2 0 G1
6 2 3 9 13
1 08 G668 9
P 141N. 8.2. NC 8C01 41G
2G1G2842 5
1G4429 4681
1GG 1 G 429 56
17 16 387
G99G
G6
9 G1 2 3G
G59 2420 GG 52 0
G4 8G
1
72
3G 3
28 51
G G6 65 335 5
GG 4 1G 95 816 4 634
9GG21G 1 22G 41G 325
23 40 3 8 G
1..b..s3i3Bx.PC3.1. G51 3G26 1 24G G 248 7 129 7G56
81 G50 7 TP440.g2ex
13 2 ..21..323. GG18 2G
GGG 1G
2
13
0
G G8
168 5
3
5 63
53
43 9
0 7
5G02 1
4 9
1
G
G
3
G G
G4 5
2G218GG 2
1 64G
93
0 8 73
G
281 8 G4G15
4
14 5G
3 4 G6G7 15G96 6 6G78G 581 G43 673 G G0336
8 G G568G
G551G
3690 3G 7G5772G0
2G 2
22 .1 3.
0 .1 21
. . 2..2 32 85G G62
G1G25G
1 9
4
9 1
1
8 8
G
15G1
4G
G
2G
94G6G 5G5G
GG
10G35G2
33G 5
6
6600
G 32
G 7G2
9G
G10G6
4
G5G
68G
6G
1 GG 424G2
5 66
10 3
283 G
0G1 G TTPP34. 24205. g.g3G G G 6GG767 G 0G 9G6G 63G6 5
GSGG4W2 79
7
G6G77G
79 8 2
6G6 6 e76 17G14 G 9 G.491
. 1 G3 18 G130
0.0
G21
G 9267 3 1 5 8
7T
6
G G P7 1 G
8 3 8P P3. 3 1 4
2 9 25
G ..7 21 6965 6G1
21G
6 6G1 1
47G1
6 G
8422 99 124G1 25G9 3
G3 1G240G
5 G02 G39G4GG
6G2 4G5 9 G 2 G
G5101 TGPTT5 P
TP 1 T3P
T
.1522P
6 4G . g13ex
50.6G 7G0 1.G8792571
6 3.
G1 54 8
G7 4.0219 55gG G5.g1G
3G
6G
g. g9 G 6xG9 G 057
0
G 1 7G
3 .4.
.42..1..232. 3
44.2. ... 0G G712G
G
71 GG
7 G
59G
03
5 G 49
G 3
G82G721
2G5 G7
3G 9
146
1G
G3
G37 2
G
8G2 002
G174
5
6 10
53 3G4
7G5
245G 77 518
9G3021
20G4 2G
3G 2
GGG3 8
29652
51
G
8154954G 3G4 0G 11
850 21
G8 9C686.25 2 A 46CO2
4
5G 0G
01C
9.1
8M A.5 C623O2.1.1
9G238
G
−0.10
35G21 2
3G3 G
367 9 1 G3G
6 37
G2G85
6 9
3G6 4
G 4 G
2323G41 G3 1 3
6G 3 7G173G G 8GG8 2
65G7
0 G 9 G 65 23 4G8G G
G5
87G9G 5G
6 .2 G 51
G
G4 1 1 74 6 2G25
1 2 0
5 G1e912x67 G4 82
6 63 G 05
G 07
Comp.
Comp.
.2
.2 ....2 G212G1 10G14 9 G
25 30 G 0 6 56 3
7G 6 5 04
19 G 03 6G0 4G G
G5 2
51 2 868 G 1 G 6 6
17 9G8 G
7G 8 0 2714 5 G5 G4
3 G 6 G6 5 5G
5G G65 30
72 6
6134G2
6
G
2 7G
2G9
365 4
6 GG
12435
49656
G0 G 735G6
G 37
37120231
4 G 3G 844 GG
28 97239 83G
−1
6GGG6G G85G
G15 526
9G6G27G05G
34G329 8
6G 65 35602 8G064 B3 GG67
G 1G G9
72 G G6G
G 48x2
8GG5 43
G1580
2567G7 55 62G.2 276
6
5G 5122G 4G55 2 5698
G
26
9
59 0
5
52
N
3
45
G 2
06 G
6 3 G3
2
9G
50 r168
7 6 800639 8 2
89
8
0 71 4A 23129 GG3
07 8 G5641 30N G 7
P4766G2 G3 7I61 1213
2 G0
936G 79
52A 0G
G
35G973 51 58
56
624
76
G G
G4.57 5
27 4
2 3 1 c3G 3 5 6 G 2G
5G
3 1314
3 3 G6
7 G TP225.g 8G 648 9G 68 654
32 2 7G 5 2G 6G 69 56 625
43 08
GGG 2P1 a6 7n N o 32r9 m 21 B
1.. G 6G G 3 G 21G 9
6 6
9
2 22G 9 24G 452
9 5 G230
7
G 6
02 238
31G5 4
G
7
G6
G
73G
57
5G GGG 3G4
G9
61G G 6
8338 94
G
086
7 3
8
7G72G
8
4
126 25 8G
3584
1763 0 G2446B9 1G6
5 114GG 55 .G 35
G 437G G626 89 G6 16G 1 930 2433
5 44
6G 2404C3 14
52 3 4
PanGc1N7oG mr61
14
72
45
G13
7 2G 78 1
G 1 82
2
6 7G 08
13 G
761 353
5 G6
863405170336254
668 5
03889 6
2 5
17444294 643
G9 S26 7G12 347 66 G 5S0995W8G 4
33
G 70GG
9G9 6G6
6 x0
7 G
631 P G G5
533
10G
460
G 54.0 P95 G0
G5G96G 754G
5G4G3
46
1C 444G 6
82
2 G1 2G G125
5 G43GG0 G
66
8G 2 3 601
5 1 G7559 472 0 G 5 3G
G6 5G 302 W5 218 514 2.1G 5G
G
G196 5 7 1 913G G4G 4G 3887
23 876G 7 830 379
05 6 75
59 4G46
G7 G GG 8 7 168 156G G G 08 4 231
2
2
6G 1
2G 5G 348G 0G 7512 51 6G 65 1
25 8 22G 4 0G G 2 G6 G G3 9G 5 4S 3 04 35A3
G100G3 6G
8 223226 5 G54 7G
0 72 8 5G0
0674
G3G7
76
G
G
7 9
75
8
33
37
79
19
G 7G
102
8
G0
6961
7
9 2 8476
4 8
4657
G
84 613
8
7
1
0
6
7
7
4
6
4
1
25
G
2
21
2
186
67
84786
764
7G
7
4
3
2 3
10
5149
4
G
G87G
G62
4 3 4
7
056
2 31
4
65
G
6
6376 7
59
64 3590
68
6
07
7
5 5
460
95 927 G0 4 BGx 51.5GG
TP640.g
G 8501
G6856P 5.
7G13G 2
1
6
0
6G 2C1
6 G
M 47
G
289G
572 3
6G17
27
G
G
1
17
25 57
7
3621
G
79
GAG
G31
0 06
5G462
9G
G0
4 3PA 5 12.8
5
G 4I
30
1
386G13 5 G4
2G0 8
7570 301567183 9 646G
24 850
19
65209273 6529 8 4
65 4G4
G058 31 34
30
G36G7 55G
4 24 2
C1 44 22
8 33G63 9
G.3911G 53 8C 3947 10 G35 19G
6325G3
G0108G .8G26 .4
G26G50 7 0G
9 1G5G
3 385 22G 923G 9GN 3 9G0 42G
3592
−1
58G39G1 G 94
GG 065 8 692
843 5603G685 G527 5G9 .41
340G 2 34 7 136 G 4
91 323G G 725403934
26 0 10 G9 6520P1 24 3
G 53536
682 64232.
−0.15
69 5 807G2 0 G37
1 4 338 G 2 1 4 2G 94 G G
332478120
9
91 G3
47757273
G2971 3189 18
601
98 08
94G527 745364467389688 G 423126G2 .G1G177
7G 3
2 6
429 G
0G1 5 1 96
G 1 4G
5G3210
6 2.G12
8 G G2
3 G G502
2G 18C4A
42
G 1
. 25
2 418
4
41
15G4G20
70G73
753 2
40 GM
G35G2 91 1
G2
G6G
G 2 2 7G 3 7G7 2 2309G
0
4 9 9 3
−0 .
G WG G . 413 63 8.7283 31
72506 358 7449 4 1 GG 8 0
6G3 G142G
514
2 2G3 41
0
624A
G 0
8275G G
G
35G
11 0
2
S84 745
G 765.
CG 54
3
G9
25
6SG7 4N
C0 13
A74
P0P 0
7.6
G
21G
G2
21135
3 P
5 8G9P21
2 18314 4
117
G
69..0
TTT PTPPP5544T41T040P.0 Pg2 . G4G56720 68G 797305 7G
7G 2 37938793172 1G10G8G3G1 G70G2G 1G 2.W1G
5G B
82G
016 2 3915 7 3 25 0
HG513 53A
08 9 0
P1 46G2431 1
N7
G5
Gx
121 1.G390 2 2
9413
A 5
G226 2P
92
1 00
8 A
G 0C
424 23
16 4 013.C
1 414
72
66
92307
2 22x5 53
1
2902G1G 614.G 10G G AG2956 1G 8 3 14 8 1C
. G G 696 2GC 21
2I.A5
70 681
.G3
S
0 4 05
G53
9G.G A7
3
1 1 4092
4G4 1
1 4 G9
33 P0G
1 3
231 17
5 GC2C
1G 6 45
A3 4 1
92 5G 33472
1G 6 G3
4G 32 45G1
TP62T4 220 .45.P..g
123 1030563780 079 9271G10 9 5131AG 14 05G527 53W162
2 G
4955
C12G
G
GG
6
27 254G2
0G 9G
53A 34
234
4322
P1G 1
GN5
22NG03
234
GA6G436G15B1M
.N 721
15. G3 42
.5C
.3
1293
PG548G
066.60
..7.
G 892
.847G5CGS9
−2
G G 7 2. .5
41 7 81 G2
6
g132TP.e33ex2 x5g
. 0 0 8
2796797 4 3 4 0
2 053370257 3TG091
70 119723G2
486 119.6131.H61
21TC
.93 2G814
4 HT29.3.125
G A97 G
4S
7 N
95.06AP3
1921.G 4.1 92
G
PC2A1.1 8 3G2 ..N
0
GI b 0 s A19 G1 6 0 36
−0 .0 5
02.2g5..g. 4 2 2 35 2 1
92 315 G2 0 47 10 2 1G14 9 1. 8
G690 8 4 18 .6 2 . G 8 GG 7. 12 1i ..25.2
G W 4 G3 G GH.
3129 432092
−2
86 G196
G6
ggx.2ge x 6235 34N .14 21.
2..1C 28 .1.8 3
0
2126.13. 34.12861
G688 942867 3
G170 7140G80749.8G
75C1.6 2469 21
7 8.3G4
2.80.21
1
6T 6 G48
.1.
−0 .
G176 328
1
G531236
878
1
2
−0.20 −0.15 −0.10 −0.05 0.05 −0. −0.1 0.1
0.00 2 0.0
Comp.1 Comp.1
G571
2
0
3
0
G198
SW 4 8G0 1.
S W
SK4 W5684281.
0.1
G589
0.1
G135
0
18 .42 K562.K1K5A561622.22 . KAA54
1
0
2
0
0 1
3. 0 .K562. .2 .2A4
G562G138 S
1GG 0K151 62 9. 9 21WAKA22 546820..12A.
26C SC2SAMW 1 K562.1A2GGG2GG7680G704
7G
6
2
5
G 7 G S49W46 1G9 GG 2422 G907 1
G
56G96GG7 GG7453 G16 G5 36 5106461456G56863
3622.A2 7 G G 43 10G 48 9GG
WGGG5
1 G 8G8 1G4G6399 86 93 258G8103 G
mA
2ro
N
cnaP G 7
78364G1G G 6 G 61a7 A236 0 8C 1G5
G I . S G
9.C 376A 1G
O W6
0
GoN8r6.O
2 6127G
G.72G10 267. 16G49 76 G G 2G3G2 72G 2 8458253 49G5 9 67465 G
TPTG6 G6 89G 15G384 8 5 15 PancNorm2A
0.0
PP4 . 2 P 2 0
n c g 3
G43 G 56G 94G 64
7G 8G7 86
T
TTPP4244003 g.g 01
. 3ex . 3 P . g 2 5a 25G
4
1 2 0
3 5
18
.n 2
eg M AI 3
.
9.G1. 3
.
c. x o
g17352 9I0 G 8A 7. 3 3
G76G58G4 8G 7
039638
2G 7
5 13484 27 65 8 8G G5G568G
0.0
2.M 462.. 0 4
GG0G PancNorm2B
5
5.76 G8 1 G45 1. 3
1
0
TPTm 512G 0G
54. 02. 912
g5 [Link] 6 42. 3 23G3 G4GG 9G2 G846P4 C
ACGGGO 53G 8G 5628 G8 G8 6 1.43 1G 113G 610G
TP1.12 P 2 2T1 0
BP 3
TP640.g
G
225. G 7 .8 G 15G G 7 7
6G 2G 7 4 560G 7 .1.2
1
OC
A
C 1 3 5
2 0
04G 6 2G 5
G275
66 185 8G .g G 50 209G
7 2232
Comp.
2O .1
G.161GG
1TCHG1G42G22 30 9 GG 3 69
2
025G6G61G5 G 54 0
5G G 2 G 6 NPG2290.
787G184 12 59 2 5
S 21.G
G5 4
W 2 G6
3
446T18 36 5
G
0342 2 5 3G.
20
3GG
1116 172 27 1
2035 3
0 .4.31 2..21 G61
263
8G
2932 6
G8 3
0G1
6G 25 G 74G8G 118
G 7G292M
0 G18725
82577 8 9856 7
2G1G65 35 1
17 0T16
8630
89
3
1S072 . 4.12
0.0
G51 434 G
5544 C2 46 .5G
361G2 G4596 M 4 I2TG A 05S8
0
G685 1 GG G 1 8 18
9424G8538 0G51 213G37G7
26G9 25G1C4 GG 8
G 38G G
6861
G .G 5
6 105 8195 0 2
G85
G8 G
H 62G G1
G 5G6 C1HG 7 84G013 G87 .853 G 7
G 3 5154 91265 7
−0 .
91 1 8 8 G 34
0 9 13GW G6 96G G8
G 28 37G
G2
03 G 0G 4 9 3 G 3G 14 31 3072
4 2 G812
3 1 1 4 786 6G G 957 472 G
−1
0
0G4G2 GG4 G2G 7 3G9
G1
05 9 0137GG G 3894 2
1G8477513 36
.6 208A
81
G
36 292GG586 5 G6
04G
39G
70G
9G 0G2G03
31
5G
5.74235428G663 2W
6S.S W
21
8 G2 0H492
19
G5G2
41 7
8G
GG2
03G 12
GG398 14
2 G19 8 01
34 G5
083 5 G
G
4 3T6
4515
G4 3 50 7G19
G
19 62 8
77
G
4 6
5635
4G97 17
G 512
57
G 4
36G
G
2G 0. g2050235.
0G1 7 32G G1
4 .42
5 G70 70G 02 6 84 9
6 G 3 5 9 S 2 4 9 1GI 24 W 2GA83G 1 0A2.3A
eg5G
0
7141 G 3 5G 72 G 54 70
37 28 1
G 0
6G
5 G25 G
5 5G 457
3 53G622 3G
74G81
1 957
6 74
45 620295 44
86 1 8G 8C8
8H 2S
G58T W
7G
9502
152 9 058
3G 0
. M
.
2G .
6 1 .
17G3 2
276 9 1 23
G34 G 1 2W
3. A 5G539 21 61
G
G0PG 5853G
G 0 P 4
035 2 . 8
G525 94 G1 2GG 36G
21G0 13G G326 9G7 2 2 4 0 825
5
4 G. 9
2419 95 626S1462 G
9P60G 7 0 8423G
9 8 7 54 724G
46 G 28G033 6 011 G W330 01 9 2 311894 394 17 17 GC 5 2
G13 G0GG3G25 2G13 253GGG8 01
7 G1
21 7
3G6G 3
02 4 1AG 023G482G
G 5 2G13
2G 4
68N 2
G1 4P
G2
7 11 G4
5
1
2
3 9
CAPAN1.1. 289709 G 1G G3 G 2 24 G
0 .P2
9 80A.1 21 73
4 G 2 93A .9 5
4G 2
02 e.g.Ggx21G2
G2
916G 1248342
1G 5G74238 92G 7G 58073
56 31
27
44694G52
5 G
1G
6
Bx.PC3.5H.T29.3.1 69181 2301
3 571
2G 180
8
098718
3 G415
8 298C
30 G2
53 G3
5 C0 G
53 A92CG
G G 378G9
G7 88M 4
6
746 P
G2G2 3
863
65 7
38 5
A1
S
6 7 8
15 4
G414
3GG
0G9
177G 6 AG
32 2
GP
G I0
6 B
67G3 GGA
71 8
5G
GW
0 7
35A
5G
P 083.G
8 743 76431G
1328G.1
6
960 5 63 5B3G 8 082344 7G1
9 1G G G
02 1G
2 G
G196
G
A2285 0
7G5175
32 G
64
1
7G 0
152 8
92
25 8
313 21 90 2 95
85G5 11
1 1
2G 9 G46G6N02G G N 3
9
G2 3G2G C
5 .
26
72
580G 6
1263
0B
AG
G
2
31
G
6
7323949
2
1 G
4G3 3 9
56 0
4 G
13 G
457G3
1.G 9
P
461
G2
8
0
5.76A2 G.1343
31 G
GC270G 20
4G 921 0
218
68G
1 G
7.
G10G
74.4
A
449 2.5
G.0
537G 5G.
5G84
8
4 G
9
G4 4
2G9GG1 3 3. 0 .7
3G 2 B 5
160G1210
G0 G4.7G1 1T 8x259G 9 G04 S Gx3 .3 P .2W2 49 .G5G
1G8G
1 19870G 9G 168G 3G1G .H 2H
5G3 T.9G 3G
CAPAN1.2. .1
72.CAPAN2.2.
5.9
2 G 30 .5G
1.G31
4 2 215 17 9 GN G048 2.G
GC5G 3913
.75 1
G3G 4
3G166
G3 27GP461
6N 5G.G 24G G 6G4 G
2 3
2121
032 1G 5 8
73G 4C G 951P 5
G9
GG 1.7 5
4
2 436
03 G924G6921 93G3
26 4 8 8
329 21 1G.
CN
A5G5G.3
P11 41
GG9 5
G
7G 1BN
78
PGGAG1N1
A
C
12G G.74
8
7 x
9G
A1586N
2B21
71 G 3
24G
51 6.
G
769
72G x2
G2 0G7
9P730
5294142 9 .3.
072G
GN
G 7665
1
P38
G G
G3.7
9
2 77 G
36
.1C
G8671
G4
478
412
385 65294G.432 C2 6N44P79
CAPAN2.1. 0302G 83x3
01
G G N 56G G80
.4 3G 670 61 G G 59 81215 397x .2585 0 .4 08G 0
1
7 2
9 3 G67848.0G0
−0 .
932 7 11 9 49 23 7134
G 70
.88 G2
67 .G568
G53.
5G CG.3 G G GA 29 1 GP92
S9552
30
G544G5
1P
G G
3
6 3 G
C C6
G1A29 821
7G
6836G1 48
G 142 1 .14G7
.4
7
G62.542063G21P 4S 31G0292G91 168G4CAPAN2.3.4.
8G 0152 93712 136 4562330 GG1 G612G1 G
.35 P
S
A1G .G
65 8
G
C
01
3.4GGA
4.5920 2AG1
34
164
1G
26
G
443 G
.645 4.
.34G 29
2 2N
0
2P49
1076
55 G
71
2N
.G 634
71 32
G 9
01043
6
13GG G. G7
1
G 31
07 G
6
65
G2G 123
636G
9
G2
5 3N4G43 2
.4 2G29
0
4 8 3 6 G6
4 1
7 G 162 4 052 G4
65
36 1 9
56
2 5 3G
8. 67G
0237 69 0
36G1 0 . 2 2 G8G 65
G52 4 G G296
2
3
78 475 8 G 871 2 9 G 537 G PG
409
1G 153 G 0 4
80 4 5
2 8 3 57 G6 0 8 4
6 G48G3
2
0G. 330 3 G 3 .1 41 ..4 2 1.8 1.5921 1.2 3
5 3
3PG 7
15
8 C
0ACPA
420 231C1
A
CPCN ACAP
58 ib7
2NAPA. 13PAN.
G40C0 6G G2763G65
0567 5G6G.5G7267
G 04 .G
G
1 3A
GG
66225 G 7..6
4
S41G
76785
6
.
7G3
9
b2G14 G G
8P142G
3
3i
s
6G987G62
6
96
4.
G.G
C 6
778
475 7935
.5
4
6G 4 G3
2.
1
G1
63G76
G8
7
37 7
G41G
5 45911
G
G4
3 0GG 0 G G
51 6
TP3.1325.g
56 5
6
32
.s1 2.
7G5
3 G6 6
47G G6
34 5G3
6.1 46 1G
32922 71867G 0
41G
49G2 13 719G
5 G 41
7536 G.G
59.G
65
469
6 3G 5G62
6G74G 161G8 4 25
G GGG73
1 72
93 9
G3031172
−20
−10
FIG. 3.10 – Pancre´as : diffe´rentes options de l’ACP. a : ge`nes X tissus centre´s. b : ge`nes centre´s
X tissus centre´s. c : ge`nes centre´s X tissus centre´s re´duits. d : tissus X ge`nes centre´s re´duits.
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
−0.2 −0.1 0. 0. 0.
0.0 1 2 3
0.
3
2
0
K562.1A1
K56K2K.5265A2643.21.
0.
2
A2A22
G571 G719
1
0
G184 G707
PancNorm2
PancNorm2
0.
1
CACCAOC2 A PancNorm
CACO2.1.1 B
WG8 G2408G 60179 1TP440.g2e
PC2
O 2 S S.2W 4 68 0.G 2 .
. 1
SW480M.2I.A1.1G.
S W
HCTS1W1 4 G 8 S 0
612 8
W5 G .
S2.21 9 1 8
6 9 . M 2 xT4P403.g
230 1 W3G1. G2.4 72
SW 4
HCT116.1. 8 0 .1 M
GG6 . 3 I A TP
1.2GG2G.5 7 G1
G 42G2G 3G2G 12 99 1 TPT5TPT4PTP11P0.
0
SW620 H .2 C . T 1 11 G 6G . G 2 TP5 T4 P0 .1
0.
G G 4
1 3243168.IG40G3APAG 4G0 42 GG 1 1 1 8G
67 G 5
2
1.2GG803
G G 34G
0
G GNG G1M4G G21
5 .G2 G GG
69
.238.1 72 8G G 4G C
5
81 9
73G 2G
G6 1 58 2 32e5x.g
1G 91H 3
5 1G.6 T8 G
179 268G G G
15.61 0 G 4
56262.3G
G 1 2
8 84 GG G 2 0G0
1327 G 67 P . 3 22ge435.2x10. .5
. 23
GG G64
5PANC
3G GH
4 6
G8GG17TG 9
23
G1 G
G
19
IG4622
1
3 G
G94 .9 9 3
2A 0 4G
.G4G1
G
8 73G8 2 30 93 G201
G97
1 g . 1 2 5.
TP225.
.
5 .G7 1. G8 02 9 1 2G6 G3G941 31
G
2 G 2 G G 4.25 1 3
7 .1G 8 G G
G 1G 6
HT29.3. Bx.P
5 6 8
G 8 23G1
C 1 B
1G 0 5G G
2
9G3 .123414 2 7 2 G4
G G
987 G 1 2. g 5 .g
18.G 5G122
97214
9
5GG
7
04G 9
6 50
7
3172
2817 4
8563G 8
G
G4 73
G9G21 G12
G0
9 9 G2
G1 4G
58 G G
7
G11G 1212 13
G739182
G17 37G g gg .x 2 g5 .g
9 e3 −0.
2G6G12Bx.P
2
9G2 312G3G 2
1 50 293
355.GG2
G
A8.
8 C4G S16
C 3
6 9
2NP
881
G6PG
.GG
A
5
5 92
5
1 47
GG8
P C0 G .
2
36
4
6
G 029
7
A G
G19
9
4
G
4
7
G
1
2 38
41B CA 4
2G .15 3G
4G
2 G05G1
3A
x6PxG 35
25 N3 G19.72 1027.G
G2B43G2
−1
03G 2S5 6G 1 G3 70
1
7
56 859CA A P51G 4 9S9P 22
NC 43036 C81
666133 8G.52
1 GP 1.421
05
86G 7 TP640.g
43 12
9G1 0G8
764
G2 06
9
G
181G1 41 C3A2
893 A 14
47G PG
G9
1G G7 P G1
7 G 1A1G
1 6 5G8
1 8
4N33 N
5
678
5 .
2.21 1
0
8 GCA
G56G 6 G
8 P .
35
1G G3
G
4 G5
A
5 7 N G342C. G93
0 183 0GA GG 9
G 6 5
20
57 .
8 51G
G G
CAPAN1.
G2 16
1 G 1
431 N
G P G841
3 G
1 .
1G5 G x126 10
2 G 1 3 5
60
G 1
. 5
G8 1
563G 39 G N 0
CAPAN2.1.
876 96 P 44 2 34 2
.
6GG13
5G65
452 162
4G3
1 1G196
2G .6 1 5
35 GC 5
. 45
42.G 54AG
3 2
2298 2. 5G 20G
3G3
632G9
G 10
G G 114 .143 675 64G 5
6.05 3
2 51
7.4G2867
78957G7 1b G G40
71 2.5
395G1G
2P5
4 G5
G 114
G1961228
.
4472
6
2517i
53
2
G
A 83
1G 5
3G
28
Gs.N
16
195 8250
G170
2
4
4 3
861
9 7 4G 670
5 87
−0.
44 040.G
1 2
G 4G
0.9 3834
P
0 C
.755
G25 0973 8.3 C.2 172 725G03.0
621 7
3 1G723676
G30
.G1.16.
4
6G2 4067G
178 4121G7
289 83 621
G. 544
0 948
2561.2.
26
9669P5 3.G527
5
G690
31 6G
2
2 2G 261 27
G531 3 2G7
G94G6676 GN
81G. 2
3 3
2 8 19 4 0 2 7 6
2
1
. 515253
0673 4 G1G 919
45 0 415G
60103G6 15
2G 12 344686G 3
2 0 5G
85G7 G929156 G 3G6 976 G1147666G9
5176 073 5.2.91 751
7 40185796 53G1G 3603 625 9296 71G2 8291
754 34G4G
4530
− 16826 4GG97G21.6 0 469480641
618786 2
085G13 725242837G620G860 0
.0G3828G6.
1G798686549087370 PC1
6 95
FIG. 3.11 – Pancre´as : ACP du tableau mesurant les expressions de 871 ge`nes (variables centre
´es) sur 65 e´chantillons biologiques.
8. DONNE´ ES D’EXPRESSION 51
2
0
1
0
0
−1
0
PC1 PC7 PC13 PC20 PC27 PC34 PC41 PC48 PC55 PC62
FIG. 3.12 – Pancre´as : Distribution des composantes principales dans l’ordre de´croissant de leur
variance. Quatre composantes ou dimensions semblent pertinentes a` retenir sur les 65
initiales (pas 871) qui est le rang de la matrice diagonalise´e.
52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
−0. 0. 0. 0.
2 0 2 4
1
5
G53
0.
4
1
G170
G19
1
0
G16 6
9G1G28
CAPAN2.1. G52 G527
0.
CCA194 P A N
2
5 G17
G6C5 AA PPG A CN
5
CACC ANP SN A
PSA P PP TGP562
[Link].3. .
PC2
HT29.3.
G152 1CP3N21A. 410.g
7 G685
P3A A1N
Bx.PC3.4.1. 1
C 2 1 9 .
1 C AA PNB Ax .PN C 3 . 1
B x. 2P. C 3. 2 .
BAxPA .NHPT
.SHP CCTC 231219.5.29... G69
GGG .3.143
[Link]..Bx.PC3.4.2 ..2 G . .
2 . 2.T P225.g
TPTT5TPP54P110.3..2.31.g
.
0
0.
GG2127.8
23 .i3
3s.2.
0
1218 Hb5
1 .4.2NP29.2.
CT1 H2316 C. T P 5 4P4P443020..4
3
G484
G1
SW4
7682
9
2 HCS
82W0. STW 28S.1
M 1WM6WG1MTII 6PTT 7G67
S 4
P A.2GNG.1C190 G13 0 .2. G2T382P440
3525GeG G67
.5.e7g..gGxxg.0g6
SW62
T21.11016.2 1g .g 02G3.1 e
CAC 2 6OACI6A 2A62
0.C.A .1S.
.1 2.0O
2
3W 21.214..2
5 8.6 gx92
19.21. 6 ACSW M2 C.O .I1.
−5
SW 48 g 5
692 6 e 92x
G690
01.12.3 PancNo
7 1 8rrm
G691 GG618786
−0.
8G18
00.1.2
2 3.A.[Link].31..22.
2
PancNorm1
4
K562.1AG270 G125 2AB G198
GK557K61252.622
K562.1A
−1
7
0
1 A.243A2
G719
−1 −5 0 5 1 1
0 0 5
PC1
FIG. 3.13 – Pancre´as : Repre´sentation dans le premier plan des 46 ge`nes contribuant le plus à
la de´finition des 4 premiers axes.
Bien e´videmment, cette dernie`re distinction est la plus inte´ressante et ouvre des pistes de
re- cherches cible´es sur ces ge`nes. Ne´anmoins, l’introduction des ligne´es cellulaire semble
apporter une contribuation inte´ressante sous la forme d’une “calibration” des anbalyses.
D’autres approches sont possibles qu’il serait inte´ressant de comparer pour apporter ainsi
plus de ”confiance” dans l’analyse des re´sultats. Des tests lie´s à un mode`le d’analyse de
variance plus ou moins sophistique´ (a` effet ale´atoire) ou la recherche d’un mode`le susceptible
de discriminer au mieux certains facteurs. Le choix des ge`nes s’apparente, dans ce dernier
cas, a` un choix de variables en re´gression ; les foreˆts ale´atoires de Breiman (2001) ou d’autres
me´thodes issues de la the´orie de l’apprentissage (cf. Besse, 2003 pour une introduction)
semblent apporter des re´ponses inte´ressantes. Cela sort du strict cadre exploratoire de ce cours.
0.4
0.3
Variances
0.2
0.1
0.0
FIG. 3.14 – Souris : e´boulis des dix premie`res valeurs propres de l’ACP.
dans le premier plan principal, ensuite dans celui correspondant aux dimensions 1 et 3.
Dans le cadre de cette ACP, il est cohe´rent de rechercher quels sont les 25% des ge`nes
contribuant le plus a` la de´finition de l’espace propre a` trois dimensions juge´ pertinent. Avec
cette se´lection, la repre´sentation des variables ainsi restreinte a` 30 ge`nes est plus facilement
lisible sur les fi- gures 3.15 et 3.16. Toutefois, dans le cas d’une puce pange´nomique, avec
potentiellement plusieurs milliers de ge`nes, une telle repre´sentation ne serait pas exploitable.
Le premier plan (Fig. 3.15) doit eˆtre interpre´te´ globalement puisque sa premie`re
bissectrice se´pare exactement les souris WT des souris PPAR. Les ge`nes à coordonne´es ne
´gatives sur l’axe 1 et positives sur l’axe 2 sont sensiblement plus exprime´s chez les souris WT,
en particulier CYP3A11, CYP4A10, CYP4A14, THIOL, PMDCI, GSTpi2, [Link] et FAS. A`
l’inverse, les ge`nes à forte coordonne´e ne´gative sur l’axe 2 s’expriment davantage chez les
souris PPAR, par exemple, S14, PAL et CAR1. Ceci est en partie connu des biologistes
(Aoyama et al., 1998).
Le phe´nome`ne le plus marquant concernant l’axe 3 (Fig. 3.16) est l’opposition, chez les
souris WT, entre les re´gimes dha (1), dont les coordonne´es sont toutes positives, et efad
(2), dont les coordonne´es sont toutes ne´gatives. Les ge`nes les plus exprime´s dans le premier
cas (re´gime dha chez les souris WT) sont CYP3A11, CYP4A10, CYP4A14, CYP2c29 et
CAR1 ; dans le second cas (re´gime efad chez les meˆmes souris), il s’agit des ge`nes FAS,
S14, Lpin et Lpin1. Parmi ces re´gulations, on note une opposition entre les CYP4A, connus
pour eˆtre implique´s dans le catabolisme des acides gras, et les ge`nes FAS et S14 implique´s eux
dans la synthe`se des lipides. Par ailleurs, la re´gulation de CYP3A11 par le DHA a de´ja` e´te´ de
´crite dans Berger et al. (2002).
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
1.
5
CYP3A11
1.
0
0.
2
3 5 4 PMDCI GSTpi2
1 31 3 CTYHYPIPO
4 [Link]
2 4LA104
0.
5
FAS GG6SPTa
5 mHMGCPECI
1 4 1 AoOAX
Dimension
Dimension
S smeu
BGIEK
0.
5
0
1 1
3 2 4 N HMGCoAred
CLYPPK2c2
0.
54
0
5 51 9
2 4 12 cHMGCoMACSACDOT
3 ANGFiB
CLLSpCpTHi2ni
2
2 RPn1a1
2 3 5 4
−0.
3
2
3
2
−1.
0
4 2
−0.
4
−1.
5
−1.5 −1.0 0.0 0.5 1.0 1.5 −0.4 −0.2 0.0 0.2
−0.5
Dimension Dimension 1
1
FIG. 3.15 – Repre´sentations de l’ACP sur le premier plan principal. A` gauche : individus-
souris identifie´s par leur ge´notype (WT en gras, PPAR en italique) et leur re´gime (1-dha, 2-
efad, 3-lin
, 4-ref, 5-tsol). A` droite : 30 variables-ge`nes qui contribuent le plus aux trois premiers axes.
9. EXEMPLE : NUTRITION CHEZ L A SOURIS 55
CYP4A14
1.
5
1.
0.
0
CYP4A10
2
1 1 CYP3A11 CYP2c29 CAR1
1 MCAACDOT
3
0.
mHMGPCEoCAISGSHSTHp
5
P
MD
CIGB SE T m
3 5 5 I
A O N Xu
3 P2i 1 G6PasePAL
NGFiB
0.
Dimension
Dimension
TRa
0
1 2 34
3 3
2 3 1 2 [Link]
5 1
0.
0
4 4
5 2 1 P
LAPCK
4 5
4 cHHMMGGCCoo
3
GKC2
1 4
−0.
35
−0.
4 AASred
2 Lpin1
2
Lpin
5
2 4
2
S14
−1.
2
0
−0.
4
−1.
FAS
5
−1.5 −1.0 0.0 0.5 1.0 1.5 −0. −0. 0.0 0.2
−0.5 4 2
Dimension Dimension
1 1
FIG. 3.16 – Repre´sentations de l’ACP sur le plan compose´ des axes principaux 1 et 3 avec les
meˆmes conventions que pour la figure 3.15.
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4
Analyse Factorielle Discriminante
1 Introduction
1. Donne´es
Les donne´es sont constitue´es de
• p variables quantitatives X 1 , . . . , X p jouant le roˆle de variables explicatives comme
dans le mode`le line´aire,
• une variable qualitative T , a` m modalite´s {T1, . . . , T m }, jouant le roˆle de variable a`
expli- quer.
La situation est analogue a` celle de la re´gression line´aire multiple mais, comme la variable
expliquer
a` est qualitative, on aboutit a` une me´thode tre`s diffe´rente.
Σ Les variables sont observe´es
sur
l’ensemble Ω des n individus affecte´s des poids wi > , ( ni= 1 wi = 1), et l’on pose
0
D = diag(wi ; i = 1, . . . , n).
1.2 Objectifs
Deux techniques cohabitent sous la meˆme appellation d’analyse discriminante :
descriptive : cette me´thode recherche, parmi toutes les ACP possibles sur les variables X j ,
celle dont les repre´sentations graphiques des individus discriminent “au mieux” les m
classes engendre´es par la variable T (e.g. recherche de facteurs de risque en statistique me
´dicale) ;
de´cisionnelle : connaissant, pour un individu donne´, les valeurs des Y j mais pas la modalite´
de T , cette me´thode consiste a` affecter cet individu a` une modalite´ (e.g.
reconnaissance de formes). Cette me´thode est de´crite dans la partie mode´lisation de ce
cours. 57
58 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE
Remarque. — Lorsque le nombre et les caracte´ristiques des classes sont connues, il s’agit
d’une discrimination ; sinon, on parle de classification ou encore, avec des hypothe`ses sur les
distribu- tions, de reconnaissance de me´langes.
1.3 Notations
On note X la matrice (n × p) des donne´es quantitatives, G la matrice (m × p) des
des barycentres
classes :
g1 '
−1 1 Σ
G = D T' DX = .. ou` g l = wi xi ,
w l
gm ' i∈ΩÆ
X = X r + Xe
avec
X r = X — X e et X e = X e — 1 n x ' .
On note e´galement G la matrice centre´e des barycentres :
G = G — 1 m x '.
' ' Σm
S e = G D G = X eD X e = wl (gl — x)(gl —
x)'. l=1
S = Se + S r .
2 De´finition
1. Mode`le
Dans l’espace des individus, le principe consiste a` projeter les individus dans une
direction permettant de mettre en e´vidence les groupes. A` cette fin, Il faut privile´gier la
variance interclasse au de´triment de la variance intraclasse conside´re´e comme due au bruit.
3. RE´ ALISATION DE L’AFD
59
En ACP, pour chaque effet z i a` estimer, on ne dispose que d’une observation x i ; dans le
cas de l’AFD on conside`re que les e´le´ments d’une meˆme classe Ω l sont les observations re´pe´te
Σ
´es n l fois du meˆme i ; i =z l 1,
{x effet . . . , n},parn w
ponde´re´ l =
vecteurs Ω Æ wi. Le mode`le
i ∈inde´pendants de devient donc :
E, E ( ε i ) = 0, var(ε i ) = Γ,
∀l, ∀i ∈ Ω l , x i = z l + ε i
Γ re´gulie`re et (4.1)
avec
I A q , sous-espace affine de de dimension inconnue, q de E tel que
∀l, z l ∈ A q , (q < min(p, m — 1)).
Σ m
Remarque. — Soit z = l = 1 w l z l . Le mode`le entraˆıne que z ∈ A q . Soit E q le sous-espace
dimension q de E tel que A q =dez + E q . Les parame`tres a` estimer sont E q et {z l ; l = 1, . . . ,
w
m}l est
; un parame`tre de nuisance qui ne sera pas conside´re
´.
2.2 Estimation
L’estimation par les moindres carre´s s’e´crit ainsi :
, ,
Σ m Σ 2
min wi xi — l M ; dim(Eq ) = q, z l — z ∈ E q .
,
Eq,zÆ , Æz
l = 1 i∈Ω
Comme on a
Σm Σ 2
Σm Σ Σm
wi x i — l M = wi x i — gl 2M + l g l — zl 2
M ,
l=1 i∈ΩÆ z l=1 i∈ΩÆ w l=1
on est conduit a` re
´soudre : ( )
Σm 2
min w l gl — zl M ; dim(Eq ) = q, z l — z ∈ E q .
E q ,z Æ
l=1
P ROPOSITION 4.2. — L’estimation des parame`tres E q et z l du mode`le 4.1 est obtenue par
l’ACP de (G, Sr−1, D). C’est l’Analyse Factorielle Discriminante (AFD) de (X|T, D) .
3 Re´alisation de l’AFD
Les expressions matricielles de´finissant les repre´sentations graphiques et les aides a`
l’in- terpre´tation de´coulent de celles de l’ACP.
60 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE
1. Matrice a` diagonaliser
L’ACP de (G, Sr−1, D) conduit a` l’analyse spectrale de la matrice positive Sr−1-syme´trique :
G ' D GS r − 1 = S e S r −1 .
Comme Sr−1 est re´gulie`re, cette matrice est de meˆme rang que S e et donc de meˆme rang que
G qui est de dimension (m × p). Les donne´es e´tant centre´es lors de l’analyse, le rang de la
matrice a` diagonaliser est
h = rang(SeSr−1) ≤ inf(m — 1, p),
qui vaut en ge´ne´ral m — 1 c’est-a`-dire le nombre de classes moins un.
On note λ 1 ≥ · · · ≥ λ h > 0 les valeurs propres de S e S r −1 et v 1 , . . . , v h les
vecteurs propresSr−1-orthonorme´s associe´s. On pose
Les individus initiaux sont projete´s comme des individus supple´mentaires dans le syste`me
des axes discriminants. Comme en ACP, on peut calculer des cosinus carre´s pour pre´ciser la
qualite´ de repre´sentation de chaque individu.
Il est utile de diffe´rencier graphiquement la classe de chaque individu afin de pouvoir appre
´cier visuellement la qualite´ de la discrimination.
4. Interpre´tations
Les interpre´tations usuelles : la norme est un e´cart-type, un cosinus d’angle est un
coefficient de corre´lation, doivent eˆtre faites en termes d’e´carts-types et de corre´lations
explique´es par la partition.
La repre´sentation des variables est utilise´e pour interpre´te´e les axes en fonction des variables
j
initiales
La Σ e− 1 e´tant la matrice
matriceconjointement avec ladiagonale
matrice des
dese´carts-types
corre´lationsexplique´s eσ c’est-a`-dire
explique´es variables×facteurs
des :
Σ e VΛdes .e´le´ments diagonaux de la matrice Se .
racines
carre´es
− 1 1 / 2
T . Si ce n’est pas le cas, l’AFD ne sert a` rien, les X j n’expliquent pas T . Dans le cas
favorable, le graphique des individus permet d’interpre´ter la discrimination en fonction des axes
et, celui des variables, les axes en fonction des variables initiales. La synthe`se des deux permet
l’interpre´tation de T selon les X j .
4 Variantes de l’AFD
1. Individus de meˆmes poids
L’AFD peut eˆtre de´finie de diffe´rentes fac¸on. Dans la litte´rature anglo-saxonne, et donc
dans la version standard d’AFD du logiciel SAS (proce´dure candisc), ce sont les
estimations sans biais des matrices de variances “intra” (within) et “inter” (between) qui sont
conside´re´es dans le cas d’individus de meˆmes poids 1/n.
Dans ce cas particulier,
1 1
D = I n et D = n diag(n1 , . . . , nm ) ou` nl = l
n
card(Ω ) empiriques ont alors pour termes ge´ne´raux
et les matrices de covariances
:
(S)k = 1Σ k
j n (x ji — x j ) x i k — ,
n
i=1 ( x )
Σ m
1
(S e)kj = n l (glj — xj ) glk — k ,
n
l=1 ( x )
Σ m Σ
1
(S r )kj = (x ji — glj ) x ki — lk .
n
l = 1 i∈ΩÆ ( g )
Du point de vue de le Statistique infe´rentielle, on sait que les quantite´s calcule´es ci-dessus
ont respectivement (n — 1), (m — 1) et (n — m) degre´s de liberte´. En conse´quence, ce point
de vue est obtenu en remplac¸ant dans les calculs
n
S par S∗ S,
n—
= n
S ∗e = 1
B = S e,
m—
Se par n
S r par S ∗r = W = 1 Sr.
n—
m
Les re´sultats nume´riques de l’AFD se trouvent alors modifie´s de la fac¸on suivante
:
– matrice a` diagonaliser : = nm−−m1 S S −1 ,
Se∗Sr∗− e r
– valeurs propres : = nm−−m1 Λ,
q
– vecteurs propres : 1 Λ∗ n
= n−m V,
q
– repre´sentation des V = n−m
C,
q n
barycentres : ∗ n 1/2
= m−1 V Λ ,
– repre´sentation des variables : C
∗
= Σ −1 V Λ 1/2 .
e
– corre´lations variables-facteurs :
Ainsi, les repre´sentations graphiques sont identiques a` un facteur d’e´chelle pre`s tandis que
V ∗Λ ∗ 1 / 2
les parts de variance explique´e et les corre´lations variables-facteurs sont inchange´es.
Σ e ∗− 1V ∗Λ∗1/2
62 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE
PROPOSITION 4.3. — l’ACP de (G, Sr−1, D) conduit aux meˆmes vecteurs principaux que
l’ACP de (G, S − 1 , D). Cette dernie`re est l’ACP des barycentres des classes lorsque l’espace
des in- dividus est muni de la me´trique dite de Mahalanobis M = S − 1 et l’espace des
variables de la me´trique des poids des classes D.
5 Exemples
Ce chapitre est illustre´ par une comparaison des sorties graphiques issues d’une ACP et
d’une AFD. Les donne´es de´crivent trois classes d’insectes sur lesquels ont e´te´ re´alise´es 6
mesures ana- tomiques. On cherche à savoir si ces mesures permettent de retrouver la typologie
de ces insectes. Ce jeu de donne´es est tre`s “scolaire” mais il montre bien le roˆle joue´ par la me
´trique en AFD qui a tendance a` rendre les classes plus sphe´riques autour de leur barycentre.
Cette technique n’est pas tre`s adapte´e aux proble`mes lie´s aux donne´es d’expression. En
effet, le nombre de parame`tre discriminants y tre`s important et conduit le plus souvent a` un
proble`me d’inde´termination. Plus pre´cise´ment, avec le nombre de variables/ge`nes pre´sents, il
est toujours possible de trouver un ou des axes discriminants diffe´rents types d’e´chantillons
biologiques. Le proble`me est en fait mal pose´ (plus d’inconnues que d’e´quations). Une se
´lection drastique du nombre de ge`nes pre´alable à l’AFD doit donc eˆtre re´alise´e ; elle a e´te´ ici
conduite à la l’aide de la proce´dure discrim de SAS qui recherche avec un algorithme de
type backward les variables les plus discriminantes. Cela conduit aux re´sultats de la figure 5.
5. EXEMPLES 63
A 0
x
e
2
-
1
-
2
-
3
- - - - - 0 1 2 3 4
4 4 3 2 1
A x e
1
2
A
x 1
e
2 0
-
1
-
2
-
3 - 8 - 7- 6 - 5 - 4 - 3 - 0 1 2 3 4 5 6
2 - 1 7
A x e
-
4 1
FIG. 4.3 – Souris : premier plan factoriel de l’AFD. Repre´sentation des ge`nes participant le
plus a` la discrimination des re´gimes des souris sauvages.
FIG. 4.4 – Souris : premier plan factoriel de l’AFD. Repre´sentation des souris sauvages en fonc-
tion de leur classe de re´gime.
Chapitre 5
Positionnement multidimensionnel
1 Introduction
Conside´rons n individus. Contrairement aux chapitres pre´ce´dents, on ne connaˆıt pas les
obser- vations de p variables sur ces n individus mais dans certains cas les n(n — 1)/2 valeurs
d’un in- dice (de distance, dissimilarite´ ou dissemblance) observe´es ou construites pour chacun
des couples d’individus. Ces informations sont contenues dans une matrice (n × n) D. L’objectif
du position- nement multidimensionnel (multidimensional scaling, ou MDS, ou ACP d’un
tableau de distances) est de construire, a` partir de cette matrice, une repre´sentation euclidienne
des individus dans un espace de dimension re´duite q qui approche au “mieux” les indices
observe´s. Autrement dit, vi- suellement le graphique obtenu repre´sente en dimension (en ge´ne
´ral) 2 la meilleure approximation des distances observe´es entre les individus pouvant eˆtre des
ge`nes ou des e´chantillons biologiques.
Le principal inte´reˆt de cette technique est donc de pouvoir observer graphiquement le
meˆme ensemble de donne´es à travers diffe´rentes ”optiques” et meˆme d’en comparer les repre
´sentations ; chaque optique est de´finie par la fac¸on dont on mesure des distances ou
dissimilarite´s entre les objets.
Citons trois exemples typiques dans le cas spe´cifique de ge`nes de´crits par leurs
transcrits :
• chaque ge`ne est un vecteur dans un espace vectoriel muni de la distance euclidienne
clas- sique (racine de la somme des carre´s des e´carts). Le MDS ou ACP du tableau des
distances qui en de´coule est e´quivalent a` l’ACP dans laquelle les ge`nes sont les
individus (les lignes).
• On
√ Xcorre´le´s)
et X k seront
mesure d’inhibition
la dissimilarite´ entre deux ge`nes j par 1—cor(X j , X k ) faisant
me´canisme (fortement ne´gativement aussi
• intervenir
proches.
On la corre´lation
mesure la distance entre deuxline´aire de Pearson
ge`nes par ou j celle
1 — cor(X ,k X2robuste
) . Ellesur les rangs
ve´rifie, dans cede
Spearman.
cas, Lesquige`nes
les proprie´te´s co-re´gule´s
en font une distance (fortement
euclidienne. positivement
Co-re´gule´s corre´le´s)
ou inhibe´s, sont corre
les ge`nes tre`s
proches, les ge`nesouassocie´s
´le´s positivement dans unsont proches dans les repre´sentations graphiques.
ne´gativement
Exemple e´le´mentaire : Conside´rons un tableau contenant les distances kilome´triques par
route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces
valeurs sont range´es dans le triangle infe´rieur d’une matrice carre´e avec des 0 sur la diagonale.
La structure du re´seau routier, le relief, font que cette matrice de distances n’est pas
euclidienne qui, dans ce cas, correspondrait a` la distance a` ”vol d’oiseau”. Mais, comme le
montre le graphique issu d’un positionnement multidimensionnel, l’approximation euclidienne
en est tre`s proche.
Le MDS e´tant encore une technique factorielle, comme en ACP il est ne´cessaire de de
´terminer le nombre de dimensions fixant la taille de l’espace de repre´sentation. Le graphique
repre´sentant
65
66 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
hend
bres
lour
laba
40
bord roya
0
stma
ando toul nant renn
limo lema
0
caen
tour
perp leha
orle
roue
cp2
bour
clem
0
mon pari
t
amie
boul
cala
troy
−20
gren dijo
nice brux
gene
besa
cham nanc
−40
mleut
0
mul
h xze
bale
s
t
r
−80 −60 −40 −20 0 a 200 400
0 0 0 0
cp1
2 Distance, similarite´s
Rappelons quelques proprie´te´s et de´finitions e´le´mentaires mais basiques a` propos de la
notion de distance.
1. De´finitions
DE´ FINITION 5.2. — Une matrice de distance est dite euclidienne s’il existe une
configuration de vecteurs {x 1 , . . . , x n } dans un espace vectoriel euclidien E de sorte que
2
dkj = ⟨x j — xk , xj — k
x ⟩ .
2
On note A la matrice issue de D de terme ge´ne´ral dkj = dkj /2 et H la matrice de centrage :
—
H = I — 11'D,
qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1 dans l’espace
eucli- dien F des variables muni de la me´trique des poids.
PROPOSITION 5.3. —
• Soit D une matrice de distance et B la matrice obtenue par double centrage de la
matrice
A issue de D :
B = HAH' ,
alors D est une matrice euclidienne si et seulement si B est positive (toutes ses
valeurs propres sont positives ou nulles).
• Si la matrice de similarite´ C est positive alors la matrice de distance D de´duite est
eucli- dienne.
68 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
cov(X, Y ) = x ' Dy
σX = x D
x'Dy
cor(X, Y ) = .
x D y D
PROPOSITION 5.4. — La distance entre variables quantitatives d 2 (X, Y ) est encore le carre´
de la distance P x — P y D entre les projecteurs D-orthogonaux sur les directions engendre´es
par les vecteurs x et y.
Des indices de dissimilarite´ peuvent e´galement eˆtre de´finis pour un couple de variables
qualitatives (a` partir de l’indice de Tschuprow) ou pour une variable quantitative et une variable
qualitative (a` parti du rapport de corre´lation). Ils ont moins d’inte´reˆt pour des donne´es
d’expression et sont laisse´s de coˆ te´ .
1. Proprie´ te´ s
La solution est donne´e par les re´sultats (Mardia et col.79) ci-dessous :
Elle est donc positive et appele´e matrice des produits scalaires de la configuration centre´e.
• Re´ciproquement, si B est positive de rang p, une configuration de vecteurs admettant B
pour matrice des produits scalaires est obtenue en conside´rant sa de´composition
spectrale B = U ∆ U ' . Ce sont les lignes de la matrice centre´e X = U ∆ 1 / 2
qui fournissent les coordonne´es des vecteurs de la repre´sentation
euclidienne.
PROPOSITION 5.6. — Soit Y la matrice des donne´es habituelles en ACP. L’ACP de (Y, M ,
1/nI) fournit les meˆmes repre´sentations graphiques que le positionnement calcule´ a` partir de la
de distances de terme ge´ne´ral yi — yj M . Si C de´signe la matrice des composantes
matrice √
les coordonne´es principales sont nC.
principales,
alors
5 Donne´es d’expression
Une analyse en composantes principales (cf. chapitre 3) fournit un premier aperc¸u de
la repre´sentation de ge`nes relativement aux e´chantillons biologiques par l’interme´diaire d’un
biplot. Le but ici est de s’inte´resser aux e´ventuelles co-re´gulations ou inhibitions entre
ge`nes. Le cas e´che´ant, ceux-ci apparaˆıtront corre´le´s positivement ou ne´gativement.
Deux options sont possibles :
• utiliser une dissimilarite´ d’un moins la corre´lation rend proches deux ge`nes co-re´gule´s
et e´loigne deux ge`nes dont on peut conside´rer que l’un inhibe l’autre.
• utiliser un moins la corre´lation au carre´ rapproche deux ge`nes lie´s qu’il y ait co-re
´gulation ou inhibition.
En cas de proble`me de robustesse (valeurs atypiques) encore pre´sent apre`s transformation en
lo- garithme, remplacer la corre´lation line´aire de Pearson par celle sur les rangs de Spearman
peut s’ave´rer utile.
Dans l’exemple des donne´es d’obe´site´, plusieurs options sont possibles pour la repre
´sentation des ge`nes. La premie`re utilise l’ACP dans laquelle les ge`nes sont les variables. La
figue 5 montre une sorte d’effet taille. Les expressions de tous les ge`nes sont corre´le´es
positivement avec une direction particulie`re sans soute associe´e a` la ”taille” des cellules des
sujets.
Cette repre´sentation n’est donc pas ”optimale”, influence´e par un artefact relativement fort.
Une autre approche est pre´fe´rable. Le double centrage, en lignes et colonnes, implicitement
contenu dans le MDS, e´limine cet artefact.
Comme en ACP, un graphique repre´sentant la de´croissance des valeurs propres aide au
choix de la dimension. Dans le cas de la matrice calcule´e avec les carre´s des corre´lations, deux
dimen- sions, au moins dans une premie`re approche, s’ave`rent suffisantes (cf. figure 5-b). A la
vue de ces graphique (figure 5 et 5), seul le biologiste peut juger de la pertinence des re´sultats ;
il choisira, en connaissance de cause, le graphique le plus explicite.
D’autres repre´sentations sont possibles sous forme d’arbres. C’est l’objet du chapitre
suivant.
5. DONNE´ ES D’EXPRESSION 71
−5 0 5
X7
a7Xn2pX7ra2
0.
X15
5
piX32k
X52X583
aX 0da8nd6Xr1n
XX8 C X9 5X2X3i6d 8367e
0. X79alpha X 6XA2R9 X7
Xl5Xxr3a7
1 X70
X9 732 r2 2
5a X55
Comp.
7
X21
X49 cpX64
epbaprab angiopXtpea3nr
X
XX47 6
fo99X7 7X
3tx leptin
9 X11cbhfda
0
fatbpp1aX61cpt
psmXpX
0.
p gc 1 X a 7
8a 4n p 8sg itn1oom t gen
2
X24X73XX
X2 l1X
X19
95
Xn6ic6fX 666a12 hs3slrXe8
parg2 d
s 6 lpl b8 p
X31 g l u
38
XX5176 8X91
X 14 5 cy
−0.
p aX85 X
Xi 10 X58 3 5
X50 9 7 XX5 X438 1X1
316128
c8X28sX
12
XX980m cocxX94a44dX6X3X2X t 44X3
1
4 1
fabp
−5
c lo
u c X12 X p
p X82 28 hilin
X10X09 3XX6XX32 10 50d9ea3 4
40parcpX84
−0.
X5 X95 X34
3 4
2
Xpbm111
Comp.1
1.5
g
0.5
2 4 6 8 14
10
Inde
x
FIG. 5.3 – Obe´site´ : De´croissance des valeurs propres et choix de la dimension de l’espace dans
lequel rechercher une repre´sentation euclidienne des ge`nes la plus conforme à leurs distances
au sens de la corre´lation au carre´.
72 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
rac(1−cor^2)
ppara
0.4
cebpa
fabppmlepti
n
pparb
fatp1
adnr
0.2
cpdp3a6r
2
gtot
adnr1lxr
asp
a
pparg
2
fasangiotensinoge
lpl
cp2
n X11bhd
cpt1m
u
0.0
il6
2
fabp4 tnf
pdsep3a
brc
a
mccaodx4
apm1
FIG. 5.4 – Obe´site´ : repre´sentation des ge`nes en fonction de leur proximite´ au sens de
la corre´lation au carre´.
5. DONNE´ ES D’EXPRESSION 73
1−cor, k=2
0.8
pai1
0.6
sparc
0.4
foxc2
pde3b
pgc1a
fabp4
anp
0.2
mcad
0.0
cyclophsiglrilnuetb4p1c
Cidpe3
i
angiotensinoge
hsl
cpt1mun ak
alpha2AR
lpl asp lxra
pparg2
ppargto
−0.
ppar
cd3fa6s t
b adnra2dnr
2
fabfpatppm 1
1
lep
cebpa
tin anpra
ppara
−0.
4
FIG. 5.5 – Obe´site´ : repre´sentation des ge`nes en fonction de leur proximite´ au sens de
la corre´lation.
74 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
THB RXRb2
0.2
MCAD
YP3A11 CYP3A11 CYP3A11 Tpbeta
CYP4A10 IL.2 IL.o2B PON RXRFARg 1
X R
GSTpi2 CYP2c29
CAR1 CYP4A10 PMDACOI X CACP C16SRp PXR a
ACAT1PON VLDLr
OCTNAL2DPILSP
apoB RXRb2 CAR1
0.2
MCADACOTH PPARd BIEN
PMDCI SPI1.1 G6Pase
PECTIpalpha C16SR LXRb apoE Ra
MTHFRCGIMDSEDAR1
mHMGCGoSPATESmCIu Tpalpha LoCEE GST
mHMmGuCaopAoSE LCE
M.CPT1 RXRa .LBXARTa
i SIAT4c
G6PaseAOBXIEN CTSPI1.1 ApCbPaetpa CACP P PMPTAFHRXVgL
PMDCI [Link]
0.0
0.0
PexT1HM1a
BALDH3 CPCoP
TB2 ST cMOAT .l 26ShHA
PB
NT1
CURRC1aYPn2
i37b
[Link] L2FX X
XLAM BCYCRb
BRPTR
C
A PR 2A
O1OXb2r
D6RA2C cXC NT
L BaR i6
C
. .D1NRYfRoYSO
T
p
beMit.aB2XRA3B6
A b4 DLr PPexP1A1Raad THIOL CBYcP3 RL1p
MPCA
[Link]
1 6A3RAS PMMR 6R PDmRP MXCRL FX2CPD aCa
LdA4NA1D GPT
1YpH
R LIPDTR
FNLER2 1
THIOL BP2
X
HPNC LR SaB
CiE OY
OP BP27aA1CA bTC
G6 CT a IGT
FTR O
X
P CC R
Dimension
Dimension
Dimension
LN
AXhC Ba p A
UC .B
P
basX PS27PSR
c1A C2pl AOX
[Link] PY U 2VaM .ibg
1 FAB1S 3R
B
.I APSD
I
0.0
DH
ABCIEANT2 BACTcMOPA PT
gPoWF D 1 RK MDGRi.S1BAT
DRDTR.TSLLpin2 ER 2HP PSPI1A
11LDLr
RS 2ie
D
C c4b
C
U TBa YCi3 2 1
ff CBS GSTmu
PLTPAA FPAL R A b
NFS 3aI1
P S
P7 i3
Rn1b3apoA.I C AR
LXRa BcSl.H3P1
LPPC0KTYP8b1
g2424 pctN
SIAT4c
[Link]
CPT2 CYP26 CYP2L7pbi1n3
−0.2
HMGCoAreAdCC2
−0.5
2
2
GK cHMGCoAS THIOL HAPLNDCHL3 ACC1
−0.2
[Link] CRNAPYbOR2P aSbR U7 ALDH3 G6Pase BACT
[Link]
0.4
Lpin1 1aC0MR PSg3S1RB
.I
Lpin
MDRm2ABC1 [Link] oYSsaPXSf211b13VD PPA
CYP2c29
ACBP COPXD2K4 R [Link] GSTpi2
NGFiB HPNCL Ntcp ap2
BSECPYP27a1MRP6 apoC3 RARUbC2P2Ntcp GSTa U MC PS 3
CRYAPR2abV1DR RX R g
Lpin2 1
−0.4
CO
T PAL
MDRA2CAT2 i .NCOTYRSPb2 0
CYP7a
−1.0
ACBP X1 b13
S14 FDF n eCifY2Pg24 ACCC1OX2
BSEP MRP6 mABC1 [Link]
[Link] KP42
FAT
CYP27a1
3 FAT RAeRifCYP24
b 22g
G6PDH PAL
apoA.I
LCPYKP8 apoC
−0.6
−0.4
FAS FDFT i. FABP
b1 Lpin2
LDLr apoA.I
CYP8b1 G6PDH
−1.0 −0.5 0.5 −0.5
GK 0.0 n1 0.5 −0.6 −0.4 −0.2 0.0 0.2 0.4
0.0 ACC2
GKFAS
Dimension Dimension Dimension
1 PLTPLLpipi 1 LPK 1
LLppiin1
LDLr
FAS
HMGCcoHAMreGdCoAS
FIG. 5.6 – Souris : positionnement multidimensionnel des ge`nes sur les axes 1 et 2 selon 3
dis- tances diffe´rentes : distance euclidienne (d1 a` gauche), corre´lation (d3 au centre), corre
´lation carre´e (d2 a` droite).
autres ge`nes. Un cas typique dans notre exemple est celui de CAR1 dont l’ACP (ainsi, que la
ma- trice des corre´lations) a montre´ qu’il e´tait ne´gativement corre´le´s avec des ge`nes tels que
GSTpi2, CYP3A11, FAS... La position relative des couples de ge`nes ainsi obtenus change de
fac¸on impor- tante entre les deux graphiques. On observera en particulier le couple CAR1-
GSTpi2 totalement oppose´ sur l’axe 1 selon d3 et relativement proche selon d2 (tandis qu’il
pre´sente une opposi- tion moins marque´e selon d1). La surexpression du ge`ne CAR1 et la
sous-expression du ge`ne GSTpi2 chez les souris de´ficientes en re´cepteur PPARα n’a pas e´te´
de´crite et constitue l’un des re´sultats originaux de ce travail. L’e´tude d’un lien potentiel entre
ces deux modifications d’expres- sion ne´cessitera la mise en œuvre d’expe´riences comple
´mentaires.
D’une manie`re ge´ne´rale, on peut retenir que l’utilisation de la distance euclidienne tend
a` rapprocher des ge`nes dont les expressions sont proches. En revanche, les deux autres
indicateurs conside`rent que deux ge`nes sont proches si leur expression varie dans le meˆme
sens selon les conditions expe´rimentales. La corre´lation (d3) distingue les ge`nes corre´le´s ne
´gativement, ce que ne permet pas la corre´lation carre´e (d2) qui doit donc eˆtre utilise´e en
connaissance de cause.
Notons que la distance d1 est plus courante en statistique alors que d3 l’est davantage
dans les e´tudes relatives aux biopuces. Autant que possible une comparaison des trois
distances est recommande´e. On se re´fe´rera à Draghici (2003, chapitre 11) pour une discussion
plus de´taille´e sur le sujet.
76 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
Chapitre 6
Classification
1 Introduction
1. Les donne´es
Comme dans le cas du chapitre pre´ce´dent (MDS), les donne´es peuvent se pre´senter
sous diffe´rentes formes ; elles concernent n individus suppose´s affecte´s, pour simplifier, du
meˆme poids :
• un tableau de distances (ou dissimilarite´s, ou mesures de dissemblance), n × n, entre
les individus pris deux a` deux ;
• les observations de p variables quantitatives sur ces n individus ;
• les observations, toujours sur ces n individus, de variables qualitatives ou d’un me´lange
de variables quantitatives et qualitatives.
D’une fac¸on ou d’une autre, il s’agit, dans chaque cas, de se ramener au tableau des
distances deux a` deux entre les individus (c’est-a`-dire au premier cas). Le choix d’une matrice
de produit scalaire permet de prendre en compte simplement un ensemble de variables
quantitatives tandis que le troisie`me cas ne´cessite plus de de´veloppements ; il n’est pas pre´sente´
ici car de peu d’inte´reˆt pour des donne´es d’expression.
2. Les objectifs
L’objectif d’une me´thode de classification de´borde le cadre strictement exploratoire. C’est
la recherche d’une typologie, ou segmentation, c’est-a`-dire d’une partition, ou re´partition des
indivi- dus en classes, ou cate´gories. Ceci est fait en optimisant un crite`re visant à regrouper les
individus dans des classes, chacune le plus homoge`ne possible et, entre elles, les plus
distinctes possible. Cet objectif est à distinguer des proce´dures de discrimination, ou encore de
classement (en anglais classification) pour lesquelles une typologie est a priori connue, au
moins pour un e´chantillon d’apprentissage. Nous sommes dans une situation d’apprentissage
non-supervise´, ou en anglais de clustering1.
3. Les me´thodes
Un calcul e´le´mentaire de combinatoire montre que le nombre de partitions possibles
d’un ensemble de n e´le´ments croˆıt plus qu’exponentiellement avec n. Ainsi, pour n = 20, il
est de l’ordre de 1013. Il n’est donc pas question de chercher a` optimiser le crite`re sur toutes les
partitions
1
Faire attention aux faux amis franc¸ais / anglais : discrimination / classification (supervise´e) et classification / clus-
tering (non-supervise´e)
77
78 CHAPITRE 6. CLASSIFICATION
possibles. Les me´thodes se limitent a` l’exe´cution d’un algorithme ite´ratif convergeant vers
une “bonne” partition qui correspond en ge´ne´ral à un optimum local. Meˆme si le besoin de
classer des objets est tre`s ancien, seule la ge´ne´ralisation des outils informatiques en a permis
l’automatisation dans les anne´es 1970. Celeux et col. (1989) de´crivent en de´tail ces algorithmes.
Diffe´rents choix sont laisse´s a` l’initiative de l’utilisateur :
• une mesure d’e´loignement (dissemblance, dissimilarite´ ou distance) entre individus ;
• le crite`re d’homoge´ne´ite´ des classes a` optimiser : il est, dans le cas de variables
quantitatives, ge´ne´ralement de´fini a` partir de la trace d’une matrice de variances-
covariances ; soit les variances et covariances interclasses (la trace
correspond alors a` l’inertie de la partition), soit les variances et covariances
intraclasse ;
• la me´thode : la classification ascendante hie´rarchique et celle par re´allocation
dynamique sont les plus utilise´es, seules ou combine´es ;
• le nombre de classes : c’est un point de´licat.
Enfin, diffe´rents outils recherchent une interpre´tation, ou des caracte´risations, des classes
obte- nues.
On notera que les principes algorithmiques de ces me´thodes sont relativement e´le
´mentaires.
Classification ascendante hie´rarchique, ou CAH
Il s’agit de regrouper ite´rativement les individus, en commenc¸ant par le bas (les deux
plus proches) et en construisant progressivement un arbre, ou dendrogramme, regroupant
finalement tous les individus en une seule classe, à la racine (cf. figure 2 qui reprend les donne
´es e´le´mentaires du chapitre pre´ce´dent). Ceci suppose de savoir calculer, a` chaque e´tape ou
regroupement, la dis- tance entre un individu et un groupe ainsi que celle entre deux
groupes. Ceci ne´cessite donc, pour l’utilisateur de cette me´thode, de faire un choix supple
´mentaire : comment de´finir la distance entre deux groupes connaissant celles de tous les
couples d’individus entre ces deux groupes. Diffe´rents choix, appele´s saut en franc¸ais et
linkage en anglais, sont de´taille´s plus loin. Le nombre de classes est de´termine´ a posteriori, a`
la vue du dendrogramme ou d’un graphique repre´sentant la de´croissance de la hauteur de
chaque saut, ou e´cart de distance, ope´re´ a` chaque regroupement.
Classification par re´allocation dynamique
Dans ce cas, le nombre de classes, k, est fixe´ a priori. Ayant initialise´ k centres de
classes par tirage ale´atoire, tous les individus sont affecte´s a` la classe dont le centre est le
plus proche au sens de la distance choisie (en principe, euclidienne pour cette me´thode). Dans
une deuxie`me e´tape, l’algorithme calcule des barycentres de ces classes qui deviennent les
nouveaux centres. Le proce´de´ (affectation de chaque individu a` un centre, de´termination des
centres) est ite´re´ jusqu’a` convergence vers un minimum (local) ou un nombre d’ite´rations
maximum fixe´.
Classification mixte
La CAH ne´cessite impe´rativement la construction d’un tableau de distances n × n et
son stockage en me´moire ; le nombre maximum d’individus traite´s peut s’en trouver limite´. Ce
n’est pas le cas dans l’algorithme de re´allocation, d’ou` l’inte´reˆt possible d’une approche mixte
pour, a` la fois, classer de grands volumes de donne´es et se´lectionner le nombre de classes par
CAH.
Dans le cas plus spe´cifique de donne´es d’expression, et comme pour le chapitre pre´ce
´dent (MDS), le choix principal est celui de la distance (ou dissimilarite´) utilise´e. S’ajoute en
plus le choix du crite`re de saut en CAH et celui du nombre de classes (a priori avec la re
´allocation dyna- mique, ou a posteriori avec la CAH). La plupart des logiciels de´die´s a` ces
donne´es proposent une
2. ILLUSTRATION 79
4000
3000
Hauteu
r
2000
1000
5000
5 10 15
nb de
classes
FIG. 6.1 – Villes : De´croissance de la variance interclasses a` chaque regroupement dans le cas
du saut de Ward.
double CAH des lignes (ge`nes) et des colonnes (e´chantillons biologiques) dans une repre
´sentation graphique habilement colore´e.
2 Illustration
En guise de premie`re illustration sur les me´thodes de classification, nous reprenons l’e´tude
des meˆmes donne´es que dans le chapitre pre´ce´dent : un tableau contenant les distances kilome
´triques par route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes.
Toutes ces valeurs sont range´es dans le triangle infe´rieur d’une matrice carre´e avec des 0 sur
la diagonale. Il s’agit donc de regrouper au mieux ces villes, en tenant compte de leurs proximite
´s relatives au sens de cette distance routie`re.
saut de Ward.
metz
nanc
reim
troy
besa
dijo
stra
bal
e
mul
h
mar
s
nic
e
cha
m
gen
e
gre
n
lyo
n
hen
d
bord
roya
mont
perp
ando
lo
ur
to
ul
boul
cala
brux
lil
l
cae
n
che
r
leha
rou
e
ami
CHAPITRE 6. CLASSIFICATION
FIG. 6.2 – Villes : Exemple d’un dendrogramme issu de la classification des donne´es par CAH et
pari
b
r
e
s
ren
n
stm
a
lab
a
nan
t
2. ILLUSTRATION 81
hen
bre
lou d
s
r lab
40
bor roy
0
lim t ange r
0
cle
0
e roue
2
mon m r par
t i boul
cal
amie
lil
a
−20
nic m bru
n gen o
e bes x
e nanc
−40
cham a mul ex
0
tze
mba
ulleh stra
−80 −60 −40 −20 0 20 40
0 0 0 0 0 0
cp1
FIG. 6.3 – Villes : Repre´sentation des classes (couleurs) obtenues par CAH dans les coordonne
´es du MDS.
82 CHAPITRE 6. CLASSIFICATION
centres initiaux les barycentres des classes obtenues : on stabilise ainsi les classes.
Notons e´galement que l’exemple pre´sente´ ici est relativement simple et bien structure´.
Modi- fier le crite`re de saut ne change pas grand chose dans ce cas. Mais, attention, il est facile
de ve´rifier expe´rimentalement qu’une classification ascendante est un objet tre`s sensible. En
effet, il suffit de modifier une distance dans le tableau, par exemple de re´duire sensiblement la
distance de Grenoble à Brest, pour que la classification (nombre de classes, organisation)
devienne tre`s sensible au choix du crite`re de saut. En revanche, la structure des donne´es fait
que la repre´sentation factorielle de l’ACP du tableau de distance (MDS) est tre`s robuste a` ce
type d’“erreur de mesure”.
3 Mesures d’e´loignement
Ω × Ω diffe´rentes { i = 1,d’e´loignement
Notons Ω =mesures . . . , n} l’ensemble des individus.
entre deux individus. Cette section se et
Les hypothe`ses propose de dee
proprie´te´s
de ´finirensurplus fortes.
´tant
plus
3. Indice de distance
Un indice de distance est, par de´finition, un indice de dissemblance qui ve´rifie de plus
la proprie´te´ :
d(i, j ) = 0 =⇒ i = j.
Cette proprie´te´ e´vite des incohe´rences pouvant apparaˆıtre entre dissemblances, par
exemple :
4. Distance
Une distance sur Ω est, par de´finition, un indice de distance ve´rifiant en plus la proprie
´te´ d’ine´galite´ triangulaire. Autrement
d(i, j) = d(j,dit,
i), une j ) ∈ Ω ×d Ω
∀(i,distance est; une application de Ω × Ω dans
IR+ ve´rifiant :
d(i, i) = 0 ⇐⇒ i = j ;
d(i, j) ≤ d(i, k) + d(j, k), ∀(i, j, k) ∈ Ω3.
5. Distance euclidienne
Dans le cas ou` Ω est un espace vectoriel muni d’un produit scalaire, donc d’une norme,
la distance de´finie a` partir de cette norme est appele´e distance euclidienne :
La condition pour qu’une matrice donne´e de distances entre e´le´ments d’un espace
vectoriel soit issue d’une distance euclidienne est explicite´e dans le chapitre pre´ce´dent. Toute
distance n’est pas ne´cessairement euclidienne ; voir, par exemple, celle construite sur la valeur
absolue.
6. Utilisation pratique
Concre`tement, il peut arriver que les donne´es à traiter soient directement sous la forme
d’une matrice d’un indice de ressemblance ou de dissemblance. Il est alors facile de la
transformer en une matrice de dissemblances norme´es avant d’aborder une classification.
Nous pre´cisons ci-dessous les autres cas.
Donne´es quantitatives
Lorsque les p variables sont toutes quantitatives, il est ne´cessaire de de´finir une matrice M
de produit scalaire sur l’espace IRP . Le choix M = Ip, matrice identite´, est un choix e´le
´mentaire et courant ; mais il est vivement conseille´ de re´duire les variables de variances he´te
´roge`nes, comme en ACP, ce qui revient a` conside´rer, comme matrice de produit scalaire, la
matrice diagonale compose´e des inverses des e´carts-types :
1
M = Σ − 1 = diag (σ1 · · · σp ).
1
Donne´es qualitatives
Dans le cas tre`s particulier ou` toutes les variables sont binaires (pre´sence ou absence de
ca- racte´ristiques), de nombreux indices de ressemblances ont e´te´ propose´s dans la litte´rature.
Ils ne sont pas de´taille´s dans le cadre d’un cours spe´cifique aux donne´es d’expression.
7. Bilan
Une fois ces pre´liminaires accomplis, nous nous retrouvons donc avec
• soit un tableau de mesures quantitatives n × p, associe´ a` une matrice de produit
scalaire
p × p (en ge´ne´ral Ip) de´finissant une me´trique euclidienne,
•soit directement un tableau n × n de dissemblances ou de distances entre individus.
Attention, si n est grand, la deuxie`me solution peut se heurter rapidement a` des proble`mes
de stockage en me´moire pour l’exe´cution des algorithmes.
A` chaque e´tape de l’algorithme, il est ne´cessaire de mettre à jour le tableau des distances
(ou des dissemblances). Apre`s chaque regroupement, de deux individus, de deux classes ou
d’un in- dividu a` une classe, les distances entre ce nouvel objet et les autres sont calcule´es et
viennent remplacer, dans la matrice, les distances des objets qui viennent d’eˆtre agre´ge´s. Diffe
´rentes ap- proches sont possibles a` ce niveau, donnant lieu a` diffe´rentes CAH.
Notons A et B deux classes, ou e´le´ments, d’une partition donne´e, w A et w B leurs ponde
´rations, et d i , j la distance entre deux individus quelconques i et j.
Le proble`me est de de´finir d(A, B), distance entre deux e´le´ments d’une partition de Ω.
Cas d’une dissemblance
Les strate´gies ci-dessous s’accomodent d’un simple indice de dissemblance de´fini entre
les individus. Elles s’appliquent e´galement à des indices plus structure´s (distance) mais n’en
utilisent pas toutesles proprie´te´s.
d(A, B ) = min (d i j ) (saut minimum, single linkage),
i∈A,j∈B
d(A, B ) = sup (d i j ) (saut maximum ou diame`tre, complete
i∈A,j∈B linkage),
1 Σ
d(A, B ) = di j (saut moyen, group average
card(A)card(B)
i ∈ A , j ∈ B linkage).
5. AGRE´ GATION AUTOUR DE CENTRES MOBILES
85
3. Algorithme
ALGORITHME 6.1 :
4. Graphes
Les graphes obtenus à l’issue d’une CAH ont e´te´ pre´sente´s et illustre´s dans le paragraphe
2. Il s’agit du graphique d’aide au choix du nombre de classes et du dendrogramme.
i. Chaque individu est affecte´ a` la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constitue´es.
2. Principale me´thode
Il s’agit de la me´thode (kmeans) propose´e dans Forgy (1965).
ALGORITHME 6.2 :
• Initialisation Tirer au hasard, ou se´lectionner pour des raisons exte´rieures a`
la me´thode, k points dans l’espace des individus, en ge´ne´ral k individus de l’ensemble,
appele´s centres ou noyaux.
• It´erer les deux e´tapes suivantes, jusqu’a` ce que le crite`re de variance interclasses
ne croisse plus de manie`re significative, c’est-a`-dire jusqu’a` la stabilisation des
classes.
i. Allouer chaque individu au centre (c’est-a`-dire a` la classe) le plus proche au sens
de la me´trique euclidienne choisie ; on obtient ainsi, a` chaque e´tape, une
classification en k classes, ou moins si, finalement, une des classes devient vide.
ii. Calculer le centre de gravite´ de chaque classe : il devient le nouveau noyau ; si une
classe s’est vide´e, on peut e´ventuellement retirer ale´atoirement un noyau comple
´mentaire.
3. Proprie´ te´ s
Convergence Le crite`re (la variance interclasses) est majore´ par la variance totale. Il est
simple de montrer qu’il ne peut que croˆıtre a` chaque e´tape de l’algorithme, ce qui en
assure la convergence. Il est e´quivalent de maximiser la variance interclasses ou de
minimiser la va- riance intraclasse. Cette dernie`re est alors de´croissante et minore´e par 0.
Concre`tement, une dizaine d’ite´rations suffit ge´ne´ralement pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, c’est-a`-dire que la re´partition en
classes de´pend du choix initial des noyaux. Plusieurs exe´cutions de l’algorithme permettent
de s’as- surer de la pre´sence de formes fortes, c’est-a`-dire de classes, ou partie de classes,
pre´sentes de manie`re stable dans la majorite´ des partitions obtenues.
4. Variantes
Algorithme kmeans
Il s’agit d’une modification de l’algorithme pre´ce´dent, propose´e par Mac Queen (1967).
Les noyaux des classes, ici les barycentres des classes concerne´es, sont recalcule´s a` chaque
alloca- tion d’un individu a` une classe. L’algorithme est ainsi plus efficace, mais il de´pend de
l’odre des individus dans le fichier.
Nue´es dynamiques
La variante propose´e par Diday (1971) consiste a` remplacer chaque centre de classe par
un noyau constitue´ d’e´le´ments repre´sentatifs de cette classe. Cela permet de corriger
l’influence d’e´ventuelles valeurs extreˆmes sur le calcul du barycentre.
Partitionning Around Medo¨ıds
Cet algorithme, propose´ par Kaufman & Rousseeuw (1990), permet de classifier des donne
´es de fac¸on plus robuste, c’est-a`-dire moins sensible a` des valeurs atypiques. Il permet e
´galement de
5. AGRE´ GATION AUTOUR DE CENTRES MOBILES 87
hen
bre
lou d
s
r lab
40
bor roy
0
and tou a stm
d a ren
o l nant n a
poi ang che
20
lim t e r
0
cle
0
e
par roue
2
mon m r
t i amie boul
cal
lil
a
−20
nic m bru
n gen o
e bes x
e nanc
−40
cham a mu l ex
0
tze
mba
ulleh stra
−80 −60 −40 −20 0 20 40
0 0 0 0 0 0
cp1
FIG. 6.4 – Villes : Repre´sentation des classes (couleurs) obtenues par PAM dans les coordonne
´es du MDS.
traiter des matrices de dissimilarite´s. Les re´sultats sont fournis dans la figure 5.4, pour lequels
le nombre de classe est fixe´ a priori a` 5, comme le sugge`re la CAH, mais pour lesquels les
classes obtenues sont sensiblement diffe´rentes.
5. Combinaison
Chaque me´thode pre´ce´dente peut eˆtre plus ou moins adapte´e a` la situation rencontre´e.
La classification hie´rarchique, qui construit ne´cessairement la matrice des distances, n’accepte
qu’un nombre limite´ d’individus ; de son coˆte´, la re´allocation dynamique ne´cessite de fixer
a priori le nombre de classes. La strate´gie suivante, adapte´e aux grands ensembles de donne
´es, permet de contourner ces difficulte´s.
TP3.125.
TP3.225.
g
TP3.325.
gTP640.
gTP225.
g
TP540.g3e
g
TP540.g2e
xTP240.
x
TP1.225.
g
TP1.125.
g
TP1.325.
g
TP440.g3e
g
TP440.g2e
xPancNorm
x
PancNorm2
1
PancNorm2
B
CAPAN1.1.
A
CAPAN2.1.
CAPAN2.2.
CAPAN2.3.4.
CAPAN2.3.3.
CAPAN2.3.2.
CAPAN1.2.
CAPAN1.3.4.
CAPAN1.3.3.
CAPAN1.3.2.
K562.2A
K562.2A
2
K562.2A
4
K562.1A
3
K562.1A
1
SW480.1.
2
SW480.1.
3
SW480.2.
2
SW480.2.
1
ASPC1.2bis.
2
ASPC1.2.
ASPC1.1.
MIA.1.
MIA.3.2
MIA.3.4
.MIA.3.3
.
NP29.2
.
NP29.1
.Bx.PC3.1.
.Bx.PC3.2.
Bx.PC3.4.1
Bx.PC3.4.2
.Bx.PC3.5.
.
CACO2.1.1
CACO2.1.2
CACO2.2
PANC1.2.
PANC1.1.
SW620.1.
SW620.1.
1
SW620.1.
2
SW620.2.
3
SW620.2.
2 HCT116.
1
HCT116.1.
2
HCT116.1.
2
HT29.3.
1
HT29.3.
1
HT29.
2
4
6G88
4G39
4G65
5G23
G19
G67
G13
G12
G70
G71
G57
G19
G19
G18
G11
G48
G12
G18
G27
G27
G31
G19
G16
G12
G15
G69
G68
G17
G69
G67
G56
G56
G57
G71
G69
G66
G67
G69
G68
G17
G53
G52
G52
G17
G52
G19
8
4
8
5
7
9
1
9
1
4
2
5
3
2
3
9
8
2
0
8
6
1
8
2
9
0
8
5
9
1
2
5
7
1
7
0
1
6
6 Donne´es d’expression
Pour ce type de donne´es, les biologistes appre´cient particulie`rement de construire une
double classification hie´rarchique ope´rant a` la fois sur les lignes et sur les colonnes. Une repre
´sentation en fausses couleurs fournit une lecture susceptible de prendre en compte les
“distances” respec- tives des lignes (ge`nes) d’une part et des colonnes (e´chantillons
biologiques) d’autre part, et de se faire ainsi une ide´e des ge`nes pouvant influencer la hie
´rarchie obtenue pour les e´chantillons. Ne´anmoins, cette lecture, meˆme en se limitant à une se
´lection des ge`nes propose´s par l’analyse en composantes principales (chapitre 3), n’est pas tre`s
aise´e (figure 6).
Le choix de la distance est pre´ponde´rant dans les re´sultats d’une classification. Les figure 6
et 6 fournissent les dendrogrammes de la CAH dans le cas d’une dissimilarite´ calcule´e a`
partir de la corre´lation et dans celui d’une distance base´e sur la corre´lation au carre´. Comme
pour le MDS (chapitre pre´ce´dent), c’est au biologiste de choisir la ou les repre´sentations
aidant au mieux sa compre´hension des re´gulations et/ou inhibitions entre ge`nes.
Comme pour les donne´es conside´rant les distances entre villes, il serait facile de coupler
pour
6. DONNE´ ES D’EXPRESSION 89
FIG. 6.6 – Obe´site´ : Classification ascendante hie´rarchique des ge`nes avec saut de
Ward conside´rant la corre´lation.
90 CHAPITRE 6. CLASSIFICATION
FIG. 6.7 – Obe´site´ : Classification ascendante hie´rarchique des ge`nes avec saut de
Ward conside´rant le carre´ de la corre´lation.
7. EXEMPLE : NUTRITION CHEZ L A SOURIS 91
les donne´es d’expression une repre´sentation des classes par des couleurs dans le graphe du
MDS, ou encore de celui d’une ACP. Nous laissons au lecteur l’appre´ciation sur le nombre de
combinai- sons d’options possibles (centrage, re´duction, distance, crite`re de saut, projection,
classification) qui sont offertes par l’ensemble de ces outils.
qui apparaissent tous parmi les ge`nes les plus corre´le´s aux deux premiers axes principaux de
l’ACP (Fig. 3.15).
MDS et classification apparaissent donc comme des techniques comple´mentaires, mais
elles ne sont pas sensibles de la meˆme fac¸on aux perturbations. La perturbation d’une donne´e
peut for- tement influencer la structure d’un dendrogramme alors qu’en MDS, la prise en
compte conjointe de toutes les distances deux à deux assure une certaine robustesse pour le
calcul des coordonne´es principales. Pour cette raison, il est utile de repre´senter les classes dans
une projection sur des axes factoriels obtenus soit par MDS soit par ACP. L’e´boulis des valeurs
propres (Fig. 6.9) nous oriente vers une repre´sentation du MDS en deux dimensions.
92 CHAPITRE 6. CLASSIFICATION
PPAR −
efad PPAR
− efad
PPAR − ref
WT − efad
WT − efad
WT − efad
WT − dha
WT − dha
WT − dha
WT − dha
WT − tsol
WT − tsol
WT − lin
WT − lin
WT − lin
WT − lin
WT − ref
WT − ref
WT − tsol
WT − efad
WT − tsol
WT − ref
WT − ref
PPAR −
tsol PPAR
− tsol
PPAR − lin
PPAR − lin
PPAR − ref
PPAR − lin
PPAR − dha
PPAR − lin
PPAR − ref
PPAR − tsol
PPAR − tsol
PPAR −
efad PPAR
− efad
PPAR − dha
PPAR − dha
Pex11a
apoC3
X36b4
Bcl.3
Ntcp
mABC1
apoA.I
HMGCoAred
ALDH3
[Link]
OCTN2
GSTmu
acMOAT
VLDLr
[Link]
hABC1
ACAT1
apoB
ap2
Lpin
RXRg1
Waf1
RXRb2
SIAT4c
NURR1
GSTpi2
mHMGCoAS
ACOTH
THIOL
G6Pase
G6PDH
apoE
RARb2
M.CPT1
MDR1
CYP2c29
LDLr
cHMGCoAS
SPI1.1
MDR2
IL.2
CYP2b13
CYP2b10
CYP27b1
C16SR
S14
CYP27a1
TRb
ADSS1
MS
HPNCL
MCAD
[Link]
PMDCI
NGFiB
PDK4
AOX
LXRb
MTHFR
THB
CYP8b1
AM2R
GK
CYP26
CYP24
CIDEA
aMRP6
CAR1
3 GS
ACC1
CYP4A10
CYP4A14
CYP3A11
ACC2
COX2
VDR
COX1
CYP7a
[Link]
PON
SHP1
CPT2
TRa
UCP2
UCP3
LXRa
ADISP
LCE
RXRa
LPL
BIEN
CBS
BACT
LPK
PPARg
PPARd
FDFT
RARa
PXR
FXR
[Link]
gFAT
CACP
GSTa
PECI
[Link]
ACBP
PPARa
PAL
[Link]
1FAS
BSEP
Tpbet
Tpalph
eif2
PPAR − dha
Lpin
Lpin
Lpin
PLTP
s
PPAR − ref
8
6
4
2
14
0
1 2 3 4 5 6 7 8 9 10
Dimension
FIG. 6.9 – Souris : e´boulis des valeurs propres pour le MDS de la matrice de distance
euclidienne interge`nes.
7. EXEMPLE : NUTRITION CHEZ L A SOURIS 93
1.
0
CYP4A14
0.
CYP3A11
5
CYP4A10
GSTpi2 CYP2c29
CAR1
MCAADCOT
PMDCI PECI
mHMG H P
GCSoTAmS uTpalpha
G6Pase
ABBOIXEN
CTApCbaPeLCE ptoaEM
e.xTC1HP
ALDH3 CCPTB2S
1 aT1 cMO CAXYTLh PXCAC
0.
MR VA DPA MR
TC2
L6APRS
THIOL HPNACP
SPI1.1 BCCiSP
M.1
LY E P263
XPB27AaC1A
P A F
OATD B
[Link] ACGAcCi2
BoLpin2
[Link] Y.D O
CB1LRXNR6 O
pRYU
XP12fP
C
R ATRP
B C OL
RCRY
apoA.I D
D r
TS
1 P YR
aHPW
6MNa FapGR
B 2CRC TXLR
N
PAL
P AC
oU LbAFeC
T PPDI
cRbC FiTRCYid4Bf3RT
l2RS2.
o P S 2 OX MX
N P s 2 1 S
i.GFAb6P gLB1DbR
D Pb
a a 11aD40NRtc
27Vr fK
ASRLRNFLRCEI
UDA2bPTg24 PRYHHS p1RS
KP8b1 2ARaPiPIn
SP 73p [Link]
2
1AGK HMGCoAAreCdC
13T4ccHMGCoAS
−0.
2
5
Lpin1
Lpin
−1.
S14
0
FAS
La repre´sentation de la figure 6.10 est analogue a` celle de´ja` pre´sente´e (Fig. 5.6). Elle
est comple´te´e par un codage en couleurs des ge`nes, selon leur appartenance a` une classe issu
de la classification hie´rarchique. Pour cela, nous avons coupe´ l’arbre afin d’en extraire 5 classes.
Brie`vement, on peut noter que l’axe 1 met en e´vidence l’opposition pre´ce´demment e´voque
´e entre CAR1 (surexprime´ chez les souris PPAR) et un groupe de ge`nes (CYP3A10,
CYP4A10, CYP4A14, PMDCI, THIOL et L-FABP) qui est surexprime´ chez les souris WT. De
manie`re simi- laire, l’axe 2 oppose les ge`nes induits par le re´gime dha (valeurs positives, ge`nes
implique´s dans le catabolisme des lipides et dans le me´tabolisme des xe´nobiotiques) aux ge`nes
induits par le re´gime efad (valeurs ne´gatives, ge`nes principalement implique´s dans la synthe`se
de lipides). En remon- tant vers les feuilles de l’arbre de classification, on notera que le groupe
des ge`nes repre´sente´s en vert est se´pare´ en deux sous-groupes qui conservent une cohe´rence
vis-a`-vis des fonctions bio- logiques de catabolisme et de synthe`se des lipides respectivement.
Une observation des donne´es individuelles re´ve`le que ces re´gulations ope´re´es par les re´gimes
semblent plus marque´es chez les souris WT. Baccini et col. (2005) montrent que d’autres
techniques (foreˆts ale´atoires par exemple) permettent de confirmer ces observations de manie`re
plus objective.
Chapitre 7
Il existe cependant une the´orie statistique englobant ces divers types de mode`les : le
mode`le line´aire.
Notons que si non plus une, mais plusieurs variables quantitatives sont a` expliquer
conjoin- tement, on se place dans le cadre de la re´gression multivarie´e, qui est fortement lie´e
a` l’analyse canonique. D’autre part, si la variable a` expliquer est qualitative plutoˆt que
quantitative, d’autre mode`les sont a` mettre en place comme la re´gression logistique ou la re
´gression logline´aire qui s’inte`grent dans la famille du mode`le line´aire ge´ne´ral.
Dans la suite, nous aborderons en de´tail le mode`le de re´gression simple, puis nous
passerons en revue les autres mode`les avec leurs spe´cificite´s en gardant en me´moire que les me
´thodes d’es- timation des parame`tres, les tests et les analyses diagnostics sont identiques.
95
96 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´
un individu devrait-il survivre ?) ;GRESSION
• la se´lection de variables (ex : Parmi la tempe´rature, l’ensoleillement, la pluie, l’altitude,
le bruit ambiant, etc ..., quels facteurs ont une influence significative sur la
croissance des pins des landes ?) ;
• la spe´cification de mode`le (ex : Comment la dure´e de vie de transformateurs e
´lectriques varie-t-elle en fonction de leur grosseur ?) ;
• l’estimation de parame`tres (ex : la luminosite´ en fonction de la distance des e´toiles
d’une certaine galaxie est de la forme L = K 1 + K 2 d + σϵ, ou` K 1 , K 2 et σ sont des
parame`tres inconnus a` estimer a` partir des observations).
Donne´es pH. On veut e´tudier sur des carpes le pH (x) du milieu ambiant et le pH (y) de
leur sang (donne´es simule´es) :
R ¿ x<- round(runif(30)*5+1,1)
R ¿ y<-2+3*x+rnorm(30,0,1)
Les donne´es consistent en 30 unite´s statistiques (u.s.). Pour l’u.s. i, on a (x i , yi). Au vu de la
20
15
y
10
2 3 4 5 6
figure 7.1, on pressent qu’il existe une relation line´aire entre x et y : y=˙ β1 + β 2 x. On e´crit donc
le mode`le de re´gression suivant, expliquant y par une combinaison line´aire de parame`tres a`
estimer (β1 et β2) :
y i = β1 + β 2 x i + ei, pour i = 1, ...30;
(7.1)
ou` ei est un re´sidu que l’on espe`re le plus petit possible. La variable y est appele´e variable
en- doge`ne (variable re´ponse, variable de´pendante) ; les variables x i sont appele´es variables
exoge`nes (variables explicatives, facteurs, covariables, variables inde´pendantes).
Hypothe`ses : Les observations y i sont des re´alisations de 30 variables ale´atoires inde
´pendantes Y i de moyenne β1 + β 2 x i et de variance σ 2 . De manie`re e´quivalente, les re´sidus
e i sont des re´alisations de 30 variables ale´atoires inde´pendantes E i de moyenne 0 et de variance
σ2 .
y i = β1 + β 2 x i + ei, i = 1, ..., n;
ou`
y1, y2, ..., y i , ..., y n sont les n observations de la variable endoge`ne (ou variable a` expliquer),
x 1 , ..., x n sont les n observations de la variable exoge`ne (ou variable explicative),
e1, ..., en sont les n termes d’erreur,
β1 est le parame`tre d’ordonne´e a` l’origine (la valeur moyenne de y lorsque x prend la valeur 0),
β2 est le parame`tre de pente (si x augmente d’une unite´, alors y augmente de β2 unite´s
en moyenne).
Trois hypothe`ses sont essentielles a` faire sur la distribution des termes d’erreur :
(i) les re´sidus sont de moyenne nulle (hypothe`se de line´arite´)
E(ei) = 0, ∀i = 1, ..., n
Var(ei) = σ 2 , ∀i = 1, ..., n
Cov(ei, e j ) = 0, ∀i /= j
ei ~ U(0, σ2)
Cette hypothe`se implique que les variables ale´atoires y i sont normalement distribue´es.
98 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
βˆ1 = y¯ — βˆ2x¯
Σ n
et βˆ 2 = i = 1Σ(y i — y¯)(xi — x¯) S xy
n 2
=
i = 1 (x i — S xx
x¯)
Prenons l’exemple des donne´es pH. Avec le logiciel R, on peut ajuster le mode`le (7.1)
:
> reg1 <- lm(y ~ x)
Coefficients :
(Intercept) x
5.572096 0.1951841
18
16 14
reg$[Link]
12
s
10
8
6
10 15 20
. Cette me´thode ne´cessite l’ajout de l’hypothe`se de normalite´ des re´sidus : ei ~ iidN (0,
σ2), ce qui implique que les y i sont des variables ale´atoires normales inde´pendantes :
y i ~ N (β1 + β 2 x i , σ2).
Cette me´thode repose sur l’ide´e suivante : si les donne´es de l’e´chantillon ont e´te´ observe
´es, cela provient du fait que ces donne´es sont les plus vraisemblables. Les estimateurs des
parame`tres inconnus du mode`le sont donc calcule´s en maximisant une quantite´
(vraisemblance) qui mesure la probabilite´ d’observer l’e´chantillon. Dans le cadre de la re
´gression line´aire simple, on cherche donc a` maximiser la fonction de vraisemblance :
Yn
L(β 1 , β2, σ )
2
= f (yi ; i
i=1 x )
Yn 1 —1
(yi − β 1 − β 2 x i ) 2
= √
2σ 2
2
i = 1 2 πσ
( )
e 1 Σ
n
= (2π) − n / 2 (σ 2 ) − n / 2 exp — σ2 (yi — β1 — β 2 x i ) 2
i=1
2
100 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
Le logarithme de la vraisemblance, multiplie´ par (-2), s’e
´crit
Σn
2 2 2 −2 2
l(β 1, β 2, σ ) = 2 ln L(β1 , β2 , σ ) = n π) + n ln σ + σ (y i — β1 — β2 i
— ln(2 i=1 x )
E(βˆ1) = β1 et E(βˆ2) = β2
On dit alors que les estimateurs des parame`tres sont sans biais. Rappelons que l’espe´rance
est calcule´e par rapport a` la loi de y.
S xy σ2
D’autre part, Var( βˆ 2) = Var( )=
S xx S xx
ˆ ¯ ) = σ ( 1 + x¯2
Var(βˆ1) = Var(ȳ — β 2 x 2
n xx
)
S x¯σ2
Cov(βˆ1, βˆ2) = Cov(y¯ — βˆ 2 x ,¯ βˆ2) = x x
On remarque ici que les deux
— estimateurs peuvent eˆtre tre`s fortement corre´le´s. Pour e´viter cela,
S
on peut ope´rer une reparame´trisation :
β0 + β 2 (x i — x¯)
avec β0 = β1 + β2x¯. Les estimateurs de ces deux parame`tres ne sont pas corre´le´s : Cov(βˆ0, βˆ2)
= 0, et la variance d’estimation de β0 est plus faible que celle de β1 : Var(βˆ0) = σ 2 /n <
Var(βˆ1). Cette remarque souligne l’importance d’une bonne parame´trisation sur la pre´cision
des estima- tions. Des proble`mes nume´riques sont aussi e´vite´s.
Si les y i sont des variables ale´atoires normales, puisque les βˆ sont des combinaisons line
´aires des y i , alors ces estimateurs sont donc aussi des variables ale´toires normales. Plus
particulie`rement : 1
βˆ 1 ~ N β 1 , σ2 ( + ))
( x¯ n
2 Sx x
101
2. LE MODE` LE DE RE´ GRESSION
SIMPLE
2
β̂ 2 ~ N β 2, σ ).
S xx
(
On peut donc standardiser les estimateurs pour
obtenir :
qβˆ1 — β1 ~ N (0,
σ n1 + Sx¯
xx
2
1)
β̂ 2 — 2
β √
σ/ ~ N (0,
S xx
1)
Comme σ2 n’est pas connue, nous remplac¸ons dans les expressions ci-dessus σ2 par son esti-
mation s 2 . Ce faisant, on doit corriger la distribution (cf. Annexe D, plus le fait que s2 ~ χ n2− 2 )
afin
d’obtenir :
qβˆ1 — β1
2 ~ t n−2
s n1 + Sx¯ xx
β̂2 — 2
β √ S x x ~ tn − 2
s/
Les deux e´quations ci-dessus nous me`nent aux intervalles de confiance a` (1—α)100%
poursuivants
β1 et β2 : s
βˆ 1 2
1 ± t α/2;n−2 s +
x¯
n Sxx
h √ i
β̂ ± t s/ S
2 α/2;n−2 xx
On peut aussi tester l’hypothe`se de nullite´ d’un des parame`tres. Par exemple, pour tester
l’hy- pothe`se nulle H 0 : β1 = 0 vs l’hypothe`se alternative H 1 : β1 /= 0, on utilise la
statistique :
t1 =
q
~ t n−2
s 1 β+ˆ1 nx¯2 Sx x
Var(ei) = (1 — h i i )σ 2 etCov(ei, e j ) = —h i j σ 2 ,
2
14
2
1
Residuals
0
−1
17
−2
6 8 10 12 14 16 18
Fitted values
lm(formula = y ~
x)
FIG. 7.3 – Donne´es pH : plot des re´sidus vs valeurs ajuste´es, pour le mode`le (7.1
).
Encore une fois, ce type de graphique permet de de´tecter des proble`mes avec l’hypothe`se
de line´arite´ ; il devrait avoir l’air d’un nuage de points disperse´s horizontalement de fac¸on ale
´atoire autour de 0.
2
1
reg$residuals
0
−1
−2
2 3 4 5 6
FIG. 7.4 – Donne´es pH : plot des re´sidus vs variable explicative, pour le mode`le (7.1).
Ve´rification de l’homosce´dasticite´
Cette hypothe`se est importante. Une forte violation de cette dernie`re entraˆıne des conse
´quences de´sastreuses sur : les erreurs standards des parame`tres, les risques des tests, les
intervalles de confiance. La me´thode la plus couramment utilise´e est la ve´rification graphique.
Elle consiste a` repre´senter les re´sidus en fonction des valeurs ajuste´es, des valeurs observe´es
ou des valeurs de
x. On peut e´galement utiliser les re´sidus studentise´s pour ve´rifier l’hypothe`se d’homosce
´dasticite´. Un graphique ayant une apparence d’entonnoir indique que la variance ne semble
pas constante (proble`me d’he´te´rosce´dasticite´). Si certains re´sidus ont des valeurs plus grandes
que 2 en valeur absolue, ceci peut indiquer un manque de normalite´ ou la pre´sence de donne´es
atypiques.
Ve´rification de l’inde´pendance
d’ordre 1 des re´sidus. Il est obtenu en calculant la corre´lation entre la se´rie des re´sidus et la
meˆme se´rie de´cale´e de 1. Si ρe = 0 soit d ' 2 alors les re´sidus sont non corre´le´s. Si par
contre ρe /= 0 ou encore d /= 2 alors les re´sidus sont corre´le´s.
Ve´rification de la normalite´
Cette e´tape n’est pas aussi importante qu’on le croit ge´ne´ralement. La normalite´ est une
pro- prie´te´ qui permet aux estimateurs de converger rapidement. Le the´ore`me central limite
nous as- sure que pour des e´chantillons assez grands, les estimateurs que nous utilisons sont
normalment distribue´s. La syme´trie des distributions observe´es est un crite`re important qui
assure une conver- gence rapide vers la loi normale. Les me´thodes pour ve´rifier la normalite´
sont nombreuses, parmi celles-ci on peut citer les me´thodes graphiques (QQplot, PPplot,
histogrammes, boxplot, etc...) et les tests (Chi2, Shapiro-Wilk, Kolmogorov-Smirnov, ...).
Graphique des re´sidus studentise´s vs quantiles de la loi normale : t i vs u i (figure 7.5)
Ce graphique permet de de´tecter les proble`mes avec le postulat de normalite´. Il est parfois
appele´ QQplot normal ou droite de Henry, tout de´pend de la forme utilise´e pour les u i . Dans le
QQplot, il s’agit des quantiles de la loi normale standard. Dans le cas de la droite de Henry, il
s’agit de l’espe´rance des statistiques d’orde de la loi normale standard. Dans les deux cas, si
l’hypothe`se de normalite´ est raisonnable, le graphique devrait avoir la forme d’une ligne droite
de pente positive. Des graphiques à l’allure de courbe concave ou convexe indiquent une
distribution non syme´trique des re´sidus, alors qu’un graphique en forme ”d’inte´grale inverse´e
couche´e” indique que les re´sidus proviennent d’une distribution ayant des queues plus e´paisses
que celles de la loi normale.
Normal Q − Q
plot
2
14
2
1
Standardized
residuals
0 −1
−2
17
−2 −1 0 1 2
Theoretical
Quantiles
lm(formula = y ~
x)
Boxplot des re´sidus : Le Boxplot des re´sidus (ordinaires ou studentise´s) sert à de´terminer
si ces derniers proviennent d’une distribution syme´trique et si certains re´sidus sont de valeur
extreˆme. Une distribution non syme´trique est indique´e par une moustache plus longue que
l’autre, ou une ligne me´diane proche d’une extremite´ de la boˆıte. Un re´sidu extreˆme est
indique´ par un point a` l’exte´rieur des moustaches.
2. LE MODE` LE DE RE´ GRESSION SIMPLE
105
autres donne´es ;
106 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
Cook’s distance
plot
14
0.3
0.2
distance
Cook’s
20
0.1
0.0
0 5 10 15 20 25 30
Obs. number
lm(formula = y ~
x)
FIG. 7.6 – Distance de Cook pour le mode`le (7.1) sur les donne´es pH.
y i = β 1 x 1 , i + β 2 x 2 , i + ... + β j x j , i + ... + β p x p , i + ei
Les parame`tres inconnus β1, ...β j , ...βp (et e´ventuellement σ2) sont estime´s par
moindres
3. RE´ GRESSION LINEAIRE MULTIPLE
107
carre´s (la somme des carre´s des re´sidus la plus petite possible), ou par maximum de
vraisemblance si les re´sidus sont suppose´s gaussiens, exactement comme dans le cas de la re
´gression simple.
1. Multicoline´arite´
Des proble`mes d’estimation des parame`tres et de variance peuvent arriver lorsque dans
le mode`le de re´gression, on utilise des variables explicatives corre´le´es entre elles. On parle
alors de 2multicoline´arite´ et cela conduit a` des estimations biaise´es des parame`tres avec des
ficient
variancesR j im-
de chacune
[Link] Pour
ces re´gressions
diagnostiquer R j situations,
(ou`ces est le coefficient
une desdeme´thodes
corre´lation
estmultiple
de faire la re
en
obtenu
re´gressant la variable x j sur les (k — 1) autres variables explicatives). On
´gression de 2chaque variable en fonction des autres variables explicatives et de mesurerappelle tole´rance,
les
valeur
la 1 — Rj . Une tole´rance qui est proche de 1 signifie une absence de multicoline´arite´ entre
liaisons a` l’aide du coef-
les
variables explicatives. En revanche, si la tole´rance tend vers 0, alors on de´tecte un proble`me
de multicoline´arite´ entre les variables explicatives.
2 (n — 1) (n — 1)R2 — p
R ajust = 1 (1 — R2 ) =
(n — p — n —p—1
—
1)
avec n le nombre d’observations et p le nombre de parame`tres. Avec le R 2ajust , l’ajout
variable
d’une explicative peut aussi re´sulter en une diminution de la statistique. La comparaison
de mode`les sur la base de ce crite`re revient à comparer deux mode`les sur la base de leur estime´
de la variance des termes d’erreur s2. Le meilleur mode`le sera celui ayantajust
le R 2 le plus grand.
108 CHAPITRE 7. MODE` LE LINE´ AIRE ET RE
´ GRESSION
C p de Mallows
SS E
C p = C p de Mallows
Une autre crite`re appele´, le coefficient — n + peut eˆtre utilise´. Il est de´fini par :
σˆ
2p
2
ou` S S E est la somme des carre´s re´siduels du mode`le et σˆ 2 est l’estimation de la variance re
´siduelle sous le mode`le complet. On choisira la mode`le pour lequel le coefficient C p est
minimum.
Test de Fisher pour mode`les emboite´s
Il se peut qu’on veuille tester si le mode`le à p variables explicatives peut eˆtre re´duit à q (q
petit devant p) variables ; c’est a` dire que l’on veut tester si un sous-mode`le plus simple
explique une partie suffisamment grande de la variabilite´ dans les y i pour qu’il ne soit pas ne
´cessaire d’utiliser le mode`le le plus complexe (car trop de parame`tres à estimer). Cela revient à
tester l’hypothe`se de nullite´ de k (= p — q) parame`tres du mode`le :
Sous l’hypothe`se alternative, au moins un des parame`tres β1, ..., β k est non-nul.
Ce test peut eˆtre formule´ comme la comparaison de deux mode`les emboite´s, l’un a` p +
S S E 0 — S SE 1 n — p — 1
F caL =
parame`tres et l’autre1a` q+1 ~ F (k, n — p —
L’hypothe`se H 0 peut eˆtre teste´e au moyen de la
S S Eparame`tres.
1 1)
k statistique :
ou` S S E 0 est la somme des carre´s re´siduelles du mode`le re´duit sous H 0 et S S E 1 est la somme
des carre´s re´siduelles du mode`le de re´fe´rence (mode`le complet a` p variables explicatives).
On compare FcaL a` la valeur limite de la statistique d’une loi de Fisher F α (k, n — p — 1).
Si
FcaL > F α (k, n — p — 1) alors on rejette H 0 .
Remarque : Dans le cas ou` k = 1, on teste la nullite´ d’un seul parame`tre du mode`le.
Etant donne´ la proprie´te´ selon laquelle une variable ale´atoire distribue´e selon une loi F (1, m)
est le carre´ d’une variable ale´atoire de Student a` m degre´ de liberte´ ; le test de Fisher ci-
dessus et le test de Student donnent les meˆmes conclusions.
Chapitre 8
1 ANOVA a` un facteur
1. Un exemple
Donne´es Ampoules. On conside`re maintenant plusieurs proce´de´s de fabrication de lampes
a` ultra-violets : On nume´rote les u.s. (i, j), ou` i est le nume´ro du proce´de´ de fabrication et j
est le
nume´ro de la lampe a` i fixe´. On note y i j la dure´e de vie de la j e`me lampe fabrique´e suivant
le proce´de´ i, et µ i la dure´e de vie moyenne d’une lampe fabrique´e suivant le proce´de´ i.
Le mode`le s’e´crit :
y i j = µi + ei j , i = 1, ...6 j =
1, ...n i (8.1)
ou` e i j est un re´sidu tel que e i j ~ N (0, σ2) et n i le nombre d’observations pour le proce´de´ i.
Les re´sidus sont suppose´s eˆtre inde´pendantes. Le mode`le peut e´galement s’e´crire comme celui
d’une re´gression line´aire multiple :
y i j = β 1 x 1 + β 2 x 2 + ... + β 6 x 6 + e ij
109
110 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
2. Diverses parame´trisations
Analysons les donne´es Ampoules.
Avec le logiciel R
> options(contrasts="[Link]")
> summary(reg2)
Call : lm(formula = dvie proc)
Residuals :
Min 1Q 3Q Max
-19
Median -9 4.996e-15 22
9.5
Coefficients :
Value [Link] t value Pr(>|t|)
(Intercept) 1618.0000 6.2022 260.8773 0.0000
procF2 -127.0000 7.7748 -16.3348 0.0000
procF3 -58.0000 8.3211 -6.9703 0.0000
procF4 -165.0000 7.5961 -21.7218 0.0000
procF5 -108.0000 8.0069 -13.4883 0.0000
procF6 -18.0000 8.0069 -2.2480 0.0321
Residual standard error : 12.4 on 30 degrees of freedom
Multiple R-Squared : 0.9644
F-statistic : 162.7 on 5 and 30 degrees of freedom,
the p-value is 0
¿ reg2$[Link]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1618 1618 1618 1618 1491 1491 1491 1491 1491 1491 1491 1560 1560 1560 1560
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1560 1453 1453 1453 1453 1453 1453 1453 1453 1510 1510 1510 1510 1510 1510
31 32 33 34 35 36
1600 1600 1600 1600 1600 1600
T
Dependent Variable : dvie he
Sum
GL of
Source DF Squares
M Mean Square F Value Pr >
Model 5 125144.7500
F Pr 25028.9500 162.67 <.0001
Error 30 4616.0000
oc 153.8667
Corrected Total 35 129760.7500
ed
ur
e
1. ANOVA A` UN FACTEUR 111
24
20
11
10
Residuals
0
−1
0
5
−2
0
Fitted values
lm(formula = dvie ~
[Link](amp))
Cette estimation est d’autant plus pre´cise que le nombre d’observations pour la cellule i est
grand :
V ar(µˆ i ) = .
n
σ2i
La variance re´siduelle est estime´e
par :
ΣI Σn i (y i j — 2
σˆ2 = i.
.
y n) —
i=1 j=1
p
1.5 Intervalle de confiance et tests d’hypothe`ses
Soit le mode`le y i j = µ i + e i j ou` les e i j sont iid suivant une loi centre´e de variance σ2 qui
sera suppose´e N (0, σ2) pour la construction des tests. Dans le cadre ge´ne´ral du mode`le
gaussien, on a montre´ que les estimateurs des parame`tres du mode`le sont distribue´s selon une
loi normale, donc :
µˆ i ~ N (µ i , σ 2 /n i )
Normal Q − Q
plot
2
24
11
1
Standardized
residuals
0 −1
−2 −1 0 1 2
Theoretical Quantiles
lm(formula = dvie ~
[Link](amp))
Dans le cas d’un facteur à 2 classes (p = 2), on retrouve un test e´quivalent au test de
Student de comparaison des moyennes de deux e´chantillons inde´pendants.
114
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
Scale−Location
plot
1.4
24
15
1
1.2
1.00.8
Standardized
residuals
0.6 0.4
0.2
0.0
Fitted values
lm(formula = dvie ~
[Link](amp))
y i j k = µ i j + e ijk
On suppose que les termes d’erreur e i j k sont mutuellement inde´pendants et de meˆme loi
gaus- sienne. Le mode`le d’analyse de variance a` deux facteurs s’e´crit e´galement de la manie`re
suivante :
y i j k = µ + αi + β j + γ i j + ei j k
Σ p Σ q Σp Σ
avec les i=1αi = j = 1 β j = 0, ∀j, qi = 1 γi j = 0 et ∀i, j=1 γi j =
contraintes :
Lorsque les parame`tres d’interaction 0. γ i j sont tous nuls, le mode`le est dit additi f , ce qui
cor- respond à une situation tre`s particulie`re. Ceci signifie que les e´carts relatifs au premier
facteur sont inde´pendants du niveau k du 2e`me facteur et vice versa. Dans le cas e´quire´pe´te´, les
tests des effets sont re´sume´s dans la table d’analyse de variance suivante :
2. ANOVA A` DEUX FACTEURS CROISE´ S 115
Cook’s distance
plot
0.12
0.10
24
4
0.08
distance
Cook’s
0.06
0.04
0.02
0.00
0 5 10 15 20 30 35
25
Obs. number
lm(formula = dvie ~
[Link](amp))
FIG. 8.4 – Donne´es Ampoules : distance de Cook pour de´tection d’observations aberrantes.
avec
Σ
SS1 = qc (y i.. — ... 2
i y ) ;
Σ
SS2 = pc (y .j. — ... 2
j y ) ;
Σ
SSI = c (y ij. — yi.. — y.j. + y ... )2 ;
ij
Σ
2
SSE = (y i j k — ij.
ijk y ) ;
Σ
2
SST = (y i j k — ...
ijk y ) .
empiriques y¯ij en fonction de i, pour chaque j (figure 2). Si les droites sont paralle`les, l’effet
du premier facteur s’additionne a` l’effet du deuxie`me, il n’y a donc pas d’interaction. Si par
contre des droites se croisent, on peut suspecter la pre´sence d’interactions.
Pas d’interactions Interactions
5
5
4
4
j=
3
3
2
j=
m
m
u
j=
2
j=
3
j= j=
1
1 1
0
1 2 3 4 5 6 1 2 3 4 5 6
7 7
i i
3 Analyse de covariance
L’analyse de covariance se situe encore dans le cadre ge´ne´ral du mode`le line´aire et ou`
une variable quantitative est explique´e par plusieurs variables a` la fois quantitatives et
qualitatives. Dans les cas les plus complexes, on peut avoir plusieurs facteurs (variables
qualitatives) avec une structure croise´e ou hie´rarchique ainsi que plusieurs variables
quantitatives intervenant de manie`re line´aire ou polynomiale. Le principe ge´ne´ral est toujours
d’estimer des mode`les intra—groupes et de faire apparaˆıtre (tester) des effets diffe´rentiels
inter — groupes des parame`tres des re´gressions. Ainsi, dans le cas simple ou` seulement une
variable parmi les explicatives est quantitative, nous sommes amene´s a` tester l’he´te´roge´ne´ite´
des constantes et celle des pentes (interaction) entre diffe´rents mode`les de re´gression line´aire.
Prenons un cas simple, le mode`le est explicite´ dans le cas e´le´mentaire ou` une variable
quan- titative Y est explique´e par une variable qualitative T a` q niveaux et une variable
quantitative, appele´e encore covariable, X . Pour chaque niveau j de T , on observe n j valeurs
x 1 j , ..., x n j j de X et n j valeurs y 1 j , ..., y n j j de Y ; n est la taille de l’e´chantillon. Le mode`le s’e
´crit :
y i j = β 0j + β 1 j x i j + e ij
4. TESTS MULTIPLES 117
On commence par tester l’hypothe`se (i), si le test n’est pas significatif, on regarde (ii) qui s’il
n’est pas non plus significatif, conduit a` l’absence d’effet de la variable X. De meˆme,
toujours si (i) n’est pas significatif, on s’inte´resse a` (iii) pour juger de l’effet du facteur T .
4 Tests multiples
1. Rappels sur les risques de premie`re et seconde espe`ce
Risque de premie`re espe`ce : note´ α. Le risque de premie`re espe`ce est le risque de rejeter (avec
la re`gle de´cision) l’hypothe`se H 0 alors qu’en re´alite´ cette hypothe`se est vraie.
Risque de seconde espe`ce : note´ β. Le risque de seconde espe`ce est le risque d’accepter (avec
la re`gle de de´cision) l’hypothe`se H 0 alors qu’en re´alite´ cette hypothe`se est fausse.
De´cision
Re´alite´ H0 H1
H0 1—α α
H1 β 1—β
La me´thode de Bonferroni est une me´thode qui ne permet pas un strict controˆle de α mais
en revanche elle en donne une majoration. L’ide´e de Bonferroni est de se placer dans le pire des
cas (pour α). Par exemple si on a p = 5 moyennes à comparer, il faut effectuer 10 comparaisons.
Pour avoir un risque global α, il faut que chacune des 10 comparaisons soit effectue´e avec un
risque α ' = α/10.
En pratique, Bonferroni fournit une liste de ge`nes diffe´rentiellemnt exprime´s dans laquelle
on controˆle le nombre de faux positifs. Quand le nombre des ge`nes est grand, cette liste est
souvent vide.
A l’oppose´, le LSD (Least Square Difference), c’est a` dire le test de Student sans
correction, est le plus laxiste : il va de´tecter des ge`nes diffe´rentiellement exprime´s qui en fait ne
le sont pas.
En ge´ne´ral, on pre´sente ces taux d’erreurs dans le tableau suivant :
Re´alite´ De´cision
H 0 vraie H 1 vraie Total
H 0 vraie U V m0
H 1 vraie T S m1
W R m
ou` m tests sont effectue´s. Pour une analyse de biopuces dans laquelle on teste les
effets diffe´rentiels de m ge`nes, m1 est le nombre de ge`nes de´clare´s diffe´rentiellement exprime
´s, alors que R est le nombre re´el (mais inconnu) de ge`nes diffe´rentiellement exprime´s.
Diverses me´thodes sont propose´es pour controˆler ces divers taux d’erreurs.
Le FWER (Family Wise Error Rate) repre´sente la probabilite´ d’effectuer au moins une
erreur de premie`re espe`ce sur l’ensemble des comparaisons :
P [V ≥ 1] = m 0 α.
On prend donc un seuil nominal de α ' = α/m 0 .
Au meˆme titre que Bonferroni, plus il y a de tests (soit de ge`nes a` tester), moins on
rejette H 0 (moins de ge`nes de´clare´s diffe´rentiellement exprime´s). La notion suivante est tre`s
utile pour pallier a` cet inconve´nient.
La FDR (False Discovery Rate) controˆle l’espe´rance du taux de faux positifs, ou le
nombre de faux positifs parmi les diffe´rences de´clare´es significatives. Pratiquement, on
desmm tests (les ge`nes) et on recherche le plus haut rang k des p-values tel que p
p-values les
ordonne
—
value(k) ≥ αk/m..
Il existe d’autres approches re´centes ou en cours de de´veloppement pour controˆler la
FDR positive, le nombre moyen d’erreurs, etc ...
1. Exemple 1
Supposons que l’on cherche a` comparer 2 traitements A et B ; 4 e´levages ont e´te´ se´lectionne
´s pour participer a` cet essai. Dans chaque e´levage un e´chantillon d’animaux a e´te´ tire´ au
hasard, une moitie´ des animaux de l’e´chantillon ont rec¸u le traitement A et l’autre moitie´ le
traitement
B. Les donne´es brutes ont e´te´ analyse´es et les analyses ont montre´ que le traitement B a
une plus grande efficacite´ que le traitement A. Que peut-on conclure ?. Pour re´pondre
convenablement a` cette question, il est ne´cessaire de pre´ciser la nature du facteur e´levage :
• si les e´levages ont e´te´ choisis, le facteur e´levage est un facteur fixe et les re´sultats de
l’ana- lyse ne peuvent pas eˆtre extrapole´s a` d’autres e´levages,
• si les e´levages ont e´te´ tire´s au hasard parmi tous les e´levages susceptibles d’utiliser
ces produits, le facteur e´levage est alors un facteur ale´atoire et les re´sultats de
cette analyse peuvent eˆtre extrapole´s aux autres e´levages.
Dans une analyse de variance, on s’inte´resse a` l’effet particulier de chacun des niveaux de
la variable explicative sur la variable à expliquer. Cette fac¸on de proce´der suppose que l’on
introduise dans le mode`le tous les niveaux du facteur susceptibles d’avoir un inte´reˆt. Mais cela
n’est pas tou- jours possible. Par exemple, si on s’inte´resse aux performances au champ d’une
varie´te´ de ble´, ou aux performances de croissance (ou production laitie`re) des animaux d’une
race particulie`re, il est impossible de tester ces performances sur tous les champs ou animaux
possibles. On peut e´galement vouloir s’inte´resser à l’effet d’un re´gime alimentaire sur la
croissance des porcs, on ne pourra pas le tester sur tous les porcs. A chaque fois, pour re´aliser
l’expe´rience, il faudra prendre quelques individus (ici, des champs ou des porcs) et chercher a`
e´tendre les re´sultats obtenus a` la population entie`re. Si on suppose que les individus ont e´te´ tire
´s au hasard dans la population, on ne s’inte´resse plus à l’effet particulier associe´ à tel individu
particulier, mais à la distribution de l’en- semble des effets possibles. L’effet associe´ à
l’individu n’est plus un effet fixe mais devient un effet ale´atoire et il faut en tenir compte dans
l’analyse. Le mode`le line´aire e´tudie´ contient un me´lange d’effets fixes et d’effets ale´atoires,
on parle alors de mode`le line´aire mixte. Le mode`le line´aire mixte constitue une extension du
mode`le line´aire classique. D’une manie`re ge´ne´rale, on pourra y faire appel chaque fois que
l’on de´sirera e´tendre a` une population toute entie`re des re´sultats obtenus sur quelques
individus pris au hasard dans cette population.
2. Exemple 2
On a releve´ les dure´es de gestation de 16 filles de 30 taureaux qui avaient e´te´ tire´s au sort
dans la population devant eˆtre e´tudie´e. On voudrait savoir dans quelle mesure la dure´e de
gestation est un caracte`re he´re´ditaire. On conside`re que ce caracte`re se transmet (aussi) par les
pe`res : un taureau ayant de bons ge`nes les transmettra a` ces filles, qui seront donc meilleures
en moyenne que des vaches descendantes de ”mauvais” taureaux. Il s’agit de re´pondre, graˆce à
un e´chantillon comportant peu de taureaux, à une question concernant toute la population.
Pour pouvoir e´tendre les re´sultats obtenus sur l’e´chantillon, il faut que celui-ci soit repre
´sentatif de toute la population et donc qu’il ait e´te´ obtenu par tirage au sort (inde´pendants et e
´quiprobables). Il en de´coule que les taureaux de l’e´chantillon sont ale´atoires et leurs effets
sur leurs descendants sont a fortiori ale´atoires.
Le mode`le s’e´crira
y i j = µ + a i + e ij j = 1, ...16 i = 1, ...30
y i j = µ + α i + β j + e ij e i j ~ N (0, σ2)
y i j = µ + ai + β j + εi j
mentou`distribue´s : ai ~
a i est l’effet N (0, a2du ie`me comprime´. Ses effets sont suppose´s inde´pendants et
ale´atoire
σ ).On peut montrer que
identique-
ANOVA Mode`le mixte
E(yi j ) µ + αi + βj µ + βj
V ar(y i j ) σ2 + σ2a
σ2
σ2a si i = i’et 0
Cov(y i j , y iattendu
L’e´cart-type ' j ' ), j /= j
' sinon de NIR vaut dans le cadre du mode`le line
de la moyenne des valeurs
´aire
mixte : 0
SE(y¯1 ) = √ σˆa2 + ˆ 2 / √10 =
σ 0.115,
ce qui est conforme a` ce que l’on attendait.
Notons que les mesures HPLC et NIR sur un meˆme comprime´ sont corre´le´es dans le
mode`le mixte. Un mode`le line´aire mixte permet donc aussi de prendre en compte de fac¸on
simple des corre´lations entre observations.
122 CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
5.4 De´finition
Un mode`le line´aire mixte se de´finit comme un mode`le line´aire dans lequel toute ou partie
des parame`tres associe´s a` certaines unite´s expe´rimentales sont traite´s comme des variables ale
´atoires du fait de l’e´chantillonnage de ces unite´s dans une population plus large.
y i j k L = gi + r j + G k + gr i j + gG i k + r G j k + gr G i j k + e ij kL (8.2)
ou` y i j k L repre´sente le logarithme du niveau d’expression du ge`ne k (k = 1, ..., 120),
pour le re´gime j (j = 1, ..., 5) et le ge´notype i (i = 1, 2), mesure´ chez la souris l (l = 1,
..., 4) ; gi repre´sente l’effet du ge´notype i, r j celui du re´gime j , G k celui du ge`ne k, gr i j
repre´sente l’effet de l’interaction du ge´notype i et du re´gime k, gG i k l’effet de l’interaction
du ge´notype i et du ge`ne k, r G j k l’effet de l’interaction du regime j et du ge`ne k et gr G i j k
repre´sente l’interaction d’ordre 3 combinant le ge´notype i, le re´gime j et le ge`ne k. On
suppose que les re´sidus e i j k L du mode`le sont inde´pendants et identiquement distribue´s suivant
une loi normale de moyenne nulle et de variance σ2. L’e´criture d’un tel mode`le suppose que les
ge`nes sont tous de meˆme variabilite´. Cette hypothe`se est discutable (en effet la figure 2.9
montre clairement quelques ge`nes fortement variables) ; nous verrons par la suite comment
lever cette hypothe`se. A` partir de ce mode`le, on peut estimer les effets principaux des 120
ge`nes, effectuer des comparaisons de moyennes à l’aide du test de Fisher, puis ope´rer des
corrections pour des tests multiples afin de repe´rer les ge`nes surexprime´s ou sous-exprime´s
selon le ge´notype et le re´gime.
Dans cette se´quence de tests, les variances des ge`nes sont suppose´es e´gales, contrairement
aux tests de Student de comparaison de moyennes par re´gime et ge´notype pour un ge`ne fixe´. Ce
dernier cas revient a` e´crire une mode`le d’ANOVA par ge`ne, sous la forme suivante
y i j L = gi + r j + gr i j + eijL (8.3)
ou` les notations utilise´es ici sont identiques a` celles du mode`le (8.2). Ici, il est ne
´cessaire de faire autant d’analyses de variance que de ge`nes e´tudie´s (soit 120 dans notre
exemple) mais nous disposerons d’une variance estime´e par ge`ne. Toutefois une telle analyse
n’est pas toujours recom- mande´e car en re`gle ge´ne´rale le nombre d’observations par ge`ne est
tre`s faible, ce qui conduit a` des estimations de variance tre`s peu pre´cises. Notons cependant
que ces 120 analyses conduisent à 120 estimations des 10 effets genotypei × regime j . Un
mode`le e´quivalent, mais utilisant simul- tane´ment l’ensemble des donne´es pour estimer les
parame`tres, s’e´crit comme le mode`le (8.2) en posant
6. EXEMPLE : NUTRITION CHEZ L A SOURIS 123
var(eijkL) = σ2e,k .
(8.4)
D’autre part, entre le mode`le (8.2), supposant toutes les variances des ge`nes e´gales, et
le mode`le (8.4) supposant une variance diffe´rente pour chaque ge`ne, il est possible d’ajuster
un mode`le interme´diaire prenant en compte les he´te´roge´ne´ite´s de variances de l’expression des
ge`nes, en de´finissant simplement des groupes de ge`nes de variabilite´ homoge`ne (Robert-
Granie´ et al., 1999 ; Foulley et al., 2000 ; San Cristobal et al., 2002). Ainsi, sur les 120
ge`nes analyse´s, un histogramme des variances nous a conduit a` de´finir trois groupes de
ge`nes ayant des variabi- lite´s tre`s diffe´rentes : un groupe contenant les ge`nes FAS,
G6Pase, PAL et S14, pre´sentant des variabilite´s re´siduelles importantes (variances supe
´rieures a` 0.02) ; un deuxie`me groupe a` variabilite´ mode´re´e (variances comprises entre 0.009
et 0.02), comprenant les ge`nes CYP2c29, CYP3A11, CYP4A10, CYP4A14, CYP8b1, GSTmu,
GSTpi2, L-FABP, Lpin, Lpin1, TRa et
cHMGCoAS ; enfin un dernier groupe à faible variabilite´ (variances infe´rieures à 0.009),
contenant l’ensemble des autres ge`nes. A` partir de ces trois groupes de ge`nes, nous pouvons
construire un mode`le dont la variance de´pend de cette nouvelle variable à trois classes. Le
mode`le s’e´crit encore comme les mode`les (8.2) et (8.4) en posant cette fois
var(eijkL ) = σ2 ,
(8.5)
h
Enfin, prendre un risque de 5% dans une expe´rimentation ou` 10 000 ge`nes, par exemple,
sont e´tudie´s simultane´ment peut conduire a` obtenir 500 faux positifs, ce qui est parfaitement
inaccep- table. C’est pourquoi ont e´te´ propose´es des modifications du test de Student adapte´es
a` l’analyse du transcriptome (me´thodes de Bonferroni, FWER, FDR...). Le lecteur souhaitant
des de´tails sur ces approches peut se re´fe´rer, par exemple, a` Benjamini & Hochberg (1995),
Bland & Altman (1995), Dudoit et al. (2002) ou Speed (2003).
La me´thode de Bonferroni, rappelons le, est une me´thode qui ne permet pas un strict
controˆle de α, mais qui en donne une majoration. Pour avoir un risque global α, il faut que
chacune des p comparaisons soit effectue´e avec un risque α ' = α/p. En pratique, Bonferroni
fournit une liste de ge`nes diffe´rentiellemnt exprime´s dans laquelle on controˆle le nombre de
faux positifs. Mais, lorsque le nombre des ge`nes est grand, cette liste est souvent vide.
En ge´ne´ral, on pre´sente ces taux d’erreurs dans le tableau 4.2.
Pour revenir a` notre e´tude, a` partir de chaque mode`le propose´ dans le paragraphe pre´ce
´dent, nous pouvons rechercher les ge`nes diffe´rentiellement exprime´s entre les deux ge´notypes à
re´gime fixe´ (120 comparaisons pour chacun des 5 re´gimes) ou entre re´gime a` ge´notype fixe´
(1200 com- paraisons par ge´notype), ce qui conduit à effectuer 3000 comparaisons. Le tableau
8.2 pre´sente le nombre de ge`nes se´lectionne´s selon les trois mode`les conside´re´s et selon le
test ou l’ajustement utilise´e (Student, Bonferroni, Benjamini-Hochberg qui correspond a`
l’approche FDR).
On peut remarquer que le nombre de ge`nes se´lectionne´s est peu diffe´rent selon le
mode`le utilise´ et que, globalement, les trois mode`les se´lectionnent le meˆme groupe de ge`nes.
Les petites diffe´rences sont principalement lie´es a` l’ordre de se´lection de ces ge`nes.
D’autre part, on peut, a` partir de crite`res de se´lection de mode`le tels que le crite`re
d’Akaike (AIC ; Akaike, 1974) ou le crite`re de Schwarz (BIC ; Schwarz, 1978), ou encore en
effectuant un test du rapport de vraisemblance, choisir le mode`le le plus ade´quat.
Le tableau 8.3 pre´sente les valeurs des crite`res AIC et BIC pour les trois mode`les mis
en compe´tition.
−10 −5 0 50
0 0
5
0
CYP4A14
dha
0.4
PECI CYP4A10
0.0
B
m HM I EN GCoAS PM
TTCDCI pCaA THIO
GpHGOA S SXTiLN
PL6 P p CYP3A11
0
ACCS A
− 0. 4 − 0. 2
GAC S
PL MCAeD
c b lH p
H TM T G m6C h
CpOiinL2uX tso
Comp.
A G n pP 2
S PT 12 23 YC l
GtPC PB
o
aaN
CaH APo lin
[Link]
2
RLPS14 LHAO ItPS
srAeS efad
−5
CT.1cDpPB
0
CYCPA2GcR
− 0. 6
L8TPpT.2iHn1I
K219
1baHr1fe
−10
− 0. 8
FAS
0
0.2
−0.8 −0.6 −0.4 −0.2 0.0
0.2 0.4
Comp.1
FIG. 8.5 – Souris : repre´sentation sur le premier plan principal de l’ACP du logarithme des p-
value des ge`nes diffe´rentiellement exprime´s entre les deux ge´notypes a` re´gime fixe´.
Le meilleur mode`le est celui pour lequel les valeurs des crite`res -2AIC ou -2BIC sont les
plus petits. Dans les deux cas, il s’agit du mode`le (8.5).
Le test du rapport de vraisemblance consiste, quant à lui, à comparer deux mode`les
emboˆıte´s (par exemple, (8.2) vs (8.4)) ; l’hypothe`se nulle conside´re´e suppose alors que toutes
les variances sont e´gales. La statistique du rapport de vraisemblance ne´cessite de calculer la
diffe´rence entre les logarithmes des vraisemblances sous chacun des deux mode`les. Sous
l’hypothe`se nulle, cette statistique suit asymptotiquement une loi de khi-deux dont le nombre de
degre´ de liberte´ est e´gal à la diffe´rence des nombres de parame`tres à estimer sous chacun des
deux mode`les conside´re´s. Si nous effectuons ces diffe´rents tests du rapport de vraisemblance ((
8.2) vs (8.4), (8.2) vs (8.5), (8.4) vs (8.5)), il en ressort que le mode`le (8.5), avec trois groupes
de variances, est encore le meilleur.
A` partir de ce mode`le (8.5), on peut estimer les diffe´rents effets du mode`le, et s’inte
´resser aux diffe´rences d’expression des ge`nes entre ge´notypes a` re´gime fixe´ ou encore aux
diffe´rences d’expression des ge`nes entre re´gimes a` ge´notype fixe´.
En raison de la multiplicite´ des tests, la correction propose´e par Benjami & Hochberg
(1995) a e´te´ utilise´e. Lorsque nous conside´rons les diffe´rences d’expression des ge`nes entre
ge´notypes a` re´gime fixe´, l’hypothe`se nulle repre´sente l’absence d’expression diffe´rentielle
d’un ge`ne entre les deux ge´notypes. On peut visualiser l’ensemble des re´sulats des p-values de
ces diffe´rents tests en effectuant une ACP centre´e sur le logarithme des p-values, les ge`nes en
ligne et les re´gimes en colonne. La figure 8.5 pre´sente le premier plan principal des ge`nes diffe
´rentiellement exprime´s entres les deux ge´notypes a` re´gime fixe´. Les deux premiers axes
principaux repre´sentent 93% de la variance totale. Pour des raisons de visibilite´, les re´sultats
sont pre´sente´s sur les 59 ge`nes diffe´rentiellement exprime´s selon le mode`le (8.5) et en
utilisant la correction de Benjamini & Hochberg a` 5% (Tab. 8.2).
On observe que les ge`nes CYP3A11, CYP4A10, CYP4A14, [Link], PMDCI et THIOL
diffe´rencient les deux ge´notypes pour les re´gimes dha, lin et tsol. Certains de ces
ge`nes pre´sentent des expressions constitutives diffe´rentielles entre les souris des deux ge´notypes.
De plus ces ge`nes sont re´gule´s positivement par ces trois re´gimes riches en acides gras
polyinsature´s d’une
126
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
−5 0 50 −4 −2 0 20 40
0 0 0
4
0
S14
0.
6
0.
6
0.2
0.
2
0
FAS
4
5
0
Lpin
efadref Lpin Lpin
lintsol
1 dhat
− 0. 6 − 0. 4 − 0. 2 0.0
GC6YPPas3
0.
aefa efadLtpsi
2
s
Comp.
Comp.
d HcTp
mCMGCpabYe lpPGt
SA
efadlin eH
0
onl1HMGCoAre ACC2 A C A BC A
O1C 1H
GcSHTMpGPGiG hLGa
Se 8adGpbi1n
fTah2
0
SGC6
0.
PYCPH
2
2
SLSC NPtpAP SCd1hX 4alinPh
M
0
e
rt
s
fol RC O d
dha mllii P
linre A H An s L.F
I A aefadlin
C
BEKBrurPef
Y CP2c29
reftso
62LKP CHAD
TB oIH
OHE
I
A
S md
CYP4dACYP2cG2S9Tm iIcn.1TC P 2.P PCPNLM SPGPL
efadtsol
h1af0 t
soNt
lC BCBpAPp XfPNa1N 2eCf a l
−0.
MT LMoA
ONPXL S
−2
AMGRAPDI PEHCrIe
Tlin
G6Paseu
2
1IL Ld
0
P4CAdYh1Pa Gp.2ClYCGEFDAO
OtGT14D4AScC
−5
−0.
0
[Link].B
0.4
4
eRPLXpCo8TSBtIT
ClD FAS
ACAT2
−4
T APA pLCH
p C T
0
HIh1aAb2PaHa
31S
1 H A
1 02. 2ICi3IH1
− 0. 4 − 0. 2 0.0 0.2 0.4 − 0 . 6 − 0 . 4 P− 0.0 0.2 0.4
0.6 0.6 o2aIPr4o0Ae1A
Comp. Comp.
1 SS 1
FIG. 8.6 – Souris : repre´sentation sur le premier plan principal de l’ACP du logarithme des p-
value des ge`nes diffe´rentiellement exprime´s entre les re´gimes pour le ge´notype WT a` gauche
et PPAR a` droite.
famille particulie`re (Ome´ga 3 pour dha et lin et Ome´ga 6 pour tsol) chez les souris WT
alors que la re´gulation de plusieurs de ces ge`nes est alte´re´e chez les souris PPAR. Les ge`nes
mHMGCoAS, PECI et BIEN apparaissent dans le contraste entre ge´notypes pour le re´gime
dha, alors que les ge`ne S14 et FAS apparaissent pour le re´gime efad. Les souris des deux ge
´notypes pre´sentent la` encore des re´gulations diffe´rentielles de ces ge`nes, soulignant ainsi le
roˆle du re´cepteur PPARα dans ces modulations d’expression provoque´es par les re´gimes
alimentaires.
La meˆme approche sur les effets diffe´rentiels entre couples de re´gimes, a` ge´notype fixe
´, est re´alise´e. Les repre´sentations de la figure 8.6 pre´sentent le premier plan principal des
ge`nes diffe´rentiellement exprime´s entre re´gime pour le ge´notype WT (a` gauche) et pour le
ge´notype PPAR (a` droite). Les deux premiers axes, pour chacune des figures, repre´sentent
respectivement 79% et 78% de la variance totale. Les ge`nes Lpin et Lpin1 apparaissent
dans des contrastes impliquant le re´gime efad pour le ge´notype WT, et le re´gime tsol pour
le ge´notype PPAR. Le ge`ne CYP3A11 est implique´ dans le re´gime dha, quel que soit le ge
´notype. Les ge`nes FAS et S14 apparaissent dans les contrastes impliquant le re´gime efad
pour le ge´notype WT, alors que le meˆme ge`ne FAS apparaˆıt dans les contrastes impliquant le re
´gime ref pour le ge´notype PPAR. L’ensemble de ces re´sultats confirme les re´sultats obtenus
pour l’ACP.
2
y i j k L = gl’effet
ou` souris L repre´sente i + r j ale´atoire
+ G k + gr gG i k +l, ravec
dei j la+ souris G j k souris
+ gr GLi j k~+ U(0,
souris e'ijkLdiffe
sσ L ),+ les ,
, σ 2 ), les re
re´alisations
´rentes e´tant inde´pendantes, et e i j k L repre´sente les re´sidus, avec eijkL ~ U(0 e
'
e´tant inde´pendants
(8.6) entre eux et inde´pendants de l’effet ale´atoire ´sidus
souris.
6. EXEMPLE : NUTRITION CHEZ L A SOURIS
127
Dans ce cas, les estimations des composantes de la variance sont pour la variance « souris »
de
0.001 et pour la variance re´siduelle de 0.007. La variabilite´ indivuelle est tre`s faible. La
variance des observations est identique a` celle obtenue a` l’aide d’une ANOVA (mode`le a`
effets fixes) puisque nous sommes dans le cadre d’un plan e´quilibre´ et que la me´thode
d’estimation pour le mode`le mixte est la me´thode du maximum de vraisemblance restreinte
(REML). Nous pouvons e´galement e´tendre ce mode`le aux cas de variances re´siduelles he´te
´roge`nes, comme c’e´tait le cas dans le mode`le (8.5).
L’application du mode`le line´aire mixte est beaucoup plus approprie´e dans le cas ou` les
varia- bilite´s dues a` la technique, a` la diversite´ ge´ne´tique, aux ge`nes de la biopuce, ont un inte
´reˆt. C’est le cas dans l’e´tude transcriptomique de´crite dans Bonnet et al. (2004) dans laquelle
le logarithme du signal est mode´lise´ en fonction des facteurs membrane, truie, aiguille (ou
bloc), jour d’hybri- dation, et des covariables logarithme de l’intensite´ du bruit de fond et de
l’hybridation en sonde vecteur. Apre`s une e´tape de choix de mode`le (a` l’aide du test de Fisher),
le mode`le line´aire mixte permet d’appre´hender et de quantifier la part de variabilite´ due aux
diffe´rentes sources de varia- tion. La part de variabilite´ due à la diversite´ ge´ne´tique repre´sente
8%, celle due à la technique 4% et celle due aux ge`nes 75%. Toute infe´rence base´e sur ce
mode`le sera valide pour tout animal, toute membrane... car l’e´chantillonnage des animaux, des
membranes... de cette e´tude, dans une population plus large d’animaux, membranes... est pris en
compte. Conside´rer les membranes (par exemple) comme effets fixes dans ce mode`le aurait
entraˆıne´ des conclusions valides uniquement sur les membranes de l’expe´rience. De plus, une
structure de covariance non diagonale est prise en compte par ce mode`le mixte puisque deux
signaux d’une meˆme membrane totaLee´gale a` σ
seront corre´le´s, la corre´lation e´tant /σ 2 .
2
membrane
128
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
En guise de conclusion
Ce document explore de´ja` une grande varie´te´s d’approches statistiques en taˆchant de les
adap- ter au mieux aux caracte´ristiques tre`s particulie`res des donne´es d’expression. Ne
´anmoins, beau- coup d’autres approches sont encore possibles mais, faute de place ou de
compe´tences, elles ont e´te´ laisse´es de coˆte´ comme les mode`les de me´lange. Baccini et col.
(2005) proposent d’ailleurs, sur le meˆme jeu de donne´es, d’autres approchent a` base de
discrimination : plutoˆt que de rechercher quelles sont les ge`nes dont on peut dire qu’ils sont
significativement diffe´renciellement exprime´s, on peut rechercher un sous-ensemble de ge`nes
permettant la construction d’un meilleur mode`le de pre´diction des groupes d’e´chantillons. Par
exemple quels sont les ge`nes qui permettent de discri- miner au mieux les deux ge´notypes de
souris ou encore, plus difficle, les diffe´rents re´gimes.
De´ja` au niveau de ce cours, l’e´tude de´roule´e sur l’exemple des donne´es de nutrition
permet de mettre en exergue le fait qu’il n’existe pas “une” me´thode unique qui permettraient
de traiter des donne´es d’expression. La question ”Quelle me´thode dois-je utiliser pour traiter
mes donne´es d’expression ?” n’a pas de sens. En revanche, à une question pre´cise du type
”Puis-je effectuer une partition des ge`nes ?”, une me´thode statistique (ici la classification) peut
apporter des e´le´ments de re´ponses par des sorties nume´riques et/ou des graphiques mais la re
´ponse pre´cise a` la question ne peut eˆtre apporte´e que par le praticien qui sait interpre´ter les
re´sultats statistiques en termes biologiques. Finalement, chaque me´thode ou technique
statistique associe´e à diffe´rents jeux d’op- tions (comme diffe´rentes me´triques) fournit diffe
´rentes optiques pour appre´hender les donne´es. Seule une forte interaction entre le biologiste
et le statisticien est susceptible d’aboutir a` des in- terpre´tations cohe´rentes des re´sultats afin d’e
´baucher des nouvelles pistes de recherche pertinentes et prometteuses.
129
130
CHAPITRE 8. MODE` LE LINE´ AIRE : ANALYSE DE
VARIANCE
Bibliographie
131
132 BIBLIOGRAPHIE
1 Analyse canonique
A : Corre´lations entre
ge`nes PMDCI THIOL CYP3A11 CYP4A10 CYP4A14
133
134 ANNEXE A. ANNEXES
2 Mode`le line´aire
D : Quelques rappels sur les lois
Loi du Chi-deux
´ AIRE
avec E(Q n ) = n et Var(Qn) = 2n
Remarques :
La somme de 2 chi-deux inde´pendantes est aussi un chi-
deux. Une variable du chi-deux est toujours positive.
Loi de Student
Si X ~ N (0, 1) et Q ~ χ2n avec X et Q deux variables inde´pendantes
alors
X
Tn =
√ ~ tn
Q /n
Remarque :
Si n → + ∞ , t n tend vers une loi normale re
´duite.
Loi de Fisher 2
Si Q 1 ~ χ n 1 et Q2 ~ χn22 avec Q 1 et Q 2 deux variables inde´pendantes
alors
Q 1 /n 1
F n 1 ;n 2 = ~ F nn21
Q 2 /n 2
The´ore`me de Cochran