Cours
Cours
GLMA 512
I. Statistiques descriptives 2
Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Résumés numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
QQ-plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
V. Modèles linéaires 96
Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
1
Méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Modèle linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Intervalles de confiances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2
Grossesses et cigarettes : impact sur la santé du nouveau né ?
Statistiques descriptives
2 / 137
Mise en garde !
Figure 1: Les contés des USA ayant les 10% plus forts taux de mortalité suite à un cancer du rein/urêtre pour les hommes sur la
période 1980–1989. Données standardisées par rapport à l’âge. Droite : idem mais les 10 plus faibles !
0.1 Problématique
3
Une partie des données
Tableau
Une des
étudefréquences
sur ces données a montré que le taux de mortalité infantile chez les mères
fumeuses était plus faible !
Cette conclusion est basée sur le tableau suivant
Classe de poids Non fumeur Fumeur
< 1500 792 565
1500–2000 406 346
2000–2500 78 27
2500–3000 11.6 6.1
3000–3500 2.2 4.5
≥ 3500 3.8 2.6
Table 2: Taux de mortalité infantile (pour 1000 naissances) en fonction du poids (g) à la naissance différencié selon le statut fumeur.
Tableau croisé.
Des critiques sur ce tableau ? Age de la mère ou autres facteurs. . .
Une étude tenant compte de ces facteurs donne la même conclusion.
Une autre étude préconise de travailler sur les poids à la naissance standardisés
poids − moyenne
poids standardisé = .
écart type
Cette standardisation est faite séparément pour les fumeurs et pour les non fumeurs.
Quel est l’intérêt ?
Comparer ce qui est comparable ! Exemple : si les bébés de mères fumeuses ont toujours un poids
plus faible.
Ainsi on comparera le taux de mortalité d’un bébé pesant 2680g (fumeur) à celui pesant 3000g
(non fumeur) car ces valeurs sont exactement moyenne − 1 × écart type dans les deux cas.
4
Figure 2: Taux de mortailité (pour 1000) en fonction du poids et du poids standardisé
Il semblerait maintenant que les bébés de mères fumant aient un taux de mortalité plus élevé.
Moralité : Faire attention aux effets "cachés".
Traitement de données 2012–2013 – 8 / 137
0.2 Théorie
Histogramme
0.15
0.10
Density
0.05
0.00
50 55 60 65 70 75
Tailles (pouces)
Figure 3: Histogramme de la taille (pouces) issu des 1214 mères (droite) et du nombre de cigarettes fumées par jour issu des 384
mères fumeuses.
5
C’est quoi ? Juste une représentation graphique des observations
Utilité :
– Forme de la distribution : unimodalité, symétrie, étendue
– Détection des valeurs aberrantes (outliers).
– Que peut on dire sur les deux histogrammes précédents ?
Construction :
effectif de la classe k
hauteurk = .
effectif total × largeur de la classe k
Par construction l’aire de cet histogramme est égale à 1.
16 32
h1 = = 0.032, h5 = = 0.032.
5 × 100 10 × 100
Traitement de données 2012–2013 – 11 / 137
n
1X
x= xi , xi observations.
n
i=1
médiane = valeur qui sépare les données en deux parties de mêmes effectifs.
1, 4, 5, 8, 12, médiane = 5
1, 4, 5, 8, 12, 15, médiane = (5 + 8) / 2 = 6.5
6
Résumés numériques : Mesures de dispersion
Elles mesurent la dispersion de la distribution, i.e., sa variabilité.
L’écart-type est un exemple v
u n
u1 X
σ=t (xi − x)2 .
n
i=1
IQR = Q3 − Q1 ,
où Q1 est le nombre tel que 1/4 de l’effectif lui est inférieur et Q3 lui est supérieur.
Aire = p
0.3
Density
0.2
0.1
0.0
−4 −2 Qp 0 2 4
7
Exemple : Calculs de Q1 et Q3 .
Classe Effectif hk (%) Airek (%) Cum. Aires (%)
0–5 3 2.4 12 12
5–10 10 8 40 52
10–15 7 5.6 28 80
15–25 5 2 20 100
Total 25 — 100 100
Q1 = Q0.25 se situe quelque part entre 5 et 10 puisque à x = 5 l’aire à gauche fait 12.
Pour arriver à 25 il faut donc rajouter 13 à partir du deuxième rectangle qui a pour hauteur 8 donc
Boxplot
8
C’est quoi ? C’est une autre représentation graphique d’un jeu de données.
Utilité :
– Pareil que l’histogramme.
– Il contient plus d’information que les résumés numériques mais moins qu’un histogramme.
– Mais peut-être utile pour visualiser un grand nombre de variables (car compact).
Construction :
– Il faut calculer la médiane, Q1 et Q3
– Et faire quelques incantations magiques. . .
9
250
200
Poids (livres)
150
100
50
Meres Peres
Figure 6: Comparaison de la distribution des poids des mères et pères à l’aide de boxplot.
10
0.3 Loi normale
Loi Normale
La loi Normale joue un rôle central en statistique
De nombreuses données suivent approximativement cette loi
Des théorèmes nous disent que certaines variables aléatoires suivent approximativement cette loi
dès lors que n est grand.
La densité de la loi normale centrée réduite est
2
1 x
ϕ(x) = √ exp − , x ∈ R.
2π 2
0.4
0.3
ϕ(x)
0.2
0.1
0.0
−4 −2 0 2 4
Si des données suivent approximativement une loi Normale, alors l’histogramme des données
centrées réduites doit ressembler à la courbe précédente.
Pour standardiser les données x1 , . . . , xn
xi − x
, i = 1, . . . , n
σ
0.4
ϕ(x)
Les données semblent donc être bien
représentées par une loi Normale.
0.3
−4 −2 0 2
Unites standardisees
11
Exemple : Calcul de Pr[Poids ≤ 138]
La fonction de répartition de la loi normale centrée réduite corresponds à l’aire sous la courbe ϕ
jusqu’à un point z Z z 2
1 x
Φ(z) = √ exp − dx.
−∞ 2π 2
Cela corresponds à la probabilité d’être inférieur à z sous cette loi normale centrée réduite
Pour notre exemple, on a donc
Poids − x 138 − x
Pr[Poids ≤ 138] = Pr ≤ ≈ Φ(1) = 0.84.
σ σ
En calculant cette probabilité à partir des données on trouve 0.85 mais ne permettrait pas de faire les
calculs en dehors du domaine observé.
Traitement de données 2012–2013 – 22 / 137
12
0.4 QQ-plot
QQ-plot
140
120
100
80
60
−3 −2 −1 0 1 2 3
13
Interprétation : QQ-plot (loi normale) des poids à la naissance
Si les observations étaient N (0, 1) alors le nuage de points se concentrerait autour de la droite
y=x
Ici le nuage de points se concentre autour d’une droite mais pas y = x, disons y = ax + b.
Si b 6= 0 =⇒ Translation
Si a 6= 1 =⇒ Changement d’échelle (variabilité)
Enfin si le nuage de points n’est pas “linéaire” cela indique que les deux distributions ont des
formes différentes.
Translation Changement Echelle Les deux
0.4
0.4
0.4
0.3
0.3
0.3
Densite
Densite
Densite
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x x
200
y=x
150
100
Figure 8: QQ-plot du poids des mères (livres) selon le statut fumeur ou non.
Le nuage de points semble être linéaire la plupart du temps (sauf à l’extrémité droite du graphique)
– Ceci indique que les mères fumant ont tendance à peser moins que les non fumeuses
– Le “décrochage” à droite indique que “les plus lourdes” non fumeuses pèsent plus que “les plus
lourdes” fumeuses
Traitement de données 2012–2013 – 27 / 137
14
Quelques QQ-plot (loi normale) pathologiques
3
2
2
Sample Quantiles
Sample Quantiles
1
1
0
0
−1
−1
−2
−2
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantiles de la loi Normale centree reduite Quantiles de la loi Normale centree reduite
3
2
2
Sample Quantiles
Sample Quantiles
1
1
0
0
−1
−1
−2
−2
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Quantiles de la loi Normale centree reduite Quantiles de la loi Normale centree reduite
15
Qui joue aux jeux vidéo ?
Échantillonnage aléatoire simple
30 / 137
0.5 Problématique
À Berkeley (Université de Californie), environ 300 étudiants suivent un cours de statistiques 1 chaque
année.
Quelle proportion d’étudiants ont joué aux jeux vidéos la semaine précédent les examens ?
En moyenne, combien de temps un étudiant a-t-il joué ?
En automne 1997, ils étaient 314. Il est impensable de faire une étude sur ces 314 étudiants, trop
fastidieux, coûteux.
Mais il paraît assez intuitif de se concentrer sur un sous groupe plus raisonnable.
0.6 Théorie
C’est une méthode probabiliste permettant de choisir les étudiants constituant le sous groupe.
Les méthodes probabilistes sont importantes puisqu’elles permettent, en contrôlant le hasard, de
connaître les relations entre le sous groupe et le groupe entier.
16
Traitement de données 2012–2013 – 33 / 137
Vocabulaire : Population
La population est le groupe que l’on veut étudier, e.g., les 314 étudiants
La population est constituée d’unités, e.g., 1 unité = 1 étudiant
Taille de la population notée N est le nombre d’unités dans la population, e.g., N = 314
Les variables sont des informations particulières données pour chaque membre de la population,
e.g., temps de jeux
Un paramètre est un résumé des variables sur toute la population, e.g. le temps moyen de jeux la
semaine précédent l’examen
Vocabulaire : Échantillon
L’échantillon sont les unités choisies pour faire notre étude
La taille de l’échantillon notée n est le nombre d’unités présentes dans l’échantillon
Une statistique est un résumé numérique des variables calculé à partir de l’échantillon.
Tout échantillon est construit à partir d’une règle de décision. Pour notre étude, les étudiants ont été
“numérotés” de 1 à 314 et un ordinateur a choisi 91 numéros entre 1 et 314 successivement, i.e., aucun
étudiant n’a pu être sélectionné deux fois. De plus tout au long du processus de sélection chaque
numéro disponible avait la même probabilité d’être choisi.
314
|{z} × 313
|{z} ×··· × 224
|{z}
1er étudiant 2ème étudiant 91ème étudiant
Mais ceci tient compte de l’ordre de sélection, i.e., qui a été choisi en premier, second, . . .
Pour notre étude, peu nous importe l’ordre de sélection donc le nombre d’échantillon est en fait
17
La règle de décision défini par l’échantillonnage aléatoire simple impose que chacun de ces échantillons
ait la même chance d’être sélectionné.
Chaque échantillon a donc une probabilité 1/ N n d’être sélectionné.
On a donc
1
Pr[I(1) = 1] =
N
1
Pr[I(1) = 1, I(2) = 2] =
N × (N − 1)
Rien de plus que l’échantillonnage aléatoire simple pose une structure aléatoire sur l’échantillon.
Des échantillons différents auront des valeurs différentes pour leurs variables (temps de jeux 6=) et
donc des statistiques différentes (temps moyen de jeux 6=).
Autrement dit, une statistique admet une loi de probabilité liée à la procédure d’échantillonnage.
C’est donc une variable aléatoire !
18
0.7 Moyenne empirique
Moyenne empirique
Notons x1 , . . . , xN le nombre d’heures de jeux pour l’étudiant numéro 1, . . . , N . Notre étude
s’intéresse au paramètre
N
1 X
µ= xi .
N
i=1
Comme nous n’avons pas accès aux N étudiants, il paraît assez intuitif de considérer
n
1X
X= xI(j)
n
j=1
On l’appelle la moyenne empirique. C’est une statistique (elle est aléatoire puisque les I(j) le sont).
On dira aussi que X est un estimateur de µ puisque c’est une statistique estimant le paramètre µ.
E[xI(j) ] = µ, j = 1, . . . , n.
On dit alors que notre estimateur X est sans biais ou non biaisé.
Par analogie on définit également la variance sur la population (c’est donc un paramètre)
N
2 1 X
σ = (xj − µ)2
N
j=1
1 2 N −n
On peut montrer que Var[X] = n σ N −1 , et donc que l’écart type de l’estimateur (on parle alors
d’erreur standard) est r
q
1 N −n
SE(X) := Var[X] = √ σ
n N −1
19
Pour votre culture
Le terme k = (N − n)/(N − 1) s’appelle le facteur de correction en population finie.
Il vient facilement que ce facteur de correction vaut approximativement
n−1 n
k =1− ≈1−
N −1 N
Ainsi lorsque le rapport n/N est très petit, ce qui est souvent le cas en statistique, le facteur de
correction est proche de 1 et r
k σ
SE[X] = σ≈√ .
n n
Ainsi k est souvent ignoré mais pour notre étude nous ne devons pas puisque
Variance empirique q
Le problème avec SE(X) = √1n σ N N −1 , c’est que σ doit être connu
−n
Ce n’est généralement pas le cas. Après tout on ne connaissait pas µ alors pourquoi connaître
σ2 . . .
Un estimateur de σ 2 est
n
1 X 2
s2 = xI(j) − X
n−1
j=1
Et puisque
1 2N − n
Var[X] = σ ,
n N −1
un estimateur de cette quantité est donc
s2 N − n
.
n N −1
Traitement de données 2012–2013 – 44 / 137
En fait cet estimateur de Var[X] n’est pas entièrement satisfaisant puisqu’on peut montrer que
2
s N −n N
E = Var[X],
n N −1 N −1
s2 N − n
n N
Remarque : Pour une population de taille raisonnable, ces deux estimateurs ne diffèrent que très
peu.
20
0.8 Proportions
Proportions
Parfois le paramètre d’intérêt est une proportion
Pour notre étude cela pourrait être la proportion des étudiant qui ont joué aux jeux vidéos la
semaine précédent l’examen
Dans de tels cas on introduit une variable binaire valant 0 ou 1. Par exemple
(
1, si l’étudiant numéro 1 a joué
x1 =
0, si l’étudiant numéro 1 n’a pas joué
P
Ainsi τ = Nj=1 xj est le nombre d’étudiants ayant joué aux jeux vidéo la semaine précédent
l’examen PN
De même π = j=1 xj /N est la proportion de tels étudiants
N
1 X 1 X 2
σ2 = (xj − π)2 = xj − 2πxj + π 2
N N
j=1 j
2 2
= π − 2π + π = π(1 − π)
Version formelle
√ X −µ
Z= n
σ
converge (en loi) vers une loi normale centrée réduite, notée N (0, 1).
21
Traitement de données 2012–2013 – 48 / 137
“Oui mais vous nous avez dit que pour un échantillonnage aléatoire simple, les xI(j) ,
j = 1, . . . , n, étaient dépendants !!!”
Intervalles de confiance
Le TCL peut être utilisé afin d’obtenir des intervalles de confiance.
Par exemple un intervalle de confiance à 68% est
σ σ
X − √ ,X + √
n n
Niveaux de confiance
Que signifie le terme niveau de confiance à 95% ?
Si l’on considère plusieurs échantillons X prendra des valeurs différentes
De même on aura donc des intervalles de confiance différents
Alors la moyenne sur la population µ appartiendra à ces intervalles de confiance dans 95% des cas
22
Motifs dans l’ADN
Estimations et tests
53 / 137
0.10 Problématique
Problématique
Le cytomegalovirus humain (CMV) est un virus dangereux pour les personnes immunodéficientes
Pour combattre le virus, des chercheurs s’intéressent à sa manière de se répliquer
En particulier à un endroit particulier de son ADN, l’origine, qui contient l’information pour sa
reproduction
L’ADN est formé de seulement 4 lettres (A, C, G, T), une séquence d’ADN contient donc de
nombreux motifs.
Certains motifs peuvent indiquer une position importante comme l’origine.
Un palindrome complémentaire est un de ces motifs pour lequel une séquence lue de droite à
gauche correspond au complémentaire de la séquence lue normalement
Le CMV appartient à la famille des herpès virus comme l’herpès simplex et le virus d’Epstein–Barr
Ces deux autres virus marquent l’origine par des palindromes complémentaires
23
Une approche statistique permettant d’identifier des amas anormaux de palindromes permettrait
d’affiner les zones de recherche
Le séquençage du CMV a été fait en 1990
En 1991 des chercheurs ont répertoriés la position de différents motifs
Le plus long palindrome pour le CMV fait 18 paires de bases et contient 296 palindromes ayant
entre 10 et 18 paires de bases
Nos données sont donc les positions de ces palindromes
0.11 Théorie
Processus de Poisson
Le processus de Poisson (homogène) est un modèle probabiliste pour l’occurrence de phénomènes
aléatoires, e.g., arrivée dans une file d’attente, positions des étoiles dans le ciel. . .
Prenons l’exemple de la file d’attente. Il est raisonnable de supposer que
24
Le processus de Poisson est un modèle naturel pour modéliser des points (ou temps) distribués
complètement au hasard sans régularité apparente
Ce processus suppose plusieurs hypothèses
– Le taux d’apparition, noté λ, des points ne dépend pas de l’espace/du temps (homogénéité)
– Les nombres de points appartenant à deux régions disjointes sont indépendants
– Les points ne peuvent pas se superposer
Traitement de données 2012–2013 – 59 / 137
=⇒ Estimation de paramètres
Loi de Poisson
Que peut on bien faire avec des points répartis au hasard ? Compter non ?
Le processus de Poisson de taux λ suppose que la probabilité qu’il y ait k points dans un intervalle
de longueur 1 est
λk −λ
Pr[N = k] = e , k∈N
k!
Une variable aléatoire N ayant cette loi suit une loi de Poisson de paramètre λ notée P oiss(λ).
Le paramètre λ est un taux et représente le nombre de points moyen par unité de longueur
C’est aussi l’espérance de la loi de Poisson, i.e., E[N ] = λ où N ∼ P oiss(λ)
Enfin si on s’intéressait à un intervalle de taille L alors le nombre de points suivrait une loi
P oiss(λL) (homogénéité)
Estimation de paramètres
Pour notre étude, nous devons ajuster notre modèle (le processus de Poisson) à nos données (les
positions des palindromes)
En statistique on parle alors d’estimation de paramètres (d’une loi)
Dans ce cours nous allons voir deux méthodes différentes
25
Traitement de données 2012–2013 – 62 / 137
Définition 2. L’estimateur du maximum de vraisemblance θ̂M L d’un paramètre θ est celui qui, parmi
tous les θ possibles, donne à l’échantillon obtenu la plus grande vraisemblance d’être obtenu, i.e.
Étapes de la méthode
On se facilite grandement les calculs en maximisant ℓ(θ) := ln L(θ). Les étapes pour trouver θ̂M L sont
1. Calculer L(θ)
2. Poser ℓ(θ) = ln L(θ) (c’est la log-vraisemblance)
3. Trouver θ̂M L tel que {dℓ/dθ}(θ̂M L ) = 0
4. (Vérifier qu’il s’agit bien d’un maximum)
Exemple 3. Supposons que x1 , . . . , xn soient des réalisations indépendantes d’une loi exponentielle,
i.e., de densité
f (x; λ) = λe−λx , x ≥ 0, λ > 0.
Trouvez λ̂M L .
26
Propriétés de θ̂M L
Lorsque les observations sont i.i.d., i.e., de même loi et indépendantes, θ̂M L a souvent de très
bonnes propriétés
En effet sous des hypothèses de régularités, on a pour n grand
2
· 1 ∂ ln f (X; θ)
θ̂M L ∼ N θ, , I(θ) = −E
nI(θ) ∂θ 2
Ici nos données sont le nombre de palindromes dans des segments disjoints (4000 paires de bases)
7 1 5 3 8 6 1 4 5 3
6 2 5 8 2 9 6 4 9 4
1 7 7 14 4 4 4 3 5 5
3 6 5 3 9 9 4 5 6 1
7 6 7 5 3 4 4 8 11 5
3 6 3 1 4 8 6
Table 4: Nombre de palindromes dans les 57 premiers segments disjoints de l’ADN du CMV. Nombre total = 294.
27
Nombre de Nombre d’intervalles
palindromes observés attendus
0–2 7
3 8
4 10
5 9
6 8
7 5
8 4
≥9 6
Total 57
Table 5: Distribution du nombre de palindrômes dans les 57 premiers segments.
Le nombre d’intervalles attendus correspond au nombre attendu sous notre modèle, i.e., la loi de
Poisson
Traitement de données 2012–2013 – 69 / 137
λ3 −λ
57 × Pr[N = 3] = 57 × e
|{z} | {z } 3!
n proba d’être dans la classe
λ̂ = X = 294/57 = 5.16
5.163 −5.16
57 × Pr[N = 3] = 57 × e = 7.5
3!
On fait de même pour les autres lignes.
28
Nombre de Nombre d’intervalles
palindromes observés attendus
0–2 7 6.4
3 8 7.5
4 10 9.7
5 9 10.0
6 8 8.6
7 5 6.3
8 4 4.1
≥9 6 4.5
Total 57 57
Table 6: Distribution du nombre de palindrômes dans les 57 premiers segments.
Notez que Tobs est une sorte de “distance” entre nos observations et notre modèle
Intuitivement, si cette “distance” est petite notre modèle colle aux données, sinon c’est un mauvais
modèle
Question : A partir de quelle distance peut on dire que le modèle est bon ?
La théorie nous dit que si notre modèle est le bon, alors Tobs suit une loi du chi-deux à six degrés
de liberté notée χ26
Pour conclure sur l’adéquation de notre modèle,
ainsi nous avons de forte chance d’avoir une “distance” supérieure à 1.0.
On peut conclure que le processus de Poisson représente bien la position des palindromes.
29
Traitement de données 2012–2013 – 73 / 137
On calcule la statistique
K
X (eff. obsj − eff. théoj )2
Tobs =
eff. théoj
j=1
Si notre modèle est vrai, alors
On calcule la p-valeur
p-valeur = Pr[χ2K−1−p > Tobs ]
30
Vocabulaire des tests statistiques
Un test statistique (d’adéquation ou autre) “compare” toujours 2 hypothèses et vérifie laquelle des
deux est la plus vraisemblable à partir des données
Plus formellement un test statistique s’écrit
β = Pr[décider en faveur de H0 ]
H1
Pour la plupart des tests, c’est l’utilisateur qui décide de α. Typiquement α = 10% ou α = 5%.
Pour α fixé, β est alors déterminée — bien que pas toujours connue explicitement
A plusieurs tests on préferera le test le plus puissant, i.e., pour α fixé celui qui maximise la
puissance
1 − β = Pr[décider en faveur de H1 ]
H1
31
Saurez-vous faire la différence ?
Plans d’expérience
78 / 137
0.12 Problématique
Problématique
Ronald A. Fisher (1890–1962) a énormément contribué à la statistique
moderne
Une de ses études a été motivé par une lady anglaise prétendant qu’elle
pouvait faire la différence entre un thé auquel le lait était ajouté avant
ou après le thé.
32
Les données
Nos données sont juste le nombre de tasses de cafés identifiées à raison comme “café normal”
Ces données peuvent donc se mettre sous la forme d’un tableau 2 × 2
Café servi
Normal Décaféiné
Normal a b a+b
Testeur dit
Décaféiné c d c+d
a+c b+d n
0.13 Théorie
Loi hypergéométrique
Supposons que n = 8 tasses sont servies, 4 tasses de chaque sorte
Le testeur est informé de ce plan d’expérience
Cela implique donc des contraintes sur notre tableau
En conséquence, la connaissance d’une seule case nous permet de remplir le tableau entièrement,
i.e., si a est connu
b = 4 − a, c = 4 − a, d=a
Nous allons maintenant introduire l’aléatoire
Traitement de données 2012–2013 – 81 / 137
Modèle probabliste
Considérons les hypothèses suivante
Il y a donc
8
= 70 façons de choisir 4 cafés normaux parmi 8
4
8
Sous H0 chacune de ses classifications à la même probabilité 1/ 4
Mais une seule est la vraie qui a pour probabilité 1/70
33
Test exact de Fisher
Soit N le nombre de cafés normaux mal classifiés
Alors
4 4
a 4−a
Pr[N = a] = 8 , a = 0, . . . , 4,
4
cette loi est connue sous le nom de loi hypergéométrique
Table 7: Probabilités selon la loi hypergéométrique de mal classer a cafés comme normaux.
Nombre d’erreurs 0 1 2 3 4
Probabilité 1/70 16/70 36/70 16/70 1/70
Ce tableau nous donne donc les p-valeurs exactes que le testeur n’a pas ces capacités
Si le testeur ne fait aucune erreur p-valeur = 1/70 ≈ 0.014 et s’il en fait une
1 16
p-valeur = Pr[N ≤ 1] = + ≈ 0.24
70 70
Traitement de données 2012–2013 – 83 / 137
Pour ce cas particulier, on ne rejetterai pas H0 si le sujet fait au plus 1 erreurs — pour les niveaux
de confiance usuels de 90% ou 95%.
En revanche s’il fait aucune erreur on rejetterai H0 au profit de H1 : il sait faire la différence
Ce test est connu sous le nom du text exact de Fisher
8
b+c
Pr[N = b + c] = , b + c = 0, . . . , 8
256
Traitement de données 2012–2013 – 85 / 137
34
Un troisième plan d’expérience
Une autre approche consisterai à servir les cafés par paires, i.e., un normal + un décaféiné
Comme pour le premier plan, nous n’avons besoin de connaître uniquement le nombre c des cafés
normaux classés comme décaféinés
Puisqu’on ne s’occupe que des cafés classés comme normaux, il y a
24 = 16 classifications possibles
Sous H0 chacune de ces classifications ont la même proba 1/16 et une seule est la vraie
La probabilité de faire c erreurs est alors
4
c
Pr[N = c] = , c = 0, . . . , 4
16
Traitement de données 2012–2013 – 86 / 137
Les plans d’expériences rendent plus ou moins difficile de faire un sans faute
Sur notre exemple nous avons
Plan d’expérience n◦ 1 2 3
Pr[N = 0] 0.014 0.004 0.06
Choisir un bon plan d’expérience est une branche à part entière en statistique — et que nous ne
verrons pas
(a + b)(a + c)
E[A] =
n
(a + b)(a + c)(b + d)(c + d)
Var[A] =
n × n × (n − 1)
35
Il convient donc de centrer et réduire a
(a+b)(a+c)
a − E[A] a− n
z= ≈q
SD(A) (a+b)(a+c)(b+d)(c+d)
n3
√
n(ad − bc)
=p
(a + b)(a + c)(b + d)(c + d)
La statistique z suit approximativement une loi normale centrée réduite et les p-valeurs sont donc
déduites de cette loi
La loi normale étant continue et la loi hypergéométrique discrète, on utilisera souvent la correction
a + 0.5 dans l’expression de z
Traitement de données 2012–2013 – 89 / 137
Tableaux de contingence
Un tableau 2 × 2 classant les sujets selon une variable binaire est appelé un tableau de contingence
Pour la leçon 2 sur les jeux vidéos on a
Sexe
Homme Femme
Oui 43 26 69
Aime jouer
Non 8 12 20
51 38 89
Supposons que nous voulions tester si le sexe a une influence sur le fait d’aimer jouer, i.e., en
termes statistiques
Test d’indépendance du χ2
Vous vous rappelez du test d’adéquation du χ2 non ?
K
X (eff. obsj − eff. théoj )2
, K nb. de classes
eff. théoj
j=1
où α est la proba. de choisir un étudiant qui aime jouer et β la proba. de choisir un étudiant
homme.
Les effectifs théoriques sont alors
E[A] = nαβ, E[B] = nα(1 − β), E[C] = n(1 − α)β, E[D] = n(1 − α)(1 − β)
36
α et β étant inconnu, il paraît naturel de les estimer par leur proportions empiriques
On a alors pour A
a+ba+c 69 51
E[A] ≈ n = 89 × × = 39.5
n n 89 89
Pour les autres effectifs théoriques on trouve 11.5, 29.5 et 8.5
La statistique de test vaut alors
A ∼ Bin(51, γA ), C = 51 − A, B ∼ Bin(38, γB ), D = 38 − B,
où γA (resp. γB ) est la proba. d’aimer jouer chez une homme (resp. femme)
Une autre formulation de notre question de base serait alors
H 0 : γA = γB = γ contre H1 : γA 6= γB
A B
Sous H0 , a+c − b+d a pour espérance 0 et variance
1 1
γ(1 − γ) +
a+c b+d
Ainsi la statistique
A B
a+c − b+d ·
z=r ∼ N (0, 1)
1 1
γ(1 − γ) a+c + b+d
37
Ce que nous avons vu
Loi hypergéométrique
Test exact de Fisher
z-test
Tableaux de contingence
Test d’indépendance du χ2
z-test sur deux échantillons
Traitement de données 2012–2013 – 95 / 137
96 / 137
0.14 Problématique
Problématique
Aux USA les crabes dormeurs sont péchés sur la côte ouest de décembre à juin
Chaque année presque tous les crabes mâles adultes sont péchés
Les femelles sont relâchées afin préserver la ressource
Afin de réduire les fluctuations du nombre annuel de crabes péchés, il a été demandé de pouvoir
pécher les femelles
Se pose donc la question du “gabarit” des carapaces des femelles indiquant la relâche ou la capture
Il s’agit donc de modéliser la courbe de croissance des carapaces des femelles
38
Les données
Tailles avant et après mue sur 472 crabes dormeurs femelles
Données mixtes issues de laboratoires et de capture-recapture
Les données issues de capture-recapture ont été obtenue “en marquant” 12 000 crabes
Afin d’obtenir à nouveau ces crabes auprès des pêcheurs, une loterie avec un prix de 500$ a été
effectué
Avant mue 113.6 118.1 142.3 125.1 98.2 119.5 116.2
Après mue 127.7 133.2 154.8 142.5 120.0 134.1 133.8
Accroissement 14.1 15.1 17.4 21.8 14.6 17.6
Source 0 0 1 1 1 1 1
Table 8: Partie du tableau de données des 472 tailles (mm) des femelles crabes. Source : 0 si laboratoire, 1 sinon.
130
120
110
100
Figure 10: Taille des carapaces des femelles crabes après et avant la mue.
39
0.15 Théorie
Coefficient de corrélation
La figure précédente nous montre qu’il y a une forte relation linéaire entre la taille avant et après la
mue, i.e., les points s’amassent autour d’une droite
Le coefficient de corrélation (linéaire) mesure la force de cette relation
Soient (x1 , y1 ), . . . , (xn , yn ) les couples des tailles après et avant la mue
Le coefficient de corrélation est donné par
n
1 X xi − x yi − y
R= × , Crabes: R = 0.98
n SD(x) SD(y)
i=1
C’est une mesure sans unité (on a standardisé les xi et yi ) et qui varie entre −1 et 1.
Lorsque R = 1 ou R = −1 les points sont parfaitement alignés sur une droite dont la pente est du
signe de R
5
2
4
1
2
3
y
y
0
0
2
−1
−2
1
−2
−2 −1 0 1 −2 −1 0 1 −2 −1 0 1 2
x x x
Le premier nuage de points montre une forte dépendance linéaire. L’utilisation de R est justifiée
Le deuxième nuage de points montre aucune réelle dépendance entre x et y. L’utilisation de R est
justifiée
Le troisième montre une dépendance parfaite mais non linéaire entre x et y. L’utilisation de R est
maladroite
Il est donc toujours bon de visualiser le nuage de points
40
Vers le modèle linéaire
A partir de la figure, on voit qu’un crabe ayant
150
150
une taille après la mue de 150mm a une taille
avant la mue d’environ 136mm En prenant cette
140
140
fois des tailles entre 147.5 et 152.5, on trouve
130
130
150 et l’écart-type 2.8 En faisant pareil pour 8
classes de tailles
120
120
110
110
100
100
120 130 140 150 160 120
En cherchant à prédire la taille avant mue d’un crabe de taille 150 mm après mue, il paraît
raisonnable d’énoncer la taille 136 En cherchant à prédire la taille avant mue d’un crabe de taille
150 mm après mue, il paraît raisonnable d’énoncer la taille 136 associée à une erreur de 2.8 En
cherchant à prédire la taille avant mue d’un crabe de taille après mue quelconque, on serait tenter
de tracer une droite passant par les ∗ et d’avoir une “enveloppe d’erreur”
Cette droite est elle la meilleure possible ?
n
1X
V (x) = (xi − x)2 = x2 − x2
n
i=1
n
1 X
V (y) = (yi − y)2 = y 2 − y 2
n
i=1
p p
Écart-types empiriques SD(x) = V (x), SD(y) = V (y)
Covariance empirique
n
1X
Sxy = (xi − x) (yi − y) = xy − x y,
n
i=1
41
Méthode des moindres carrés
Sous certaines hypothèses la méthode des moindres carrés donne la meilleure prédiction possible
Elle consiste à trouver a et b minimisant
n
X X
(yi − axi − b)2 , i.e., (tailleavant mue − atailleaprès mue − b)2
i=1
L’estimateur des moindres carrés, i.e., la solution au problème ci-dessus, est
Sxy
â = , b̂ = y − âx
V (x)
La droite de régression ou droite des moindres carrés est alors
ŷ = âx + b̂,
130
120
110
100
Figure 11: Droite des moindres carrés pour les tailles des crabes — â = 1.1, b̂ = −29. Les tailles moyennes selon 8 classes sont
représentées par le symbole ∗.
42
Le modèle linéaire simple
N’étant pas naïf, nous savons bien que la droite ŷ = âx + b̂ n’est pas parfaite
Il est donc souvent utile d’imposer une loi de probabilité sur les erreurs
Le modèle linéaire simple suppose que les erreurs, notées εi , sont gaussiennes, i.e.,
Yi = axi + b + εi , i = 1, . . . , n,
iid
où εi ∼ N (0, σ 2 ) et a et b sont les paramètres de régression à estimer.
Puisque les εi sont des variables aléatoires, la réponse Yi l’est également mais les observations yi
non
Hypothèse importante d’homoscédasticité : la variance des erreurs est constante
Attention les erreurs, qui sont des variables aléatoires, ne correspondent pas aux résidus ri , qui
sont juste des nombres.
Il est également possible de connaître la distribution de ŷ∗ = âx∗ + b̂, pour un x∗ donné.
2 1 (x − x∗ )2
ŷ∗ ∼ N ax∗ + b, σ 1 + +
n V (x)
43
Tests d’hypothèses
Il est souvent utile de tester si un des paramètres de la droite de régression vaut une valeur
particulière, typiquement 0
Par exemple pour tester
H0 : a = a0 contre H1 : a 6= a0
on va utiliser la statistique de test
â − a0
T = ∼ tn−2 , sous H0
SE(â)
Exemple : Pour a0 = 0, on a Tobs = (1.1 − 0)/0.011 = 100 et puisque Pr[|t342−2 | > |Tobs |] ≈ 0,
on rejette donc H0 .
La même méthode s’applique bien entendu pour b.
Intervalles de confiances
En utilisant le même résultat sur la distribution de T , on peut obtenir des intervalles de confiance
Par exemple un intervalle de confiance à 95% pour a est
44
Traitement de données 2012–2013 – 111 / 137
Call:
lm(formula = [Link] ~ [Link])
Residuals:
Min 1Q Median 3Q Max
-4.6233 -1.3044 0.1231 1.3016 11.1038
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -29.26843 1.58114 -18.51 <2e-16 ***
[Link] 1.10155 0.01098 100.36 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
45
Propriétés de la droite de régression
La droite des moindres carrés passe par le point (x, y)
P n
Pi=1 ri = 0
n
Pi=1 x i ri = 0
n
i=1 ŷi ri = 0
Ainsi n n n n
X X X X
2 2 2
(yi − y) = (yi − ŷi + ŷi − y) = . . . = (ŷi − y) + ri2
i=1 i=1 i=1 i=1
Coefficient de détermination
Nous venons de voir la décomposition de la somme des carrés totale
46
Pour notre exemple, nous avons donc
40192
R2 = = 0.96
41549
Le modèle explique donc presque toute la variation
Residuals:
Min 1Q Median 3Q Max
-4.6233 -1.3044 0.1231 1.3016 11.1038
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -29.26843 1.58114 -18.51 <2e-16 ***
[Link] 1.10155 0.01098 100.36 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
47
Trisomie 21 chez les souris
Analyse de la variance
117 / 137
0.16 Problématique
Problématique
La trisomie 21 est un syndrome congénital survenant lorsqu’un enfant reçoit un chromosome 21
supplémentaire de ses parents
Aux USA, 250000 personnes sont atteintes de ce syndrome
En 1980, on a découvert que seuls les gênes en “bas” du chromosome 21 étaient à l’origine de ce
syndrome
Les scientifiques travaillent encore afin de mieux localiser le(s) gêne(s) responsable(s)
Dans ce but des portions du chromosome 21 humain sont ajouter à l’ADN de souris de laboratoire
Si la souris transgénique montre les symptômes alors la portion d’ADN contient le(s) gêne(s)
responsable(s)
Afin de déterminer si une souris est atteinte, elle est soumis à des tests (visuels) d’apprentissage,
d’intelligence
Malheureusement 500 des souris de laboratoires sont aveugles
Pour ces dernières seule leur masse est connue
Se pose donc la question de savoir si le poids peut aider à mieux cerner le(s) gêne(s) responsable(s)
48
Données
Le centre du génome humain au laboratoire Lawrence Berkeley a construit un panel de souris
transgéniques
Chacune de ces souris “souches” contient une des quatre parties du chromosome 21 humain
La deuxième génération est issue de la reproduction des souris “souches” et d’autres souris non
transgénique
Ils ont procédé de même pour les générations suivantes, de sorte que la généalogie de chaque souris
est parfaitement connue
Données
ADN C C C C A A A A A
Lignée 50 50 50 50 4 4 28 28 28
Transgénique 1 0 0 1 1 1 0 1 0
Sexe 1 1 0 0 1 1 1 1 1
Age 113 113 112 112 119 119 115 115 115
Poids 31.6 30.1 23.1 26.3 31.2 28.4 28.1 30.1 29.1
Cage 1 1 5 5 7 7 9 9 10
Table 9: Parties des observations issues de 532 souris transgéniques. Transgénique : Oui (1). Sexe : Mâle (1), Age (jours), Poids
(g), Cage : numéro de la cage.
49
0.17 Théorie
Si nous avons plusieurs groupes, par exemple A, B, C et D, on pourrait être intéressé à estimer la
moyenne pour chaque groupe
Considérons deux groupes pour commencer. Transgénique (T) et non transgénique (NT)
On introduit alors des variables binaires e1 , . . . , en valant 1 si la souris est transgénique et 0 sinon
L’estimation par les moindres carrés de
n
X
f (β0 , β1 ) = (yi − β0 − β1 ei )2
i=1
50
Traitement de données 2012–2013 – 124 / 137
Généralisation
Revenons maintenant à nos 4 groupes A, B, C, D
On introduit alors 4 variable binaires eA , eB , eC et eD
(
1, si la i-ième souris a le fragment A
eA,i =
0, sinon
Lorsque nous avons beaucoup de groupes, il est souvent pertinent de faire un boxplot pour chaque
groupe afin d’avoir une première idée 34
40
32
30
35
28
26
30
24
22
25
[Link] A B C D [Link] A
Figure 13: Boxplot du poids des souris mâles selon leur catégorie.
Figure 14: Boxplot du poids des souris femelles selon leur catégorie.
51
Modèle pour la moyenne
Nous venons juste de voir que les moyennes sur chaque groupe pouvait être calculées par la
méthode des moindres carrés
En fait nous avons obtenu des estimations du modèle suivant
β0 , sans trisomie
β0 + βA , si le fragment A est présent
E[Yi ] = β0 + βB , si le fragment B est présent
β0 + βC , si le fragment C est présent
β0 + βD , si le fragment D est présent
t-test le retour
Typiquement on serait intéresser à savoir si le fragment A n’a pas d’influence
En version statistique cela s’écrit donc
H0 : βA = 0 contre H1 : βA 6= 0
52
Somme des carrés
Pour tous ajustements par moindre carrés on a la décomposition
n
X n
X n
X
(yi − y)2 = (yi − ŷi )2 + (ŷi − y)2
|i=1 {z } |i=1 {z } |i=1 {z }
SCTotal SCE SCR
Pn 2
i=1 (yi −ŷi )
Pn 2
Résidu n−5 i=1 (yi − ŷi ) n−5 —
Pn
Total n−1 i=1 (yi − y)2
53
La table de Fisher
Utilité de l’ANOVA
Permet de savoir si notre modèle est bon globalement
Plus formellement, le test s’écrit
H0 : βA = βB = βC = βD = 0
H1 : au moins un des βA , βB , βC , βD est non nul
54
>anova(fitMiceMale)
Analysis of Variance Table
Response: weight2
Df Sum Sq Mean Sq F value Pr(>F)
DNA2 4 191.31 47.828 6.1443 9.725e-05 ***
Residuals 260 2023.88 7.784
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
>summary(fitMiceMale)
Call:
lm(formula = weight2 ~ DNA2)
Residuals:
Min 1Q Median 3Q Max
-6.3276 -1.8276 -0.3103 1.4535 9.5724
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31.9276 0.2723 117.262 <2e-16 ***
DNA2A 0.1708 0.4424 0.386 0.6998
DNA2B 1.2826 0.5232 2.452 0.0149 *
DNA2C 0.5224 0.7938 0.658 0.5111
DNA2D -1.6811 0.5051 -3.328 0.0010 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
L’ANOVA en général
L’ANOVA ne s’applique pas qu’aux moyennes selon modalité(s) mais aux modèles linéaires en
général
Le principe reste exactement le même
55
Retour sur la courbe de croissance des crabes dormeurs
Residuals:
Min 1Q Median 3Q Max
-4.6233 -1.3044 0.1231 1.3016 11.1038
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -29.26843 1.58114 -18.51 <2e-16 ***
[Link] 1.10155 0.01098 100.36 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Bien entendu ici la variable explicative “taille après mue” est utile
Vous devez à present tout connaître sur cette sortie numérique, hormis Adjusted R-squared que
nous ne verrons pas
56