Cours de Biostatistique I : Probabilités et Tests
Cours de Biostatistique I : Probabilités et Tests
M1
COURS de BIOSTATISTIQUE I
C. Huber
1
II Tests d'ajustement
1 Introduction 17
2 Test d'ajustement du chi2 pour une loi spécifée 17
a. cas discret 17
b. cas continu 18
3 Test d'ajustement du chi2 avec estimation de paramètres 19
4 Test de Kolmogorov-Smirnov pour un échantillon 23
C. Huber
2
V Exercices 57
Tables
Normale T1
Student T2
Chi deux T3
T4
C. Huber
Probabilités et notions fondamentales 3
I Introduction :
1 - Introduction
Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la
compréhension des méthodes d'analyse statistique ainsi que les notions de base pour
l'estimation de paramètres et les tests d'hypothèses.
Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une
variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une
généralisation du problème de comparaison d'une proportion observée à une proportion
théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi
théorique donnée.
Le chapitre III concerne les tests d'homogénéité et d'indépendance, qui servent à mettre en
évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple
conduit à la comparaison de deux proportions observées, qui peut être considéré:
- Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades
et non-malades) : on se demande si le facteur de risque est présent dans la même proportion
dans les deux échantillons.
- Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1.
Les tests de comparaison de deux échantillons sont de trois types:
- approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de
l'échantillon est assez grande,
- paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations.
- non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons
sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par
exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui
n'est pas toujours le cas.).
Le chapitre IV donne des tests non paramétriques pour comparer plus de deux échantillons.
Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une
probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles
de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une
tribu a. Ces événements seront notés A, B, C, D,... .
C. Huber
Probabilités et notions fondamentales 4
Exemple
Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que
maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M,
l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les
événements élémentaires :
(0,0,0) lorsque aucun des trois symptômes n'est présent,
(1,0,0) lorsque seul le premier est présent, etc..
(1,1,1) lorsque les trois symptômes sont présents.
P(AUB) = P(A)+P(B) .
P(Ac) = 1 - P(A)
Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de
l'indépendance de A et B.
C. Huber
Probabilités et notions fondamentales 5
1)Si X est discrète, telle que P(X = x i) = p i , i = 1, 2, ..,k , son espérance EX et sa variance
Var(X) sont respectivement :
EX = Σ p x ,
i i
Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 .
- La variance d'une somme, par contre, n'est en général pas égale à la somme des
variances:
Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y),
cov(X,Y) = E(XY) - EX EY .
Coefficient de corrélation
La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle
dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette
unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer
cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:
ρ = cov(X,Y) / σ σ
X Y
A Lois continues
C. Huber
Probabilités et notions fondamentales 6
2
z
1 -
ϕ( z) = e 2 ,z ∈ IR.
2π
Elle joue un très grand rôle car il sufft de connaître Φ pour pouvoir calculer toute
probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi
normale N(µ, 2)
σ
P(X ≤ x) = P(µ+ Z ≤ x) = P(Z ≤(x- µ)/σ ) = Φ x−µ)/ ]
σ [( σ
Couple normal
Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si
, pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi
normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que
leur coefficient de corrélation ρ(X,Y) soit nul.
C. Huber
Probabilités et notions fondamentales 7
λ
f(x) = λ e- x si x ≥ 0 , ( λ> 0).
=0 sinon
La fonction de répartition F correspondante au point x s'obtient facilement par intégration
de f entre 0 et x et vaut
λ
F(x) = 1 - e- x , si x ≥ 0 ;
= 0 , si x < 0 .
L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2
En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On
peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle
unité u' = u / λ, ce qui change X en X' = λ X.
où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier
(n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ...
3. 2.1 . Γ (a) s'écrit
∞
Γ(a) = -t a-1
e t dt
0
On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout
z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce
que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = ⎟ .
π
C. Huber
Probabilités et notions fondamentales 8
a
λ ∞ a-1 − (λ +t)x
= 0
x e dx .
Γ(a)
a -1
λ ∞ a-1 − y (λ +t)
= y e dy .
Γ(a) 0 a-1
(λ +t)
= λa
a
(λ +t)
Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] n/2 , soit
Théorème
Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable
χ 2 = Ζ12 + Ζ22
n + .... + Zn2
χ2 χ2 .
suit la loi du à n degrés de liberté (d.d.l.) , notée n
démonstration:
D'après ce qui précède, il suffit de montrer que L (X 2) = Γ(1/2 , 1/2) si X est normale
N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 :
–t(X 12) 2
ϕ
X1
2 (t)=E(e )=(1/ 2π ) e –x (t+1/2)
=(2t+1) –1/2
.
Moments
C. Huber
Probabilités et notions fondamentales 9
χ
On voit sans calcul que E ( 12 ) = 1, puisque cette moyenne est égale à celle de Z 12 , c'est à
dire à la variance de Z 1 , qui est de moyenne nulle, et de variance 1. De même,
χ
E ( n2 ) = n .
χ
Pour calculer tous les moments, E( n2k) , il suffit de dériver la transformée de Laplace
ϕ 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la
χ 1 ϕ cette
démonstration ci-dessous, que c'est une méthode générale. Notant simplement
χ
fonction, on voit que ϕ ' (t) = (2t+1) -3/2 = E( n2 ) et que, de manière générale, la dérivée
d'ordre k vaut
ϕ (k) χ
(0) = 1.3.5..(2k-1) E( 12k)
χ χ χ 2 2
Par définition de la variance, on a Var( 12) = E (( 12)2) - (E ( 1 )) = 3 − 1 = 2. Comme
l'indépendance de Z 1 , Z 2 ,...., Z n entraîne l'indépendance de leurs carrés et que tous les Z i2
χ
suivent la même loi du 12 , on a immédiatement
χ
Var ( n2 ) = 2 n .
e) Lois Béta
Définition
On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si
1 ∫ x a −1 − b−1
P(β ≤ x ) = I x (a, b) = y (1 y ) dy x ∈[0 1]
B(a, b) 0
Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle
[0 ; 1] et sa densité au point x est
1 − −
f ( x ; a, b) = x a 1 (1 − x )b 1 x ∈[0 1]
B(a, b)
Γ
B(a,b) = Γ (a+b) (a+b-1)!
où (= si aetbsontentiers).
(a) Γ(b) (a-1) !(b − )!
1
C. Huber
Probabilités et notions fondamentales 10
Eβ a et Var β = ab
= +
a b 2
(a+b) (a+b+1)
B Lois discrètes
1 avec la probabilité p
Xi =
0 avec la probabilité q = 1 - p
Sn = 1 + 2 + .. + n
X X X
C. Huber
Probabilités et notions fondamentales 11
qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs
entières j de 0 à n. La loi de n est donnée par
S
n!
P (S n = j ) = pj = ------------ p j qn-j , j = 0,1,2,....n .
j! (n- j) !
L'espérance et la variance sont obtenues comme sommes des espérances et variances des
Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est
généralement noté
j n
Cn ou
j
Remarque
Les variables √
i -npi) / npiqi sont centrées réduites, et, lorsque n est grand i et nqi
(N (np
au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi
deux.
C. Huber
Probabilités et notions fondamentales 12
Définition
Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes
les valeurs entières, 0 compris, la probabilité k pour qu'elle prenne la valeur k étant définie
ppar
λk
λ
k = P (X = k) = e - __ k = 0,1,2,...
p k! λ paramètre > 0
Alors EY = Var(Y) = λ
X et Y indépendantes
L (X) = π (λ) ⇒ L (X+Y) = π (λ+µ)
L (Y) = π (µ)
Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est
encore une variable de Poisson, de paramètre la somme des paramètres.
4 Approximations
Sn = 1 + 2 + .. + n
X X X
C. Huber
Probabilités et notions fondamentales 13
L (Sn ) ≅ N( n µ , n σ2 )
Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n
égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut
s'écrire aussi
Si Sn = 1 + 2 + .. + n , indépendantes,
X X X de même loi continue,
i) = 2,
E(X µ σ
i) = ,
et n ≥ 30 , Var(X
L ( (Sn - n µ) /
2
alors nσ ) ≅ Ν(0,1)
2
Sn ≅ n µ + nσ Z
où L (Z) = N(0,1).
B(n,p) ≅ Π (np)
χ
d) Approximation normale du n2
Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables
correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la
somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable
du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de
liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi
2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand
χ
P( n2 ≤ x ) ≅ P ( n + 2 n Ζ ≤ x ) = Φ ( (x - n) / 2n ) .
C. Huber
Probabilités et notions fondamentales 14
Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non
une certaine conjecture, qu'on appelle une hypothèse . Par exemple, il s'agit de savoir si une
nouvelle technique constitue ou non un progrès par rapport à la technique classique.
Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène.
Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : X i
désignera le résultat sur le i ème produit. X peut par exemple valoir 1 en cas de réussite, 0 en
cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès -
inconnue - de cette nouvelle technique. Mais X i peut aussi bien être la durée de vie du i ème
produit, et c'est alors une variable continue.
A partir des observations, on construit une valeur numérique qui est la réalisation d'une
variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y =
ϕ(X , ..., X ) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue
1 n
lorsque l'hypothèse qui nous intéresse est réalisée . Appelons H o cette hypothèse. Alors, si la
valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en
général, si y est trop grand ou trop petit) , on rejette Ho comme ayant conduit à une
observation trop peu probable, voire invraisemblable.
Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux
de succès de 50%, sous l'hypothèse H o qu'il n'y a pas d'amélioration, c'est à dire que la
nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès
observé
C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre
total des observations.
En fait, on aimerait rejeter cette hypothèse H o au profit de l'hypothèse H1 selon laquelle le
taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en
présence des deux hypothèses
Ho : p = 0,5
H1 : p > 0,5
Si la proportion observée p o est trop éloignée de 0,5 , et plutôt trop grande, on rejettera
H o au profit de H1.
C'est le type de problème intitulé "Comparaison d'une proportion observée, ici p o , à une
proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour
qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable
de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y =
ϕ(X , ..., X ) sous H , sauf à employer l'une des approximations qui figurent au paragraphe
1 n o
précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique.
On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de
l'hypothèse nulle H o a été choisie à droite : ce choix est destiné à rendre aussi grande que
possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie.
C. Huber
Probabilités et notions fondamentales 15
Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance
pour un niveau donné a : c'est de rejeter H o lorsque le rapport des probabilités des
observations sous Ho et sous H 1 est plus petit qu'une valeur donnée . Cela est une
conséquence du
On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci
apparent d'optimisation de la puissance, sont de ce type.
6 Principe de l'estimation
L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle
technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors :
X 1+X 2 +...+X n
p= =p o proportionobservée
n
Mais deux points ont besoin d'être précisés dès qu'on veut généraliser :
1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de
confance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus,
sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un
intervalle qui a une forte probabilité ( en général 95 %) de contenir p.
Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la
rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent
étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent
l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne :
2
L(p) ≈ N(p, σ )
Alors
[p- 2σ; p+ 2σ]
pq pq
[ po - 2 n ; po + 2 n ] .
C. Huber
Probabilités et notions fondamentales 16
2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à
estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité
d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer:
Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) .
La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ,
et non comme une fonction des observations x 1, x 2, ..., x n . On choisit comme estimateur
de θ la valeur
θ quimaximiseV(θ):V( θ)≥ V(θ) pourtout θ
Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très
souvent réalisées, lorsque le nombre des observations est assez grand .
C. Huber
17
Tests d'ajustement
II TESTS D'AJUSTEMENT
1 - Introduction
Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type :
"Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli
de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux
structures différentes soient également réparties chez les bactéries". Comment vérifier
l'exactitude de ces hypothèses ?
Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation
(fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à
partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable
aléatoire X, si cette variable obéit bien à la loi spécifiée.
Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit
au début du paragraphe suivant.
qui mesure l'écart relatif entre les effectifs observés N i et les effectifs moyens np i appelés
aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie.
On peut démontrer que, si Ho est vraie, et pourvu que tous les np i soient assez grands
(supérieurs à 5), E 2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté
(notés ddl).
C. Huber
18
Tests d'ajustement
Exemple 4 : dosage
Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe
entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3
modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 %
l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur
les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ?
Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0,
1), on peut se ramener au problème précédent en discrétisant la variable :
c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles
de X formée de r intervalles successifs sans point commun :
les probabilités p j pour que X tombe dans chacun des r intervalles I j = ]a j-1 a j]
peuvent être calculées :
aj
2
1 z
pj = exp{- }d z
2 π 2
a j-1
C. Huber
19
Tests d'ajustement
On devra calculer les probabilités attribuées à chacun des intervalles par la loi
N (200, 36) :
aj
2
1 (z-200)
pj = exp{- }d z
2π 6 72
a j-1
avec ao = - ∞ , a1 = 110, a 2 =130,..., a11 = + ∞ , ou bien les chercher sur une table
donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet p j peut aussi
s'écrire
On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions
de l'approximation souhaitée, c'est-à-dire np j supérieur à 5 pour chacun des p j . Alors la
variable d'écart vaut :
r (N -np ) 2
2 i i
E = Σ
i=1 np i
et, sous l'hypothèse nulle H o , le taux de cholestérol suit dans cette sous-population la loi
N (200, 36), E 2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.Si la valeur
observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si :
P(χ2r-1 ≥ e2 ) ≤ 0,05
C. Huber
20
Tests d'ajustement
Exemple 2 : suite
Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet
d'un pied à son pied jumeau.
L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas.
Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable
aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :
P (X =2) = θ2 = p1
P (X = 1) = 2 θ (1 − θ) = p2
2
P (X = 0) = (1 - θ) = p3
n! n n n
P(N 1 = 1 ,N 2 = 2 ,N 3 = 3) p 1 1 p 2 2p 3 3
n 1!n 2!n 3!
n n n =
On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r
quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de
l'échantillon :
500 2x7 18 2 x 24
P(N 1 =73,N 2 =185, N 3 =242)= θ [2 θ (1- θ)] (1−θ)
!
73!185! 3 5 2
242!
C. Huber
21
Tests d'ajustement
où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs
observés). On obtient le maximum de L en dérivant L par rapport à θ :
ce qui donne
331
θ= =0,331
1000
sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir
ces valeurs par dérivation. Il en résulte des estimateurs
p 1 , p 2 ,..., p r
Pour tester
H0 : la loi de X a pour paramètre θ 1, ... , θ k
On calcule la variable d'écart E 2 entre les effectifs observés n i dans chacune des classes
et leurs espérances sous Ho :
C. Huber
22
Tests d'ajustement
2
r
2 (N i -np i)
E = ∑
i=1 np i
Alors, sous H o, E 2 suit une loiproche de celle du chi-2 a r-k-1 degrés de liberté,
pourvu que n soit assez grand pour que
np i
≥5 pouri=1, 2, ... , r
On vérifie que
n pi ≥ 5 pouri=1, 2, 3
La variable d'écart :
2
r
2 (N i -np i)
E = Σ =12,55
i=1 np i
suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous
l'hypothèse nulle. Or
P (χ12 ≥ 12,55 ) < 0,001
On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification
inférieur à 1 o/oo .
Remarque 1
Comme il est, dans certains cas, comme par exemple celui où la loi de X était
continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la
méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est
démontrée la convergence vers une loi du chi 2 de la variable d'écart E 2, on se contente
quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.
Exemple
Pour ajuster des données à une loi normale d'espérance et de variance non précisées,
on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques
2
sn
xet
n-
1
On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et
en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le
taux de cholestérol.
Remarque 2
En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du (Chi-
C. Huber
23
Tests d'ajustement
deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment
étudiée. La loi de E 2, sous chacune de ces lois pose un problème différent qu'il faut
résoudre en coup par coup.
3 - Test de Kolmogorov-Smirnov :
On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r
classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E 2, ne tient pas
compte d'un ordre éventuel des r classes.
Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de
Kolmogorov- Smirnov . La statistique sur laquelle est fondé ce test est
D = sup ⏐ Fn- F ⏐ .
Sup ⏐ F n- F ⏐ signifie : sup t ∈R ⏐ F n (t) - F (t) ⏐ , c'est-à-dire le maximum de la
valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on
veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative
observée) :
n
1
F n(t) = Σ 1 ∞ ] (x )
n i=1 ]- t i
c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par
l'échantillon (x1, ... , xn).
pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que
, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les
valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une
seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la
division par ⎟n, où n est le nombre des observations.
Exemple 7 : radiographies
Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus
foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins
observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient
différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages
On appelle Ho cette hypothèse, qui dit que les préférences des médecins des
médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément
réparties sur les cinq tirages.
C. Huber
24
Tests d'ajustement
Rang de la radio choisie
(1 est la plus foncée)
1 2 3 4 5
Nombre de sujets choisissant 0 1 0 5 4
ce rang
Remarque :
Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 :
1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de
regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles.
2
2) Lorsque le nombre d'observations est petit, le test du χ ne peut pas s'appliquer du
2
tout. Si l'on essaie d'appliquer le test du χ à l'exemple ci-dessus, on doit combiner
plusieurs catégories adjacentes :
2 2
Alors χ1 = 3,75. La probabilité que χ1 soit supérieur à 3,75 tombe entre
0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%.Ce test est moins
puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.
C. Huber
Indépendance 25
La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup
d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme
objectif la prévention des maladies. Les techniques employées sont différentes suivant que les
variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type
de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent
lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est
continue et les deux le sont.
Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I.
Partant de là, nous allons introduire d'autres méthodes, plus générales.
Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux
valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications
professionnelles dépend des conditions de vie : est elle la même pour la population rurale et
pour la population citadine ?
On dispose des observations suivantes :
portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre
part parmi les habitants de la campagne.
Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux
proportions observées" qui sont ici :
- La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45
- La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49
Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont
sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse H o (p =
p'), la contre- hypothèse étant H1 (p ≠ p').
Sous l'hypothèse nulle Ho, la variable aléatoire
C. Huber
Indépendance 26
P' o -P o
E=
1 1
P t Qt ( + )
n1 n2
Et la probabilité pour que, sous l'hypothèse H o, on ait observé une valeur de E , qu'on
appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue,
vaut donc à peu près
Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on
conserverait H o pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est
significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal
à 5 %.
On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la
sensibilisation aux intoxications professionnelles.
Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on
l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire
|Ε| ≥ |e| ou E 2 ≥ e2
De même que lors de l'étude des tests d'ajustement, on peut montrer que E 2 s'écrit aussi, en
notant :
C. Huber
Indépendance 27
2 2 2 2
2 ( 1 -n 1P t ) ( 2 -n 1Qt ) ( 3 -n 2P t ) ( 4 -n 2Qt )
E = N + N +N +N
n 1P t n 1Qt n 2P t n 2Qt
Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité
des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe
comme si l'on avait un seul échantillon de taille n 1+n2 et P t constitue alors un bon estimateur
de cette proportion.
Alors E 2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des
effectifs à sa moyenne estimée.
On appelle quelquefois les N i les effectifs observés et les n iPt et n iQt les effectifs
"calculés" ou "théoriques".
Sous l'hypothèse H o, pourvu que les dénominateurs n iPt et n iQt soient tous supérieurs ou
égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On
2
rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ r) la
loi de la variable
S = Z21+Z22+... +Z2r
où les Zi sont indépendantes et toutes de loi N(0, 1)).
On constate donc que le test fondé sur E 2 est identique à celui fondé sur E , mais la forme
E2 permet une généralisation immédiate en cas où
A a r modalités,
B a k modalités .
Les résultats d'une observation portant sur n = 1574 malades sont les suivants :
C. Huber
Indépendance 28
Degré de gravité Y
de la maladie
G 1 42 230 273
M 6 114 347 467
L 23 301 510 834
Total 30 457 1087 1574
Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses
nulle et alternative :
H o : X et Y sont indépendantes,
H 1 : X et Y sont liées .
P (X = i, Y = j) = P (X = i) . P (Y = j)
soit pij = pi . p.j
Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du
tableau des observations, sont
n n n
p ij = ij , p i. = i. ,p .j = .j
n n n
suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les
dénominateurs n i. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs
classes).
Revenant à l'exemple considéré, r = k = 3 et la variable E 2, qui vaut e = 61,4, suit , sous
C.
Huber
Indépendance 29
2
l'hypothèse Ho, une loi du χ à (r -1) (k - 1) = 4 degrés de liberté.
Donc
P Ho (E2 > 61,4) < 10-3
d'après la table, le test est donc significatif avec un très bon degré de signification (10 -3): on
rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la
vaccination.
Y
' - Y
E=
2 2
S' S
+
n' n
Si l'on choisit pour risque d'erreur de première espèce α , la zone de rejet de H o ,donc
de l'hypothèse que X et Y sont indépendants, correspond à la région :
{ |E| > h }
C.
Huber
Indépendance 30
Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi,
par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous
Ho, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1),
de densité de probabilité qui vaut par conséquent
2
1 z
f(z)= exp(- )
2π 2
on a
2
1
P( ()
E ≤ h ) ≈ P( () ∫ h z
Z ≤h) = exp − ) dz
−h π
2 ( 2
Exemple
Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme
cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades
traités par ce médicament :
au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe
on administre le médicament. Les moyennes et variance estimées sur
chacun des groupes sont
m y = 80 s2y = 5 pour le rythme cardiaque Y du groupe témoin,
m y' = 81 s2y'= 3 pour le rythme cardiaque Y'du groupe traité .
Le test bilatéral de H o (EY' = EY) contre H 1 (EY' EY) qui se fonde sur l'écart réduit E
défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification
compris entre 1% et 2 %.
a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ;
Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut
plus obtenir la loi de E sous H 0 grâce à l'approximation normale. Cependant, si l'on sait (ou si
l'on peut s'autoriser à supposer) que l a loi de Y et celle de Y' sont toutes les deux normales et
de même variance, la variable :
'Y - Y
E' =
2 2
n' Sy'
+nS y 1 + 1
n+n'-2 n' n
suit la loi de Student à n + n' - 2 degrés de liberté.
C. Huber
Indépendance 31
suit la loi de Student à n degrés de liberté dont la densité gn (t) au point t vaut
- n+1
2 2
t
g n(t) =c n (1+ )
n
Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé
les résultats suivants :
C. Huber
Indépendance 32
variances des variables de base , pour pouvoir fonder un test sur la variable E' de loi de
Student sous Ho.
D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité
dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme
cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les
espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types
de différences peuvent intervenir, à moyennes égales ou non.
Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on
peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des
variables de base.
Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification
a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2
2
paramètres pour la loi normale, N ( µ, σ ), la moyenne µ et l'écart type σ ,1 pour la loi de
Poisson etc.) :
- le test de la médiane
- le test de Wilcoxon
- le test de Kolmogorov-Smirnov;
Exemple :
Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut
prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades
comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5
autres seront des témoins non traités, mais à qui on administre un [Link] résultats
concernant la durée de survie exprimée en années sont les suivants :
Pour chacun des trois tests, la première opération à effectuer est d 'ordonner les valeurs
obtenues, en les considérant dans leur ensemble :
En effet, sous l'hypothèse nulle
H o : L (S | T ) = L (S | NT )
qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités
(NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles
respectives n et n', mais un seul grand échantillon de taille n + n'.
Durée de survie 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 17,8
C. Huber
Indépendance 33
Rang 1 2 3 4 5 6 7 8 9 10
Traitement T T T T T
Défnition de la médiane :
Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) =
P(X ≤ x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que :
C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En
particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de
l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa
gauche qu'à sa droite. Ici
m = 6,05
Totaux 5 5 10
C. Huber
Indépendance 34
Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à
la médiane.
De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux
catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane
générale observée :
Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules
parmi les n + n' a la même probabilité de sortir. Comme il y a en tout
n+n'
A+C
n n'
.
A C
P(A,C)=
n+n'
A+C
Rappel :
n k
onrappellequelaquantité , notéeaussiC n, estlenombredescombinaisonsdenobjetspriskpark,
k
n!
et vaut .
k!(n-k)!
où n! , appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1 .
Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des
deux groupes :
voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table
correspond à un test unilatéral de l'hypothèse H0 d'indépendance.
Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que
D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette
pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie.
C. Huber
Indépendance 35
Remarques
1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de
puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup
d'information en remplaçant les données initiales sur la durée de survie par le tableau des
effectifs inférieurs et supérieurs à la médiane globale.
La variable quantitative continue qu'était la durée de survie a été transformée en une
variable à deux classes.
Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales , est
plus puissant que le précédent. La statistique considérée est la somme W des rangs des
valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par
ordre croissant.
Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités
on obtient :
W = 4 + 6 + 8 + 9 + 10 = 37 .
Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse H o de
non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2, ...,
10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5
premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont
équiprobables et donc de probabilité 1 / 10! . Mais deux permutations telles que les 5
premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux
individustraités, on ne les distinguera donc pas. Comme il y a (5!) 2 telles permutations, on
obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle
vaut
5!5!
10!
Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour queW soit égale à une
certaine valeur. En effet, les deux répartitions distinctes suivantes :
R1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins
R2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins
donnent la même valeur à W : 37.
On décidera de rejeter Ho si W est trop grand ou trop petit . On peut décider de rejeter H o si
P (W ≥ 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi
C. Huber
Indépendance 36
comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien
l'information contenue dans les données).
Pour calculer P (W ≥ 37) il faut déterminer les répartitions R telles que W ≥ 37. Leur nombre,
multiplié par (5!)2 / 10! donnera la probabilité cherchée :
R = (6, 7, 8, 9, 10)Traités W = 40
R = (5, 7, 8, 9, 10)T W = 39
R = (5, 6, 8, 9, 10)T W = 38
R = (4, 7, 8, 9, 10)T W = 38
R = (5, 6, 7, 9, 10)T W = 37
R = (4, 6, 8, 9, 10)T W = 37
R = (3, 7, 8, 9, 10)T W = 37
n 1 (n 1 +1)
W=U+
2
ou n1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2 .
L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra
en évidence que des différences concernant justement les espérances des lois concernées. Le
test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois :
Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun
des deux échantillons.
Reprenons l'exemple précédent et notons F n la fonction de répartition empirique de la
survie dans le groupe non traité. F'n la même quantité par le groupe traité.
Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on
considère
C. Huber
Indépendance 37
Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test
unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une
direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart
maximal des fonctions de répartition empiriques dans le sens choisi. Ici:
appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous.
Fn
F'
n
La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L,
intitulée "Table of critical values of K D in the Kolmogorov - Smirnov two-sample test". K D
y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des
deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux
colonnes intitulées " One-tailed test". Pour le test bilatéral, aux deux colonnes " Two -tailed
test".
Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation
normale , sous Ho, pour W1, somme des rangs du groupe I :
L (W 1) ≈ N( n 1 (n 1 +n 2 +1) ; n 1 n 2 (n 1 +n 2 +1) )
2 12
C. Huber
Indépendance 38
a - Cas normal :
Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence
une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe
normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour
densité de probabilité en tout point (x,y) du plan :
1 1 2 2
f(x,y)= exp(- (x-µ) -2 ρ( x−µ)(y−µ')+(y- µ' ) )
2 2
2 πσ 2(1- ρ )
ρ( X,Y)= E[(X-EX)(Y-EY)]
σ(X) σ(Y)
Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul , et le test
d'indépendance est fondé sur la loi du coefficient de corrélation empirique :
n
∑ (x i -x)(y i -y)
i=1
R=:
n 2 n 2
[ ∑ (x i -x) ][ ∑ (y i -y) ]
i=1 i=1
dont la loi , qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté
du cours de PCEM 1.
n
∑ (R(i)-R)(S(i)-S)
i=1
R s =:
n 2 n 2
[ ∑ (R(i)-R) ][ ∑ (S(i)-S) ]
i=1 i=1
Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite
des n premiers entiers. Or on sait que
n
n(n+1) n+1
∑ i=
2
donc R=S=
2
i=1
n
2 n(n+1)(2n+1) Σ R 2 = Σ S 2 = n(n+1)(2n+1)
∑ i =
6
donc
6
i=1
Σ RS
Rs =
2 2
(Σ R ) (Σ S )
C. Huber
Indépendance 40
2
6 Σ di
r s =1-
3
n -n
Exemple
Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45
à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes
d'Angleterre et du pays de Galles.
Lorsqu'apparaissent des ex-aequo , on affecte à chacun d'eux le même rang, qui est la
moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux.
Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une
telle procédure est négligeable sur le comportement de rs.
Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la
somme des carrés des rangs : Σ R2 (ou Σ S2, ou les deux) ne vaut plus
n(n+1)(2n+1)
6
C. Huber
Indépendance 41
On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion ?
Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des
rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour
l'autre.A chacune de ces permutations, qui sont en nombre n ,correspond une valeur du
coefficient de corrélation de Spearman r [Link] de ces valeurs a donc pour probabilité 1/ n
etcette loi a été tabulée.
n-2
T=R s 2
1-R s
Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives.
Le test correspondant à la même puissance que le précédent, et il a l'avantage de se
généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de
corrélation partielle des rangs.
Voyons, sur un exemple, comment se définit le coeffcient de Kendall .
Exemple :
Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c,
et d. Le tableau ci-dessous donne les pronostics, en années :
Patient a b c d
Médecin 1 : X 1 2 0,9 0,5
Médecin II : Y 1,5 0,8 2 1
Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par
ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau ci-
C. Huber
Indépendance 42
dessous
Patient d ca b
Médecin 1 : R 1 2 3 4
Médecin II : S 2 4 3 1
Comme le coefficient r s de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus
simple, de le calculer est la suivante :
A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite
de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus
petits que lui. Ainsi cela donne dans notre exemple :
Patient d: 2-1=1,
c: -2 ,
a: -1 ,
La loi de τ sous Ho est tabulée. De plus, dès que n est supérieur à 10, la loi de
τ−µ τ
στ
στ = 2(2n+5)
9n(n-1)
C. Huber
Indépendance 43
Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à
l'intervention d'une troisième variable Z.
On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et
celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait
l'intelligence.
Exemple :
Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après
remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z
on obtient le tableau suivant :
Sujet a b c d
Rang de Z 1 2 3 4
Rang de X 3 12 4
Rang de Y 2 3 1 4
Ici A = 4, B = 0, C = D =1.
C. Huber
Indépendance 44
τ = AD-BC
xy,z (A+B)(C+D)(A+C)(B+D)
qui vaut ici 0,63.
Si l'on avait calculé le coefficient d'association de Kendall τxy , on aurait trouvé
τ
xy = 0,67 .
C. Huber
45
A k échantillons indépendants :
Médiane généralisée.
Analyse de la variance non-paramétrique.
B k échantillons liés :
Test de Cochran.
Test de Friedman.
C. Huber
46
indépendants.
C. Huber
47
Remarque
Dans le cas où certaines des valeurs observées sont exactement égales à la médiane globale, il
n'est pas correct de considérer que E ij = nj / 2, car la probabilité d'être inférieur ou égal à m a
pour estimateur 0. 1 / n , la fréquence relative dans l'échantillon global des valeurs inférieures
ou égales à M, qui est supérieure à 1/2. Cela revient à appliquer la technique habituelle qui
veut que Eij = Oi. O.j / n , le produit du total de ligne par le total de colonne, divisé par le total
général n, l'effectif global.
Exemple
Un chercheur dans un centre de santé publique veut étudier l'infuence du degré d'instruction
de la mère sur le soin avec lequel elle assure la surveillance médicale de son enfant. Dans ce
but, il considère le niveau maximum de culture atteint par la mère, mesuré par le diplôme le
plus élevé, et par conséquent le nombre d'années d'études que cela suppose, et le nombre de
visites de contrôle médical effectuées pour l'enfant au cours de ses deux premières a nnées.
42 2 9 2 2
34 0 4 4 6
01 4 2 5
76 3 3 2
13 8
20 0
02 5
35 2
51 1
12 7
1 6
5
1
Parmi les 528 naissances enregistrées dans une grande maternité pendant une période donnée, il tire
dans la liste alphabétique une sur 12 d'entre elles, ce qui lui donne 44 couples (mère-enfant) pour
lesquels il a les deux informations précédentes. On distingue 6 groupes de mères ayant le même niveau
d'instruction : l'école élémentaire, le collège, jusqu'en troisième, le lycée, jusqu'à l'obtention du bac, le
premier cycle des universités, la licence et enfn la maîtrise ou au-delà.
L'hypothèse nulle Ho est qu'il n'y a pas de différence en ce qui concerne le nombre des visites de
contrôle en fonction du degré d'instruction de la mère. On a donc 6 échantillons indépendants. Si on
les regroupe, on trouve pour médiane globale du nombre des visites M = 2.5, valeur qui laisse 22
observations à sa gauche et 22 à sa droite. Les scores dans chacun des groupes donnent donc le tableau
suivant.
C. Huber
48
Nbre de mères
dont les visites 5 4 7 3 2 1 22
sont plus fréquen-
tes que la médiane. 5 5,5 6,5 2 2 1
Nbre de mères
dont les visites 5 7 6 1 2 1 22
sont moins fréquen
tes que la médiane 5 5,5 6,5 2 2 1
Total 10 11 13 4 4 2 44
Les effectifs en italiques représentent les effectifs "calculés", les Eij , alors que les effectifs observés,
les Oïj sont indiqués en caractères ordinaires.
On constate alors qu'on ne peut pas effectuer un test de chi 2 car un grand nombre de cases ont un
effectif inférieur à 5. Cependant, comme les groupes qui contiennent trop peu d'observations
concernent les trois niveaux d'instruction les plus élevés, on peut les regrouper pour en faire un seul :
celui des mères qui ont fait des études universitaires, quel qu'en soit le niveau. Après regroupement
cela donne le tableau suivant
Nbre de mères
dont les visites 5 4 7 6 22
sont plus fréquen
tes que la médiane. 5 5,5 6,5 5
Nbre de mères
dont les visites 5 7 6 4 22
sont moins fréquen-
tes que la médiane 5 5,5 6,5 5
Total 10 11 13 10 44
Comme tous les effectifs théoriques (en italique), sont maintenant supérieurs à 5, on peut effectuer un
test du chi 2 sur ce tableau, ce qui donne:
= 1,295 .
Or la probabilité pour qu'un chi 2 à trois degrés de liberté dépasse cette valeur est égale,
d'après la table, à une valeur comprise entre 0,70 et 0,80. On ne peut donc pas rejeter
C. Huber
49
l'hypothèse nulle selon laquelle le nombre des visites médicales de contrôle pour les enfants
entre 0 et 2 ans est indépendante du niveau d'instruction de la mère.
On se souvient que l'analyse de variance classique, qui teste l'égalité des moyennes dans
plusieurs populations, suppose que toutes les variables aléatoires concernées sont normales
(on dit aussi parfois gaussiennes). Si rien ne permet de faire cette hypothèse de normalité,
on peut tester cette hypothèse d'égalité des moyennes grâce au test de Kruskal-Wallis
explicité ci-dessous.
12 R j2
K-W = ___________ ∑ ( _____ ) - 3 (n + 1)
n (n + 1) j nj
Dans le cas où k =3 et le nombre des sujets dans chacun des trois échantillons est inférieur
à 5, on dispose de tables qui donnent les valeurs critiques exactes pour la statistique K-W.
Exemple 1
Un obstétricien se demande si le fait que la mère fume a une infuence sur le poids
du nouveau-né. Les mères sont divisées en 8 catégories par ordre croissant de quantité de
cigarettes fumées par jour, et le poids des nouveau-nés est exprimé en kilos. On obtient le
tableau suivant:
12 3 4 5 6 7 8
C. Huber
50
K-W = (12 / 56 (56 + 1)) ( 216,5 2 /8 + 414 2 /10 + 277,5 2 /8+ 105, 5 2 /6 +
2
122 /4 + 72 2 /4 + 317 2 /10) - 3x57
= 18,464.
Cette statistique suit une loi qui est à peu près un chi 2 à k- 1 7 degrés de liberté.
Or, d'après la table P Ho(χ2 > 18,464) < 0,02. On rejette donc Ho .
1 2 345678
52,5 47,5 41,0 23,0 36,0 23,0 18,5 8,5
27,5 54,5 47,5 23,0 31,5 12,5 15,5 27,5
41,0 23,0 41,1 31,5 36,0 12,5 34,0 47,5
52,5 36,0 31,5 8,5 18,5 18,5 4,0 41,0
14,0 41,0 47,5 8,5 2,5 56,0
15,5 47,5 18,5 11,0 2,5 54,5
8,5 31,5 23,0 6,0
5,0 51,0 27,5 47,5
41,0 27,5
41,0 1,0
Remarque
C. Huber
51
Cependant, on remarque qu'il y a beaucoup d'ex-aequo, ce qui est contraire à l'hypothèse que
l'on fait toujours lorsqu'on veut se servir des rangs l'hypothèse de continuité de la loi
sous-jacente, qui interdit les ex-aequo pourvu que la mesure soit très précise. En effet les
mesures ici ne sont pas d'une très grande précision et elles provoquent l'apparition de pas mal
d'ex-aequo.
On sait que si l'on fait la correction pour tenir compte des ex-aequo, on obtiendra une valeur
de K-W plus grande et donc un test plus signifcatif : on dit que le test sans correction est
conservatif. Pour faire la correction, il faut diviser K-W par la statistique suivante :
1 - (∑ T )/ (n3 - n)
où la sommation a lieu sur toutes les séries d'ex-aequo, et T = t3 où t est le nombre des
ex-aequo dans la série. Les premiers ex-aequo apparaissent dans la série 8 où il y a deux
ex-aequo de rang 2,5 . Donc dans ce cas, t = 2 et T = 8 - 2 = 6. Les ex-aequo suivants ont le
rang 8,5 et sont au nombre de 4, ce qui donne pour la valeur de T correspondante: 43 - 4 = 60.
On a ainsi 13 groupes d'ex-aequo : il y a
- 5 groupes de 2 ex-aequo, donnant T = 6 et ET = 30
- 1 groupe de 3, qui donne T = 24,
- 4 groupes de 4, qui donnent T = 60 et ET = 240,
- 1 groupe de 5, donant T = 120,
- 1 groupe de 6, donnant T = 2 10,
- 1 groupe de 7 donnant T = 336.
C. Huber
52
Si l'on veut utiliser un test de comparaison de deux échantillons pour comparer k échantillons,
on aura des diffcultés pour deux raisons
- D'une part, il faudra effectuer un très grand nombre de tests; par exemple si k = 5, il faudra
faire 10 tests, le nombre des combinaisons de 5 objets pris deux par deux.
- D'autre part, si chacun de ces tests est fait au niveau 5 %, le résultat obtenu ne le sera pas
avec ce même niveau. On peut prouver que le niveau passe alors à 40 %.
1 Le test de Cochran :
Le test de Mac Nemar pour deux échantillons peut être étendu au cas où ron a plus de
deux échantillons. Voici deux exemples de circonstances dans lesquelles on peut
employer un test de ce type :
1) On a plusieurs (n) groupes de (k) sujets comparables (on dit "appariés") qui répondent
à une même question dans des circonstances différentes. Par exemple, de deux
médicaments qui entrent en compétition pour assurer le même service (on peut penser à
l'aspirine et à l'ergotamine pour supprimer les maux de tête par exemple), on leur
demande lequel ils préfèrent, avant une campagne publicitaire pour l'un des deux, après
une telle campagne, après un scandale impliquant le mauvais usage de l'un des deux
produits, etc... .
S'il y a k circonstances différentes, on a k échantillons, qui sont liés puisque ce sont des
sujets appariés qui répondent
Les données peuvent être rangées dans un tableau à n lignes et k colonnes, et on veut
tester que la fréquence des réponses d'une certaine sorte est la même dans chacune des k
colonnes, ou plutôt que les différences peuvent être imputées au hasard seul.
En notant:
C. Huber
53
k
k(k - 1) ∑ (G j − G) 2
j =1
Q= n n
k ∑∑
L −
2
i Li
i==
1 i 1
Cochran a montré que cette statistique est approximativement distribuée comme un chi 2 à
k - 1 degrés de liberté.
Une formule équivalente à la précédente, mais plus fàcüe à calculer est la suivante
Q = { (k-1)[ k ∑ Gj - (∑ Gj ) ] } / { k ∑ Li - ∑ Li }
2 2 2
Exemple
Une interview est conduite auprès de 18 personnes, la question posée étant "De ces deux
médicaments, lequel utilisez vous de préférence en telle circonstance ? ", la réponse étant
codée 1 s'il s'agit du premier et 0 s'il s'agit du second. On obtient le tableau suivant:
1 2 3
10 0 0 0 0
21 1 0 2 4
30 1 0 1 1
40 0 0 0 0
51 0 0 1 1
61 1 0 2 4
71 1 0 2 4
80 1 0 1 1
91 0 0 1 1
10 0 0 0 0 0
il 1 1 1 3 9
12 1 1 1 3 9
13 1 1 0 2 4
14 1 1 0 2 4
15 1 1 0 2 4
16 1 1 1 3 9
17 1 1 0 2 4
18 1 1 0 2 4
C. Huber
54
G1 = 13 G2 = 13 G3=3 ∑ Li = 29 ∑ Li2 = 63
2 Le test de Friedman
Exemple 1 :
On étudie le délai de disparition &une affection de l'épiderme après remploi de l'une ou
l'autre de 4 différentes thérapies, dont dieux consistent en l'application de pommade et
deux en l'absorption par voie orale &un certain produit Les observations sont les suivantes
sur n = 3 groupes de 4 personnes.
Thérapie
I 11 III IV
Groupe A 7 9 4 1
Groupe B 8 6 5 2
Groupe C 6 9 1 2
A l'intérieur de chaque ligne, on ordonne les valeurs par ordre croissant et on remplace
chacune &elles par son rang, obtenant ainsi le tableau suivant
Thérapie
I 11 III IV
Groupe A 3 4 2 1
Groupe B 4 3 2 1
Groupe C 3 4 1 2
R1 = 10 R2 = 11 R3 =5 R4 = 4
Si l'hypothèse nulle est vraie, la répartition des rangs dans chacune des colonne doit
être la même. C'est à dire que l'on doit s'attendre à avoir la même fréquence de 1, 2,
3 et 4 dans chacune des colonnes, ce qui a pour conséquence que la somme des rangs
dans chacune des colonnes devrait être à peu près la même.
C. Huber
55
k
12 ∑
Fr = Ri − 3n(k + 1)
2 2
+
nk(k 1) i =1
Cette statistique a une loi qui, sous l'hypothèse Ho , est approximativement celle du chi 2
à k -1 degrés de liberté pourvu que n et k soient suffsamment grands. Ici, n n'est pas très
grand
puisqu'il ne vaut que 3.
Aussi on utilise la table exacte pour les petites valeurs de n et k, et on trouve
Fr2 = 7,4 , donc PHo ( Fr2 ≥7,4) = 0,033.
Exemple 2 :
On s'intéresse au délai nécessaire à l'élimination des traces dans le sang d'un médicament,
pour une même dose, lorsque on utilise trois différents modes d'administration.
Pour cela, on choisit 18 groupes de 3 personnes appariées sur le sexe, l'âge, le poids
et la gravité de la maladie traitée par ce médicament, et on note le temps nécessaire
à l'élimination de ce produit dans le sang après la prise du produit.
Type d'administration
I II III
1132
2231
3132
4123
5312
6231
7321
8132
9312
10 3 1 2
il 2 3 1
12 2 3 1
13 3 2 1
14 2 3 1
15 2,5 2,5 1
16 3 2 1
17 3 2 1
18 2 3 1
C. Huber
56
Par suite Fr2 = 8,4 pour un nombre de degrés de liberté égal à k - 1 = 3 - 1 = 2. La probabilité
qu'un chi 2 à 2 ddl égale ou dépasse cette valeur est comprise entre 0,01 et 0,02. Le test est
donc signifcatif avec un degré de signifcation inférieur à 2 % et on rejette Ho.
C. Huber
Exercices 57
EXERCICES ET PROBLEMES
2 Cartes
Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5
cartes au hasard, B prenant celles qui restent.
a) Quelle est la probabilité que A ait le joker ?
b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker
sachant que ce dernier n'a pas été jeté ?
3 Conseil de sécurité
Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine,
les Etats Unis et la Russie sont des membres [Link], lors d'un meeting, les membres
prennent place au hasard, quelle est la probabilité pour que :
Britanniques et Français soient voisins Russes et Américains non
a) dans le cas où ils sont alignés,
b) dans le cas où ils sont autour d'une table ronde.
Indication : on notera B, F, R, A les quatre représentants en question.
1) Compter le nombre total de dispositions possibles .
2) Pour un placement global donné de {B, F, R, A} réalisant la condition demandée,
compter :
a) le nombre de placements possibles de {B, F, R, A},
C. Huber
Exercices 58
5 Viager
Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et
fixe dépend de la disparition des deux conjoints actuellement âgés de 60 anspour la femme
et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la
rente au bout de 10 ans.
a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant ?
Table de mortalité
Nombre de survivants
Hommes Femmes
Naissance 1 000 000 1 000 000
60 ans 381 065 428 583
70 ans 242 442 312 612
80 ans 80 381 139 349
b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être
son montant r pour être équitable ?
2 - Exercices de génétique
Rappel de quelques définitions de génétique :
Base
Gamète : cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n
chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes.
zygote : cellule résultant de la fécondation.
diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double
de celui des gamètes.
Systèmes de croisement
Les définitions qui suivent concernent uniquement des populations d'effectif infiniment
grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de
sélection signifie que le polymorphisme de la population est conditionné par des gènes
inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne
soit favorisé par la sélection d'autre part.
Panmixie :
L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de
l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux
tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les
gamètes femelles.
Consanguinité
58 C. Huber
Exercices 59
Coefficient de parenté :
Le coefficient de parenté de deux individus K et L, qui est noté f KL, est égal à la
probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un
des locus homologues du génôme de L, ces deux locus soient identiques.
Locus identiques :
Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications
successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de
duplications successives.
7 Consanguinité :
Soit un sujet dont les parents sont doubles cousins germains.
a) Etablir l'arbre généalogique
b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés.
c) Calculer le coefficient de consanguinité de ce sujet.
d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une
mucoviscidose
(maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun
renseignement sur la famille.
C. Huber
Exercices 60
8 Achondroplasie :
Un couple de nains achondroplases I 1et I2 a eu successivement :
- II1 enfant achondroplase
- II2 enfant normal
- II3 enfant d'aspect achondroplase, décédé à la naissance.
L'achondroplasie est une maladie dominante autosomique, et on peut considérer
l'homozygotie comme létale en général.
a) Donner les génotypes les plus probables des sujets : I 1, I2, II1, II2 et II3
b) Quel est le génotype le plus probable des parents de I 1 et de I2 ?
c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet
ordre ?
d) ... dans n'importe quel ordre ?
e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains ?
f) II 2consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa
descendance.
9 Groupes sanguins :
556 individus prélevés au hasard dans une population supposée infiniment grande
présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux co-
dominants M et N :
167 sont M
280 MN
109 N
EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population
étudiée.
10 Phosphatases érythrocytaires :
Les hématies humaines renferment des phosphatases dénommées "Phosphatases
érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse,
désignés par A, B et C. Chez certains individus, il existe une seule phosphatase
érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B
ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB,
AC et BC.
Sur 268 individus extraits au hasard d'une population humaine, on dénombre
:
25 de phénotype A
106 B
113 AB
9 AC
15 BC
Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur
le mode de reproduction de la population, qui rende compte de cette distribution ?
60 C. Huber
Exercices 61
3 - Exercices variés
(Expérimentation biologique, épidémiologie, essais thérapeutiques) ;
13 Rhumes
Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes
de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population.
On a obtenu les résultats suivants :
- 42 ont été attaqués les deux fois.
- 11 ont été attaqués pendant la première période mais pas pendant la seconde.
- 19 n'ont jamais été attaqués.
1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet
sur le risque encouru lors de la deuxième période ?
2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur ? Justifier vos réponses par un
test dont vous donnerez le degré de signification.
14 poids de naissance
Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sud-
ouest de l'Angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18
C. Huber
Exercices 62
(1974).
Poids [0 1[ [1 2[ [2 3[ [3 4[ [4 5[ [5 6[ [6 7[ [7 8[
Poids [8 9[ [9 10[ [10 11[ [11 12[ [12 13[ [13 14[ [14 15[
Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375.
1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données
pour répondre à la question que l'on se pose ? Ces hypothèses seront faites dans
toute la suite.
2) Tracer la droite de régression observée de Y par rapport à [Link] est sa pente ?
Commenter.
3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une
liaison entre le poids à la naissance d'un enfant et l'âge de sa mère ? Effectuer ce
test et énoncer clairement la conclusion correspondante.
4) On a prélevé 100 dossiers médicaux de femmes qui ont accouché récemment, par tirage
au sort dans l'ensemble des maternités relatives à la population considérée. Les
résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants :
Σ x = 26 80 Σ x 2 = 74 350
i i
Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des
hypothèses faites au 1) est justifiée ?
62 C. Huber
Exercices 63
X = i le nombre de 0 1 2 3 4 5 6 7 8 9 10 N
globules d'une case
On donne Σ x2 = Σ ni i2 = 8 114 .
I–
1) Calculer la moyenne observée m du nombre X de globules par case et la variance s 2 de
X.
2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique.
3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation
de µ par le maximum de vraisemblance. Comparer avec le résultat du 1).
4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ ? Quelles
sont les propriétés de cet estimateur ?
II –
1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de
savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain.
2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m 1, m 2] où m 1 et
m2 sont définies par Prob [m ∈ (m 1, m 2) / µ = 4] = 5 %. Quelles sont vos conclusions
?
3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la
répartition théorique moyenne du nombre de globules est donnée par le tableau suivant
où Ri est l'effectif théorique ou "attendu" des cases ayant i globules:
C. Huber
Exercices 64
X=i 0 1 2 3 4 5 6 7 8 9 10 11
Ri 9,1 36,6 73,3 97,7 97,7 78,1 52,1 29,8 14,9 6,6 2,7 1,4
III –
Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on
recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte
que le nombre de cases sans globules. On obtient alors les résultats suivants :
64 C. Huber
Exercices 65
15 < t ≤ 20 173 67 45 15 7
20 < t ≤ 25 58 32 17 12 3
t > 25 38 22 12 7 3
Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que
la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans.
Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en
sont atteints ont été répartis en trois catégories : R 1, R 2 et R 3 d'après la gravité de la
rétinopathie : R1 si l'atteinte est légère, R 2 si elle est moyenne et R 3 si elle est forte.
a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P
étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du
seuil de signification accepterait on cette hypothèse ?
b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des
malades atteints de rétinopathie dans chacune des classes de durée d'évolution.
Peut-on considérer que ce pourcentage croit significativement en même temps que
la durée d'évolution, au seuil de 5 % ?
c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la
durée d'évolution du diabète ?
d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée
H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la
tension, et obtenu au bout de 40 jours de traitement les résultats suivants :
Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
patient
Différence +1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9 -8 -18 -5 -22 -21 -15 -11
de tension
Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au
seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet).
C. Huber
Exercices 66
66 C. Huber