0% ont trouvé ce document utile (0 vote)

43 vues67 pages

Cours de Biostatistique I : Probabilités et Tests

Le document présente un cours de biostatistique, abordant les bases des probabilités, l'estimation et les tests statistiques. Il couvre des sujets tels que les lois de probabilité, les tests d'ajustement, les tests d'indépendance, ainsi que des méthodes non paramétriques pour comparer des échantillons. Le contenu est structuré en chapitres détaillant les concepts fondamentaux nécessaires à l'analyse statistique en santé publique.

Transféré par

Meva'a Roger

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

43 vues67 pages

Cours de Biostatistique I : Probabilités et Tests

Transféré par

Meva'a Roger

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université René Descartes LMD Sciences de la Vie et de la Santé

UFR Biomédicale, M1 de Santé Publique

45 rue des Saints-Père, 75 006 Paris Spécialité Biostatistique

COURS de BIOSTATISTIQUE I

Bases : Probabilités, Estimation et Tests.

C. Huber
1

Table des matières

I Probabilités. Principes des tests et de l'estimation

1 Introduction 3
2 Calcul de probabilités et variables aléatoires réelles 3
3 Quelques lois de probabilité 5
A Lois continues 5
a. Lois normales 5
b. Lois exponentielles 7
c. Lois gamma 7
d. Lois du chi deux 8
e. Lois béta 9
f. Lois de Fisher-Snedecor 10
g. Lois de Student 10
B Lois discrètes 10
a. Lois de Bernoulli 10
b. Lois binomiales 10
c. Lois multinomiales 11
d. Lois de Poisson 11
4 Approximations 12
a. Approximation normale de la binomiale 12
b. Approximation normale d'une somme 12
c. Approximation de Poisson de la binomiale 13
d. Approximation normale du chi deux 13
5 Principe des tests 14
6 Principe de l'estimation et maximum de vraisemblance 15

II Tests d'ajustement
1 Introduction 17
2 Test d'ajustement du chi2 pour une loi spécifée 17
a. cas discret 17
b. cas continu 18
3 Test d'ajustement du chi2 avec estimation de paramètres 19
4 Test de Kolmogorov-Smirnov pour un échantillon 23

III Mise en évidence de liaisons : tests d'indépendance

1 Cas de deux variables discrètes 25
a. à deux valeurs 25
b. à un nombre quelconque de valeurs 27
2 Cas d'une variable continue et d'une variable à deux valeurs 29
Test de comparaison de deux échantillons 30
Tests non paramétriques 32
Test de la médiane 33
Test de Wilcoxon 35
Test de Kolmogorov-Smirnov pour 2 échantillons 36

C. Huber
2

3 Cas de deux variables continues 38

a. Couple normal : test du coeffcient de corrélation 38
b. Cas général : tests non paramétriques 39
coeffcient de corrélation des rangs de Spearman 39
coeffcient de corrélation de Kendall 41
c. Intervention d'un troisième facteur 43
coeffcient de corrélation partielle 43

IV Tests non paramétriques pour comparer k échantillons

1 k échantillons indépendants 45
Extension du test de la médiane 46
Test de Kruskal-Wallis 49
2 k échantillons liés 52
Test de Cochran 52
Test de Friedman 54

V Exercices 57

Tables
Normale T1
Student T2
Chi deux T3
T4

Kolmogorov-Smirnov pour un échantillon T5

Wilcoxon, Mann-Whitney T6
T7
T8
T9
T10
Spearman T11
Kolmogorov-Smirnov pour deux échantillons T12
T13
Kendall T14
Fisher-Snedecor T15
T16
T17
T18
Kruskal-Wallis T19
T20
Friedman T21
T22

C. Huber
Probabilités et notions fondamentales 3

I Introduction :

Quelques notions de probabilités. Tests et estimateurs simples.

1 - Introduction
Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la
compréhension des méthodes d'analyse statistique ainsi que les notions de base pour
l'estimation de paramètres et les tests d'hypothèses.

Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une
variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une
généralisation du problème de comparaison d'une proportion observée à une proportion
théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi
théorique donnée.

Le chapitre III concerne les tests d'homogénéité et d'indépendance, qui servent à mettre en
évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple
conduit à la comparaison de deux proportions observées, qui peut être considéré:
- Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades
et non-malades) : on se demande si le facteur de risque est présent dans la même proportion
dans les deux échantillons.
- Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1.
Les tests de comparaison de deux échantillons sont de trois types:
- approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de
l'échantillon est assez grande,
- paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations.
- non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons
sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par
exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui
n'est pas toujours le cas.).

Le chapitre IV donne des tests non paramétriques pour comparer plus de deux échantillons.

2 - Calcul des probabilités et variables aléatoires réelles

Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une
probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles
de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une
tribu a. Ces événements seront notés A, B, C, D,... .

C. Huber
Probabilités et notions fondamentales 4

Exemple
Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que
maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M,
l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les
événements élémentaires :
(0,0,0) lorsque aucun des trois symptômes n'est présent,
(1,0,0) lorsque seul le premier est présent, etc..
(1,1,1) lorsque les trois symptômes sont présents.

a) Probabilité que A ou B se produisent : (additivité de la probabilité)

Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se
produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la
somme de leurs probabilités respectives :

P(AUB) = P(A)+P(B) .

b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement)

Si A ne se produit pas, c'est que c'est son complémentaire A c dans E qui se produit :

P(Ac) = 1 - P(A)

c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle)

La probabilité de A conditionnellement à b est notée comme P(A|B) ou P(A|B) et définie
comme
P(A|B) = P(A∩B) / P(B)
Exemple :
Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette
probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que
c'est une figure ?

d) Probabilité que A et B se produisent ensemble :

Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A ∩B, se
produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on
a
P(A∩B) = P(A|B)P(B) = P(B|A)P(A)

Ces deux égalités sont toujours valables, sans condition.

e) Indépendance de deux événements :

Si A et B sont indépendants , P(A∩B) = P(A) P(B),
P(A|B) = P(A) ,
P(B|A) = P(B) .

Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de
l'indépendance de A et B.

Espérance et variance d'une variable aléatoire réelle :

Si X est une variable aléatoire réelle (v.a.r.) , son espérance, ou moyenne, EX et sa
variance Var(X), sont ainsi définies :

C. Huber
Probabilités et notions fondamentales 5

1)Si X est discrète, telle que P(X = x i) = p i , i = 1, 2, ..,k , son espérance EX et sa variance
Var(X) sont respectivement :
EX = Σ p x ,
i i
Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 .

Les sommations portent sur tous les indices i = 1,..,k.

L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) .
2) De même, si X est continue, de densité de probabilité f(x) au point x,
EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX)2 f(x) dx et σ(X) = √ Var(X) .

Propriétés de l'espérance et de la variance :

- L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la
somme des espérances : E(X 1+ X2 + ... + Xn) = E X1 + E X2 + ...+ E Xn .

- La variance d'une somme, par contre, n'est en général pas égale à la somme des
variances:
Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y),

où cov(X,Y) vaut , par définition :

cov(X,Y) = E(XY) - EX EY .

Si X et Y sont indépendantes , la variance de leur somme est égale à la somme de leurs

variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y).

Coefficient de corrélation
La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle
dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette
unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer
cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:

ρ = cov(X,Y) / σ σ
X Y

3 - Quelques lois de probabilité

A Lois continues

a) Lois normales N (µ, σ2)

2
Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N( µ, ) si sa densité
de probabilité au point x vaut σ
2
f(x) = 1 exp(- (x- µ) ),x ∈ IR.
2πσ 2
2σ
2,
Alors, EX = µ Var(X) = et la variable Ζ = (X- µ) / σ suit la loi normale réduite
,
N(0,1) de densité au point z : σ

C. Huber
Probabilités et notions fondamentales 6

2
z
1 -
ϕ( z) = e 2 ,z ∈ IR.
2π

On note Φ la fonction de répartition correspondante

Φ ( z) = P( Z ≤ z) = ∫ z ϕ( t ) dt
−∞

Elle joue un très grand rôle car il sufft de connaître Φ pour pouvoir calculer toute
probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi
normale N(µ, 2)
σ
P(X ≤ x) = P(µ+ Z ≤ x) = P(Z ≤(x- µ)/σ ) = Φ x−µ)/ ]
σ [( σ

Les valeurs de Φ sont données par une table.

Rappelons de plus que si X et Y sont deux variables normales indépendantes , leur

somme est encore normale, de moyenne la somme des moyennes et variance la somme des
variances:
X et Y indépendantes
L (X) = N(µ, σ2) ⇒ L (X+Y) = N(µ, + µ', σ2 + σ'2 )
L (Y) = N(µ', σ'2)

Ce résultat se généralise à la somme de n'importe quel nombre de variables normales

indépendantes.

Couple normal
Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si
, pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi
normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que
leur coefficient de corrélation ρ(X,Y) soit nul.

b) Lois exponentielles E (λ)

C. Huber
Probabilités et notions fondamentales 7

La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée

E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à :

λ
f(x) = λ e- x si x ≥ 0 , ( λ> 0).
=0 sinon
La fonction de répartition F correspondante au point x s'obtient facilement par intégration
de f entre 0 et x et vaut
λ
F(x) = 1 - e- x , si x ≥ 0 ;

= 0 , si x < 0 .
L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2
En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On
peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle
unité u' = u / λ, ce qui change X en X' = λ X.

c) Lois gamma Γ(a,λ)

X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour
x < 0 et vaut pour les x positifs :
λa −λ
fa,λ ( x ) = Γ x a _1 e x x ≥0
(a )

où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier
(n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ...
3. 2.1 . Γ (a) s'écrit
∞
Γ(a) = -t a-1
e t dt
0

On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout
z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce
que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = ⎟ .
π

Propriété (Somme de deux variables indépendantes de lois gamma )

Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ)
et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma :
L (X + Y) = Γ (a + b, λ) .
La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée
égale à Γ (a, λ) :

ϕ (t) = E (e-tX) (par définition de la transformée de Laplace)

C. Huber
Probabilités et notions fondamentales 8

a
λ ∞ a-1 − (λ +t)x
= 0
x e dx .
Γ(a)

a -1
λ ∞ a-1 − y (λ +t)
= y e dy .
Γ(a) 0 a-1
(λ +t)
= λa
a
(λ +t)

Alors ϕ X+Y (t) = E ( e -t(X + Y) ) = E ( e -tX) E ( e -tY) puisque X et Y sont indépendantes,

ϕ
X + Y (t) = ( /( +t)) a+b , qui est la transformée de Laplace de la
et par conséquent λ λ
loi (a+b, λ) .
Γ
χ2 )
d) Lois du chi deux ( à n degrés de liberté
χ2 = Γ(
C'est, par définition la loi Γ(n/2, 1/2) : n n/2, 1/2) . Donc sa densité de
probabilité est égale à
1 − −
fn ( x ) = n / 2 Γ xn / 2 1 e x / 2 si x ≥ 0
2 (n / 2)

Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] n/2 , soit

ϕ (t) = (2t + 1) - n/2.

Théorème
Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable
χ 2 = Ζ12 + Ζ22
n + .... + Zn2

χ2 χ2 .
suit la loi du à n degrés de liberté (d.d.l.) , notée n

démonstration:
D'après ce qui précède, il suffit de montrer que L (X 2) = Γ(1/2 , 1/2) si X est normale
N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 :

–t(X 12) 2
ϕ
X1
2 (t)=E(e )=(1/ 2π ) e –x (t+1/2)
=(2t+1) –1/2
.

Moments

C. Huber
Probabilités et notions fondamentales 9

χ
On voit sans calcul que E ( 12 ) = 1, puisque cette moyenne est égale à celle de Z 12 , c'est à
dire à la variance de Z 1 , qui est de moyenne nulle, et de variance 1. De même,
χ
E ( n2 ) = n .
χ
Pour calculer tous les moments, E( n2k) , il suffit de dériver la transformée de Laplace
ϕ 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la
χ 1 ϕ cette
démonstration ci-dessous, que c'est une méthode générale. Notant simplement
χ
fonction, on voit que ϕ ' (t) = (2t+1) -3/2 = E( n2 ) et que, de manière générale, la dérivée
d'ordre k vaut

ϕ (k)(t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x2k e-tx f(x2) d( x2)

La valeur au point 0 de cette dérivée donne donc le moment d'ordre k :

ϕ (k) χ
(0) = 1.3.5..(2k-1) E( 12k)

χ χ χ 2 2
Par définition de la variance, on a Var( 12) = E (( 12)2) - (E ( 1 )) = 3 − 1 = 2. Comme
l'indépendance de Z 1 , Z 2 ,...., Z n entraîne l'indépendance de leurs carrés et que tous les Z i2
χ
suivent la même loi du 12 , on a immédiatement

χ
Var ( n2 ) = 2 n .

e) Lois Béta

Définition
On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si
1 ∫ x a −1 − b−1
P(β ≤ x ) = I x (a, b) = y (1 y ) dy x ∈[0 1]
B(a, b) 0

Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle
[0 ; 1] et sa densité au point x est
1 − −
f ( x ; a, b) = x a 1 (1 − x )b 1 x ∈[0 1]
B(a, b)

f(x;a,b) = 1 x a-1 (1-x)b-1 0ŠxŠ1

B(a,b)

Γ
B(a,b) = Γ (a+b) (a+b-1)!
où (= si aetbsontentiers).
(a) Γ(b) (a-1) !(b − )!
1

On peut prouver que si β suit la loi de f. r. x (a,b) alors

C. Huber
Probabilités et notions fondamentales 10

Eβ a et Var β = ab
= +
a b 2
(a+b) (a+b+1)

Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport

U / (U+V) suit la loi béta β (a,a+b).

f) Loi de Fisher-Snedecor à n 1 et n2 degrés de liberté F ( n 1 , n2 )

Si U est une variable aléatoire qui suit la loi béta 1/+2, 2/2), la variable aléatoire 2/ n1)
(Unsuit la loi de Fisher-Snédécor à n (n
1 et 2 degrés de liberté, notée 1,n2).
n En particulier, si n F(n
χ2
L 1) = (n1)
(Y χ2
L 2) = (n2) L ( n2Y1 / n1Y2 ) = F 1 , n2 )
(Y
Y1 et 2 indépendantes (n
Y

g) Loi de Student à n degrés de liberté T(n)

Par définition, si L (X) = N(0,1)

χ2
L (Y) = (n ) L (X / Y
n ) = T(n)
X et Y indépendantes

B Lois discrètes

a) Loi de Bernoulli b(p) , p ∈ [ 0 1]

C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la
probabilité p et 0 avec la probabilité 1-p notée q :

P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq.

b) Loi binomiale B (n, p) , n ∈ΙΝ , 0 ≤ p ≤ 1

C'est la loi de la somme S n de n variables aléatoires 1, 2,.., n indépendantes et de
X
même loi de Bernoulli b(p), de paramètre p (0≤p≤1) X X

1 avec la probabilité p
Xi =
0 avec la probabilité q = 1 - p

Si 1 correspond au "succès" et 0 à l'échec la statistique

Sn = 1 + 2 + .. + n
X X X

C. Huber
Probabilités et notions fondamentales 11

qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs
entières j de 0 à n. La loi de n est donnée par
S
n!
P (S n = j ) = pj = ------------ p j qn-j , j = 0,1,2,....n .
j! (n- j) !

ESn = np et Var (S n) = npq

L'espérance et la variance sont obtenues comme sommes des espérances et variances des
Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est
généralement noté
j n
Cn ou
j

c) Loi multinomiale M (n, p1, p2 ,..., pr) , n ∈ΙΝ , pi ≥ 0 , Σ pi =1

Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les
probabilités respectives p 1, p2 ,..., pr , lorsqu'on répète n fois l'épreuve de manière
indépendante, on obtient r N1, N2 ,..., r , où i est le nombre de fois que la
effectifs N
modalité i a été observée. Alors, pour chaque i, la loi de N i est la loi binomiale de paramètres
N
n et i
p
L i) = i) , i = 1, 2, ..., r ;
(N B(n,p
E( i) = npi et i) = npi qi .
N Var(N
Mais il est clair que deux effectifs i et j qui correspondent à deux valeurs différentes de
X ,Ni et j , ne sont pas des variables indépendantes.
N En effet, la somme de tous ces effectifs est
fxée et vaut n, le nombre total des observations.
La loi de N = 1, ..., r) ne peut donc pas être décrite à partir des seules lois binomiales
(N ) de chacun desN . Elle est appelée la loi multinomiale de paramètres (n,
B(n,p i i 1, p2, ..., pr)
N
et notée M (n; 1, p2, ..., pr) . p
p
La probabilité de l'événement 1 = 1, 2 = 2 , ..., r = r} est égale, pourvu que la
{ N
somme des i soit égale à n, à n N n N n
n
n! n1 n2 nr
P(N 1 =n 1 ,N 2 =n 2 ,...,N r =n r )= p p ...p
n 1!n 2!...n r! 1 2 r

Remarque
Les variables √
i -npi) / npiqi sont centrées réduites, et, lorsque n est grand i et nqi
(N (np
au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi
deux.

d) Loi de Poisson ∏ (λ) , λ > 0

C. Huber
Probabilités et notions fondamentales 12

Définition
Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes
les valeurs entières, 0 compris, la probabilité k pour qu'elle prenne la valeur k étant définie
ppar
λk
λ
k = P (X = k) = e - __ k = 0,1,2,...
p k! λ paramètre > 0
Alors EY = Var(Y) = λ

On rappelle que 0! = 1 par définition.

Propriété (Somme de variables de Poisson indépendantes)

La somme de deux variables de Poisson indépendantes est encore une variable de Poisson
de paramètre la somme des paramètres :

X et Y indépendantes
L (X) = π (λ) ⇒ L (X+Y) = π (λ+µ)
L (Y) = π (µ)

Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est
encore une variable de Poisson, de paramètre la somme des paramètres.

4 Approximations

a) Approximation normale de la loi binomiale

Une variable binomiale S n, de loi B(n,p) a pour espérance np et pour variance npq.
Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de
la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n
peut il être considéré comme grand ? Cela dépend de p et q. Plus précisément, on pourra
remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les
deux supérieurs à 5 :

B(n, p) ≅ N(np,npq) dès np ≥ 5 et nq ≥ 5

que
ce qui s'écrit aussi
Sn ≅ np + npq Z

où Z est normale réduite N(0,1).

b) Approximation normale d'une somme de variables indépendantes

On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais
des variables indépendantes de même loi et d'espérance µ et variance σ2 :

Sn = 1 + 2 + .. + n
X X X

C. Huber
Probabilités et notions fondamentales 13

Alors µ , Var ( S ) = n σ2 , et la loi de S , qui n'est pas connue puisqu'elle

n )=n n n
E( S
dépend de la loi commune des i , qui n'a pas été précisée, est, lorsque n est grand, proche de
X
la loi normale de même moyenne et de même variance qu'elle :

L (Sn ) ≅ N( n µ , n σ2 )

Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n
égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut
s'écrire aussi

Si Sn = 1 + 2 + .. + n , indépendantes,
X X X de même loi continue,
i) = 2,
E(X µ σ
i) = ,
et n ≥ 30 , Var(X

L ( (Sn - n µ) /
2
alors nσ ) ≅ Ν(0,1)

ce qui s'écrit aussi

2
Sn ≅ n µ + nσ Z

où L (Z) = N(0,1).

c) Approximation de Poisson de la binomiale

Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n
est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par
exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np.
Plus précisément :
on a l'approximation de Poisson suivante pour la loi binômiale :

pourvu que p ≤ 0,1 et 1 ≤ np < 10

B(n,p) ≅ Π (np)

χ
d) Approximation normale du n2
Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables
correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la
somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable
du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de
liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi
2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand

χ
P( n2 ≤ x ) ≅ P ( n + 2 n Ζ ≤ x ) = Φ ( (x - n) / 2n ) .

C. Huber
Probabilités et notions fondamentales 14

5 - Principe des tests

Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non
une certaine conjecture, qu'on appelle une hypothèse . Par exemple, il s'agit de savoir si une
nouvelle technique constitue ou non un progrès par rapport à la technique classique.
Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène.
Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : X i
désignera le résultat sur le i ème produit. X peut par exemple valoir 1 en cas de réussite, 0 en
cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès -
inconnue - de cette nouvelle technique. Mais X i peut aussi bien être la durée de vie du i ème
produit, et c'est alors une variable continue.
A partir des observations, on construit une valeur numérique qui est la réalisation d'une
variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y =
ϕ(X , ..., X ) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue
1 n
lorsque l'hypothèse qui nous intéresse est réalisée . Appelons H o cette hypothèse. Alors, si la
valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en
général, si y est trop grand ou trop petit) , on rejette Ho comme ayant conduit à une
observation trop peu probable, voire invraisemblable.
Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux
de succès de 50%, sous l'hypothèse H o qu'il n'y a pas d'amélioration, c'est à dire que la
nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès
observé

Po = ϕ(X1, ..., Xn) = ( X1+ ...+Xn) / n

C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre
total des observations.
En fait, on aimerait rejeter cette hypothèse H o au profit de l'hypothèse H1 selon laquelle le
taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en
présence des deux hypothèses

Ho : p = 0,5
H1 : p > 0,5

Si la proportion observée p o est trop éloignée de 0,5 , et plutôt trop grande, on rejettera
H o au profit de H1.
C'est le type de problème intitulé "Comparaison d'une proportion observée, ici p o , à une
proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour
qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable
de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y =
ϕ(X , ..., X ) sous H , sauf à employer l'une des approximations qui figurent au paragraphe
1 n o
précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique.
On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de
l'hypothèse nulle H o a été choisie à droite : ce choix est destiné à rendre aussi grande que
possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie.

C. Huber
Probabilités et notions fondamentales 15

Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance
pour un niveau donné a : c'est de rejeter H o lorsque le rapport des probabilités des
observations sous Ho et sous H 1 est plus petit qu'une valeur donnée . Cela est une
conséquence du

lemme de Neyman et Pearson:

Le test de Ho (P = P 0) contre H1 (P = P 1) qui a pour zone de rejet de Ho :
{ x : [Po(X=x) / P 1(X=x) ≤ h} est le plus puissant parmi les tests qui ont le même niveau
que lui.
Il suffira donc de choisir la valeur du nombre h de telle sorte que
Po{ x : [Po(X=x) / P1(X=x) ≤ h} = α
pour obtenir le test de niveau α le plus puissant.

On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci
apparent d'optimisation de la puissance, sont de ce type.

6 Principe de l'estimation

L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle
technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors :

X 1+X 2 +...+X n
p= =p o proportionobservée
n
Mais deux points ont besoin d'être précisés dès qu'on veut généraliser :

1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de
confance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus,
sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un
intervalle qui a une forte probabilité ( en général 95 %) de contenir p.
Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la
rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent
étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent
l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne :
2
L(p) ≈ N(p, σ )
Alors
[p- 2σ; p+ 2σ]

est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coeffcient de

confance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui
vaut en fait , non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est
pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de
l'estimateur est Var(Po) = p 0q0 / n, ce qui donne pour intervalle de confiance à 95 % :

pq pq
[ po - 2 n ; po + 2 n ] .

C. Huber
Probabilités et notions fondamentales 16

2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à
estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité
d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer:
Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) .
La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ,
et non comme une fonction des observations x 1, x 2, ..., x n . On choisit comme estimateur
de θ la valeur
θ quimaximiseV(θ):V( θ)≥ V(θ) pourtout θ

Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très
souvent réalisées, lorsque le nombre des observations est assez grand .

Exemple 1 : durée de vie exponentielle

On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de
paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs
suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ ?

Exemple 2 : palmier à huile

Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier
apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de
palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et
d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la
probabilité θ pour un palmier d'être malade ? On doit, pour être en mesure de faire cette
estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau.

Exemple 3 : durée de vie uniforme

La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi
uniforme sur un intervalle de temps [ 0 ; θ ] . θ est inconnu et on veut l'estimer après avoir
observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4,
10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ ?

C. Huber
17
Tests d'ajustement

II TESTS D'AJUSTEMENT

1 - Introduction

Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type :
"Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli
de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux
structures différentes soient également réparties chez les bactéries". Comment vérifier
l'exactitude de ces hypothèses ?
Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation
(fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à
partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable
aléatoire X, si cette variable obéit bien à la loi spécifiée.
Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit
au début du paragraphe suivant.

2 - Test d'ajustement du chi2 pour une loi spécifée

a. Cas d'une variable discrète :

X a un nombre fini r de modalités, notées 1, 2, ..., r et il s'agit de tester l'hypothèse

H o : P(X = 1) = p1 , P(X = 2) = p2 , ..., P(X = r) = pr ,

où p 1 , p 2, ..., p r sont des probabilités données à l'avance. Alors on considère la

statistique
r (N -np ) 2
2 i i
E = ∑
i=1 np i

qui mesure l'écart relatif entre les effectifs observés N i et les effectifs moyens np i appelés
aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie.
On peut démontrer que, si Ho est vraie, et pourvu que tous les np i soient assez grands
(supérieurs à 5), E 2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté
(notés ddl).

C. Huber
18
Tests d'ajustement

Exemple 4 : dosage
Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe
entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3
modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 %
l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur
les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ?

b. Test d'ajustement du chi 2 pour une variable continue

Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0,
1), on peut se ramener au problème précédent en discrétisant la variable :
c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles
de X formée de r intervalles successifs sans point commun :

] - ∞, a1], ]a1 , a2] ,..., ] ar-1 +∞ [

Si l'on a observé un n-échantillon de valeurs de X, x 1,..., x n, on résume ces observations

en
(N 1, ..., Nr)

où N 1 désigne le nombre des x i qui sont inférieurs à a 1, N 2 le nombre de ceux qui

tombent entre a1 (non compris) et a2 (compris) etc...
Sous l'hypothèse

H0 : la loi de X est la loi N (0,1)

les probabilités p j pour que X tombe dans chacun des r intervalles I j = ]a j-1 a j]
peuvent être calculées :
aj
2
1 z
pj = exp{- }d z
2 π 2
a j-1

Et on voit donc comment se ramener au problème du paragraphe précédent pour toute

loi continue dont la densité est complètement spécifiée.

Exemple 5 : Taux de cholestérol

On veut savoir si le taux de cholestérol dans une sous population déterminée de
patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du
taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour
cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants :

Taux de cholestérol Effectif Taux de cholestérol Effectif

] 90 110] 01 ]190 210] 17
] 110 130] 02 ]210 230] 12
] 130 150] 18 ]230 250] 4
] 150 170] 26 ]250 270] 2
] 170 190] 16 ]270 290] 1
]290 310] 1

C. Huber
19
Tests d'ajustement

On devra calculer les probabilités attribuées à chacun des intervalles par la loi
N (200, 36) :
aj
2
1 (z-200)
pj = exp{- }d z
2π 6 72
a j-1

avec ao = - ∞ , a1 = 110, a 2 =130,..., a11 = + ∞ , ou bien les chercher sur une table
donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet p j peut aussi
s'écrire

p j = F(aj) - F(aj - 1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1 - 200) / 6)

On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions
de l'approximation souhaitée, c'est-à-dire np j supérieur à 5 pour chacun des p j . Alors la
variable d'écart vaut :
r (N -np ) 2
2 i i
E = Σ
i=1 np i

et, sous l'hypothèse nulle H o , le taux de cholestérol suit dans cette sous-population la loi
N (200, 36), E 2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.Si la valeur
observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si :

P(χ2r-1 ≥ e2 ) ≤ 0,05

et si l'on s'est fixé le seuil de 5%, on rejettera Ho.

On pourra faire le calcul des p j, du nombre de classes qui restent après regroupement et
finalement conclure, au seuil de 5%.

3 - Tests d'ajustement du chi 2 avec estimation de paramètres

Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait
réaliser l'ajustement étaient complètement spécifiées.
En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à
réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il
faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est
en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors
2
estimer µ et σ respectivement par m et s 2 , pour pouvoir effectuer un ajustement
sur la loi N (m ; s 2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont
pas toujours complètement spécifiés, comme l'illustre l'exemple suivant.

C. Huber
20
Tests d'ajustement

Exemple 2 : suite
Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet
d'un pied à son pied jumeau.
L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas.
Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable
aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :

P (X =2) = θ2 = p1
P (X = 1) = 2 θ (1 − θ) = p2
2
P (X = 0) = (1 - θ) = p3

Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N 1, N 2, N 3)

où
N 1 est le nombre de couples dont les deux éléments sont malades ,
N 2 le nombre de couples comportant un seul pied malade,
N 3 le nombre de couples dont aucun pied n'est malade,
2 2
est une loi multinomiale de paramètres (n ; θ , 2 θ (1 − θ) , (1 - θ) ).

Préalablement à l'ajustement, il faudra estimer θ .

Nombre de pieds malades

dans le couple 2 1 0

Nombre de couples 73 185 242

Avec les notations précédemment introduites :

N1 = 73 , N2 =185 , N3 = 242
2 2
p1 = θ , p2 = 2 θ (1 − θ) , p3 = (1 - θ) .

La vraisemblance s'obtient en remplaçant dans :

P (N1 = n1, N2 = n2, N3 = n3)
n1 par 73, n 2 par 185, n 3 par 242, ce qui donne une fonction de θ seul. Calculons donc
Pθ (N 1 = n 1, N 2 = n 2, N 3 = n 3), c'est-à-dire, de manière générale, la loi multinomiale
2 2
de paramètres (n ; θ , 2 θ (1 − θ) , (1 - θ) ) :

n! n n n
P(N 1 = 1 ,N 2 = 2 ,N 3 = 3) p 1 1 p 2 2p 3 3
n 1!n 2!n 3!
n n n =

On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r
quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de
l'échantillon :
500 2x7 18 2 x 24
P(N 1 =73,N 2 =185, N 3 =242)= θ [2 θ (1- θ)] (1−θ)
!
73!185! 3 5 2
242!
C. Huber
21
Tests d'ajustement

L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction

de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la
vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance
puisque la fonction Logarithme est monotone croissante. On note V( θ) la vraisemblance
et L(θ) son logarithme. Ici L(θ) vaut :

L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C

où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs
observés). On obtient le maximum de L en dérivant L par rapport à θ :

L'( θ ) = 331 / θ - 669 / (1 - θ) = 0

ce qui donne
331
θ= =0,331
1000

valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0 .

Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète
par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r
valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit
P (X = 1) = p1
et de manière générale
P (X = i ) = pi
pour i variant de 1 à r. Les valeurs de p 1, ... , p r sont des fonctions connues d'un ou
plusieurs paramètres θ θ
1, ... , k qui sont inconnus et qu'on remplace par leurs
estimateurs du maximum de vraisemblance :
n! n1 n2 nk
V( θ 1 , θ 2 ,..., θ k )= p1( θ 1 , θ 2 ,..., θ k ) p2( θ 1 , θ 2 ,..., θ k ) ...p k( θ 1 , θ 2 ,..., θ k )
n1!n 2!n3!

est la vraisemblance de l'échantillon si l'on a observé n 1 fois la valeur 1 pour X, n 2 fois la

valeur 2, etc...
Et les valeurs
θ , θ ,...,θ
1 2 k

sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir
ces valeurs par dérivation. Il en résulte des estimateurs

p 1 , p 2 ,..., p r
Pour tester
H0 : la loi de X a pour paramètre θ 1, ... , θ k

On calcule la variable d'écart E 2 entre les effectifs observés n i dans chacune des classes
et leurs espérances sous Ho :

C. Huber
22
Tests d'ajustement
2
r
2 (N i -np i)
E = ∑
i=1 np i
Alors, sous H o, E 2 suit une loiproche de celle du chi-2 a r-k-1 degrés de liberté,
pourvu que n soit assez grand pour que

np i
≥5 pouri=1, 2, ... , r

Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce

résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de
vraisemblance.

Exemple 2 : palmier à huile (suite)

Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ , et les valeurs
correspondantes estimées de p1 , p2 , p3 sont : 0,1096 , 0,4422 et 0,4475

On vérifie que
n pi ≥ 5 pouri=1, 2, 3

La variable d'écart :
2
r
2 (N i -np i)
E = Σ =12,55
i=1 np i
suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous
l'hypothèse nulle. Or
P (χ12 ≥ 12,55 ) < 0,001
On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification
inférieur à 1 o/oo .

Remarque 1
Comme il est, dans certains cas, comme par exemple celui où la loi de X était
continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la
méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est
démontrée la convergence vers une loi du chi 2 de la variable d'écart E 2, on se contente
quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.

Exemple
Pour ajuster des données à une loi normale d'espérance et de variance non précisées,
on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques
2
sn
xet
n-
1
On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et
en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le
taux de cholestérol.

Remarque 2
En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du (Chi-

C. Huber
23
Tests d'ajustement
deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment
étudiée. La loi de E 2, sous chacune de ces lois pose un problème différent qu'il faut
résoudre en coup par coup.

3 - Test de Kolmogorov-Smirnov :

On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r
classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E 2, ne tient pas
compte d'un ordre éventuel des r classes.
Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de
Kolmogorov- Smirnov . La statistique sur laquelle est fondé ce test est

D = sup ⏐ Fn- F ⏐ .
Sup ⏐ F n- F ⏐ signifie : sup t ∈R ⏐ F n (t) - F (t) ⏐ , c'est-à-dire le maximum de la
valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on
veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative
observée) :
n
1
F n(t) = Σ 1 ∞ ] (x )
n i=1 ]- t i
c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par
l'échantillon (x1, ... , xn).

Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de

répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est
tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est
appelé N dans la table).
Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D ⎟n vers une
loi indépendante de n, quand n croit :
∞ 2 2
k+1 -2k α
P(sup t n ⎮F n (t)-F(t) ⎮ < α ) → 1-2 Σ (-1) e
k =1

pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que
, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les
valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une
seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la
division par ⎟n, où n est le nombre des observations.

Exemple 7 : radiographies
Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus
foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins
observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient
différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages
On appelle Ho cette hypothèse, qui dit que les préférences des médecins des
médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément
réparties sur les cinq tirages.

C. Huber
24
Tests d'ajustement
Rang de la radio choisie
(1 est la plus foncée)

1 2 3 4 5
Nombre de sujets choisissant 0 1 0 5 4
ce rang

F : fonction de répartition 1/5 2/5 3/5 4/5 5/5

théorique sous H0

Fn : fonction de répartition 0/10 1/10 1/10 6/10 10/10

empirique

Fn - F 2/10 3/10 5/10 2/10 0

Donc D = 5/10 = 0, 500.

Pour n = 10, la table de la loi de D, sous Ho, nous dit que :

PHo (D ≥ 0, 500) < 0, 01
Le test est donc significatif, on rejette Ho, avec un degré de signification inférieur à 1%.

Remarque :
Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 :
1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de
regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles.
2
2) Lorsque le nombre d'observations est petit, le test du χ ne peut pas s'appliquer du
2
tout. Si l'on essaie d'appliquer le test du χ à l'exemple ci-dessus, on doit combiner
plusieurs catégories adjacentes :

Foncé (1,2) Clair (3,4,5)

Fréquence de choix 1 9

2 2
Alors χ1 = 3,75. La probabilité que χ1 soit supérieur à 3,75 tombe entre
0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%.Ce test est moins
puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

C. Huber
Indépendance 25

III Mise en evidence de liaisons :

Tests d'indépendance.

La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup
d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme
objectif la prévention des maladies. Les techniques employées sont différentes suivant que les
variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type
de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent
lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est
continue et les deux le sont.

Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I.
Partant de là, nous allons introduire d'autres méthodes, plus générales.

1 - Les deux caractères sont discrets :

a - Deux caractères à deux classes :

Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux
valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications
professionnelles dépend des conditions de vie : est elle la même pour la population rurale et
pour la population citadine ?
On dispose des observations suivantes :

Intoxication sensibles non sensibles taille d'échantillon

Milieu
Citadins 123 153 276
Ruraux 145 150 295

portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre
part parmi les habitants de la campagne.
Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux
proportions observées" qui sont ici :
- La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45
- La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49
Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont
sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse H o (p =
p'), la contre- hypothèse étant H1 (p ≠ p').
Sous l'hypothèse nulle Ho, la variable aléatoire

C. Huber
Indépendance 26

P' o -P o
E=
1 1
P t Qt ( + )
n1 n2

où Po est la proportion de sensibles pour un échantillon de n1citadins

P'o est la proportion de sensibles dans un échantillon de n2 ruraux
Pt est la proportion de sensibles dans l'échantillon total de taille n1+ n2
Qt = 1 - P t
a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1),
et dont la table figure à la fin de ce cours : en effet n 1po, n 1qo, n 2 p'o, n 2 q'o sont tous
supérieurs à 5.
On notera, dans toute la suite Z une variable de loi N(0,1).
La valeur observée de E, dans notre exemple est :

p' o -p o 0,49- 0,45 0,04

e= = = =1
1 1 1 1 0,04
pt qt ( + ) 0,47.0,53( + )
n1 n2 276 295

Et la probabilité pour que, sous l'hypothèse H o, on ait observé une valeur de E , qu'on
appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue,
vaut donc à peu près

P (|Ε| ≥ | e |) ≈ P ( |Ε| ≥ 1) ≈ 0,32

Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on
conserverait H o pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est
significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal
à 5 %.
On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la
sensibilisation aux intoxications professionnelles.
Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on
l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire

|Ε| ≥ |e| ou E 2 ≥ e2

De même que lors de l'étude des tests d'ajustement, on peut montrer que E 2 s'écrit aussi, en
notant :

N1 l'effectif de ceux qui sont sensibles parmi les citadins

N2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins
N3 l'effectif de ceux qui sont sensibles parmi les ruraux
N4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux
Pt la proportion des sensibles sur le total
Qt la proportion des insensibles sur le total Qt = 1 - Pt

C. Huber
Indépendance 27

2 2 2 2
2 ( 1 -n 1P t ) ( 2 -n 1Qt ) ( 3 -n 2P t ) ( 4 -n 2Qt )
E = N + N +N +N
n 1P t n 1Qt n 2P t n 2Qt

Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité
des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe
comme si l'on avait un seul échantillon de taille n 1+n2 et P t constitue alors un bon estimateur
de cette proportion.
Alors E 2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des
effectifs à sa moyenne estimée.
On appelle quelquefois les N i les effectifs observés et les n iPt et n iQt les effectifs
"calculés" ou "théoriques".
Sous l'hypothèse H o, pourvu que les dénominateurs n iPt et n iQt soient tous supérieurs ou
égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On
2
rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ r) la
loi de la variable
S = Z21+Z22+... +Z2r
où les Zi sont indépendantes et toutes de loi N(0, 1)).

Dans la table des lois du chi deux, on lit donc que

P(E 2 >e2) = P(E2 > 1) ≈ 0, 32.

On constate donc que le test fondé sur E 2 est identique à celui fondé sur E , mais la forme
E2 permet une généralisation immédiate en cas où

A a r modalités,
B a k modalités .

b - Deux caractères à r et k classes :

Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination

contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle
apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère
(L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la
vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

Les résultats d'une observation portant sur n = 1574 malades sont les suivants :

C. Huber
Indépendance 28

Durée X écoulée depuis

la vaccination A BC Total

Degré de gravité Y
de la maladie

G 1 42 230 273
M 6 114 347 467
L 23 301 510 834
Total 30 457 1087 1574

Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses
nulle et alternative :
H o : X et Y sont indépendantes,
H 1 : X et Y sont liées .

De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k

classes, notées respectivement i = 1,..., r et j = 1,..., k et n ij l'effectif observé, dans le tableau
croisé, des individus pour lesquels X vaut i et Y vaut j. On note n. .j le nombre total de ceux
pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et n i. le nombre total de ceux
pour lesquels X vaut i , et qui figure à droite de la ligne i.

Sous l'hypothèse Ho d'indépendance de X et Y :

P (X = i, Y = j) = P (X = i) . P (Y = j)
soit pij = pi . p.j

Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du
tableau des observations, sont
n n n
p ij = ij , p i. = i. ,p .j = .j
n n n

Si Ho est vraie les écarts

p ij - p i. . p .j

ne doivent être dus qu'aux fluctuations d'échantillonnage,

On peut démontrer que la variable

2
2 (n ij -n i.p .j)
E = ∑ n i.p .j
i=1,..,r;j=1,..,k

suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les
dénominateurs n i. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs
classes).
Revenant à l'exemple considéré, r = k = 3 et la variable E 2, qui vaut e = 61,4, suit , sous

C.
Huber
Indépendance 29

2
l'hypothèse Ho, une loi du χ à (r -1) (k - 1) = 4 degrés de liberté.
Donc
P Ho (E2 > 61,4) < 10-3

d'après la table, le test est donc significatif avec un très bon degré de signification (10 -3): on
rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la
vaccination.

2 - Cas d'un caractère continu et d'un caractère discret à deux classes

On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X

à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X
vaut 0 et lorsque X vaut 1.
Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes
d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut
0 dans l'un des deux groupes et 1 dans l'autre.

a - Test de comparaison de moyennes :

Lorsque les deux lois L (Y | X = 0) et L (Y | X = 1) sont différentes, cela peut

provenir par exemple d'une différence entre les deux espérances :
Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0.
On teste alors :
H o : EY' = EY
H1 : EY' ≠ EY
C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais
ici noté E) entre les moyennes observées pour Y et pour Y' :

Y
' - Y
E=
2 2
S' S
+
n' n

Si l'on choisit pour risque d'erreur de première espèce α , la zone de rejet de H o ,donc
de l'hypothèse que X et Y sont indépendants, correspond à la région :

{ |E| > h }

où h est choisi tel que : PHo { |E| > h}= α .

a.1 - Cas des grands échantillons (supérieurs à 30) :

C.
Huber
Indépendance 30

Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi,
par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous
Ho, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1),
de densité de probabilité qui vaut par conséquent
2
1 z
f(z)= exp(- )
2π 2
on a
2
1
P( ()
E ≤ h ) ≈ P( () ∫ h z
Z ≤h) = exp − ) dz
−h π
2 ( 2

Exemple
Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme
cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades
traités par ce médicament :
au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe
on administre le médicament. Les moyennes et variance estimées sur
chacun des groupes sont
m y = 80 s2y = 5 pour le rythme cardiaque Y du groupe témoin,
m y' = 81 s2y'= 3 pour le rythme cardiaque Y'du groupe traité .

Le test bilatéral de H o (EY' = EY) contre H 1 (EY' EY) qui se fonde sur l'écart réduit E
défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification
compris entre 1% et 2 %.
a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ;

Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut
plus obtenir la loi de E sous H 0 grâce à l'approximation normale. Cependant, si l'on sait (ou si
l'on peut s'autoriser à supposer) que l a loi de Y et celle de Y' sont toutes les deux normales et
de même variance, la variable :

'Y - Y
E' =
2 2
n' Sy'
+nS y 1 + 1
n+n'-2 n' n
suit la loi de Student à n + n' - 2 degrés de liberté.

Défnition de la loi de Student à n ddl :

Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et
Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire
X
T= n
Y

C. Huber
Indépendance 31

suit la loi de Student à n degrés de liberté dont la densité gn (t) au point t vaut
- n+1
2 2
t
g n(t) =c n (1+ )
n

(où cn est le coefficient positif qui assure que ∨ gn(t) dt = 1 ).

Exemple : dosage de la transferrine

Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites

alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974))
Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les
résultats suivants :

- moyenne des dosages 1,9 g|l

- écart type de l'échantillon 0,2 g|l

Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé
les résultats suivants :

- moyenne des dosages 1,3 g|l

- écart type de l'échantillon 0,2 g|l.

En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets

normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite
alcoolique chronique, on veut tester
H o : EY' = EY
H 1 : EY' < EY
Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et
Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que
beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test
d'égalité des variances aurait permis de conclure à l'égalité de celles-ci.
Alors
'Y - Y
E' =
2 2
n' Sy' +nS y 1
n+n'-2
+ 1
n' n
qui vaut ici -7,79, suit sous Ho une loi de Student

à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que

P (E' < -7,79) = P (T 27 < - 7,79) < 0,001
Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser
un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique
chronique.
Cependant, on voit bien quelles sont les limites de cette première méthode
pour traiter le cas des petits échantillons :
d'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des

C. Huber
Indépendance 32

variances des variables de base , pour pouvoir fonder un test sur la variable E' de loi de
Student sous Ho.
D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité
dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme
cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les
espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types
de différences peuvent intervenir, à moyennes égales ou non.

b. Les tests non paramétriques :

Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on
peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des
variables de base.
Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification
a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2
2
paramètres pour la loi normale, N ( µ, σ ), la moyenne µ et l'écart type σ ,1 pour la loi de
Poisson etc.) :

- le test de la médiane
- le test de Wilcoxon
- le test de Kolmogorov-Smirnov;

Nous illustrerons chacun de ces trois tests sur un même exemple :

Exemple :
Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut
prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades
comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5
autres seront des témoins non traités, mais à qui on administre un [Link] résultats
concernant la durée de survie exprimée en années sont les suivants :

Traités (T) 6,5 4,2 17,8 7,9 13,2

Non Traités (NT) 6,7 0,4 2,9 1,2 5,6

Pour chacun des trois tests, la première opération à effectuer est d 'ordonner les valeurs
obtenues, en les considérant dans leur ensemble :
En effet, sous l'hypothèse nulle
H o : L (S | T ) = L (S | NT )
qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités
(NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles
respectives n et n', mais un seul grand échantillon de taille n + n'.

On obtient ainsi la suite :

Durée de survie 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 17,8

C. Huber
Indépendance 33

Rang 1 2 3 4 5 6 7 8 9 10

Traitement T T T T T

b.1 Test de la médiane :

Rappelons la définition de la médiane d'une loi ou d'une variable.

Défnition de la médiane :
Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) =
P(X ≤ x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que :

m = ½[ inf { x : F(x) ≥ 0,5) + sup { x : F(x) ≥ 0,5)

La médiane est donc en gros une valeur m telle que :

P (X<m) = P (X>m) = 1/2 .

C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En
particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de
l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa
gauche qu'à sa droite. Ici
m = 6,05

Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La

fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane
m de l'échantillon par

m = x(n+1)/2 si n est impair et (x(n/2) + x(n/2+1))/2

si n est pair où les x(i) sont les valeurs ordonnées de l'échantillon.

On remplace alors les résultats observés par le résumé suivant :

groupes Non traités Traités Totaux

Effectifs

Nombre des patients

dont la durée de survie est 1 4 5
supérieure à la médiane

Nombre des patients

dont la durée de survie est 4 1 5
inférieure à la médiane (≤)

Totaux 5 5 10

C. Huber
Indépendance 34

Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à
la médiane.
De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux
catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane
générale observée :

Groupe I Groupe II Totaux

X > M (médiane générale) A C A+C
X≤M B D B+D
Totaux A+B =n C + D = n' n + n'

A+C représente (à une unité près) la moitié de l'effectif global n + n'.

Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de
type I et n' de type II,on tirait au hasard (A + C) boules.

Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules
parmi les n + n' a la même probabilité de sortir. Comme il y a en tout
n+n'
A+C

telles combinaisons dont

n n'
x
A C

contiennent exactement A boules du type I et C du type II. Donc :

n n'
.
A C
P(A,C)=
n+n'
A+C

qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D :

(A+B)!(B+D)!(A+C)!(C+D)!
P'A,C)=
(n+n')!A!B!C!D!

Rappel :
n k
onrappellequelaquantité , notéeaussiC n, estlenombredescombinaisonsdenobjetspriskpark,
k
n!
et vaut .
k!(n-k)!
où n! , appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1 .
Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des
deux groupes :
voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table
correspond à un test unilatéral de l'hypothèse H0 d'indépendance.
Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que
D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette
pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie.

C. Huber
Indépendance 35

Remarques

1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de
puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup
d'information en remplaçant les données initiales sur la durée de survie par le tableau des
effectifs inférieurs et supérieurs à la médiane globale.
La variable quantitative continue qu'était la durée de survie a été transformée en une
variable à deux classes.

2) Le test fnalement employé sur le tableau des effectifs A, B, C, D est un test

d'indépendance entre deux caractères à deux classes :
Traités, non traités
Survie à plus de 6 ans, et à moins de 6 ans
Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I
3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test
χ 2
du . D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes
seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification
du test à partir de la formule qui donne P (A, C).

b.2 Test de Wilcoxon pour deux échantillons

Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales , est
plus puissant que le précédent. La statistique considérée est la somme W des rangs des
valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par
ordre croissant.
Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités
on obtient :
W = 4 + 6 + 8 + 9 + 10 = 37 .

Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse H o de
non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2, ...,
10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5
premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont
équiprobables et donc de probabilité 1 / 10! . Mais deux permutations telles que les 5
premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux
individustraités, on ne les distinguera donc pas. Comme il y a (5!) 2 telles permutations, on
obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle
vaut
5!5!
10!

Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour queW soit égale à une
certaine valeur. En effet, les deux répartitions distinctes suivantes :
R1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins
R2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins
donnent la même valeur à W : 37.
On décidera de rejeter Ho si W est trop grand ou trop petit . On peut décider de rejeter H o si
P (W ≥ 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi

C. Huber
Indépendance 36

comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien
l'information contenue dans les données).
Pour calculer P (W ≥ 37) il faut déterminer les répartitions R telles que W ≥ 37. Leur nombre,
multiplié par (5!)2 / 10! donnera la probabilité cherchée :

R = (6, 7, 8, 9, 10)Traités W = 40
R = (5, 7, 8, 9, 10)T W = 39
R = (5, 6, 8, 9, 10)T W = 38
R = (4, 7, 8, 9, 10)T W = 38
R = (5, 6, 7, 9, 10)T W = 37
R = (4, 6, 8, 9, 10)T W = 37
R = (3, 7, 8, 9, 10)T W = 37

Donc P (W ≥ 37) = 7.(5!) 2 / 10! ≅ 0,026 .

Au seuil de 5%, on rejette donc Ho et on conclut que le traitement est efficace.

Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous
avions employé avant et dont le nom est test de Fisher ou d'Irwin-Fisher. Ces deux procédures
de test sont non-paramétriques puisqu'aucune hypothèse n'a été faite sur la forme de la loi de
la variable étudiée.

Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables (p )

qui donnent les probabilités relatives à W pour les valeurs n 1 et n 2 des deux tailles
d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de Mann-
Whitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des
dépassements des sujets de l'autre groupe (II), donc

n 1 (n 1 +1)
W=U+
2

ou n1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2 .

b.3 Test de Kolmogorov - Smirnov pour deux échantillons :

L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra
en évidence que des différences concernant justement les espérances des lois concernées. Le
test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois :
Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun
des deux échantillons.
Reprenons l'exemple précédent et notons F n la fonction de répartition empirique de la
survie dans le groupe non traité. F'n la même quantité par le groupe traité.

Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on
considère

C. Huber
Indépendance 37

D = maximumx (Fn (x) - F'n (x))

appelée la statistique de Kolmogorov.

Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test
unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une
direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart
maximal des fonctions de répartition empiriques dans le sens choisi. Ici:

D = maximumx ( Fn (x) - F'n (x) )

appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous.

F'
n

0 0,4 1,2 2,9 4,2 5,6 6,56,7 7,9 13,2

Fonctions de répartition empiriques des durées de survie :

F n pour le groupe non traité
F' n pour le groupe traité.

La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L,
intitulée "Table of critical values of K D in the Kolmogorov - Smirnov two-sample test". K D
y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des
deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux
colonnes intitulées " One-tailed test". Pour le test bilatéral, aux deux colonnes " Two -tailed
test".

Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation
normale , sous Ho, pour W1, somme des rangs du groupe I :

L (W 1) ≈ N( n 1 (n 1 +n 2 +1) ; n 1 n 2 (n 1 +n 2 +1) )
2 12

C. Huber
Indépendance 38

où n 1 et n 2 sont les tailles des deux échantillons et N = n 1 + n 2. Dans notre cas, N = 5 : il

faudrait, pour qu'un test unilatéral soit significatif à 5% que K D soit égal à 4 (et qu'il soit égal
à 5 pour être significatif à 1%) ; Comme ici KD = 3, le test n'est pas significatif (tout au moins
à 5%).
Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut
démontrer qu'il a effectivement de très bonnes propriétés.
Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats
observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer
alors ? L'une des possibilités, la plus simple, est d'affecter à chacun des ex -aequo le rang
moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement
supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière).
On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs
intermédiaires à l'ensemble des ex-aequo.

3 - Liaison entre deux caractères continus

a - Cas normal :

Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence
une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe
normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour
densité de probabilité en tout point (x,y) du plan :
1 1 2 2
f(x,y)= exp(- (x-µ) -2 ρ( x−µ)(y−µ')+(y- µ' ) )
2 2
2 πσ 2(1- ρ )

où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y:

ρ( X,Y)= E[(X-EX)(Y-EY)]
σ(X) σ(Y)

Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul , et le test
d'indépendance est fondé sur la loi du coefficient de corrélation empirique :

n
∑ (x i -x)(y i -y)
i=1
R=:
n 2 n 2
[ ∑ (x i -x) ][ ∑ (y i -y) ]
i=1 i=1

dont la loi , qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté
du cours de PCEM 1.

b - Cas général : méthodes non paramétriques :

C. Huber
Indépendance 39

L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R ci-

dessus est très restrictive.
Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en
pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y,
ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la
statistique est libre .
L'idée est de remplacer les valeurs des variables par leurs rangs :
on ordonne par ordre croissant les valeurs x i observées et on affecte à chacune son rang, qui
varie ainsi de 1 à n :
R (i) désigne le rang de Xi.
De même pour les yi : S (i) désigne le rang de Yi.

b1 Coeffcient de corrélation des rangs de Spearman : r s :

Le coefficient de corrélation des rangs de Spearman, noté r s est le coefficient de

corrélation de la suite (R(i), S(i)), i = 1, ..., n, des rangs :

n
∑ (R(i)-R)(S(i)-S)
i=1
R s =:
n 2 n 2
[ ∑ (R(i)-R) ][ ∑ (S(i)-S) ]
i=1 i=1

Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite
des n premiers entiers. Or on sait que

n
n(n+1) n+1
∑ i=
2
donc R=S=
2
i=1

n
2 n(n+1)(2n+1) Σ R 2 = Σ S 2 = n(n+1)(2n+1)
∑ i =
6
donc
6
i=1

En utilisant pour le coefficient de corrélation l'expression

Σ RS
Rs =
2 2
(Σ R ) (Σ S )

on obtient , en notant di la différence R (i) - S (i) entre les rangs de X et de Y :

C. Huber
Indépendance 40
2
6 Σ di
r s =1-
3
n -n

Exemple
Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45
à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes
d'Angleterre et du pays de Galles.

Lorsqu'apparaissent des ex-aequo , on affecte à chacun d'eux le même rang, qui est la
moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux.
Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une
telle procédure est négligeable sur le comportement de rs.

Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la
somme des carrés des rangs : Σ R2 (ou Σ S2, ou les deux) ne vaut plus

n(n+1)(2n+1)
6

mais une valeur inférieure qu'il faut alors calculer.

Ville Mortalité Calcium Ville Mortality Calcium

per 100,000 ppm per 100,000 ppm

(y) (x) (y) (x)

Bath 1,247 105 Newcastle 1,702 44

Birkenhead 1,668 17 Northampton 1,309 59
Birmingham 1,466 5 Norwich 1,259 133
Blackburn 1,800 14 Nottingham 1,427 27
Blackpool 1,609 18 Oldham 1,724 6
Bolton 1,558 10 Oxford 1,175 107
Bootle 1,807 15 Plymouth 1,486 5
Bournemouth 1,299 78 Portsmouth 1,456 90
Bradford 1,637 10 Preston 1,696 6
Brighton 1,359 84 Reading 1,236 101
Bristol 1,392 73 Rochdale 1,711 13
Burnley 1,755 12 Rotherham 1,444 14
Coventry 1,307 78 St Helens 1,591 49
Croydon 1,254 96 Salford 1,987 8
Darlington 1,491 20 Sheffield 1,495 14
Derby 1,555 39 Southampton 1,369 68
Doncaster 1,428 39 Southend 1,257 50
East Ham 1,318 122 Southport 1,587 75
Exeter 1,260 21 Southshields 1,713 71
Gateshead 1,723 44 Stockport 1,557 13
Grimsby 1,379 94 Stoke 1,640 57
Halifax 1,742 8 Sunderland 1,709 71

C. Huber
Indépendance 41

Huddersfield 1,574 9 Wallasey 1,625 20

Ipswich 1,096 138 Walsall 1,527 60
Hull 1,569 91 West Bromwich 1,627 53
Leeds 1,591 16 West Ham 1,486 122
Leicester 1,402 37 Wolverhampton 1,485 81
Liverpool 1,772 15 York 1,378 71
Manchester 1,828 8 Cardiff 1,519 21
Middlesborough1,704 26 Newport 1,581 14
Swansea 1,625 13

Ici rs = - 0, 727 pour les 30 observations de la colonne de gauche.

Que conclure en ce qui concerne ces 30 villes ?

On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion ?

Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des
rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour
l'autre.A chacune de ces permutations, qui sont en nombre n ,correspond une valeur du
coefficient de corrélation de Spearman r [Link] de ces valeurs a donc pour probabilité 1/ n
etcette loi a été tabulée.

Lorsque n est assez grand, au-delà de 10, la loi de

n-2
T=R s 2
1-R s

est approximativement la loi de Student à n - 2 degrés de liberté.

b2 Coeffcient d'association des rangs de Kendall :

Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives.
Le test correspondant à la même puissance que le précédent, et il a l'avantage de se
généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de
corrélation partielle des rangs.
Voyons, sur un exemple, comment se définit le coeffcient de Kendall .

Exemple :
Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c,
et d. Le tableau ci-dessous donne les pronostics, en années :

Patient a b c d
Médecin 1 : X 1 2 0,9 0,5
Médecin II : Y 1,5 0,8 2 1

Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par
ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau ci-

C. Huber
Indépendance 42

dessous

Patient d ca b
Médecin 1 : R 1 2 3 4
Médecin II : S 2 4 3 1

Pour déterminer le degré de correspondance de ces deux classements, on décompte le

nombre de couples (de patients) qui sont rangés dans le même ordre , de la manière suivante :
Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a
concordance , et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d,
a) : on lui affecte aussi + 1; le troisième par contre (d, b) est inversé : il est discordant et on
lui affecte le score - 1, et ainsi de suite .
On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la
valeur : - 2.
Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre
des couples distincts , c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par
deux :
4!/(2!2!) = 6

On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de

concordance observée à sa valeur maximale :
ici
2
τ=− =−0,33
6

Comme le coefficient r s de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus
simple, de le calculer est la suivante :
A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite
de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus
petits que lui. Ainsi cela donne dans notre exemple :

Patient d: 2-1=1,
c: -2 ,
a: -1 ,

ce qui donne en tout -2.

La loi de τ sous Ho est tabulée. De plus, dès que n est supérieur à 10, la loi de
τ−µ τ
στ

est approximativement la loi normale N (0, 1), où µτ = 0 et

στ = 2(2n+5)
9n(n-1)

C. Huber
Indépendance 43

b3 Coeffcient d'association partielle de Kendall τ xy,z :

Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à
l'intervention d'une troisième variable Z.

De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation

entre X et Y à Z fixé.

On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et
celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait
l'intelligence.

Exemple :
Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après
remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z
on obtient le tableau suivant :

Sujet a b c d
Rang de Z 1 2 3 4
Rang de X 3 12 4
Rang de Y 2 3 1 4

A chacun des 6 couples de sujets on associe un signe + lorsque la variable

correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau :

Couple (a,b) (a, c) (a, d) (b, c) (b, d) (c, d)

Z + + + + + +
X - - + + + +
Y - + + + + +

Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le

signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et
de Z. On considère donc les effectifs des couples concordants et discordants de la manière
suivante :

Y couples dont le Y couples dont Total

signe concorde le signe diffère
avec celui de Z de celui de Z
X couples dont le signe
concorde avec celui de Z A B A+B

X couples dont le signe

diffère de celui de Z C D C+D

Total A+C B+D n! / 2! (n-2)!

Ici A = 4, B = 0, C = D =1.

C. Huber
Indépendance 44

On appelle coeffcient d'association partielle de Kendall le rapport :

τ = AD-BC
xy,z (A+B)(C+D)(A+C)(B+D)
qui vaut ici 0,63.
Si l'on avait calculé le coefficient d'association de Kendall τxy , on aurait trouvé
τ
xy = 0,67 .

Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z.

On peut démontrer que

τ −τ τ
τ = xy z z
xy,z 2 x y 2
(1−τ )(1−τ )
z z
y x
qui est une formule plus facile à calculer que la précédente , car le nombre des combinaisons
de n objets pris 2 à 2 devient rapidement très grand avec n . On pourra le vérifier sur
l'exemple.
On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous
l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait
cependant obtenir cette loi par simulation.

C. Huber
45

IV Tests non paramétriques pour comparer

k échantillons

A k échantillons indépendants :

Médiane généralisée.
Analyse de la variance non-paramétrique.

B k échantillons liés :

Test de Cochran.
Test de Friedman.

C. Huber
46

A - Tests non paramétriques pour k échantillons

indépendants.

- Test de la médiane généralisée.

- Test de Kruskal-Wallis : analyse de la variance à un facteur.

1 Une extension du test de la médiane :

Etant donnés k échantillons indépendants, pas nécessairement de la même taille,

le test de la médiane sert à tester si tous les groupes ont été tirés de la même
population, ou au moins de populations qui ont la même médiane. On ne peut
faire ce test que lorsque la variable qui a été mesurée est réelle ou a des valeurs
ordonnées.

Pour appliquer cette méthode, on commence par calculer la médiane globale M

de l'ensemble de toutes les observations, obtenue en considérant les k
échantillons comme s'il s'agissait d'un seul. On classe alors chaque valeur
observée par rapport à M et on la remplace par un + si elle est supérieure et par
un - si elle est inférieure.

Pour chacun des k échantillons, cela donne deux scores:

- Le nombre des + . (Le nombre des valeurs supérieures à M)

- Le nombre des - . (Le nombre des valeurs inférieures à M)

On peut alors représenter les observations ainsi dichotomisées par un tableau à k

lignes et deux colonnes où fgurent les fréquences des plus et des moins dans
chacun des k échantillons.

Pour teste l'hypothèse que les k groupes proviennent de la même population, au

moins en ce qui concerne les médianes, on calcule la valeur de la statistique
suivante

χ2 = ∑i j (Oij - Eij)2 / Eij

où Oij est le nombre des observations qui se trouvent à l'intersection de la ligne i
et de la colonne j et Eij l'espérance de cet effectif sous l'hypothèse H o . C'est la
statistique habituelle du chi 2 d'ajustement appliquée à notre cas où r = 2, c'est à
dire que j = 1, 2, i varie de 1 à k, et dont la loi est approximativement celle d'un
chi 2 à (k - 1) (r - 1) = k - 1 degrés de liberté. La valeur de E ij est égale à la
moitié de l'effectif total dans le groupe j, soit E ij = nj / 2, car si la médiane est la

C. Huber
47

même pour tous les échantillons, on a en moyenne autant de + que de - dans

chaque échantillon.

Remarque
Dans le cas où certaines des valeurs observées sont exactement égales à la médiane globale, il
n'est pas correct de considérer que E ij = nj / 2, car la probabilité d'être inférieur ou égal à m a
pour estimateur 0. 1 / n , la fréquence relative dans l'échantillon global des valeurs inférieures
ou égales à M, qui est supérieure à 1/2. Cela revient à appliquer la technique habituelle qui
veut que Eij = Oi. O.j / n , le produit du total de ligne par le total de colonne, divisé par le total
général n, l'effectif global.

Exemple
Un chercheur dans un centre de santé publique veut étudier l'infuence du degré d'instruction
de la mère sur le soin avec lequel elle assure la surveillance médicale de son enfant. Dans ce
but, il considère le niveau maximum de culture atteint par la mère, mesuré par le diplôme le
plus élevé, et par conséquent le nombre d'années d'études que cela suppose, et le nombre de
visites de contrôle médical effectuées pour l'enfant au cours de ses deux premières a nnées.

Niveau d'instruction de la mère

Ecole Collège Lycée premier cycle licence maîtrise

élémentaire (bac) d'université ou au-delà

42 2 9 2 2
34 0 4 4 6
01 4 2 5
76 3 3 2
13 8
20 0
02 5
35 2
51 1
12 7
1 6
5
1

Le tableau ci-dessus est obtenu de la manière suivante:

Parmi les 528 naissances enregistrées dans une grande maternité pendant une période donnée, il tire
dans la liste alphabétique une sur 12 d'entre elles, ce qui lui donne 44 couples (mère-enfant) pour
lesquels il a les deux informations précédentes. On distingue 6 groupes de mères ayant le même niveau
d'instruction : l'école élémentaire, le collège, jusqu'en troisième, le lycée, jusqu'à l'obtention du bac, le
premier cycle des universités, la licence et enfn la maîtrise ou au-delà.

L'hypothèse nulle Ho est qu'il n'y a pas de différence en ce qui concerne le nombre des visites de
contrôle en fonction du degré d'instruction de la mère. On a donc 6 échantillons indépendants. Si on
les regroupe, on trouve pour médiane globale du nombre des visites M = 2.5, valeur qui laisse 22
observations à sa gauche et 22 à sa droite. Les scores dans chacun des groupes donnent donc le tableau
suivant.

Niveau d'instruction de la mère

C. Huber
48

Ecole Collège Lycée premier cycle licence maîtrise Total

(élémentaire) (bac) (d'université) (ou au-delà)

Nbre de mères
dont les visites 5 4 7 3 2 1 22
sont plus fréquen-
tes que la médiane. 5 5,5 6,5 2 2 1

Nbre de mères
dont les visites 5 7 6 1 2 1 22
sont moins fréquen
tes que la médiane 5 5,5 6,5 2 2 1

Total 10 11 13 4 4 2 44

Les effectifs en italiques représentent les effectifs "calculés", les Eij , alors que les effectifs observés,
les Oïj sont indiqués en caractères ordinaires.

On constate alors qu'on ne peut pas effectuer un test de chi 2 car un grand nombre de cases ont un
effectif inférieur à 5. Cependant, comme les groupes qui contiennent trop peu d'observations
concernent les trois niveaux d'instruction les plus élevés, on peut les regrouper pour en faire un seul :
celui des mères qui ont fait des études universitaires, quel qu'en soit le niveau. Après regroupement
cela donne le tableau suivant

Niveau d'instruction de la mère

Ecole Collège Lycée Etudes universitaires Total

élémentaire (bac)

Nbre de mères
dont les visites 5 4 7 6 22
sont plus fréquen
tes que la médiane. 5 5,5 6,5 5

Nbre de mères
dont les visites 5 7 6 4 22
sont moins fréquen-
tes que la médiane 5 5,5 6,5 5

Total 10 11 13 10 44

Comme tous les effectifs théoriques (en italique), sont maintenant supérieurs à 5, on peut effectuer un
test du chi 2 sur ce tableau, ce qui donne:

χ2 = (Oij - Eij)2/Eij = (5 - 5) 2 / 5 + (4 - 5.5) 2 / 5.5 +..+ (4 - 5) 2 / 5

= 1,295 .

Comme il reste 4 classes, le nombre de degrés de liberté est égal à 3.

Or la probabilité pour qu'un chi 2 à trois degrés de liberté dépasse cette valeur est égale,
d'après la table, à une valeur comprise entre 0,70 et 0,80. On ne peut donc pas rejeter

C. Huber
49

l'hypothèse nulle selon laquelle le nombre des visites médicales de contrôle pour les enfants
entre 0 et 2 ans est indépendante du niveau d'instruction de la mère.

2 Analyse de la variance non paramétrique : Test de Kruskal-Wallis.

On se souvient que l'analyse de variance classique, qui teste l'égalité des moyennes dans
plusieurs populations, suppose que toutes les variables aléatoires concernées sont normales
(on dit aussi parfois gaussiennes). Si rien ne permet de faire cette hypothèse de normalité,
on peut tester cette hypothèse d'égalité des moyennes grâce au test de Kruskal-Wallis
explicité ci-dessous.

On remarquera que le test précédent permettait de tester l'égalité des médianes.

Les données consistent donc en k échantillons indépendants issus de populations

différentes, dont on se demande si elles ont la même moyenne. On ne fait pas l'hypothèse
de normalité comme en analyse de variance classique, mais on suppose que les lois sont
continues (pour éviter les ex-aequo). Bien sûr, il faut que les grandeurs mesurées le soient
sur une échelle ordinale.

Notons nj la taille du jème échantillon, j = 1, ..., k, et n le nombre total des

observations n = E nj . On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on

remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n
pour la plus grande. A chacun des k échantillons, on fait ensuite correspondre son score
obtenu comme la somme des rangs des observations qui le composent: soit Rj ce score. La
statistique de Kruskal-Wallis est ainsi défnie

12 R j2
K-W = ___________ ∑ ( _____ ) - 3 (n + 1)
n (n + 1) j nj

On peut démontrer que lorsqu'il y a suffsamment d'observations (plus de 5 cas dans

chacun des groupes, pour prendre l'approximation habituelle), cette statistique est
approximativement distribuée, si Ho est vraie comme un chi 2 à k - 1 degrés de liberté.

Dans le cas où k =3 et le nombre des sujets dans chacun des trois échantillons est inférieur
à 5, on dispose de tables qui donnent les valeurs critiques exactes pour la statistique K-W.

Exemple 1
Un obstétricien se demande si le fait que la mère fume a une infuence sur le poids
du nouveau-né. Les mères sont divisées en 8 catégories par ordre croissant de quantité de
cigarettes fumées par jour, et le poids des nouveau-nés est exprimé en kilos. On obtient le
tableau suivant:

12 3 4 5 6 7 8

C. Huber
50

4,5 4,3 4,2 3,6 4,1 3,6 3,5 3,0

3,8 4,6 4,3 3,6 3,9 3,2 3,4 3,8
4,2 3,6 4,2 3,9 4,1 3,2 4,0 4,3
4,5 4,1 3,9 3,0 3,5 3,5 2,5 3,2
3,3 4,2 4,3 3,0 2,2 5,4
3,4 4,3 3,5 3,1 2,2 4,6
3,0 3,9 3,6 2,9
2,6 4,4 3,8 4,3
4,2 3,8
4,2 1,1

K-W = (12 / 56 (56 + 1)) ∑ ( Rj 2 / nj ) - 3 (56+1)

Ce qui donne, d'après le tableau des rangs ci-dessous

K-W = (12 / 56 (56 + 1)) ( 216,5 2 /8 + 414 2 /10 + 277,5 2 /8+ 105, 5 2 /6 +
2
122 /4 + 72 2 /4 + 317 2 /10) - 3x57
= 18,464.

Cette statistique suit une loi qui est à peu près un chi 2 à k- 1 7 degrés de liberté.
Or, d'après la table P Ho(χ2 > 18,464) < 0,02. On rejette donc Ho .

Rangs des poids de naissance

1 2 345678
52,5 47,5 41,0 23,0 36,0 23,0 18,5 8,5
27,5 54,5 47,5 23,0 31,5 12,5 15,5 27,5
41,0 23,0 41,1 31,5 36,0 12,5 34,0 47,5
52,5 36,0 31,5 8,5 18,5 18,5 4,0 41,0
14,0 41,0 47,5 8,5 2,5 56,0
15,5 47,5 18,5 11,0 2,5 54,5
8,5 31,5 23,0 6,0
5,0 51,0 27,5 47,5
41,0 27,5
41,0 1,0

De telle sorte que :

Rl = 216,5
R2 = 414,0
R3 = 277,5
R4 = 105,5
R5 =122,0
R6 =71,5
R7 =72,0
R8 = 317,0

Remarque

C. Huber
51

Cependant, on remarque qu'il y a beaucoup d'ex-aequo, ce qui est contraire à l'hypothèse que
l'on fait toujours lorsqu'on veut se servir des rangs l'hypothèse de continuité de la loi
sous-jacente, qui interdit les ex-aequo pourvu que la mesure soit très précise. En effet les
mesures ici ne sont pas d'une très grande précision et elles provoquent l'apparition de pas mal
d'ex-aequo.

On sait que si l'on fait la correction pour tenir compte des ex-aequo, on obtiendra une valeur
de K-W plus grande et donc un test plus signifcatif : on dit que le test sans correction est
conservatif. Pour faire la correction, il faut diviser K-W par la statistique suivante :

1 - (∑ T )/ (n3 - n)
où la sommation a lieu sur toutes les séries d'ex-aequo, et T = t3 où t est le nombre des
ex-aequo dans la série. Les premiers ex-aequo apparaissent dans la série 8 où il y a deux
ex-aequo de rang 2,5 . Donc dans ce cas, t = 2 et T = 8 - 2 = 6. Les ex-aequo suivants ont le
rang 8,5 et sont au nombre de 4, ce qui donne pour la valeur de T correspondante: 43 - 4 = 60.
On a ainsi 13 groupes d'ex-aequo : il y a
- 5 groupes de 2 ex-aequo, donnant T = 6 et ET = 30
- 1 groupe de 3, qui donne T = 24,
- 4 groupes de 4, qui donnent T = 60 et ET = 240,
- 1 groupe de 5, donant T = 120,
- 1 groupe de 6, donnant T = 2 10,
- 1 groupe de 7 donnant T = 336.

Donc 1 - (∑ T )/ (n3 - n) = 0,9945, et K-W corrigé vaut 18,464 / 0,9945 = 18,566. Et la

probabilité pm un chi 2 à 7 degrés de liberté de dépasser cette valeur est inférieure à 0,0 1, et
on rejette donc l'hypothèse nulle avec encore plus de conviction que précédemment.

C. Huber
52

B - Tests non paramétriques pour k échantillons

liés.

analyse de la variance à deux facteurs.

- Test de Cochran réponses binaires.

- Test de Friedman réponses ordinales.

Si l'on veut utiliser un test de comparaison de deux échantillons pour comparer k échantillons,
on aura des diffcultés pour deux raisons
- D'une part, il faudra effectuer un très grand nombre de tests; par exemple si k = 5, il faudra
faire 10 tests, le nombre des combinaisons de 5 objets pris deux par deux.
- D'autre part, si chacun de ces tests est fait au niveau 5 %, le résultat obtenu ne le sera pas
avec ce même niveau. On peut prouver que le niveau passe alors à 40 %.

On va voir maintenant deux tests non pararnétriques destinés à remplacer l'analyse de

variance à deux facteurs lorsqu'on n'a pas l'hypothèse de normalité.

1 Le test de Cochran :

Le test de Mac Nemar pour deux échantillons peut être étendu au cas où ron a plus de
deux échantillons. Voici deux exemples de circonstances dans lesquelles on peut
employer un test de ce type :

1) On a plusieurs (n) groupes de (k) sujets comparables (on dit "appariés") qui répondent
à une même question dans des circonstances différentes. Par exemple, de deux
médicaments qui entrent en compétition pour assurer le même service (on peut penser à
l'aspirine et à l'ergotamine pour supprimer les maux de tête par exemple), on leur
demande lequel ils préfèrent, avant une campagne publicitaire pour l'un des deux, après
une telle campagne, après un scandale impliquant le mauvais usage de l'un des deux
produits, etc... .

S'il y a k circonstances différentes, on a k échantillons, qui sont liés puisque ce sont des
sujets appariés qui répondent

2) On relève, sur n sujets, la présence ou l'absence de k symptômes : on a alors k

échantillons qui sont liés car il sagit des mêmes sujets.

Dans ces deux cas, on a k échantillons liés de réponses dichotomiques et le test de

Cochran peut être employé.

Les données peuvent être rangées dans un tableau à n lignes et k colonnes, et on veut
tester que la fréquence des réponses d'une certaine sorte est la même dans chacune des k
colonnes, ou plutôt que les différences peuvent être imputées au hasard seul.

En notant:

- Gj le nombre total de "succès" dans la jème colonne,

C. Huber
53

- Li le nombre total de "succès" dans la ième ligne,

- G la moyenne des Gj ,

la statistique de Cochran est ainsi défnie

k
k(k - 1) ∑ (G j − G) 2
j =1
Q= n n
k ∑∑
L −
2
i Li
i==
1 i 1

L'indice de colonne j varie de 1 à k et l'indice de ligne i de 1 à n.

Cochran a montré que cette statistique est approximativement distribuée comme un chi 2 à
k - 1 degrés de liberté.

Une formule équivalente à la précédente, mais plus fàcüe à calculer est la suivante

Q = { (k-1)[ k ∑ Gj - (∑ Gj ) ] } / { k ∑ Li - ∑ Li }
2 2 2

Exemple

Une interview est conduite auprès de 18 personnes, la question posée étant "De ces deux
médicaments, lequel utilisez vous de préférence en telle circonstance ? ", la réponse étant
codée 1 s'il s'agit du premier et 0 s'il s'agit du second. On obtient le tableau suivant:

Numéro Interview 1 Interview 2 Interview 3 Li Li 2

1 2 3
10 0 0 0 0
21 1 0 2 4
30 1 0 1 1
40 0 0 0 0
51 0 0 1 1
61 1 0 2 4
71 1 0 2 4
80 1 0 1 1
91 0 0 1 1
10 0 0 0 0 0
il 1 1 1 3 9
12 1 1 1 3 9
13 1 1 0 2 4
14 1 1 0 2 4
15 1 1 0 2 4
16 1 1 1 3 9
17 1 1 0 2 4
18 1 1 0 2 4

C. Huber
54

G1 = 13 G2 = 13 G3=3 ∑ Li = 29 ∑ Li2 = 63

Il en résulte que Q = 16,7. Or d'après la table, la probabilité que Q égale ou dépasse

une telle valeur est inférieure à 10-3 puisque sa loi est approximativement un chi 2 à
k- 1 = 2 degrés de liberté.

2 Le test de Friedman

Lorsque les données consistent en k échantillons liés de valeurs ordinales, le test

de Friedman permet de tester si ces k échantillons peuvent être considérés comme
provenant &une même population. Il permet donc de fàire une analyse de variance
à deux facteurs fondée sur les rangs. Comme les k échantillons sont liés, les échantillons
ont tous la même taille, n et l'appariement entre les échantillons fait que les sujets vont k
par k, soit qu'il y ait effectivement.

- n ensembles de k sujets appariés,

- n sujets , chacun sous k conditions différentes ( auto-appariement).

Exemple 1 :
On étudie le délai de disparition &une affection de l'épiderme après remploi de l'une ou
l'autre de 4 différentes thérapies, dont dieux consistent en l'application de pommade et
deux en l'absorption par voie orale &un certain produit Les observations sont les suivantes
sur n = 3 groupes de 4 personnes.

Thérapie

I 11 III IV

Groupe A 7 9 4 1
Groupe B 8 6 5 2
Groupe C 6 9 1 2

A l'intérieur de chaque ligne, on ordonne les valeurs par ordre croissant et on remplace
chacune &elles par son rang, obtenant ainsi le tableau suivant

Thérapie

I 11 III IV

Groupe A 3 4 2 1
Groupe B 4 3 2 1
Groupe C 3 4 1 2
R1 = 10 R2 = 11 R3 =5 R4 = 4

Si l'hypothèse nulle est vraie, la répartition des rangs dans chacune des colonne doit
être la même. C'est à dire que l'on doit s'attendre à avoir la même fréquence de 1, 2,
3 et 4 dans chacune des colonnes, ce qui a pour conséquence que la somme des rangs
dans chacune des colonnes devrait être à peu près la même.

En notant R, la somme des rangs de la colonne i, la statistique de Friedman est la suivante:

C. Huber
55

k
12 ∑
Fr = Ri − 3n(k + 1)
2 2
+
nk(k 1) i =1

Cette statistique a une loi qui, sous l'hypothèse Ho , est approximativement celle du chi 2
à k -1 degrés de liberté pourvu que n et k soient suffsamment grands. Ici, n n'est pas très
grand
puisqu'il ne vaut que 3.
Aussi on utilise la table exacte pour les petites valeurs de n et k, et on trouve
Fr2 = 7,4 , donc PHo ( Fr2 ≥7,4) = 0,033.

Aussi rejette-t-on l'hypothèse Ho.

Exemple 2 :
On s'intéresse au délai nécessaire à l'élimination des traces dans le sang d'un médicament,
pour une même dose, lorsque on utilise trois différents modes d'administration.
Pour cela, on choisit 18 groupes de 3 personnes appariées sur le sexe, l'âge, le poids
et la gravité de la maladie traitée par ce médicament, et on note le temps nécessaire
à l'élimination de ce produit dans le sang après la prise du produit.

On obtient le tableau d'observations suivant.

Type d'administration

I II III
1132
2231
3132
4123
5312
6231
7321
8132
9312
10 3 1 2
il 2 3 1
12 2 3 1
13 3 2 1
14 2 3 1
15 2,5 2,5 1
16 3 2 1
17 3 2 1
18 2 3 1

R1 = 39,5 R2 = 42,5 R3 = 26,0

C. Huber
56

Par suite Fr2 = 8,4 pour un nombre de degrés de liberté égal à k - 1 = 3 - 1 = 2. La probabilité
qu'un chi 2 à 2 ddl égale ou dépasse cette valeur est comprise entre 0,01 et 0,02. Le test est
donc signifcatif avec un degré de signifcation inférieur à 2 % et on rejette Ho.

C. Huber
Exercices 57

EXERCICES ET PROBLEMES

1 - Exercices de Révision sur le Calcul des Probabilités

1 Urne
Trouver, en fonction de r, la probabilité pour que, de r chiffres tirés au hasard de {0, 1, 2,
...,9}, l'un après l'autre, avec remise, il n'y en ait pas deux qui soient égaux (r < 10).
Indication : On pourra commencer par supposer que r = 2, puis r = 3 , puis généraliser.

2 Cartes
Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5
cartes au hasard, B prenant celles qui restent.
a) Quelle est la probabilité que A ait le joker ?
b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker
sachant que ce dernier n'a pas été jeté ?

3 Conseil de sécurité
Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine,
les Etats Unis et la Russie sont des membres [Link], lors d'un meeting, les membres
prennent place au hasard, quelle est la probabilité pour que :
Britanniques et Français soient voisins Russes et Américains non
a) dans le cas où ils sont alignés,
b) dans le cas où ils sont autour d'une table ronde.
Indication : on notera B, F, R, A les quatre représentants en question.
1) Compter le nombre total de dispositions possibles .
2) Pour un placement global donné de {B, F, R, A} réalisant la condition demandée,
compter :
a) le nombre de placements possibles de {B, F, R, A},

b) le nombre de placements possibles des autres membres.

3) Analyser la différence entre l'alignement et la table ronde.

4 Billes en bois et en verre

Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire
(N). Les 2 / 3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois,
ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la
couleur. Que faites vous ?

C. Huber
Exercices 58
5 Viager
Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et
fixe dépend de la disparition des deux conjoints actuellement âgés de 60 anspour la femme
et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la
rente au bout de 10 ans.
a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant ?
Table de mortalité
Nombre de survivants
Hommes Femmes
Naissance 1 000 000 1 000 000
60 ans 381 065 428 583
70 ans 242 442 312 612
80 ans 80 381 139 349

b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être
son montant r pour être équitable ?

2 - Exercices de génétique
Rappel de quelques définitions de génétique :

Base
Gamète : cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n
chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes.
zygote : cellule résultant de la fécondation.
diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double
de celui des gamètes.

Systèmes de croisement
Les définitions qui suivent concernent uniquement des populations d'effectif infiniment
grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de
sélection signifie que le polymorphisme de la population est conditionné par des gènes
inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne
soit favorisé par la sélection d'autre part.

L'absence de sélection est définie par les trois hypothèses :

1) Lorsqu'un zygote est formé, la probabilité qu'il a de se développer en adulte apte à la
reproduction ne dépend pas de son génotype.
2) Le nombre de gamètes formés par un individu apte à la reproduction ne dépend pas de
son génotype.
3) La probabilité pour qu'un gamète participe à la formation d'un zygote ne dépend, ni du
génotype de l'individu qui l'a formé, ni de son propre génotype.

Panmixie :
L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de
l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux
tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les
gamètes femelles.

Consanguinité

58 C. Huber
Exercices 59

Coefficient de parenté :
Le coefficient de parenté de deux individus K et L, qui est noté f KL, est égal à la
probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un
des locus homologues du génôme de L, ces deux locus soient identiques.

Locus identiques :
Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications
successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de
duplications successives.

Coefficient de consanguinité individuel :

Le coefficient de consanguinité d'un individu diploide I est la probabilité pour que deux
locus homologues de son génome soient identiques. On le note f I (Cela entraîne que, dans
une espèce diploide, le coefficient de consanguinité de I est égal au coefficient de parenté
de ses parents).

Coefficient de consanguinité moyen α :

d'une population. C'est la probabilité pour que deux locus homologues d'un individu
quelconque de la population soient identiques.

6 Maladie génétique dans une population panmictique :

Une malformation n'ayant pas de retentissement sur la fécondité et déterminée par un
allèle a, récessifautosomique, présente dans une population donnée une fréquence q (= 1 /
10 000) ; on extrait au hasard 10 000 individusde cette population panmictique.
a) Donner, sur cet échantillon, une estimation moyenne (ou estimateur de la moyenne) de :
α) du nombre d'allèles a appartenant à des individus malades.
β) du nombre d'allèles a appartenant à des individus cliniquement sains.
b) Au sein de cette population, les mariages se font au hasard (panmixie). Quelles sont les
fréquences moyennes des mariages suivants :
α) Ceux dont la descendance sera épargnée par la maladie (On donnera une réponse
littérale en fonction de p et q, fréquences respectives des allèles A et a)
β) Ceux dont les enfants seront touchés avec une probabilité de 1 / 4
γ) Ceux dont les enfants seront touchés avec une probabilité de 1 / 2
c) Si au contraire les homozygotes aa ont une fécondité nulle et en admettant que la
sélection n'ait pas d'effet sur les hétérozygotes, calculer quel taux de mutation assurerait à
l'allèle a une fréquence stable.

7 Consanguinité :
Soit un sujet dont les parents sont doubles cousins germains.
a) Etablir l'arbre généalogique
b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés.
c) Calculer le coefficient de consanguinité de ce sujet.
d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une
mucoviscidose
(maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun
renseignement sur la famille.

C. Huber
Exercices 60

8 Achondroplasie :
Un couple de nains achondroplases I 1et I2 a eu successivement :
- II1 enfant achondroplase
- II2 enfant normal
- II3 enfant d'aspect achondroplase, décédé à la naissance.
L'achondroplasie est une maladie dominante autosomique, et on peut considérer
l'homozygotie comme létale en général.
a) Donner les génotypes les plus probables des sujets : I 1, I2, II1, II2 et II3
b) Quel est le génotype le plus probable des parents de I 1 et de I2 ?
c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet
ordre ?
d) ... dans n'importe quel ordre ?
e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains ?
f) II 2consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa
descendance.

9 Groupes sanguins :
556 individus prélevés au hasard dans une population supposée infiniment grande
présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux co-
dominants M et N :
167 sont M
280 MN
109 N
EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population
étudiée.

10 Phosphatases érythrocytaires :
Les hématies humaines renferment des phosphatases dénommées "Phosphatases
érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse,
désignés par A, B et C. Chez certains individus, il existe une seule phosphatase
érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B
ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB,
AC et BC.
Sur 268 individus extraits au hasard d'une population humaine, on dénombre
:
25 de phénotype A
106 B
113 AB
9 AC
15 BC
Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur
le mode de reproduction de la population, qui rende compte de cette distribution ?

11 Génétique et calcul conditionnel

60 C. Huber
Exercices 61

Le coefficient de parenté de deux individus K et L, noté f kl, est égal à la probabilité

pour que, si l'on prend au hasard un des locus du génome de K et un des locus homologues
du génome de L, ces deux locus soient identiques. On dit que deux locus sont identiques
s'ils sont occupés par deux gènes issus par duplications successives d'un même gène
ancêtre ou si l'un est issu de l'autre par duplications successives.
1) Quel est le coefficient de parenté de
- deux soeurs ?
- deux cousins germains ?
2) Les parents du sujet sont doubles cousins germains.
a) Etablir l'arbre généalogique du sujet.
b) Calculer le coefficient de consanguinité du sujet.
On appelle coefficient de consanguinité d'un sujet la probabilité pour que deux
locus homologues de son génome soient identiques.
3) La mucoviscidose est une maladie récessive autosomique de fréquence 1 / 25000.
Quelle est la probabilité pour que le sujet développe une mucoviscidose ?
4) Comparer ce risque à celui encouru par un sujet non consanguin. Conclusion ?

3 - Exercices variés
(Expérimentation biologique, épidémiologie, essais thérapeutiques) ;

12 Suspension d'organismes virulents

Une grande suspension d'organismes virulents est diluée à la concentration moyenne de 1
organisme pour 0. 1 ml. En supposant que les organismes sont répartis aléatoirement dans
la suspension et que tout organisme virulent causera une infection chez l'animal de
laboratoire à qui il sera injecté, quelle proportion des animaux sera infectée si on injecte
0.1ml à chacun des animaux d'un lot important ?

13 Rhumes
Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes
de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population.
On a obtenu les résultats suivants :
- 42 ont été attaqués les deux fois.
- 11 ont été attaqués pendant la première période mais pas pendant la seconde.
- 19 n'ont jamais été attaqués.
1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet
sur le risque encouru lors de la deuxième période ?
2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur ? Justifier vos réponses par un
test dont vous donnerez le degré de signification.

14 poids de naissance
Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sud-
ouest de l'Angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18

C. Huber
Exercices 62
(1974).

Poids [0 1[ [1 2[ [2 3[ [3 4[ [4 5[ [5 6[ [6 7[ [7 8[

Effectif 3 40 82 126 364 1182 4173 6723

Poids [8 9[ [9 10[ [10 11[ [11 12[ [12 13[ [13 14[ [14 15[

Effectif 4305 1365 240 39 2 0 1

Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375.

1) Donner un intervalle de confiance à 95% pour le poids moyen de naissance.

Donner un intervalle de confiance à 95% et à 98% pour le poids moyen de naissance.

2) Tracer sur un même graphique la fonction de répartition observée et la fonction de

répartition de la loi normale de même moyenne et de même variance qu'elle. Ces
deux lois vous paraissent elles proches ?
3) Effectuer un test pour vérifier s'il est ou non acceptable de considérer que le poids de
naissance suit une loi normale.

15. Poids de naissance et âge de la mère :

On désire savoir s'il existe une liaison entre le poids de naissance Y d'un enfant et l'âge X
de sa mère à l'accouchement. Dans ce but, on prélève 100 dossiers médicaux dans le fichier
des naissances d'une maternité. Les résultats obtenus sont les suivants (X est exprimé en
années et Y en kilogrammes) :
Σ x = 2 500 Σ x 2 = 65 000
i i
Σ y = 300 Σ y 2 = 925
i i
Σ x y = 7545
i i

1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données
pour répondre à la question que l'on se pose ? Ces hypothèses seront faites dans
toute la suite.
2) Tracer la droite de régression observée de Y par rapport à [Link] est sa pente ?
Commenter.
3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une
liaison entre le poids à la naissance d'un enfant et l'âge de sa mère ? Effectuer ce
test et énoncer clairement la conclusion correspondante.
4) On a prélevé 100 dossiers médicaux de femmes qui ont accouché récemment, par tirage
au sort dans l'ensemble des maternités relatives à la population considérée. Les
résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants :
Σ x = 26 80 Σ x 2 = 74 350
i i
Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des
hypothèses faites au 1) est justifiée ?

16. Aptitude à goûter la phénylthiocarbamide :

L'aptitude à être goûteur ou non goûteur de la PTC (Phénylthiocarbamide) est contrôlée par
un locus à 2 allèles T et t, de fréquences respectives p et q. Les individus tt sont non
goûteurs. Les individusb TT et Tt sont goûteurs (T est dominant).

62 C. Huber
Exercices 63

1) Quelle est, en fonction de p et q la fréquence des génotypes TT, Tt et tt ? (On suppose

que les gènes s'associent de manière indépendante pour former les génotypes).
2) On suppose que les mariages ont lieu au hasard. Combien y a-t-il de mariages différents
possibles ? Quelles sont leurs probabilités ?
3) Sur cinq familles de parents Tt x tt ayant un seul enfant chacune, quelle est la
probabilité:
a) que 3 exactement de ces familles aient un enfant goûteur ?
b) que chacune de ces familles ait un enfant goûteur ?
4) Pour estimer la fréquence p' des goûteurs dans la population, on a réalisé une enquête
portant sur n = 625 sujets. Parmi eux, 500 sont goûteurs et 125 non goûteurs.
Donner un intervalle de confiance de coefficient de confiance 98 % pour p'.
5) Pouvez-vous déduire de la question précédente un intervalle de confiance pour q ?
6) Sachant qu'un couple a cinq enfants en tout dont un seul est goûteur, quelle est la
probabilité qu'il s'agisse d'un couple Tt x tt ?

17. Dénombrement de globules rouges

Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est
donné ci-dessous :

X = i le nombre de 0 1 2 3 4 5 6 7 8 9 10 N
globules d'une case

ni = nombre 13 41 90 112 100 66 45 22 9 1 1 500

de cases
ayant i globules

On donne Σ x2 = Σ ni i2 = 8 114 .
I–
1) Calculer la moyenne observée m du nombre X de globules par case et la variance s 2 de
X.
2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique.
3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation
de µ par le maximum de vraisemblance. Comparer avec le résultat du 1).
4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ ? Quelles
sont les propriétés de cet estimateur ?

II –
1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de
savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain.
2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m 1, m 2] où m 1 et
m2 sont définies par Prob [m ∈ (m 1, m 2) / µ = 4] = 5 %. Quelles sont vos conclusions
?
3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la
répartition théorique moyenne du nombre de globules est donnée par le tableau suivant
où Ri est l'effectif théorique ou "attendu" des cases ayant i globules:

C. Huber
Exercices 64

X=i 0 1 2 3 4 5 6 7 8 9 10 11

Ri 9,1 36,6 73,3 97,7 97,7 78,1 52,1 29,8 14,9 6,6 2,7 1,4

Peut-on admettre au risque de 5 % que les résultats observés initialement sont

ceux d'un sujet sain ?

4) Comparez aux résultats du II - 2) et commentez.

III –
Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on
recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte
que le nombre de cases sans globules. On obtient alors les résultats suivants :

X 0 21 Nbre total de cases

1er prélèvement 13 487 500

2ème prélèvement 19 481 500

La proportion de cases vides est-elle la même pour ces deux prélèvements ?

18. Délai d'apparition d'une maladie

On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un
milieu polluant est une variable aléatoire dont la loi admet la densité
f (x) = [Link] (-ax) si x ≥ 0
=0 si x < 0
1) Quelle est la fonction de répartition F (x) de cette variable au point x ?

2) Calculer EX et Var (X).

3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un
délai moyen d'apparition M = ( X1 + ... +Xn) / n. Que valent l'espérance E(M) et
la variance V(M) de M ?
4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart
type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque
3% pour le paramètre inconnu a ?
5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le
segment [0 a]

64 C. Huber
Exercices 65

19. Diabète infantile

Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le
diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde
diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet
avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie,
c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit
supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes.

Durée Nombre de Rétinopathies R1 R2 R3

d'évolution cas

15 < t ≤ 20 173 67 45 15 7

20 < t ≤ 25 58 32 17 12 3

t > 25 38 22 12 7 3

TOTAL 269 121 74 34 13

Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que
la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans.
Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en
sont atteints ont été répartis en trois catégories : R 1, R 2 et R 3 d'après la gravité de la
rétinopathie : R1 si l'atteinte est légère, R 2 si elle est moyenne et R 3 si elle est forte.
a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P
étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du
seuil de signification accepterait on cette hypothèse ?
b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des
malades atteints de rétinopathie dans chacune des classes de durée d'évolution.
Peut-on considérer que ce pourcentage croit significativement en même temps que
la durée d'évolution, au seuil de 5 % ?
c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la
durée d'évolution du diabète ?
d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée
H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la
tension, et obtenu au bout de 40 jours de traitement les résultats suivants :

Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
patient
Différence +1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9 -8 -18 -5 -22 -21 -15 -11
de tension

Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au
seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet).

C. Huber
Exercices 66

66 C. Huber

Vous aimerez peut-être aussi

2019 Polycopié Biostatistique - Ok
100% (1)
2019 Polycopié Biostatistique - Ok
181 pages
Syllabus Proba Stat
Pas encore d'évaluation
Syllabus Proba Stat
6 pages
Biostatistique : Concepts et Méthodes
100% (1)
Biostatistique : Concepts et Méthodes
181 pages
ENS - Prob - Lois Usuelles de Var - Al. - 2024-25
Pas encore d'évaluation
ENS - Prob - Lois Usuelles de Var - Al. - 2024-25
27 pages
Tests Non Paramétriques en Statistiques
Pas encore d'évaluation
Tests Non Paramétriques en Statistiques
3 pages
Statistique Partie 2
Pas encore d'évaluation
Statistique Partie 2
96 pages
Analyse Quantitative en Gestion des Risques
Pas encore d'évaluation
Analyse Quantitative en Gestion des Risques
64 pages
Cours Biostatistique PACES 2011-2012
100% (5)
Cours Biostatistique PACES 2011-2012
179 pages
Inference 2025 Cours 1
Pas encore d'évaluation
Inference 2025 Cours 1
27 pages
Cours Tests
Pas encore d'évaluation
Cours Tests
8 pages
Bases de Biostatistique : Probabilités et Tests
Pas encore d'évaluation
Bases de Biostatistique : Probabilités et Tests
35 pages
Probabilités Et Statistique PDF
Pas encore d'évaluation
Probabilités Et Statistique PDF
129 pages
Module de Statistique Inferentielle PDF 1
Pas encore d'évaluation
Module de Statistique Inferentielle PDF 1
120 pages
Cours Biostatistique I 1ere Medecine (ALIA Zeid)
Pas encore d'évaluation
Cours Biostatistique I 1ere Medecine (ALIA Zeid)
79 pages
Cours Biostatistique PACES 2013-2014
100% (1)
Cours Biostatistique PACES 2013-2014
179 pages
12 6 Mannwhitney
Pas encore d'évaluation
12 6 Mannwhitney
10 pages
Fiches de Révision Pour L'internat en Pharmacie - Statistiques
Pas encore d'évaluation
Fiches de Révision Pour L'internat en Pharmacie - Statistiques
47 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
262 pages
Probabilités Et Statistique
100% (1)
Probabilités Et Statistique
187 pages
Poly Biostat Sept20
Pas encore d'évaluation
Poly Biostat Sept20
94 pages
Cours de Biostatistiques : Statistiques Inférentielles
Pas encore d'évaluation
Cours de Biostatistiques : Statistiques Inférentielles
107 pages
Introduction aux statistiques et tests
Pas encore d'évaluation
Introduction aux statistiques et tests
11 pages
Support Cours Stat de La Décision ECOMO3 2022
Pas encore d'évaluation
Support Cours Stat de La Décision ECOMO3 2022
81 pages
Biostatistiques pour Étudiants L2
Pas encore d'évaluation
Biostatistiques pour Étudiants L2
44 pages
Gilbert CoursNP
Pas encore d'évaluation
Gilbert CoursNP
114 pages
Introduction aux Tests Statistiques
Pas encore d'évaluation
Introduction aux Tests Statistiques
18 pages
1.ED Cours
Pas encore d'évaluation
1.ED Cours
142 pages
Estimation et Intervalles de Confiance
Pas encore d'évaluation
Estimation et Intervalles de Confiance
25 pages
Estimation de la moyenne et variance
Pas encore d'évaluation
Estimation de la moyenne et variance
25 pages
Comparaison de distributions statistiques
Pas encore d'évaluation
Comparaison de distributions statistiques
24 pages
Biostatistiques : Cours et Méthodes 2001-2002
100% (1)
Biostatistiques : Cours et Méthodes 2001-2002
131 pages
Correction TD - Statistique - Inferentielle - 1 - 2021 - 2022. Ligue Des Economistes
Pas encore d'évaluation
Correction TD - Statistique - Inferentielle - 1 - 2021 - 2022. Ligue Des Economistes
18 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
150 pages
Ex Supplémentaires Statiqtiques Desciptive
Pas encore d'évaluation
Ex Supplémentaires Statiqtiques Desciptive
59 pages
Statistiques Avancées pour Économistes
Pas encore d'évaluation
Statistiques Avancées pour Économistes
80 pages
Chap7 Statistique Inferentielle
Pas encore d'évaluation
Chap7 Statistique Inferentielle
8 pages
Statistiques M1/BTP : Lois et Tests
Pas encore d'évaluation
Statistiques M1/BTP : Lois et Tests
33 pages
SYLLABUS P101 Biostatistiques Pharmacie 1
Pas encore d'évaluation
SYLLABUS P101 Biostatistiques Pharmacie 1
3 pages
Cours Biostat Master 1 Biochimie 2020
Pas encore d'évaluation
Cours Biostat Master 1 Biochimie 2020
51 pages
Introduction aux tests statistiques
Pas encore d'évaluation
Introduction aux tests statistiques
32 pages
Test Stat
Pas encore d'évaluation
Test Stat
59 pages
Statistique médicale et épidémiologie
Pas encore d'évaluation
Statistique médicale et épidémiologie
205 pages
Fiche Résolution Des Tests Statistiques
Pas encore d'évaluation
Fiche Résolution Des Tests Statistiques
25 pages
Cours et QCM de Statistiques
Pas encore d'évaluation
Cours et QCM de Statistiques
264 pages
Biostatistiques pour Biologistes L2
Pas encore d'évaluation
Biostatistiques pour Biologistes L2
4 pages
ESB Statistique Et Probabilités
Pas encore d'évaluation
ESB Statistique Et Probabilités
49 pages
Mini Manuel de Probabilités Et Statistiques 2ed
100% (3)
Mini Manuel de Probabilités Et Statistiques 2ed
256 pages
Objectifs et Concepts de Statistiques
Pas encore d'évaluation
Objectifs et Concepts de Statistiques
57 pages
Probabilité Statistiques
Pas encore d'évaluation
Probabilité Statistiques
54 pages
Le Test Du Khi Deux
0% (1)
Le Test Du Khi Deux
40 pages
Moyenne Variance3
Pas encore d'évaluation
Moyenne Variance3
31 pages
Tests Non Paramétriques en Économétrie
100% (2)
Tests Non Paramétriques en Économétrie
110 pages
Mathématiques et Statistiques en Gestion
Pas encore d'évaluation
Mathématiques et Statistiques en Gestion
83 pages
Cours de Statistiques Inférentielles
Pas encore d'évaluation
Cours de Statistiques Inférentielles
28 pages
Statistiques Inférentielles et Estimation
Pas encore d'évaluation
Statistiques Inférentielles et Estimation
95 pages
Stat Licence 2
Pas encore d'évaluation
Stat Licence 2
75 pages
Introduction à la Statistique
Pas encore d'évaluation
Introduction à la Statistique
10 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
IBM SPSS Decision Trees
Pas encore d'évaluation
IBM SPSS Decision Trees
38 pages
Methode D
Pas encore d'évaluation
Methode D
28 pages
Analyse des données : résumé de cours
100% (1)
Analyse des données : résumé de cours
45 pages
Modélisation ARMA et ARIMA en économétrie
Pas encore d'évaluation
Modélisation ARMA et ARIMA en économétrie
18 pages
Variables Aléatoires : Lois et Caractéristiques
Pas encore d'évaluation
Variables Aléatoires : Lois et Caractéristiques
5 pages
CM2 - Principes Des Tests Statistiques
Pas encore d'évaluation
CM2 - Principes Des Tests Statistiques
70 pages
Biostatistique : Probabilités et Tests Statistiques
Pas encore d'évaluation
Biostatistique : Probabilités et Tests Statistiques
3 pages
Fiabilité des Systèmes: Modèles et Lois
Pas encore d'évaluation
Fiabilité des Systèmes: Modèles et Lois
11 pages
Engagement associatif des étudiants ISCAE
Pas encore d'évaluation
Engagement associatif des étudiants ISCAE
8 pages
Test de Khi-Deux
Pas encore d'évaluation
Test de Khi-Deux
11 pages
Examen de Statistiques du 10 Septembre
Pas encore d'évaluation
Examen de Statistiques du 10 Septembre
16 pages
Livret Pédagogique Parcours Biologie
Pas encore d'évaluation
Livret Pédagogique Parcours Biologie
85 pages
Analyse Statistique des Relations Variables
Pas encore d'évaluation
Analyse Statistique des Relations Variables
14 pages
Tests Statistiques sur Lois Gaussiennes
Pas encore d'évaluation
Tests Statistiques sur Lois Gaussiennes
4 pages
Cours Les Plans D'expériences
100% (2)
Cours Les Plans D'expériences
86 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
77 pages
Stat Non para 2020
100% (1)
Stat Non para 2020
31 pages
Mémoire de Recherche Comment L'amélioration de La Gestion Des Stocks de Pièces Optimise Les Risques de Rupture de Stock Et Les Coûts D'entreposage ? Cas: Secteur Automobile
Pas encore d'évaluation
Mémoire de Recherche Comment L'amélioration de La Gestion Des Stocks de Pièces Optimise Les Risques de Rupture de Stock Et Les Coûts D'entreposage ? Cas: Secteur Automobile
31 pages
Faire Un Test Du Chi Avec R
100% (3)
Faire Un Test Du Chi Avec R
3 pages
Module d'Analyse de Données en Python
Pas encore d'évaluation
Module d'Analyse de Données en Python
118 pages
Analyses multivariées en machine learning
Pas encore d'évaluation
Analyses multivariées en machine learning
25 pages
Disparités Régionales en Tunisie
Pas encore d'évaluation
Disparités Régionales en Tunisie
31 pages
Article 415707
Pas encore d'évaluation
Article 415707
8 pages
Lois Statistiques en Économétrie
Pas encore d'évaluation
Lois Statistiques en Économétrie
9 pages
Admin,+29182 77430 1 CE
Pas encore d'évaluation
Admin,+29182 77430 1 CE
20 pages
Contraintes Financieres Et Comportement Des Investissement en Tunisie
Pas encore d'évaluation
Contraintes Financieres Et Comportement Des Investissement en Tunisie
33 pages
Estimation et tests en statistiques
Pas encore d'évaluation
Estimation et tests en statistiques
17 pages
Statistique descriptive bivariée en écologie
Pas encore d'évaluation
Statistique descriptive bivariée en écologie
12 pages
Questionnaire sur les Méthodes de Recherche
Pas encore d'évaluation
Questionnaire sur les Méthodes de Recherche
3 pages