0% ont trouvé ce document utile (0 vote)
77 vues123 pages

Tests d'hypothèses en statistique

Le chapitre 3 aborde la théorie des tests d'hypothèses, qui est essentielle pour la prise de décision basée sur des données statistiques. Il explique les différents types de tests, notamment les tests paramétriques et non paramétriques, ainsi que les procédures à suivre pour tester une hypothèse. Enfin, il traite des risques d'erreur associés aux tests, tels que les risques de première et de seconde espèce.

Transféré par

nadia.erraji1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
77 vues123 pages

Tests d'hypothèses en statistique

Le chapitre 3 aborde la théorie des tests d'hypothèses, qui est essentielle pour la prise de décision basée sur des données statistiques. Il explique les différents types de tests, notamment les tests paramétriques et non paramétriques, ainsi que les procédures à suivre pour tester une hypothèse. Enfin, il traite des risques d'erreur associés aux tests, tels que les risques de première et de seconde espèce.

Transféré par

nadia.erraji1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3: Tests d'hypothèses

Pr. Karima EL KIMAKH

2023-2024

1
Introduction

Introduction

La théorie des tests, aussi connue sous le nom d'inférence statistique, se concentre sur
la mise en place et les caractéristiques des tests statistiques. Un test statistique
représente une procédure de décision qui détermine si une hypothèse donnée,
généralement appelée hypothèse nulle, doit être rejetée ou conservée en fonction des
observations tirées d'un échantillon.
La théorie des tests est la théorie fondamentale de ce que l'on appelle aujourd'hui la
statistique décisionnelle ou business intelligence. Elle consiste à étudier les règles de
décision pour accepter ou rejeter des hypothèses sur la base d'échantillons observés. Les
tests statistiques permettent d'évaluer les propriétés des décisions prises en fonction des
observations.

2
Introduction

Cette théorie constitue le fondement des outils statistiques modernes qui aident à la
prise de décision. En plus de fournir une règle de décision, les tests statistiques orent
l'avantage crucial de quantier ou de contrôler les risques associés à ces décisions, ce
qui les rend très utilisés dans la pratique.
Dans divers domaines tels que l'économie, la gestion, la banque, l'assurance, le
marketing et la détection de fraudes en ligne, les tests statistiques sont largement
utilisés pour prendre des décisions éclairées. Par exemple, une banque utilise des tests
statistiques pour évaluer si un demandeur de prêt est un bon client, tandis qu'une
entreprise analyse l'impact d'une campagne marketing à l'aide de ces tests. Les tests
d'indépendance sont également fréquemment utilisés en marketing pour déterminer si
les ventes de deux produits sont liées ou indépendantes. En résumé, la théorie des tests
statistiques est un outil essentiel pour prendre des décisions basées sur des données
empiriques dans de nombreux domaines d'activité.

3
Les tests Dénitions

Dénitions

Un test, qu'il soit statistique ou pas, consiste à vérier une information


hypothétique (une hypothèse).
On parle d'ailleurs de tests d'hypothèses.
Un test statistique est une méthode qui vise à gérer ou à réduire, selon les
circonstances, les risques liés à une prise de décision. C'est pourquoi chaque test
statistique est généralement composé de trois éléments essentiels :
Une hypothèse nulle et une hypothèse alternative.
Une région critique établie à partir d'une statistique de test et d'une valeur critique.
Des risques de première espèce et de deuxième espèce.

4
Les tests Dénitions

Il s'agit d'une démarche consistant à rejeter ou à ne pas rejeter une hypothèse


statistique, appelée hypothèse nulle notée généralement H0 en se basant sur des
données observées (échantillon).

5
Les tests Dénitions

Les tests statistiques peuvent être classés en deux catégories principales : les tests
paramétriques et les tests non paramétriques.
Les tests paramétriques:
Ces tests supposent généralement une distribution spécique des données, souvent
la distribution normale.
Ils sont basés sur des paramètres de population, tels que la moyenne et l'écart type.
Les exemples incluent le test t de Student, l'analyse de variance (ANOVA), les tests
de régression linéaire, etc.

6
Les tests Dénitions

Les tests non paramétriques:

Ces tests sont utilisés lorsque les données ne répondent pas aux conditions requises
par les tests paramétriques (par exemple, la non-normalité).
Aucune hypothèse sur la distribution des variables aléatoires.
Tests souvent basés sur la notion de rangs.
Si les distributions entre groupes sont ̸=, les rangs sont ̸=.
Des études ont cependant prouvé que l'exactitude des tests non-paramétriques sur
des grands échantillons n'est que légèrement inférieure à celle des tests
paramétriques.
Les tests non-paramétriques sont beaucoup plus exacts sur des petits échantillons.
Ils ne reposent pas sur des paramètres de population spéciques. Les exemples
incluent le test de Wilcoxon, le test de Mann-Whitney, le test de Kruskal-Wallis,
etc.

7
Les tests Dénitions

Les tests paramétriques sont basés sur des hypothèses spéciques concernant la
distribution des données et des paramètres de population, tandis que les tests non
paramétriques sont plus exibles en termes d'hypothèses, mais peuvent être moins
puissants dans certaines situations. Le choix entre les deux dépend souvent de la nature
des données et de la question de recherche spécique.

8
Les tests Principe des tests

Principe des tests

Exemple:
Dans une ferme, on s'intéresse à la taille d'un type d'arbres fruitiers. On suppose que
cette taille est une variable aléatoire X suivant une loi normale de moyenne 2.75 m et
d'écart-type 0.35 m.
On a traité ces arbres par des produits biologiques dans le but d'améliorer leur
croissance.
An de vérier s'il y a amélioration de la croissance, on choisit après une année de
traitement, 36 arbres fruitiers du même type et on mesure leurs tailles.

9
Les tests Principe des tests

Question: Est-ce que la taille moyenne après traitement est toujours égale à 2,75 m ou
bien qu'elle s'est améliorée ?
→ Si la taille moyenne échantillonnale (ou empirique) est proche de 2.75 m, on
concluera que le traitement n'a pas amélioré la croissance de ces arbres.
→ Si la taille moyenne échantillonnale de ces 36 arbres est susamment supérieure à
2.75 m, on concluera que la nouvelle moyenne théorique est eectivement
supérieure à 2.75 m et que le traitement biologique a fait de l'eet.
On supposera que la distribution de la taille X est une loi normale N (µ, (0.35)2 ), µ
étant la moyenne théorique des tailles après le traitement biologique.

10
Les tests Principe des tests

On fera un choix entre deux propositions, deux possibilités :


H0 : µ = 2.75m (hypothèse nulle)
contre (vs)
H1 : µ > 2.75m (hypothèse alternative)
On devra:
ou bien ne pas rejeter H0
ou bien rejeter H0 en faveur de H1 .

11
Les tests Principe des tests

Pour cela, on utilisera une règle, appelée "règle de décision" basée sur les 36 tailles
observées, dans l'échantillon.
Dans notre cas, si x1 , x2 , . . . , x36 est un échantillon de la taille X et si x̄ est la moyenne
empirique des 36 arbres fruitiers après traitement :
−→ on rejette H0 si x̄ est susamment grande
(i.e. si x̄ ≥ C , C est une constante appropriée).
Question: Comment choisir cette constante C ?
Ce choix de la constante C a un lien avec les probabilités d'erreur que l'on commet, en
prenant une décision.

12
Les tests La procédure d'un test d'hypothèse

La procédure d'un test d'hypothèse

Diérentes étapes doivent être suivies pour tester une hypothèse :


1 dénir l'hypothèse nulle, notée H , à contrôler ;
0
2 choisir une statistique pour contrôler H ;
0
3 dénir la distribution de la statistique sous l'hypothèse  H est réalisée  ;
0
4 dénir le niveau de signication du test α et la région critique associée ;

5 calculer, à partir des données fournies par l'échantillon, la valeur de la statistique ;

6 prendre une décision concernant l'hypothèse posée à partir du positionnement de la

valeur de la statistique (seuil associé au risque) ou à partir de la p-valeur obtenue.

13
Les tests La procédure d'un test d'hypothèse

L'hypothèse nulle notée H0 est l'hypothèse que l'on désire contrôler: elle consiste à dire
qu'il n'existe pas de diérence entre les paramètres comparés ou que la diérence
observée n'est pas signicative et est due aux uctuations d'échantillonnage.
L'hypothèse alternative notée H1 est la négation de H0 , elle est équivalente à dire "H0
est fausse". La décision de rejeter H0 signie que H1 est réalisée ou H1 est vraie.

14
Les tests L'hypothèse simple et composite

L'hypothèse simple et composite

Dénition
Une hypothèse simple est une armation précise et spécique concernant un paramètre
ou une distribution, tandis qu'une hypothèse composite couvre un éventail de valeurs
possibles pour ce paramètre ou cette distribution.

L'analyse statistique est souvent axée sur la comparaison entre ces types d'hypothèses
pour tirer des conclusions sur la population à partir des données échantillonnées.

15
Les tests Tests unilatéraux, tests bilatéraux

Tests unilatéraux, tests bilatéraux


Parmi les tests comparant une hypothèse simple à une hypothèse composite, on
distingue les tests unilatéraux des tests bilatéraux. Cette diérenciation est
particulièrement signicative pour la dénition de la région critique. L'adjectif
"unilatéral" indique que, sous l'hypothèse alternative H1 , la valeur du paramètre θ ne
peut être que supérieure (ou inférieure, selon le test) à la valeur de θ sous l'hypothèse
nulle H0 ; la valeur de θ ne peut ainsi prendre qu'une seule "direction". En revanche, le
terme "bilateral" indique que, sous l'hypothèse alternative, la valeur de θ dière (soit
inférieure, soit supérieure) de la valeur sous l'hypothèse nulle.
Soit l'hypothèse nulle : H0 : θ = θ0
L'hypothèse alternative sera toujours l'une des trois hypothèses suivantes :
H1 : θ > θ0 (test unilatéral à droite),
H1 : θ < θ0 (test unilatéral à gauche),
H1 : θ ̸= θ0 (test bilatéral).
16
Les tests Région critique

Région critique
Dénition
Une statistique de test, désignée par Tn , est une variable aléatoire exprimée comme une
fonction des variables de l'échantillon X1 , . . . , Xn , telles que :

Tn (X1 , . . . , Xn )

Dénition
La région critique d'un test, notée W , est un ensemble de réalisations de la statistique
de test (ou, de manière équivalente, un ensemble d'échantillons) pour lesquelles
l'hypothèse nulle du test est rejetée :

W = {x1 , . . . , xn : Tn (x1 , . . . , x) ∈ r (c)}


où (x1 , . . . , xn ) désigne un échantillon, Tn (x1 , . . . , xn ) la réalisation associée de la
statistique de test, et r (c) un ensemble délimité par une (ou plusieurs) valeur(s)
critique(s), notée(s) c .
17
Les tests Région critique

Remarque:
Pour simplier les notations, nous désignerons la région critique par
W = {x : Tn (x) ∈ r (c)}, où x en minuscule fait référence à la réalisation de
n-échantillon (x1 , . . . , xn ).

18
Les tests Risques

Erreur ou risque de première espèce α

Pour prendre une décision, on se base sur les observations de l'échantillon avec deux
types d'erreurs possibles :
La quantité α représente la probabilité de rejeter H0 alors qu'elle est vraie dans la
population, appelée risque de première espèce (Le niveau d'un test).
α = P((X1 , X2 , . . . , Xn ) ∈ W |H0 vraie)
où W désigne la région critique du test.
α est xée à une faible valeur, 5% ou 1% généralement.

19
Les tests Risques

Erreur ou risque de seconde espèce β

La quantité β représente la probabilité de ne pas rejeter H0 alors que l'hypothèse


alternative H1 est valide dans la population, appelée risque de seconde espèce.
β = P(H0 non rejetée|H1 vraie)

puissance du test = 1 − β = P((X1 , X2 , . . . , Xn ) ∈ W |H1 vraie)


La puissance d'un test désigne la probabilité d'être dans la région critique (et donc de
rejeter l'hypothèse nulle) lorsque l'hypothèse alternative H1 est vraie dans la population.
Ainsi, un test plus puissant se traduit par une probabilité d'erreur de deuxième espèce
plus faible, ce qui est préférable.

20
Les tests Détermination du niveau et de la puissance

Détermination du niveau et de la puissance


Pour évaluer le niveau d'un test (la puissance), il est nécessaire d'examiner la distribution
de la statistique de test Tn (X ) sous l'hypothèse nulle H0 (l'hypothèse alternative H1 ).
Exemple:
On considère un n-échantillon (X1 , . . . , Xn ), avec n = 100, de variables aléatoires i.i.d.
telles que Xi ∼ N (µ, σ 2 ) où µ est un paramètre inconnu et σ 2 = 1. On souhaite tester :

H0 : µ = µ0 = 1.2 contre H1 : µ = µ1 = 1

Un statisticien propose une région critique de la forme :

W = {x : x̄n < c}

où x̄n désigne la réalisation de la moyenne empirique X̄n = n1 ni=1 Xi et c est une


P
constante (valeur critique) égale à 1.0718. Cette région critique s'interprète de la façon
suivante : si la réalisation de la moyenne empirique est inférieure à 1.0718, on rejette
l'hypothèse nulle H0 : µ = 1.2. 21
Les tests Détermination du niveau et de la puissance

Calculons le niveau du test α et la puissance de ce test.


Sous l'hypothèse nulle H0 : µ = µ0 , la loi exacte de la moyenne empirique X̄n
(statistique de test) est :

n(X̄n − µ0 )
∼ N (0, 1) sous H0
σ
Par conséquent, le niveau du test est égale à :
α = P((X1 , X2 , . . . , Xn ) ∈ W |H0 ) = P(X̄n < c|H0 )
√ √ 
n(X̄n − µ0 ) n(c − µ0 )
=P <
σ σ
√ 
n(c − µ0 )

σ
10(1.0718 − 1.2)
 
=Φ = Φ(−1.282) = 0.100
1
Ainsi, avec la règle de décision associée à la région critique W = {x : x̄n < 1.0718}, il y
a 10% de chances de rejeter à tort l'hypothèse nulle H0 : µ = 1.2 alors qu'elle est vraie.
22
Les tests Détermination du niveau et de la puissance

Sous l'hypothèse alternative, H1 : µ = µ1 , la loi exacte de la moyenne empirique X̄n


(statistique de test) est :

n(X̄n − µ1 )
∼ N (0, 1) sous H1
σ
Par conséquent, la puissance du test est égale à :
Puissance = P((X1 , X2 , . . . , Xn ) ∈ W |H1 ) = P(X̄n < c|H1 )
√ √ 
n(X̄n − µ1 ) n(c − µ1 )
=P <
σ σ
√ 
n(c − µ1 )

σ

23
Les tests Détermination du niveau et de la puissance

La probabilité de risque de deuxième espèce est égale à :


√ 
n(c − µ1 )
β = 1 − Puissance = 1 − Φ
σ

D'où :
√ 1.0718 − 1
 
Puissance = Φ 100 = Φ(0.718) = 0.7638 et β = 1−0.7638 = 0.2362
1
Par conséquent, avec la région critique W = {x : x̄n < 1.0718}, il y a 23.62% de
chances de ne pas rejeter l'hypothèse nulle H0 : µ = 1.2 alors que l'hypothèse
alternative H1 : µ = 1 est vraie.

24
Règle de décision et puissance d'un test Règle de décision

Règle de décision

En pratique, l'utilisateur xe le niveau de signication α (aussi appelé taille ou seuil de


signicativité) du test. Cela permet de déterminer la valeur critique du test, ainsi que sa
puissance, ou de manière équivalente, la probabilité du risque de deuxième espèce.
Exemple:
Rerenons l'exemple précédent où

W = {x : x̄n < c}
c est une valeur critique. Déterminons cette valeur critique pour un test de niveau
α = 5% ainsi que la puissance associée.

25
Règle de décision et puissance d'un test Règle de décision

D'après les résultats de l'exemple précédent, nous savons que :


 
c − µ0
α = P((X1 , X2 , . . . , Xn ) ∈ W |H0 ) = Φ √
σ/ n

Appliquons la fonction de répartition inverse Φ−1 (·) aux deux membres de cette égalité
an de déterminer la valeur critique c :
c − µ0 σ
Φ−1 (α) = √ ⇒ c = µ0 + √ Φ−1 (α)
σ/ n n

Ainsi, nous obtenons :


1 1
c = 1 .2 + √ × Φ−1 (0.05) = 1.2 + × (−1.645) = 1.0355
100 10
La région critique du test de niveau α = 5% est dénie par :
W = {x : x̄n < 1.0355}

26
Règle de décision et puissance d'un test Règle de décision

La puissance du test est égale à :


!
c − µ1
Puissance = P((X1 , X2 , . . . , Xn ) ∈ W |H1 ) = Φ √σ
n

Notons que la puissance peut également s'exprimer en fonction de µ0 et de µ1 . Il sut


pour cela de remplacer la valeur critique c par son expression. Ainsi, il vient :
 
µ0 − µ1
Puissance = Φ −1
√ + Φ (α)
σ/ n

Ainsi, nous obtenons :


1.2 − 1
Puissance = Φ(10 + Φ−1 (0.05)) = 0.6388
1
Avec la région critique W = {x : x̄n < 1.0355}, il y a 63.88% de chances de rejeter
l'hypothèse nulle H0 : µ = 1.2 lorsque l'espérance des variables Xi est égale à µ = 1
(hypothèse alternative).
27
Règle de décision et puissance d'un test Règle de décision

La règle de décision

Sous l'hypothèse "H0 est vraie" et pour un seuil de signication α xé


si la valeur de la statistique calculée appartient à la région de rejet alors l'hypothèse
H0 est rejetée au risque d'erreur α et l'hypothèse H1 est acceptée ;
si la valeur de la statistique n'appartient pas à la région de rejet alors l'hypothèse H0
ne peut être rejetée ( on déclare que les données ne permettent pas de rejeter H0 ).
Il est donc essentiel de préciser le niveau de risque associé à la décision : on rejette H0
au seuil de 5%, de 10%, etc., car la conclusion peut en eet être tout autre pour un
niveau de risque de 15% par exemple.

28
Règle de décision et puissance d'un test Règle de décision

Exemple:
On considère un n-échantillon de variables (X1 , . . . , Xn ) i.i.d. telles que Xi ∼ N (µ, σ 2 )
avec σ 2 = 1 et n = 100. On souhaite tester:

H0 : µ = µ0 = 1.2 contre H1 : µ = µ1 = 1

À partir des observations de l'échantillon (x1 , . . . , xn ), on observe une réalisation de la


moyenne empirique égale à x̄n = 1.13. Quelle est la conclusion du test pour un seuil de
risque α = 5% et un seuil de risque α = 30% ? On admet que la région critique du test
de niveau α est dénie par :
σ
W = {x : x̄n < µ0 + √ Φ−1 (α)}
n

29
Règle de décision et puissance d'un test Règle de décision

Pour α = 5%, on obtient :


σ 1 1.645
µ0 + √ Φ−1 (α) = 1.2 + √ 0.05 = 1.2 −
· Φ− 1
= 1.0355
n 100 10
La région critique du test pour un niveau α = 5% est dénie par :
W = {x : x̄n < 1.0355}
100
où x̄n désigne une réalisation de la statistique de test X̄n = 100
1
Xi . Puisque la
P
i=1
réalisation de la moyenne empirique, égale à 1.13, n'appartient pas à la région critique,
on conclut que l'on ne peut pas rejeter l'hypothèse nulle H0 : µ = 1.2 pour un seuil de
signicativité de 5%.

30
Règle de décision et puissance d'un test Règle de décision

Pour α = 30%, il vient :


σ 1
µ0 + √ Φ−1 (α) = 1.2 + √ · Φ−1
n 100 0.30
−0.5244
= 1 .2 + = 1.1476
10
La région critique du test pour un niveau α = 30% devient :
W = {x : x̄n < 1.1476}

Dans ce cas, la réalisation de la moyenne empirique, égale à 1.13, appartient à la région


critique. On en conclut que l'on rejette l'hypothèse nulle H0 : µ = 1.2 pour un seuil de
signicativité de 30%. La décision est contraire à celle que nous avions prise pour un
niveau α = 5%.
Dans la section suivante, nous présentons la notion de p-value, souvent adoptée par les
statisticiens, et qui permet de juger la signicativité d'un test statistique.
31
Règle de décision et puissance d'un test La valeur p ou p-value

La valeur p ou p-value

La p-valeur est le plus petit réel α ∈]0, 1[ calculé à partir des données tel que l'on puisse
se permettre de rejeter H0 au risque α. Autrement écrit, la p-valeur est une estimation
ponctuelle de la probabilité critique de se tromper en rejetant H0 alors que H0 est vraie.
Si la valeur-p est inférieure à un seuil prédéterminé (généralement 0,05), on rejette
l'hypothèse nulle.
Si la valeur-p est supérieure à ce seuil, on ne peut pas rejeter l'hypothèse nulle.

32
Règle de décision et puissance d'un test La valeur p ou p-value

Plus la valeur-p est faible, plus les données sont considérées comme incompatibles avec
l'hypothèse nulle, une petite valeur-p suggère que les données sont peu probables sous
l'hypothèse nulle, ce qui peut conduire au rejet de cette hypothèse. Cependant, il est
important de noter que la valeur-p ne quantie pas la probabilité que l'hypothèse nulle
soit vraie ou fausse ; elle évalue plutôt la probabilité d'observer les données si
l'hypothèse nulle était vraie (Elle indique simplement si l'eet observé est improbable
sous l'hypothèse nulle).

33
Règle de décision et puissance d'un test La valeur p ou p-value

Dénition
Suivant la nature du test (unilatéral ou bilatéral), la p-value associée à une réalisation
Tn (x) est égale à :

Test unilatéral à droite: p-value = P(Tn > Tn (x))


Test unilatéral à gauche: p-value = P(Tn < Tn (x))
Test bilatéral : p-value = 2min (P(Tn > Tn (x)), P(Tn < Tn (x)))

Dans le cas particulier d'une fonction de densité de X paire, on peut simplement écrire
p-value (test bilatéral) = 2 × P(Tn > |Tn (x)|)

34
Règle de décision et puissance d'un test La valeur p ou p-value

Exemple:
On considère un n-échantillon de variables (X1 , . . . , Xn ) i.i.d. telles que Xi ∼ N (µ, σ 2 )
avec σ 2 = 1 et n = 100. On souhaite tester :

H0 : µ = µ0 = 1.2 contre H1 : µ = µ1 = 1

À partir des observations de l'échantillon (x1 , . . . , xn ), on observe une réalisation de la


moyenne empirique égale à x̄n = 1.13. Déterminons la p-value associée à cette
réalisation. Sous H0 , la statistique de test, c'est-à-dire la moyenne empirique, admet
une distribution (exacte) normale :

σ2
 
X̄n − µ0
Xn ∼ N µ0 , =⇒ √ ∼ N (0, 1)
n σ/ n

Puisque le test est un test unilatéral gauche, la p-value associée à x̄n est égale à :

p-value = FX̄n (x̄n ) = P(X̄n < x̄n )

35
Règle de décision et puissance d'un test La valeur p ou p-value

On en déduit que :
1.13 − 1.2
     
X̄n − µ0 x̄ − µ x̄n − µ0
p-value = P √ < n √ 0 =Φ √ =Φ 1 = 0.2420
σ/ n σ/ n σ/ n 10

Avec une p-value de 0,2420, nous concluons donc, pour un seuil de signication de 5%,
à la non-rejection de l'hypothèse nulle H0 : µ = 1, 2.
La p-value présente l'avantage de fournir une conclusion quant au rejet ou non de H0
sans nécessiter le calcul de la valeur critique du test. Il sut de calculer la p-value
associée à la réalisation de la statistique de test et d'appliquer la règle de décision.

36
Lemme de Neyman-Pearson

Lemme de Neyman-Pearson
Le lemme de Neyman-Pearson est un résultat fondamental en théorie des tests
statistiques. Il énonce une condition optimale pour la construction d'un test de rapport
de vraisemblance le plus puissant pour distinguer deux hypothèses, généralement une
hypothèse nulle et une hypothèse alternative.
Lemme:
Soit le test d'hypothèses simples H0 : θ = θ0 contre H1 : θ = θ1 . Pour tout α ∈ [0; 1], il
existe un test de niveau α, de puissance maximale (1 − β ), déni par la région critique
W dont la forme est

L(θ0 ; x)
W = {x : < k}
L(θ1 ; x)
où L(θi ; x) désigne la vraisemblance de l'échantillon (x1 , . . . , xn ) sous Hi et k est une
constante dépendante de niveau du test α, telle que: α = P L(θ L(θ0 ;X )
1 ;X )
< k|H0

37
Lemme de Neyman-Pearson

En eet, le test du rapport de vraisemblance ci-dessus est souvent équivalent à un test


de la forme Tn ≤ tα pour une statistique Tn plus simple, et le test est eectué sous
cette forme-ci.
Comment utiliser le lemme de Neyman-Pearson ? L'idée est de manipuler l'inégalité
L(θ0 ;x)
L(θ1 ;x)
< k an d'obtenir une expression de la forme Tn (x) ≤ c (ou Tn (x) ≥ c ) , où c
est une valeur critique (constante) déterminée par le niveau α du test et Tn (x) est une
réalisation de la statistique de test Tn dont la loi exacte ou la loi asymptotique sous
l'hypothèse nulle H0 est connue. Pour cela, il faut réorganiser les termes de telle manière
que les termes dépendant des réalisations x1 , . . . , xn soient regroupés du côté gauche de
l'inégalité, tandis que les termes constants soient du côté droit. Il est essentiel de faire
attention au sens de l'inégalité, qui peut être inversé selon les manipulations eectuées.
Considérons un exemple d'application du lemme de Neyman-Pearson.

38
Lemme de Neyman-Pearson

Exemple:
On considère un n-échantillon (X1 , . . . , Xn ), avec n = 100, de variables i.i.d. telles que
Xi ∼ N (µ, σ 2 ) où le paramètre µ est inconnu et σ 2 = 1. On souhaite tester :

H0 : µ = µ0 = 1, 2 contre H1 : µ = µ1 = 1, 4

Quelle est la région critique du test le plus puissant de niveau α = 5% ? Puisque les
variables X1 , . . . , Xn sont normalement i.i.d. (µ, σ 2 ), la vraisemblance de l'échantillon
(x1 , . . . , xn ) est dénie par :

1 1 n
!
(xi − µ)2
X
L(µ; x) = √ n exp −
2πσ 2 2σ i=1
2

39
Lemme de Neyman-Pearson

D'après le lemme de Neyman-Pearson, la région critique du test le plus puissant de


niveau α est de la forme :
L(µ0 ; x)
<k
L(µ1 ; x)
où k est une constante déterminée par le niveau α. En utilisant la forme de la
vraisemblance sous H0 et H1 , il vient :
L(µ0 ; x)
<k
L(µ1 ; x)
 n  n

√ 1 1 2
P
2πσ 2
exp − 2σ2 (xi − µ0 )
i=1
 n  n
 <k
1 1 2
P

2πσ 2
exp − 2σ2 (xi − µ1 )
i=1

40
Lemme de Neyman-Pearson

Réarrangeons ces termes de sorte à isoler à gauche une statistique de test et à droite un
terme constant. Cette inégalité peut se réécrire sous la forme :
1 X n n
!!
(x − µ )2 − (xi − µ1 )2
X
exp − 2 <k
2σ i=1 i 0 i=1
n n
2
(xi − µ0 )2 < k1
X X
(xi − µ1 ) −
i=1 i=1
où k1 = 2σ 2
ln(k) est une constante. Ainsi, nous avons :
n n
2(µ0 − µ1 ) xi + n(µ21 − µ20 ) < k1 ⇔ (µ0 − µ1 )
X X
x i < k2
i=1 i=1

où k2 = (k1 − −n(µ21 µ20 ))/2 est une constante. Puisque µ1 − µ0 = 0, 2 > 0, nous
obtenons nalement : n
X xi
> k3
i=1
n
où k3 = k2 /(n(µ0 − µ1 )) est une constante.
41
Lemme de Neyman-Pearson

Par conséquent, la région critique du test a une forme générale du type :


1X
( n
)
W = x: xi > c
n i=1

où c est constante (valeur critique) déterminée par le niveau α. La statistique de test


n
correspond à la moyenne empirique X̄n = n1 Xi et vérie :
P
i=1

X̄n − µ0
∼ N (0, 1) sous H0
√σ
n

On remarque que la forme des constantes k1 , k2 et k3 n'a aucune importance. Ce qui


importe c'est que ces paramètres ne dépendent pas des réalisations x1 , . . . , xn . Nous
pouvons exprimer la valeur critique c en fonction de α :
! !
X̄n − µ0 c − µ0 c − µ0
α = P(W |H0 ) = P(X̄n > c|H0 ) = 1 − P < |H0 =1−Φ
√σ √σ √σ
n n n

42
Lemme de Neyman-Pearson

On en déduit la valeur critique du test :


σ σ
c = µ0 + √ Φ−1 (1 − α) = 1, 2 + √ Φ−1 (0, 95)
n 100
1
= 1, 2 + × 1, 645 = 1, 3645
10
Au nal, la région critique du test le plus puissant de niveau α = 5% de l'hypothèse
H0 : µ = µ0 = 1, 2 contre H1 : µ = µ1 = 1, 4, est dénie par :
 
σ −1
W = x : x̄n > µ0 + √ Φ (1 − α) = {x : x̄n > 1, 3645}
n

Si la réalisation de la moyenne empirique est supérieure à 1, 3645, on rejette l'hypothèse


nulle H0 : µ = 1, 2 pour un seuil de signicativité de 5%.

43
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

Tests unilatéraux et bilatéraux

Dénition
La région critique du test unilatéral le plus puissant de niveau α :

H0 : θ = θ0 contre H1 : θ > θ0 (ou H1 : θ < θ0 )

est équivalente à celle du test d'hypothèses simples :

H0 : θ = θ0 contre H1 : θ = θ1

avec θ1 > θ0 (ou θ1 < θ0 ), dès lors que cette région ne dépend pas de la valeur de θ1 .

Appliquons cette dénition dans le cadre de notre exemple.

44
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

Exemple:
On considère un échantillon (X1 , . . . , Xn ) de variables i.i.d. N (µ, σ 2 ) où le paramètre µ
est inconnu. On souhaite tester :

H0 : µ = µ 0 contre H0 : µ > µ0

Déterminons la région critique du test le plus puissant de taille α. Pour cela, on


considère le test d'hypothèses simples : H0 : µ = µ0 contre H0 : µ = µ1
où µ1 est une valeur telle que µ1 > µ0 . D'après le lemme de Neyman-Pearson, la région
critique du test le plus puisant de niveau α est (voir exemple précédent):
σ
W = {x : xn > µ0 + Φ−1 (1 − α) √ }
n

La région W ne dépend pas du choix de la valeur de µ1 . Cette région correspond donc à


celle du test le plus puissant unilatéral de niveau α :

H0 : µ = µ 0 contre H0 : µ > µ0
45
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

Dans le cas d'un test bilatéral H0 : µ = µ0 contre H1 : µ ̸= µ0 , il n'existe pas de test le


plus puissant valable à la fois pour les valeurs de µ supérieures à la valeur nulle µ0 et
pour les valeurs inférieures à ce seuil.
C'est pourquoi, la région de non-rejet du test bilatéral (non le plus puissant) est dénie
par l'intersection des régions de non-rejet des tests unilatéraux les plus puissants
correspondants.

46
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

Dénition
La région de non-rejet W̄ du test bilatéral de niveau α :

H0 : µ = µ 0 contre H1 : µ ̸= µ0

est dénie par l'intersection des régions de non-rejet des tests unilatéraux les plus
puissants correspondants de niveau α/2 :

Test A : H0 : µ = µ0 contre H1 : µ > µ0


Test B : H0 : µ = µ0 contre H1 : µ < µ0
Soient W̄A et W̄B les régions de non-rejet des tests A et B au niveau α/2, la région
critique du test bilatéral de niveau α vérie :

W̄ = W̄A ∩ W̄B
Il est important de noter que les seuils critiques des tests unilatéraux qui servent à
construire la région critique du test bilatéral de niveau α doivent être considérés pour un
niveau de risque α/2 et non α. 47
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

Exemple:
On considère un échantillon (X1 , . . . , Xn ), avec n = 100, de variables i.i.d. N (µ, σ 2 ), où
µ est un paramètre inconnu et σ 2 = 1. On souhaite tester :

H0 : µ = µ0 = 1.2 contre H1 : µ ̸= µ0

Déterminons la région critique de ce test bilatéral pour un niveau α = 5%. On considère


les tests unilatéraux associés :

Test A : H0 : µ = µ0 contre H1 : µ < µ0


Test B : H0 : µ = µ0 contre H1 : µ > µ0
Les régions critiques des tests les plus puissants de niveau α/2 sont dénies par :
σ
WA = {x : x̄n < µ0 + Φ−1 (α/2) √ }
n
σ
WB = {x : x̄n > µ0 + Φ−1 (1 − α/2) √ }
n
48
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

La région de non-rejet du test bilatéral de niveau α correspond à la zone d'intersection


de ces deux régions :
W̄ = W̄A ∩ W̄B
Pour α = 5%, nous savons que Φ−1 (α/2) < 0 et Φ−1 (1 − α/2) > 0. Par conséquent,
les valeurs critiques des deux tests unilatéraux vérient :
σ σ
µ0 + √ Φ−1 (α/2) < µ0 + √ Φ−1 (1 − α/2)
n n
La région de non-rejet du test bilatéral de niveau α est donc dénie par :
σ σ
W̄ = {x : µ0 + √ Φ−1 (α/2) ≤ x̄n ≤ µ0 + √ Φ−1 (1 − α/2)}
n n
Sachant que n = 100, µ0 = 1.2, σ2 = 1 et α = 5%, nous avons :
σ 1
µ0 + √ Φ−1 (α/2) = 1.2 + · (−1.96) = 1.004
n 10
σ 1
µ0 + √ Φ−1 (1 − α/2) = 1.2 + · (1.96) = 1.396
n 10
49
Lemme de Neyman-Pearson Tests unilatéraux et bilatéraux

La région de non-rejet et la région critique du test bilatéral de niveau α = 5% sont


respectivement dénies par :
W̄ = {x : 1.004 ≤ x̄n ≤ 1.396} W = {x : x̄n ∈ / [1.004, 1.396]}
On peut réécrire ces deux régions sous une autre forme. Puisque la loi normale standard
est symétrique par rapport à zéro, on a Φ−1 (α/2) = −Φ−1 (1 − α/2). La région de
non-rejet devient :
σ σ
W̄ = {x : µ0 − √ Φ−1 (1 − α/2) ≤ x̄n ≤ µ0 + √ Φ−1 (1 − α/2)}
n n
ou encore :
x̄n − µ0
W̄ = {x : √ ≤ Φ−1 (1 − α/2)}
σ/ n
x̄n − µ0
W = {x : √ > Φ−1 (1 − α/2)}
σ/ n
Soit W = {x : | x̄σ/n −µ
√ 0 | > 0.196}. Si l'écart entre la réalisation de la moyenne empirique
n √
et la valeur nulle µ0 = 1.2, normalisé par σ/ n, est supérieur (en valeur absolue) au
seuil critique de 1.96, on rejette l'hypothèse nulle H0 : µ = 1.2 pour un niveau de risque
de 5%.
50
Lemme de Neyman-Pearson Test de l'écart-type d'une loi normale

Exemple: Test de l'écart-type d'une loi normale

Plaçons nous dans le cadre du modèle X ∼ N (0, σ2 ) et intéressons-nous au test du


paramètre σ sur la base d'un échantillon i.i.d. de taille n, Z = (X1 , X2 , . . . , Xn ), de X .
On veut tester, au niveau α, l'hypothèse
(H0 ) : σ = σ0 contre l'hypothèse (H1 ) : σ = σ1 , où σ0 ̸= σ1 sont deux réels de R∗+ .
Détermination de la région critique
Nous avons :
 
L(σ0 ; x)
ln ≤ ln(k)
L(σ1 ; x)
1X 1 1 1 1
"   n   #
σ1
n ln + xi2 − + ≤ ln(k).
σ0 2 i=1 σ1 σ0 σ1 σ0

d'où la forme (σ0 − σ1 ) ni=1 xi2 < k



P

51
Lemme de Neyman-Pearson Test de l'écart-type d'une loi normale

( n
)
xi2 ≤ K si σ0 > σ1 , ou
X
W = x:
Donc la région critique prend la forme : ( i=1
n
)
xi2 ≥ K si σ0 < σ1 .
X
W = x:
i=1
Nous allons maintenant déterminer la constante K .

52
Lemme de Neyman-Pearson Test de l'écart-type d'une loi normale

Supposons que σ0 > σ1 (le cas où σ0 < σ1 est similaire). Nous avons donc :
α = P(Z ∈ W |σ = σ0 )
n
!
=P Xi2 ≤ K |σ = σ0
X

i=1
n
!
Xi K
=P ( )2 ≤ 2
X
σ0 σ0
 i=1 
K
= P χ2n ≤ 2 ,
σ0

où χ2n est la variable aléatoire khi-deux à n degrés de liberté.

53
Lemme de Neyman-Pearson Test de l'écart-type d'une loi normale

En lisant le fractile Cα d'ordre α sur la table de χ2n , nous obtenons K = σ02 Cα . Par
conséquent : ( )
n
xi2 ≤ σ02 Cα
X
W = x: .
i=1

Si σ0 < σ1 , en utilisant le fractile C1−α d'ordre 1 − α de χ2n , on obtient :


( n
)
xi2 ≥ σ02 C1−α
X
W = x: .
i=1

54
Lemme de Neyman-Pearson Test de l'écart-type d'une loi normale

Puissance du test
Pour le cas σ0 > σ1 , nous avons :
n
!
1 − βσ1 = P(Z ∈ W |σ = σ1 ) = P Xi2 ≤ σ02 Cα |σ = σ1
X

i=1
n
!
Xi σ2
=P ( 2 )2 ≤ 02 Cα
X
σ1 σ1
 i=1
σ2

= P χ2n ≤ 02 Cα .
σ1
σ02
 
1 − βσ1 = P(Z ∈ W |σ = σ1 ) = F Cα ,
σ12
où F est la fonction de répartition de χ2n .
Pour le cas σ0 < σ1 , nous obtenons :
σ02
 
1 − βσ1 = 1 − F C1−α .
σ12
55
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Test sur une moyenne


Dans une population, on s'intéresse à une certaine variable X , dont la loi est supposée
être une loi normale N (µ; σ2 ).
On veut tester H0 contre H1 .
L'hypothèse nulle prend la forme : H0 : µ = µ 0
L'hypothèse alternative sera toujours l'une des trois hypothèses suivantes :
H1 : µ > µ0 (test unilatéral à droite),
H1 : µ < µ0 (test unilatéral à gauche),
H1 : µ ̸= µ0 (test bilatéral).
Pour faire ce test, on prend un échantillon de taille n, x1 , x2 , . . . , xn , et on se xe un
seuil α.
On considère deux cas :
Cas où σ2 est connue.
Cas où σ2 est inconnue.
56
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

H0 : µ = µ 0 contre H1 : µ ̸= µ0

la loi d'échantillonnage à utiliser sous l'hypothèse H0 , est :


X̄n − µ0
∼ N (0, 1) si σ2 est connue
√σ
n

ou
X̄n − µ0
∼ T (n − 1) si σ2 est inconnue
√σ̂
n
n
où σ̂2 = n−1 1 (Xi − X̄n )2 , et T (n − 1) la loi de Student à n-1 d.d.l.
P
i=1

57
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Cas où σ 2 est connue

On cherche sur la table de la loi normale centrée-réduite Φ−1 (1 − α2 ) tel que


P(| X̄ −µ0 | ≤ Φ−1 (1 − α2 )) = 1 − α.
n
√σ
n

Si | X̄ −µ0 | > Φ−1 (1 − α2 ) on rejette H0


n
√σ
n

Si | X̄ −µ0 | ≤ Φ−1 (1 − α2 ) on ne peut pas rejeter H0


n
√σ
n

Donc on ne rejette pas H0 lorsque X̄n ∈ [µ0 − Φ−1 (1 − α2 ) × √σn ; µ0 + Φ−1 (1 − α2 ) × √σn ]

58
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Exemple:
Les mesures d'un échantillon du poids X d'un ensemble de nouveaux nés, ont donné les
16
résultats (x1 , x2 , . . . , x16 ) vériant xi = 70kg avec σ = 0.16 et X ∼ N (µ; σ 2 ).
P
i=1
Peut-on dire qu'au niveau de 90%, le poids moyen est égal à 3,5 kg ?

59
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

On considère les deux hypothèses suivantes :


H0 : µ = 3.5Kg contre H1 : µ ̸= 3.5Kg

Il sut de vérier si x̄ ∈ [µ0 − Φ−1 (1 − α2 ) × √σn ; µ0 + Φ−1 (1 − α2 ) × √σn ] ou non.


En eet: Φ−1 (0.95) = 1.645
σα α σ
[µ0 − Φ−1 (1 − ) × √ ; µ0 + Φ−1 (1 − ) × √ ] =
2 n 2 n
0.16 0.16
[3.5 − 1.645 × ; 3.5 + 1.645 × ] = [2.9342, 3.0658]
4 4
Puisque x̄ = 70 16 = 4.375 alors x̄ ∈
/ [3.4342, 3.5658] donc on rejette H0 au seuil de 10%.
(ou | X̄ −µ0
n
√σ| = 21.875 > 1.645 alors on rejette)
n
Avec un risque de 10%, on ne peut pas dire que le poids moyen d'un nouveau né est de
3,5 kg.

60
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Cas où σ 2 est inconnue

On distingue encore deux cas :


Taille grande (n > 30), on remplace σ par σ̂ et on utilise la loi normale.
Taille petite (n < 30), on remplace σ par σ̂ mais on utilise la loi de Student.

61
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Cas où σ 2 est inconnue: n<30


test bilatéral

H0 : µ = µ 0 contre H1 : µ ̸= µ0

On cherche sur la table de la loi de Student à n-1 d.d.l., le t1− 2 tel que α

P(| X̄ −µ0 | ≤ t1− 2 ) = 1 − α.


n
√σ̂
α
n

Si | X̄ −µ0 | > t1− 2 on rejette H0


n
√σ̂
α
n

Si | X̄ −µ0 | ≤ t1− 2 on ne peut pas rejeter H0


n
√σ̂
α
n

Donc on ne rejette pas H0 lorsque X̄n ∈ [µ0 − t1− 2 √σ̂n ; µ0 + t1− 2 √σ̂n ] α α

62
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Exemple:
On suppose que le taux de cholestérol chez les hommes de 40 ans, suit une loi
N (µ; σ 2 ). Dans un certain pays, le taux de cholestérol moyen chez les hommes de 40
ans est de 190 mg/l. Une association de végétariens, arme que le taux de cholestérol
moyen chez les végétariens hommes de 40 ans est diérent de la moyenne nationale.
Pour tester cette théorie, on prend un échantillon de 27 végétariens hommes de 40 ans,
de ce pays et on mesure leur taux de cholestérol.
On calcule le taux de cholestérol moyen chez les 27 végétariens et on trouve 178.4 mg/l.
On suppose que l'écart-type estimé est σ̂ = 22.5.
Quelle décision prendre au seuil 5% ?

63
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

On veut tester :
H0 : µ = 190 contre H1 : µ ̸= 190

On a x̄ = 178.4 mg/l, σ̂ = 22.5 et t0.975 (26) = 2.056


Règle de décision:
σ̂ σ̂
x̄ = 178.4 ∈
/ [µ0 − t1− α2 √ ; µ0 + t1− α2 √ ] = [181.097, 198.9]
n n

(ou | X̄ −µ0 | = 2.679 > 2.056 alors on rejette)


n
√σ̂
n
=⇒ on rejette H0 donc on ne rejette pas H1 : µ ̸= 190.
Ceci signie que, au seuil de 5%, l'association des végétariens a raison.
Remarque:
Au seuil de 1%, on ne peut pas rejeter H0 car 2.679 < t0.995 (26) = 2.779

64
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Cas où σ 2 est inconnue: n>30 Test bilatéral

H 0 : µ = µ0 contre H1 : µ ̸= µ0

Règle de décision
On ne rejette pas H0 lorsque :
α σ̂ α σ̂
X̄n ∈ [µ0 − Φ−1 (1 − ) √ ; µ0 + Φ−1 (1 − ) √ ]
2 n 2 n

65
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Exercice:

Une association de consommateurs s'intéresse au poids réel du paquet X (de 1kg) des
lentilles, qu'on suppose aléatoire suivant une loi normale N (µ; σ2 ), σ est inconnu. Un
échantillon de 49 paquets sont choisis au hasard dans diérents épiceries de la région de
Marrakech. leurs poids mesurés sont notés (x1 , . . . , x49 ), dont la somme vaut 53.9 et
σ̂ = 0.3139
L'association soupçonne le poids indiqué sur le paquet des lentilles et veut réellement
tester son exactitude. Quelles sont les hypothèses à tester ? Eectuer le test au seuil de
5%.

66
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

On veut tester :
H0 : µ = 1 Kg contre H1 : µ ̸= 1 Kg
On a x̄ = 1.1 Kg, σ̂ = 0.3139 et Φ−1 (0.975) = 1.960
Règle de décision:
α σ̂ α σ̂
x̄ = 1.1 ∈
/ [µ0 − Φ−1 (1 − ) √ ; µ0 + Φ−1 (1 − ) √ ] = [0.9121, 1.0879]
2 n 2 n
=⇒ on rejette H0 donc on ne rejette pas H1 : µ ̸= 1.
Ceci signie que, au seuil de 5%, l'association a raison c'est-à-dire que le
poids réel du paquet est diérent de 1 Kg.

67
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une moyenne

Test unilatéral à droite:


On teste au seuil α H0 : µ = µ0 contre H1 : µ > µ0 .
Pour α xé, on cherche sur la table de la loi normale centrée-réduite le Φ−1 (1 − α)
tel que P( X̄ −µ0 ≤ Φ−1 (1 − α)) = 1 − α.
n
√σ̂
n

Si X̄ −µ0 > Φ−1 (1 − α) on rejette H0


n
√σ̂
n

Test unilatéral à gauche:


On teste au seuil α H0 : µ = µ0 contre H1 : µ < µ0 .
Pour α xé, on cherche sur la table de la loi normale centrée-réduite le Φ−1 (1 − α)
tel que P( X̄ −µ0 ≥ −Φ−1 (1 − α)) = 1 − α.
n
√σ̂
n

Si X̄ −µ0 < −Φ−1 (1 − α) on rejette H0


n
√σ̂
n

68
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une variance (µ connue)

Test sur une variance (µ connue)

On veut tester l'hypothèse nulle : H0 : σ = σ0 contre H1 : σ ̸= σ0 . (test bilatéral)


La loi d'échantillonnage à utiliser sous l'hypothèse H0 , est :
n
Ve ∼ χ2 (n)
σ2
On cherche la région d'accepation sous la forme [σ1 , σ2 ] tel que
n
P(χ22 (n) < 2 Ve < χ21− 2 (n) ) = 1 − α.
α α
σ
σ02 2 2
Si n2
σ0 2
χ α (n) < Ve <χ
n 1− 2 (n)
on ne peut pas rejeter H0
α

Sinon on rejette H0

69
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une variance (µ inconnue)

Test sur une variance (µ inconnue)

On veut tester l'hypothèse nulle : H0 : σ = σ0 contre H1 : σ < σ0 . (test unilatéral à


gauche)
La loi d'échantillonnage à utiliser sous l'hypothèse H0 , est :
(n − 1)σ̂ 2
∼ χ2 (n − 1)
σ02

Pour α xé, on cherche sur la table de la loi Khi-deux à n-1 d.d.l., le χ2α tel que
2
P( (n−σ102)σ̂ ≥ χ2α(n−1) ) = 1 − α.
(n−1)σ̂ 2 2
Si σ02
< χ2α(n−1) on rejette H0 (si σ̂2 ∈] − ∞, n−
σ0
1 χα(n−1) )
2

(n−1)σ̂ 2
Si σ02
≥ χ2α(n−1) on ne peut pas rejeter H0

70
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une variance (µ inconnue)

Test sur une variance (µ inconnue)

On veut tester l'hypothèse nulle : H0 : σ = σ0 contre H1 : σ ̸= σ0 . (test bilatéral)


On cherche la région d'accepation sous la forme [σ1 , σ2 ] tel que
2
P(χ22 (n−1) < (n−σ102)σ̂ < χ21− 2 (n−1) ) = 1 − α.
α α

2 2
Si n−
σ0
1 χ 2 (n−1) < σ̂ < n−1 χ1− 2 (n−1) on ne peut pas rejeter H0
2
α
2 σ0 2
α

Sinon on rejette H0

71
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une proportion

Test sur une proportion

On veut tester l'hypothèse nulle : H0 : p = p0 contre H1 : p > p0 . (test unilatéral à


droite)
La loi d'échantillonnage à utiliser sous l'hypothèse H0 , est :
p̂ − p0
q ∼ N (0, 1) si n ≥ 30 et np̂, n(1 − p̂) > 5
p0 (1−p0 )
n

Pour α xé, on cherche sur la table de la loi normale centrée-réduite le Φ−1 (1 − α) tel
que P( q p̂−p0
01 0
≤ Φ−1 (1 − α)) = 1 − α.
p ( −p )
n

Si q p̂−p0
p0 (1−p0 )
> Φ−1 (1 − α) on rejette H0
n

Si q p̂−p0
p0 (1−p0 )
≤ Φ−1 (1 − α) on ne peut pas rejeter H0
n

72
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une proportion

Exemple:
Supposons que vous travaillez dans un laboratoire de recherche pharmaceutique et que
vous voulez déterminer si un nouveau traitement pour une maladie est ecace à un
niveau signicativement supérieur à un seuil d'ecacité minimal de 70%. Vous avez
mené une étude clinique avec un échantillon de 500 patients, dont 380 ont montré une
amélioration de leur état de santé après avoir reçu le traitement.
Vous pouvez utiliser le test de la proportion pour comparer la proportion de patients
améliorés dans votre échantillon avec le seuil d'ecacité minimal de 70% à un niveau de
conance de 95%.

73
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Test sur une proportion

On veut tester :
H0 : p = 70% contre H1 : p > 70%

La statistique est calculée comme suit : q p̂−p


01 0
0
où p̂ = 380
500 = 0.76 et
p ( −p )
n
Φ−1 (0.95) = 1.645
La valeur de la statistique q p̂−p
01 0
0
= 2.93 est supérieure à la valeur critique de 1,645,
p ( −p )

ce qui signie que nous pouvons rejeter l'hypothèse nulle. En d'autres termes, l'ecacité
n

du traitement est signicativement supérieure au seuil d'ecacité minimal de 70%.

74
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Exercice

Exercice
La société "Mont-Dé", spécialisée en informatique de gestion, désire mettre sur le
marché son nouveau produit "I-lghal"; pour en xer le prix de lancement, elle a
demandé à des clients potentiels de proposer le prix qui leur semble abordable.
les données recueillies sont présentées dans le tableau suivant; on note X la variable
aléatoire "Prix proposé pour le produit en question" (en Dhs)
Intervalles [10-20[ [20-30[ [30-40[ [40-50[ [50-60[ [60-80[
Eectifs 8 20 43 17 7 6
1 Donner une estimation du prix moyen théorique, notée µ et une estimation non

biaisée de la variance théorique, notée σ2 , de la variable aléatoire X en question.


2 Donner l'intervalle de conance pour le prix moyen théorique au niveau de

conance de 95%.
3 Soit p la proportion de clients prêts à payer au moins 40 Dhs pour le produit

"I-lghal", Donner l'intervalle de conance à 82% pour p.


4 Le responsable commercial de la société annonce que le prix moyen est inférieur à

40 Dhs; Au risque d'erreur de 5% et avec les données trouvées précédemment, peut


75
Exemples classiques: Tests paramétriques avec un seul échantillon : (Tests
de signication) Exercice

Exercice

Considérons un modèle de Poisson de paramètre λ > 0 : X ∼ P(λ). Sur la base d'un


échantillon i.i.d. de X de taille n, supposée assez grande, n, on propose de tester
l'hypothèse [H0 : λ = λ0 ] contre l'hypothèse [H1 : λ = λ1 ], où λ0 ̸= λ1 sont deux réels
strictement positifs.
1 Déterminer la forme de la région critique au risque α.

2 Donner la décision du test lorsque λ = 2, λ = 3, n = 30, α = 5% et x̄


0 1 30 = 2.3.
Indication: Si Sn est la somme de n v.a. i.i.d. de loi P(λ), alors la loi de la v.a. S√−nλ
n

peut être approchée, pour n assez grand, par une loi normale N(0, 1).

76
Tests paramétriques avec deux échantillons : (Tests de comparaison)

Les tests paramétriques avec deux échantillons sont des tests qui permettent de
déterminer si les moyennes, les proportions ou les variances de deux groupes
indépendants sont signicativement diérentes.
Le but est surtout de comparer (pour deux populations) leurs valeurs "estimées" sur
deux échantillons (issus de ces populations) de tailles respectives n1 et n2 .

77
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

Comparaison de deux proportions

Soit p1 (respectivement p2 ) la proportion d'individus d'une certaine modalité A dans la


population mère µ1 (resp. M2 ). On extrait un échantillon de taille n1 (resp. n2 ) dans la
population µ1 (resp. M2 ).
Soit le test d'hypothèse H0 (p1 = p2 = p ) contre H1 (p1 ̸= p2 ) ; C'est donc un test
bilatéral (symétrique).
On va donc considérer deux échantillons indépendants (X1 , . . . , Xn1 ) de loi B(p1 ), et
(Y1 , . . . , Yn2 ) de loi B(p2 )
On teste à partir de ces échantillons, on dispose d'une estimation p̂1 (resp. p̂2 ) de p1
(resp. p2 ).

78
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

Si les tailles d'échantillons n1 et n2 sont susamment importantes, le TCL s'applique et


on a n1 P
Xi
i=1 p1 (1 − p1 )
p̂1 = ∼ N (p1 , )
n1 n1
et n2
P
Yi
i=1 p2 (1 − p2 )
p̂2 = ∼ N (p2 , )
n2 n2

79
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

La loi d'échantillonnage à utiliser dans ce cas, et sous l'hypothèse H0 , est :


p̂1 − p̂2
∼ N (0, 1)
p(1 − p) n11 +
q
1
p
n2

où p̂1 et p̂2 sont les fréquences observées du phénomène sur les deux échantillons de
tailles respectives n1 et n2 ; le p est la proportion commune sur les deux populations
pour le phénomène étudié.
On ne connait pas p exactement, on l'estime par :
n1 × p̂1 + n2 × p̂2
p̂ =
n1 + n2

80
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

pour α xé, on cherche sur la table de la loi normale centrée-réduite le Φ−1 (1 − α2 ) tel
que :
p̂1 − p̂2 α
P(| p | ≤ Φ−1 (1 − )) = 1 − α
p̂(1 − p̂) n11 + n12 2
q

Le critère de décision sera alors :


Si | √p̂(1−p̂1p̂)−qp̂2 1 + 1 | > Φ−1 (1 − α2 ) on rejette H0
n1 n2

Si | √p̂(1−p̂)
p̂1 −q
p̂2
1 + 1 | ≤ Φ−1 (1 − α2 ) on ne peut pas rejeter H0
n1 n2

81
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

Exemple:
Supposons que vous travaillez dans une usine de fabrication de piles, et vous voulez
savoir si une nouvelle méthode de production améliore la qualité de la pile. Vous prélevez
un échantillon de 100 piles produites à l'aide de la méthode traditionnelle et un autre
échantillon de 100 piles produites à l'aide de la nouvelle méthode. Vous testez chaque
pile de chaque échantillon et déterminez si elle est de qualité satisfaisante ou non.
Le nombre de piles de qualité satisfaisante dans l'échantillon de la méthode
traditionnelle est de 80 sur 100, tandis que le nombre de piles de qualité satisfaisante
dans l'échantillon de la nouvelle méthode est de 95 sur 100. Vous souhaitez savoir si
cette diérence de proportions est statistiquement signicative.

82
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

Pour ce faire, nous pouvons eectuer un test bilatéral de diérence de proportions en


utilisant un test de proportion . En utilisant un niveau de conance de 95 %, la valeur
critique de Z est de 1,96. La statistique calculée est alors :
p̂1 − p̂2
p̂(1 − p̂) n11 +
q
1
p
n2

où p1 et p2 sont les proportions de piles de qualité satisfaisante dans les échantillons de


la méthode traditionnelle et de la nouvelle méthode, respectivement.
n1 = 100, n2 = 100, p̂1 = 0.8, et p̂2 = 0.95
La proportion commune p̂ est estimée par : p̂ = n1 ×np̂11 +n
+n2 ×p̂2
2
= 100×0100
.8+100×0.95
+100
= 0.875

83
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux proportions

Nous obtenons :
0.8 − 0.95q
= −9.07
0.875(1 − 0.875) 1001 1
p
+ 100
La valeur |9.07| > 1.96, ce qui signie que la diérence entre les proportions de piles de
qualité satisfaisante dans les deux groupes est statistiquement signicative à un niveau
de conance de 95% (vous pouvez être conant à 95 % que la diérence est réelle et
non simplement due au hasard ou à l'échantillonnage). Par conséquent, la nouvelle
méthode de production semble améliorer la qualité des piles.

84
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Comparaison de deux moyennes théoriques

Soient X1 et X2 deux variables aléatoires indépendantes de lois normales de moyennes


µ1 et µ2 , et d'écart types σ1 et σ2 . On dispose de deux échantillons indépendants
{X(1)1 , . . . , X(1)n1 } et {X(2)1 , . . . , X(2)n2 } tels que X(1)i (resp. X(2)i ) suit la même loi que
X1 (resp. X2 ).
Le test de comparaison de deux moyennes est utilisé pour déterminer s'il existe une
diérence signicative entre les moyennes de deux groupes.
L'hypothèse nulle (H0 ) est que les moyennes des deux groupes sont égales.
L'hypothèse alternative (H1 ) est que les moyennes des deux groupes sont diérentes.

85
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Les variances des populations sont connues

Sous H0 : µ1 = µ2 ⇔ µ1 − µ2 = 0 (c'est donc un test bilatéral (symétrique))


X̄1 et X̄2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi de
probabilité de la variable aléatoire à étudier X̄1 − X̄2 :
E (X̄1 − X̄2 ) = E (X̄1 ) − E (X̄2 ) = µ1 − µ2

σ12 σ22
V (X̄1 − X̄2 ) = V (X̄1 ) + V (X̄2 ) = +
n1 n2
σ12 σ22
X̄1 − X̄2 ∼ N (µ1 − µ2 , + )
n1 n2
X̄1 − X̄2 − (µ1 − µ2 )
Zobs = q 2 ∼ N (0, 1)
σ1 σ22
n1
+ n2

86
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Si H0 est vraie et que les deux échantillons proviennent de la même population, alors la
diérence observée devrait avoir une moyenne nulle :
X̄1 − X̄2
Zobs = q 2 ∼ N (0, 1)
σ1 σ22
n1
+ n2

Décision
H0 : µ1 = µ2 contre H1 : µ1 ̸= µ2
Zobs est comparée avec la valeur Φ−1 (1 − α2 ) lue sur la table de la loi normale centrée
réduite pour un risque d'erreur α xé.
Le critère de décision sera alors :
Si |Zobs | > Φ−1 (1 − α2 ) on rejette H0 : les deux échantillons sont extraits de deux
populations ayant des espérances respectivement µ1 et µ2 .
Si |Zobs | ≤ Φ−1 (1 − α2 ) on ne peut pas rejeter H0

87
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Les variances des populations sont inconnues (les grands


échantillons avec n1 et n2 supérieurs à 30)

Si les variances σ12 et σ22 sont inconnues, il faut tenir compte de la taille des échantillons.
Les variances des populations sont inconnues (les grands échantillons avec n1
et n2 supérieurs à 30)
La statistique utilisée est la même que pour le cas où les variances sont connues.
Sous H0 : µ1 = µ2
X̄1 − X̄2
Zobs = q 2 2
∼ N (0, 1)
σ1 σ2
n1
+ n2

Comme les variances sont inconnues, on remplace les variances des populations par leurs
estimations ponctuelles calculées à partir des échantillons, σ̂12 = n1n−1 1 S12 et σ̂22 = n2n−2 1 S22

88
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

X̄1 − X̄2 X̄1 − X̄2


Zobs = q 2 =
σ̂ 2 S12 S2
q
σ̂1
n1
+ n22 n1 −1
+ n2 −2 1
Le critère de décision sera alors :
Si |Zobs | > Φ−1 (1 − α2 ) on rejette H0 .
Si |Zobs | ≤ Φ−1 (1 − α2 ) on ne peut pas rejeter H0

89
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Les variances des populations sont inconnues et égales (les


petits échantillons avec n1 et/ou n2 inférieurs à 30)

Les variances des populations n'étant pas connues, on fait l'hypothèse que les deux
populations présentent la même variance (homoscédasticité). H0 (σ12 = σ22 = σ2 )
la variance commune σ2 (inconnue) est estimée par :
(n1 − 1) × σ̂12 + (n2 − 1) × σ̂22
σ̂ 2 =
n1 + n2 − 2
(C'est une sorte de "moyenne" pondérée des estimations de la variance sur chacun des
échantillons).
Ensuite, on passe à l'étape suivante qui est la comparaison de deux moyennes théoriques.

90
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Soit le test de comparaison de moyennes : H0 (µ1 = µ2 = µ) contre H1 (µ1 ̸= µ2 ) .


La loi d'échantillonnage à utiliser dans ce cas, et sous l'hypothèse H0 est la loi de
Student qui postule que :
X̄1 − X̄2
Zobs = q ∼ T (n1 + n2 − 2)
σ̂ × n11 + 1
n2

Pour α xé, on cherche sur la table de la loi de Student le t1− 2 tel que : α

P(| σ̂qX̄1 −1 X̄+2 1 | ≤ t1− 2 ) = 1 − α


α
n 1 n 2
Le critère de décision sera alors :
Si |Zobs | > t1− 2 on rejette H0
α

Si |Zobs | ≤ t1− 2 on ne peut pas rejeter H0


α

91
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Les variances des populations sont inconnues et inégales (les


petits échantillons avec n1 et/ou n2 inférieurs à 30)

La loi d'échantillonnage à utiliser dans ce cas, et sous l'hypothèse H0 est la loi de


Student qui postule que :
X̄1 − X̄2
Zobs = q 2 ∼ T (v )
σ̂1 σ̂22
n1
+ n2
Pour α xé, on cherche sur la table de la loi de Student le t1− 2 tel que : α

Le critère de décision sera alors :


Si |Zobs | > t1− 2 on rejette H0
α

Si |Zobs | ≤ t1− 2 on ne peut pas rejeter H0


α

)2
σ̂1 σ̂2

où v est l'entier le plus proche de


( (n − +
1 1) (n2 −1)
σ̂ 2 σ̂ 2
1 + 2
(n1 −1)n2 (n2 −1)n2
1 2

92
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Le test de Student est assez robuste mais si l'on s'éloigne trop des conditions de
normalité, il est préférable d'utiliser un test non paramétrique (Test de Wilcoxon /
Mann-Whitney ...).

93
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Exemple:
Un fabricant de câbles en acier étudie un nouveau traitement de câbles pour améliorer
leur résistance. Il choisit au hasard 200 câbles traités et 100 câbles non traités. On
suppose que la charge de rupture est une variable aléatoire. On note Xi la charge de
rupture du ième câble traité et Yi la charge de rupture du ième câble non traité. On
observe x̄ = 30, 82 et ȳ = 29, 63:
200 100
1 X 1X
(x − x̄)2 = 27, 25 et (y − ȳ )2 = 23, 99.
199 i=1 i 99 i=1 i
Peut-on conclure à l'ecacité du traitement ?
Soit µ1 (respectivement µ2 ) la charge de rupture moyenne (dans la population) des
câbles traités (respectivement non traités), σ12 (respectivement σ22 ) la variance.

94
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

On suppose que les deux échantillons X1 , . . . , Xn1 , n1 = 200, et Y1 , . . . , Yn2 ,


n2 = 100, sont indépendants.
µ1 et µ2 sont estimés par X̄n et Ȳ les charges moyennes empiriques des câbles
traités et non traités des échantillons.
x = 30, 82 (resp. y = 29, 63) est la réalisation de X (resp. Y ).
Les variances σ12 et σ22 sont inconnues et estimées par les variances empiriques
σ̂X2 = 27, 25 et σ̂Y2 = 23, 99.
On souhaite tester
H0 : µ 1 = µ 2
H1 : µ1 > µ2 .
Le TCL s'applique (les deux échantillons sont susamment grands), et la statistique de
test est en l'absence d'information sur les variances
X̄n − Ȳ
T =q 2 ≈ N(0, 1) sous H0 .
σ̂X σ̂Y2
n1
+ n2

95
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux moyennes théoriques

Règle de décision :
Si T > Φ−1 (1 − α) on rejette H0 .
Si T ≤ Φ−1 (1 − α) on ne peut pas rejeter H0
Dans la table de la loi N(0, 1), on lit Φ−1 (1 − α) = 1, 645. Si on note t la réalisation de
T sur les deux échantillons, si t > 1, 645 on rejettera H0 (avec un risque de 5% de se
tromper), si t ≤ 1, 645 on ne rejettera pas H0 .
Sur l'échantillon, on trouve t = 1, 94 > 1, 645. On rejette H0 au risque 5%. Le
traitement est donc ecace.

96
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux variances théoriques

Comparaison de deux variances théoriques


Avec les mêmes notations que précédemment on teste.2
σ12
H0 (σ1 = σ2 = σ ⇔ σ2 = 1) contre H1 (σ12 ̸= σ22 ⇔ σ12 ̸= 1) (c'est donc un test bilatéral
2 2 2 σ
2 2
(symétrique)).
La loi d'échantillonnage à utiliser dans ce cas, et sous l'hypothèse H0 , est la loi de
Fisher-Snedecor qui utilise le fait que :
(n1 − 1)σ̂12 (n2 − 1)σ̂22
2
∼ χ 2
n1 −1 et 2
∼ χ2n2 −1
σ σ
où σ̂j2 = nj 1−1 (Xi − X̄n )2
P
i
Comme les deux Khi-2 sont indépendants, le rapport est alors une loi de
Fisher-Snedecor : 1 2 (n1 − )σ̂1
σ2
σ̂12
n1 −1
(n2 −1)σ̂ 2
= ∼ F(n1 − 1; n2 − 1)
2 σ̂22
σ2
n2 −1
97
Tests paramétriques avec deux échantillons : (Tests de comparaison) Comparaison de deux variances théoriques

Ce test est basé sur le 2rapport de la variance la plus grande à la variance la plus petite.
σ̂22
Soit on prend Fobs = σ̂22 ∼ F(n1 − 1; n2 − 1) ou Fobs = σ̂12 ∼ F(n2 − 1; n1 − 1)
σ̂1

Le critère de décision sera alors:


Si Fobs ∈/ [F 2 , F1− 2 ], on rejette H0 au seuil de risque α, dans le cas contraire, on n'est
α α

pas en situation de rejeter H0 .


Remarque:
1
F(ν1 ,ν2 ),α =
F(ν2 ,ν1 ),1−α

98
Tests du khi-deux

Tests du khi-deux
Le khi-deux est une statistique permettant de comparer les eectifs (fréquences)
observés dans un échantillon avec des fréquences théoriques qui découlent des
hypothèses statistiques. La statistique du khi-deux est particulièrement adaptée pour les
observations qualitatives.
Un test du khi-deux est utilisé pour :
Un test d'adéquation ou d'ajustement :
On suppose que la loi de probabilité de la variable aléatoire qualitative (ou
quantitative avec peu de modalités) est connue et on veut vérier c'est le cas.
C'est le cas classique du lancer d'un dé. On suppose que chaque face a une
probabilité identique et on veut vérier si le dé est équilibré.
Un test d'homogeneité :
La variable aléatoire qualitative provient de k populations et on veut vérier si la loi
de probabilité est la même dans chaque population. On a donc k échantillons et on
mesure la même caractéristique dans chacune d'elles. C'est le cas lorsqu'on veut
savoir si la satisfaction (en quelques catégories) par rapport au service de transport
en commun est semblable entre trois villes.
99
Tests du khi-deux

Un test d'indépendance :
On mesure deux variables aléatoires qualitatives dans une population et on veut
savoir si ces variables sont indépendantes c'est-à-dire si la connaissance d'une des
v.a. peut inuencer la loi de probabilité de l'autre. C'est le cas lorsqu'on veut
vérier si la satisfaction (en quelques catégories) par rapport au service de
transport en commun est indépendant de la fréquence d'utilisation (en quelques
catégories) de ces transports.

100
Tests du khi-deux Un test d'adéquation ou d'ajustement

Un test d'adéquation ou d'ajustement

Le test d'ajustement du khi-deux permet de vérier qu'une variable qualitative ou


quantitative discrète mesurée dans une population suit une loi de probabilité théorique
connue.
Notations :
ni : représentent les fréquences observées des résultats
Ti : représentent les fréquences attendues (théoriques) des résultats
k : représente le nombre de classes
n : représente le nombre total d'essais
Conditions d'application du test :
Les données sélectionnées aléatiorement
Pour chaque catégorie , la fréquence attendue est supérieure ou égale à 5(Ti ≥ 5 )

101
Tests du khi-deux Un test d'adéquation ou d'ajustement

Hypothèses à tester :

Hypothèses à tester :
H0 : les observations suivent la distribution théorique
H1 : les observations ne suivent pas la distribution théorique
k
2
X (ni − Ti )2
χ =
i=1
Ti

Si χ2 ≥ χ2(k−1−r ),1−α on rejette H0

102
Tests du khi-deux Un test d'adéquation ou d'ajustement

Remarque:
Les fréquences attendues doivent être supérieurs ou égaux à 5 sinon on regroupe
deux ou plusieurs classes (modalités) (car la statistique de test du khi-deux tend
vers l'inni si l'un des termes de la somme, est divisé par zéro. Ce problème se pose
également lorsque l'eectif théorique est non nul mais très faible. Diviser la somme
par une valeur proche de zéro entraîne une valeur élevée de la statistique de test,
conduisant souvent au rejet de l'hypothèse nulle d'indépendance, principalement en
raison de la faiblesse des eectifs théoriques de cette classe).
Le test d'adéquation est toujours unilatéral à droite.
Le degrés de liberté est égal au nombre de classes moins le nombre de liaisons entre
la distribution théorique et la distribution observée:
l'égalité des eectifs globaux ni = npi compte pour une liaison ( cette égalité
P P
n'est pas toujours remplie).
le calcul de chaque paramètre de la répartition théorique à partir des observations
compte aussi pour une liaison.
Le d.d.l (k − 1 − r ) avec r est le nombre de paramétres à estimer éventuellement
pour caractériser la distribution théorique.
103
Tests du khi-deux Un test d'adéquation ou d'ajustement

Si la distribution théorique est entièrement spéciée, c'est-à-dire si on cherche à


déterminer si la distribution observée suit une loi dont les paramètres sont connus
avant même de choisir l'échantillon, on a (k − 1) degrés de liberté (k carrés
indépendants moins une relation entre les variables).
S'il faut d'abord estimer r paramètres de la loi à partir des observations de
l'échantillon (par exemple on cherche si la distribution est normale mais on ne
connaît d'avance ni sa moyenne ni son écart-type), il n'y a plus que (k − 1 − r )
degrés de liberté.
Dans un cas général, on dira que la loi du khi-deux suivie par l'écart entre les deux
distributions a (k − 1 − r ) degrés de liberté lorsqu'on a estimé r paramètres de la loi
théorique à partir des observations de l'échantillon (avec la possibilité pour r de valoir
0).

104
Tests du khi-deux Un test d'adéquation ou d'ajustement

Exemple:
A partir du génotype des parents ,on s'attend à ce que les enfants aient des génotypes
répartis comme suit : 25% de génotype AA , 50% de génotype Aa et 25% de génotype
aa.
Pour une maladie particulière , AA représente un enfant sain , Aa un enfant porteur et
aa un enfant malade.
Le tableau suivant donne les fréquences des génotypes pour 90 malades choisis
aléatoirement
génotype AA Aa aa
ni 22 55 13

Tester au niveau de signicativité α = 0.01, l'hypothèse que ces fréquences observées


peuvent être ajustées aux fréquences attendues de la distribution théorique.

105
Tests du khi-deux Un test d'adéquation ou d'ajustement

Solution:
Les hypothèses:
H0 : la distribution des génotypes des enfants est adéquate avec la distribution
donnée p1 = 0.25, p2 = 0.50 ,p3 = 0.25.
H1 : la distribution des génotypes des enfants n'est pas adéquate avec la
distribution donnée.
Vérions que les conditions du test sont satisafaites
Les données sont sélectionnées aléatoirement
Les fréquences attendues sont supérieures ou égales à 5 pour cela on doit d'abord les
calculer Ti = n × pi
Calcul des Ti et les diérences entre les ni et les Ti
génotype AA Aa aa
ni 22 55 13
Ti 90 × 0.25 = 22.5 90 × 0.50 = 45 90 × 0.25 = 22.5
ni − Ti -0.50 10 -9.50
(ni − Ti ) 2
0.25 100 90.25
(n −T )2
i
T i
i
0.0111 2.2222
106
4.0111
Tests du khi-deux Un test d'adéquation ou d'ajustement

Solution:

Statistique du test :
k
2
X (ni − Ti )2
χ =
i=1
Ti
Valeur critique :
Sur la table du khi-deux ,on lit χ2(k−1−r ),1−α = χ2(3−1),0.99 = 9.210
Décision :
comme χ2 = 6.2444 < χ22,0.99 alors on ne peut pas rejeter H0 .
Conclusion :
Avec un risque de 0.01 nous ne possédons pas susamment de preuves pour
conclure que la distribution observée est conforme avec la distribution donnée.

107
Tests du khi-deux Un test d'indépendance

Un test d'indépendance

Lorsque deux variables discrètes ou qualitatives sont mesurées sur les mêmes individus
on est en présence d'une population et de deux mesures. Il est alors intéressant de
vérier si ces variables aléatoires sont indépendantes c'est-à-dire si elles ont une
inuence l'une sur l'autre. La notion même de dépendance doit être dénie.
Intuitivement, il y a indépendance entre deux v.a. si le fait de connaître le résultat d'une
ne donne aucune information sur le résultat de la deuxième. Plus précisément, il y a
indépendance entre deux v.a. X et Y si
P(X = x, Y = y ) = P(X = x)P(Y = y )

ce qui revient à dire que


P(X = x|Y = y ) = P(X = x), et P(Y = y |X = x) = P(Y = y )

108
Tests du khi-deux Un test d'indépendance

Les hypothèses statistiques à confronter pour X et Y deux variables aléatoires


qualitatives ou quantitatives discrètes sont
H0 :
P(X = x, Y = y ) = P(X = x)P(Y = y ) pour tout x, y
H1 :
P(X = x, Y = y ) ̸= P(X = x)P(Y = y ) pour au moins un x, y
Pour eectuer le test d'indépendance on utilise la statistique du khi-deux. Cette
dernière est assez complexe à calculer c'est pourquoi on passe par le tableau de
contingence des observations et le tableau des valeurs attendues ou théoriques. Il est
alors plus facile de calculer la valeur de la statistique.

109
Tests du khi-deux Un test d'indépendance

Tableau de contingence

Un tableau de contingence est un tableau à double entrée dans lequel les fréquences
correspondent à deux variables : une variable est utilisée en ligne et l'autre en colonne.
Un test d'indépendance teste l'hypothèse nulle qu'il n'y a pas de relation entre la
variable ligne et celle en colonne du tableau de contingence.
Notations:
k : le nombre de modalités ai (i = 1, . . . k de la variable X )
m : le nombre de modalités bj (j = 1, . . . m de la variable Y )
ni. : la fréquence de la modalité i de la v.a. X
n.j : la fréqence de la modalité j de la v.a. Y
nij : la fréquence observée pour les modalités inscrites en ligne i et la colonne j
Tij : la fréquence attendue pour les modalités inscrites en ligne i et la colonne j

110
Tests du khi-deux Un test d'indépendance

Y y1 y2 ... yj ... ym Total


X
x1 n11 n12 n1j n1m n1.
x2 n21 n22 n2m n2.
... ...
xi nij ni.
... ...
xk nk 1 nk 2 nkm nk.
Total n.1 n.2 ... n.j ... n.m n

111
Tests du khi-deux Un test d'indépendance

Statistique du khi-deux

Nous estimons
P(X = x, Y = y ) par nn ij

P(X = x) par nn i.

P(Y = y ) par nn .j

S'il y a indépendance on devrait avoir nn ≃ nn × nn


ij i. .j

Posons Tij = n ×n
i.
n
la fréquence attendue pour les modalités i et j s'il y avait
.j

indépendence.

112
Tests du khi-deux Un test d'indépendance

La statistique pour le test du khi-deux est donnée par


k X m
2
X (nij − Tij )2
χ =
i=1 j=1
Tij

où k est le nombre de modalités de X et m est le nombre de modalités de Y. Cette


statistique est une mesure de la dépendance entre les v.a. X et Y.
Si χ2 ≥ χ2(k−1)(m−1),1−α on rejette H0

113
Tests du khi-deux Un test d'indépendance

Exemple:
Dans une population, on étudie la liaison entre les variables qualitatives "couleur des
cheveux" (X) et "couleur des yeux" (Y ) .Pour cela, on constitue aléatoirement un
échantillon de 200 individus et on note les observations suivantes :
Y
Yeux bleus Yeux marrons Yeux verts
X
Cheveux blonds 25 15 10
Cheveux bruns 30 70 20
Cheveux roux 10 10 10
Au risque de 5% , peut-on conclure à l'indépendance de ces deux variables ?

114
Tests du khi-deux Un test d'indépendance

Solution:

Les hypothèses:
H0 : la couleur des cheveux et la couleur des yeux sont indépendantes
H1 : la couleur des cheveux et la couleur des yeux ne sont pas indépendantes
Vérions que les conditions du test sont satisafaites
Les données sont sélectionnées aléatoirement
Il reste à vérier la 2eme condition les fréquences attendues Tij > 5,pour cela on
doit d'abord les calculer par la formule :
ni. × n.j
Tij =
n

115
Tests du khi-deux Un test d'indépendance

Dans le tableau suivant , les fréquences attendues Tij sont mises entre parenthèses
Y Yeux bleus Yeux marrons Yeux verts Total(loi marginale)
X
Cheveux blonds 25(16.25) 15(23.75) 10(10) 50
Cheveux bruns 30(39) 70(57) 20(24) 120
Cheveux roux 10(9.75) 10(14.25) 10(6) 30
Total 65 95 40 200
Les Tij sont supérieurs à 5 donc la condition est satisfaite.

116
Tests du khi-deux Un test d'indépendance

Statistique du test :
k X m
(nij − Tij )2
2
= 17.584
X
χ =
i=1 j=1
Tij

Valeur critique :
Sur la table du khi-deux ,on lit χ2(k−1)(m−1),1−α = χ24,0.95 = 9.49
Décision :
comme χ2 > χ24,0.95 alors on rejette H0 .
Conclusion :
Au risque de 5% , on ne peut pas dire que la couleur des cheveux et la couleur des
yeux sont indépendantes.

117
Tests du khi-deux Un test d'homogeneité

Un test d'homogeneité

On constitue deux ou plusieurs échantillons surlesquels on a observé les distributions


selon les modalités d'une variable qualitative ou quantitative. Le test d'homogeneité
permet de tester si les distributions sont identiques ou homogènes.
Considérons une variable qui est mesurée dans m populations. Dans la population j
cette variable a une loi de probabilité donnée par fj (xi ) pour chaque xi . Une question
intéressante est de vérier si ces populations sont régies par la même loi de probabilité.
Les hypothèses statistiques sont
H0 : fj (xi ) = fl (xi ) pour tous j, l et pour chaque i
H1 : fj (xi ) ̸= fl (xi ) pour un certain (j, l) et un certain i
c'est-à-dire que les k lois de probabilité sont identiques contre l'hypothèse alternative
qu'il y a au moins une loi de probabilité qui est diérente des autres.

118
Tests du khi-deux Un test d'homogeneité

Le test est similaire au test du khi-deux pour deux variables dans une population (test
d'indépendance) : la statistique est la même en considérant qu'il y a une variable qui
indique la population mais qu'elle est xée. On a alors le schéma suivant
POP POP1 . . . POPj . . . Total
X
x1 n11 n1j n1.
... ...
xi nij ni.
... ...
Total n .1 ... n.j ... n
Si χ 2 2
≥ χ(k−1)(m−1),1−α on rejette H0
où k X m
(nij − Tij )2
χ2 =
X

i=1 j=1
Tij

Les valeurs nij et Tij sont telles que dénies dans la section précédente.
119
Tests du khi-deux Un test d'homogeneité

Exemple:
Un pré-test est eectué pour évaluer la préférence d'une pâte dentifrice. 200 personnes
ont été choisis au hasard respectivement dans deux régions et on a remis à chaque
personne deux tubes de pâte de dentifrice, l'un étant la nouvelle pâte , l'autre une pâte
d'un concurrent, on a obtenu les préférences suivantes :
Préfère la nouvelle pâte Préfère la pâte du concurrent Indiérent Total
Région 1 90 50 60 200
région 2 105 60 35 200
Total 195 110 95 400
Au risque de 5% , la préférence de la pâte suivant les 3 modalités retenues se répartit
elle de façon identique (homogènes ) dans les deux régions ?

120
Tests du khi-deux Un test d'homogeneité

Solution:

Les hypothèses:
H0 : la préférence du dentifrice, suivant les 3 modalités retenues, se répartit de
façon homogène dans les deux régions.
H1 : la préférence du dentifrice ne se répartit pas de façon homogène dans les deux
régions
Vérions que les conditions du test sont satisafaites
Les données sont sélectionnées aléatoirement
Il reste à vérier la 2eme condition les fréquences attendues Tij > 5,pour cela on
doit d'abord les calculer par la formule :
ni. × n.j
Tij =
n

121
Tests du khi-deux Un test d'homogeneité

Dans le tableau suivant , les fréquences attendues Tij sont mises entre parenthèses
Préfère la nouvelle pâte Préfère la pâte du concurrent Indiérent Total
Région 1 90(97.5) 50(55) 60(47.5) 200
Région 2 105(97.5) 60(55) 35(47.5) 200
Total 195 110 95 400
Les Tij sont supérieurs à 5 donc la condition est satisfaite.

122
Tests du khi-deux Un test d'homogeneité

Statistique du test :
k X m
(nij − Tij )2
2
= 8.64
X
χ =
i=1 j=1
Tij

Valeur critique :
Sur la table du khi-deux ,on lit χ2(k−1)(m−1),1−α = χ22,0.95 = 5.99
Décision :
comme χ2 > χ22,0.95 alors on rejette H0 .
Conclusion :
Au risque de 5% , on ne peut pas dire que les deux régions ont un comportement
homogène en ce qui concerne la préférence du dentifrice.

123

Vous aimerez peut-être aussi