0% ont trouvé ce document utile (0 vote)
143 vues5 pages

Corrigé TD Biostatistiques M1 2019-2020

Ce document contient les corrections d'exercices de statistiques portant sur des tests d'hypothèses, des intervalles de confiance et des lois de probabilité. Il explique en détail le calcul des probabilités, des intervalles de fluctuation et de confiance pour des échantillons suivant des lois normales ou binomiales.

Transféré par

tamba vieux tolno
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
143 vues5 pages

Corrigé TD Biostatistiques M1 2019-2020

Ce document contient les corrections d'exercices de statistiques portant sur des tests d'hypothèses, des intervalles de confiance et des lois de probabilité. Il explique en détail le calcul des probabilités, des intervalles de fluctuation et de confiance pour des échantillons suivant des lois normales ou binomiales.

Transféré par

tamba vieux tolno
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

CORRIGE DES EXERCICES DE LA SEANCE DE TD 3

Exercice 1

1. Pour trouver les probabilités demandées, il faut lire la table de Student à la ligne ddl=25.
• tα = 1,3 n’y figurant pas, on prend la valeur la plus proche, ce qui donne P(X > 1,3) ≈ 0,10.
• En utilisant la symétrie de la loi de Student, comme on l’a fait pour la loi normale centrée réduite,
on a : P(|X| > 2,5) = 2×P(X > 2,5) ≈ 2×0,01 = 0,02
• Pour trouver P(X > -1,3), on se sert de l’égalité P(X > -1,3) = 1 - P(X < -1,3). Par symétrie, de la
loi de Student, on a P(X < -1,3) = P (X > 1,3). On en déduit finalement :
P(X > -1,3) = 1 - P(X > 1,3) ≈ 1 - 0,10 = 0,90

2. Pour trouver les valeurs de “a” demandées, il faut lire la table “dans l’autre sens” (toujours à la
ligne ddl=25.
• On obtient ainsi : P(X > 1,708) = 0,05
• De même qu’on l’a fait pour la loi normale centrée réduite, on a P(|X| > a) = 2×P(X > a) d’où :
P(|X| > 2,060) = 0,05

Exercice 2
12
1. Le pourcentage observé de sujets déclarant avoir des lombalgies est p0 = = 0,40 .
30
Pour trouver l’intervalle de confiance du pourcentage vrai P dans la population, on utilise la
p o qo
formule po ± z α/2 qui fait appel à l’approximation de la loi binomiale par la loi normale
n
(rappelons que la vérification de la validité de l’utilisation de cette approximation ne peut être faite
qu’après le calcul de l’intervalle de confiance).
0,40 × 0,60
On obtient ici : 0,40 ± 1,96 = 0,40 ± 0,18 soit : [0,22 ; 0,58]
30
Les conditions d’application sont satisfaites : npi, nps, nqi et nqs sont supérieurs ou égaux à 5.

On peut aussi se servir de la table 5 qui donne, pour n = 30 et 12 événements observés,


l’intervalle [22,66% ; 59,40%]. C’est certainement la méthode la plus rapide ! Elle n’est possible
que parce que les valeurs de n et du nombre d’événements correspondant à notre échantillon
figurent dans la table (et parce que vous avez la table à votre disposition...). Le résultat obtenu est
proche du précédent. En dehors des arrondis de calculs, l’écart vient de ce que le premier résultat
est une approximation, c’est l’intervalle de la table qui est exact.

2. Le pourcentage observé de sujets déclarant avoir des lombalgies est cette fois p0 = 0,25 (avec
n = 20). L’intervalle de confiance du pourcentage vrai dans la population est donné par :

Master de Santé Publique - 2019 - 2020 1


M1- UE de biostatistiques - TD 3 - Corrigé
0,25 × 0,75
0,25 ± 1,96 0,25 ± 1,96 = 0,25 ± 0,19 = [0,06 ; 0,44]
20
Ici, les conditions d’application ne sont pas satisfaites puisque npi = 1,2 < 5. L’intervalle trouvé ne
doit donc pas être retenu.
Il faut recourir à la table 5 qui donne : [8,66% ; 49,10%]. On voit qu’ici le résultat obtenu est
nettement différent de celui donné par l’approximation (non légitime) précédente.

3. Si on veut connaître le pourcentage de lombalgies dans la population avec une précision de


2
p o qo z α/2p o qo
±5%, il faut que z α/2 = 0,05, c’est-à-dire n = .
n 0,05 2
Dans cette formule p0 et q0 sont inconnus, ce sont les valeurs que l’on observera sur le nouvel
échantillon dont on cherche à déterminer l’effectif. En première approximation, on prend des
valeurs trouvées sur un échantillon précédent. Dans cet exercice, le premier échantillon donne
1,96 2 × 0,40 × 0,60
p0 = 0,40 et q0 = 0,60 et donc n = = 368,8 . Le second échantillon donne
0,05 2
1,96 2 × 0,25 × 0,75
p0 = 0,25 et q0 = 0,75 et donc n = = 288,12 .
0,05 2
Comme prévu, le résultat dépend de p0, ce qui montre la part d’incertitude dans le calcul du
nombre de sujets. Pour être plus sûr d’avoir la précision voulue, on prendra ici la valeur la plus
grande, soit au moins 369 sujets.

Exercice 3

1. Puisque l’obésité est définie par un BMI supérieur à 30, le pourcentage d’obèses dans la
population est P = P(BMI > 30). Comme la distribution du BMI est normale, on a, en se ramenant à
⎛ 30 − 25 ⎞
la loi normale centrée réduite : P = P ⎜ Z > = 1,29⎟ . La table 1 donne : P = 0,10.
⎝ 15 ⎠
Remarques :
• le pourcentage qu’on vient de calculer est le pourcentage vrai dans la population, puisqu’il est calculé à partir de
la moyenne et de la variance vraies.
• le calcul précédent n’est valable que parce que la distribution du BMI est normale.
• le résultat serait le même si l’obésité était définie par un BMI supérieur ou égal à 30.

2. L’intervalle (de fluctuation) dans lequel se situe le BMI de 95% de la population est donné par
µ ± z α/2 σ 2 puisque la distribution du BMI est normale, avec α = 5% et donc zα/2 = 1,96. On
obtient donc : 25 ± 1,96 15 = ⎡⎣17,41; 32,59 ⎤⎦ .

Remarque : comme on a déjà eu l’occasion de le dire, l’intervalle donné ci-dessus est celui qui est symétrique par
rapport à µ. C’est ce qu’il est habituel de faire, mais il y a d’autres solutions : ce sont tous les intervalles [a ; b] qui
vérifient P(a < BMI < b) = 0,95.

Master de Santé Publique - 2019 - 2020 2


M1- UE de biostatistiques - TD 3 - Corrigé
3. Il s’agit de calculer trois intervalles de fluctuation pour un échantillon de 41 sujets.
σ2
L’intervalle de fluctuation de la moyenne est donné par : µ ± z α/2 . Il n’y a pas de condition
n
d’application particulière puisque la distribution du BMI est normale. On obtient :
15
25 ± 1,96 = ⎡ 23,81; 26,86 ⎤⎦ .
41 ⎣

• Pour la variance, on peut utiliser l’approximation par la loi normale puisque la distribution du BMI
est normale et que l’effectif de l’échantillon est supérieur à 30. On obtient :
2σ 4 2 × 15 2
σ 2 ± z α/2 = 15 ± 1,96 = ⎡⎣8,43 ; 21,57 ⎤⎦ .
n−1 40
On peut aussi utiliser la formule exacte (qui nécessite que la distribution soit normale, mais ne
⎡ b 2 a 2⎤
requiert aucune condition d’effectif) : ⎢ σ ; σ ⎥ où a et b sont les limites de la loi de χ 2 à
⎣n − 1 n − 1 ⎦
40 ddl pour α = 0,975 et α = 0,025.
⎡ 24,43 59,34 ⎤
On obtient : ⎢ 15 ; 15 ⎥ = ⎡⎣9,16 ; 22,25 ⎤⎦ .
⎣ 40 40 ⎦
On constate sur cet exemple que la formule approchée donne un résultat peu éloigné de la
formule exacte.

PQ
• L’intervalle de fluctuation du pourcentage d’obèses est donné par : P ± z α/2 . Les conditions
n
d’application (nP et nQ ≥ 5) ne sont cependant pas vérifiées puisque nP = 4,1. On ne peut donc
pas utiliser la formule précédente. Il n’est pas non plus possible d’utiliser la table 5 qui est faite
pour l’intervalle de confiance et non pour l’intervalle de fluctuation. On ne peut donc pas calculer
l’intervalle de fluctuation demandé avec les méthodes que vous connaissez.

4. Les valeurs observées permettent de calculer ∑ x = 268 et ∑x 2


= 7 378 .

a) On en déduit : m=26,80 et s2=21,73. L’intervalle de confiance de la moyenne est donc (puisque


s2 21,73
la distribution du BMI est normale) : m ± t n−1;α/2 = 26,80 ± 2,262 , soit : [23,47 ; 30,13]
n 10
b) Comme l’effectif de l’échantillon est inférieur à 30 (et que la distribution du BMI est normale),
⎡n − 1 2 n − 1 2 ⎤
l’intervalle de confiance de la variance doit être calculé par : ⎢ s; s ⎥ ce qui donne :
⎣ b a ⎦
⎡ 9 9 ⎤
⎢ 19,02 21,73 ; 2,70 21,73 ⎥ = [10,28 ; 72,43].
⎣ ⎦
3
c) La proportion observée d’obèses est p0 = = 0,30 . Son intervalle de confiance est donné par
10
la table 5 : [6,67% ; 65,25%].

Master de Santé Publique - 2019 - 2020 3


M1- UE de biostatistiques - TD 3 - Corrigé
Exercice 4
p o qo
L’intervalle de confiance du pourcentage de malades est po ± z α/2 Le nombre de malades
n
est npo. Son intervalle de confiance est donc donné par : npo ± z α/2 npoqo .

On connaît ici np0 qui est égal à 17. On ne connaît pas q0, mais le pourcentage de malades étant
petit (maladie très rare), on a q0 ≈ 1. On obtient donc, pour l’intervalle de confiance :
npo ± z α/2 npoqo = 17 ± 1,96 17 soit : [8,9 ; 25,1].

Les conditions d’application de la formule de l’intervalle de confiance sont les mêmes que pour un
pourcentage. Elles sont satisfaites : npi, nqi, nps et nqs sont supérieurs à 5.

Exercice 5

1. En faisant le changement de variable X’ = X/100 (ce qui revient à supprimer les deux derniers 0
de chaque nombre), on obtient : ∑ x ' = 3 939 et ∑ x '2 = 314 909 . D’où on déduit :
1
3939 314909 − 3939 2
m' = = 78,78 et s' =2 50 = 93,7669 .
50 49
En revenant à la variable initiale, on trouve : m = 100 × m' = 7878 et s2 = 100 2 × s'2 = 937 669 .

Remarque : si on fait le changement de variable X” = X/100 - 61, on obtient (après des calculs un peu moins

lourds) : ∑ x " = 889 et ∑x" 2 2


= 20 401 . D’où : m” = 17,78 et s” = 93,7669. On revient ensuite à la variable
2 2 2
initiale par : m = 100×m”+61 = 7878 et s = 100 ×s” = 937 669.

On voit donc qu’un changement de variable peut alléger les calculs, mais qu’il ne faut pas le
“payer” par des erreurs pour revenir à la variable initiale (ou même en exécutant le changement de
variable lui-même). C’est à chacun de trouver l’équilibre qui lui convient le mieux.

2. La médiane est la valeur qui sépare l’échantillon en deux sous échantillons de même effectif.
C’est ici 7900 car 24 numérations sont inférieures à 7900 et 24 lui sont supérieures.
Le mode est la valeur la plus souvent observée (elle n’est pas toujours unique). Il y a ici 4 modes :
7700, 8300, 8500 et 8600 qui sont toutes des valeurs observées trois fois (le mode n’a pas grand
intérêt sur ces données non groupées).

3. La variabilité des mesures, quantifiée par la variance de la question 1, soit s2 = 937 669,
comprend à la fois la variabilité due à l’erreur de mesure et la variabilité due à la différence entre
sujets. La variabilité due à la seule erreur de mesure est bien sûr inférieure à la variabilité totale,
elle n’en est qu’une part, et souvent la plus petite (mais non négligeable dans le cas présent).
C’est la variabilité totale qui intervient dans la très grande majorité des problèmes.

Master de Santé Publique - 2019 - 2020 4


M1- UE de biostatistiques - TD 3 - Corrigé
4. Après regroupement, les données se présentent sous la forme suivante :

Numération 6000-6500 6500-7000 7000-7500 7500-8000


Nombre de sujets 4 5 8 9
Numération 8000-8500 8500-9000 9000-9500 9500-10000
Nombre de sujets 8 10 4 2

En prenant comme centre des classes 6250, 6750, … , 9750 et en utilisant les formules pour
données groupées, on trouve : ∑ x = 396 500 et ∑ x 2 = 3 187 625 000 .

D’où : m = 7930 et s2 = 885 306,12.


L’écart avec les valeurs (exactes) trouvées à la question 1 est dû à l’approximation résultant du
regroupement en classes.

5. Il est plus difficile de déterminer la médiane sur des données groupées que sur les données
individuelles. Le regroupement réalisé ici permet cependant de constater qu’il y a 26 valeurs
inférieures à 8000 et 24 supérieures. De sorte qu’on peut donner 8000 comme valeur approchée
de la médiane.
Quant au mode, son estimation est fonction de la façon de grouper les données. Pour celle que
nous avons adoptée avec des classes d’amplitude 500, le mode (valeur la plus probable) est la
classe 8500-9000.

Master de Santé Publique - 2019 - 2020 5


M1- UE de biostatistiques - TD 3 - Corrigé

Vous aimerez peut-être aussi