Nom :
Prénom :
Consignes : Veillez à bien formuler vos hypothèses quand cela est nécessaire et à bien
expliquer votre démarche en justifiant vos choix en matière de test. Veillez également à
fournir tout les résultats intermédiaires qui vous permettent de conclure à chaque exercice.
Une attention toute particulière sera portée quant à la clarté et à la concision de vos réponses.
Réalisez l’ensemble de vos tests sur la base d’un seuil de significativité à 5%.
Exercice 1 : Viscosité sanguine et traitement
Dix volontaires ont accepté de suivre un traitement qui permettrait de diminuer la viscosité
sanguine exprimée en millipoise (mPo) à 37°C. Les résultats avant et après traitement sont les
suivant :
NB : Les données de viscosité sanguine sur les 10 patients volontaires échantillonnés
montrent un profil de distribution non symétrique et dont l’allure de la distribution s’écarte
fortement d’une distribution normale.
QUESTIONS :
1. Quelle est la fonction dans le logiciel de statistique R qui permet de faire ce type de
test ?
Les données de viscosité montrent un profil de distribution non symétrique et qui
s’écarte fortement d’une distribution normale. Il s’agit du test non paramétrique
de Wilcoxon traduit sur le logiciel R par la fonction wilcox.test.
Donnez la p- value du test, que peut on en conclure ?
Les données sont appariées car on mesure la mê me variable sur les mêmes individus
(Dix volontaires). Le test utilise un paramètre logique paired pour indique r que les
échantillons sont appariés.
La p-value = 0.29
Les hypothèses de test :
H0 : 𝝁𝟏 = 𝝁𝟐 (Le traite ment n’a pas diminue r la viscosité sanguine des patients).
H1 : 𝝁𝟏 > 𝝁𝟐 (Le traite ment à diminuer la viscosité sanguine des patients).
Notons que 𝝁𝟏 la viscosité sanguine moyenne exprimée en millipoise (mPo) à 37°C de dix
patients volontaires avant de suivre le traitement et 𝝁𝟐 la viscosité sanguine moyenne
exprimée en millipoise (mPo) à 37°C de dix patients volontaires après traitement.
La p-value du test est égal à 0.29 supérieure au niveau de signification seuil alpha=0,05.
Alors on accepte l’hypothése H0 .
2. Quel est l’équivalent paramétrique du test que vous venez d’effectuer ?
L’équivalent paramétrique du test de Wilcoxon est le test de Student
Exercice 2
Considérons l'exemple suivant. Un psychologue note le temps (en s) mis par des enfants, dont
7 sont considérés comme normaux et 8 comme mentalement retardés, pour accomplir une
série de tâches manuelles simples. Les temps sont
On se demande alors si les populations d'où proviennent ces deux séries d'observations sont
significativement différentes ?
On se demande alors si les populations d'où proviennent ces deux séries d'observations
sont significative ment différentes.
Notons 𝝁𝟏 et 𝝁𝟐 les temps médians des deux groupes d'enfants. On pose les hypothèses
du test :
H0 : 𝝁𝟏 = 𝝁𝟐 (les populations d'où proviennent ces deux séries d'observations ne sont
pas significativement différentes ; les enfants retardés et normaux pre nnent le même
temps en moyenne pour accomplir une série de taches manuelles simples).
H1 : 𝝁𝟏 < 𝝁𝟐 (les populations d'où proviennent ces deux séries d'observations sont
significativement différentes ; les enfants retardés prennent plus de temps en moyenne
pour accomplir une série de taches manuelles simples que les enfants normaux).
D’abord, on va tester la normalité :
H0 : La variable dont provient l’échantillon suit une loi Normale.
H1 : La variable dont provient l’échantillon ne suit pas une loi Normale.
Etant donné que la p-value calculée pour la variable Enfants normaux (p-value= 0,72)
est supérieure au niveau de signification seuil alpha=0,05. Donc l’hypothése de normalité
est acceptée (l’hypothése nulle H0 ).
Pour la variable Enfants retardés la p-value= 0.95 est supérieure au niveau de
signification seuil alpha=0,05. Donc l’hypothése de normalité est acceptée (l’hypothése
nulle H0 ).
Test d’égalité de variance
Etant donné que la p-value calculée pour le test d’égalité de variance (p-value= 0,74) est
supérieure au niveau de signification seuil alpha=0,05, on va accepter l’hypothése (H0 )
que les échantillons proviennent de deux populations ayant la mê me variance.
Nous avons d’un côté des enfants normaux et de l’autre des enfants retardés, il ne peut
donc pas s’agir des mê mes individus, nous avons des données non appariées
(indépendantes).
Etant donné que la p-value calculée pour le test de Student (p-value= 0,006) est infé rieur
au niveau de signification au seuil alpha=0,05. Donc on va accepte r l’hypothése H1.
(H1 : 𝝁𝟏 < 𝝁𝟐 (les populations d'où proviennent ces deux séries d'observations sont
significativement différentes ; Les enfants retardés prennent plus de temps en moyenne
pour accomplir une série de taches manuelles simples que les enfants normaux)
Exercice 3
Nous souhaitons comparer trois traitements, notés A, B et C contre l’asthme : le traitement B
est un nouveau traitement, que nous souhaitons mettre en compétition avec les traitements
classiques A et C. Nous répartissons par tirage au sort les patients venant consulter da ns un
centre de soin, et nous leur affectons l’un des trois traitements. Nous mesurons sur chaque
patient la durée, en jours, séparant de la prochaine crise d’asthme. Les mesures sont reportées
dans le tableau ci-dessous :
Pouvons-nous conclure que les traitements ont une efficacité différente pour le critère « temps
séparant la prochaine crise ? »
1. Écrire le modèle statistique de l’analyse de la variance à un facteur à effets fixes.
Ou bien
2. Quelles sont les conditions d’utilisation du modèle d’analyse de la variance précédent
? Sont-elles vérifiées ?
Le résultat de l’ANOVA à un facteur est valide (on peut avoir confiance dans ce
résultat), si les 3 hypothèses sont vérifiées :
Les résidus suivent une loi normale.
Les résidus sont indépendants.
Les résidus relatifs aux différentes modalités sont homogènes (ils ont globalement la
même dispersion), autrement dit leur variance est constante.
Test de normalité :
Pour tester la normalité nécessaire pour qu’une ANOVA soit valide, On peut utiliser le
test de shapiro-Wilk. Le code R est le suivant :
La probabilité critique est égale à 0.37 et dépasse donc le seuil habituel de 5 %.
On ne rejette pas significativement l’hypothèse nulle de normalité des résidus.
L’hypothèse de normalité est acceptée. Le test d’égalité des variances peuvent
aussi être menés. Le code R est le suivant :
Test d’égalité de variance (Homoscédasticité)
La p-value (0.558) est largement supérieure à 0.05, l’hypothèse d’homogénéité
des résidus est donc acceptée.
Test d’indépendance de résidus
La p-value est égal 0 est inférieur au niveau de signification seuil alpha (0.05),
l’hypothèse H0 est donc rejetée et on conclut la présence d’auto-corrélation
(L’indépendance n’est pas vérifié).
3. Donner, à l’aide du logiciel R, le tableau de l’ANOVA correspondant à cette étude.
Df Sum Sq Mean Sq F value Pr(> F)
Traitement 2 1427 713.4 5.467 0.00796
Residuals 40 5219 130.5
4. Dans le cas de cette étude, est-il possible de procéder à des comparaisons multiples ?
Pourquoi ? Si oui, réaliser alors ces comparaisons.
La p-value de l’ANOVA est 0.0079 < 0.05, Donc on accepte l’hypothése H1 , ce résultat
indique alors que les traite ments ont une efficacité différente pour le critère « temps
séparant la prochaine crise ». Se pose ensuite évidemment la question de l’identification
des moyennes différentes entre elles. Pour cela on parle de comparaisons multiples.
La colonne p adj donne la p-valeur après ajustement pour les comparaisons multiples. Il
apparait que la comparaison entre les échantillons 2 et 1 présente une différence
significative : la p-value 0.020 est inférieure à 5%, ce qui implique qu’on rejette
l’hypothése que les moyennes sont égales. Même chose pour la comparaison entre les
échantillons 3 et 2.
Exercice 4
On souhaite expliquer la fertilité sur l’éducation et la mortalité infantile, ainsi que d’autres
variables ( toutes les variables sont quantitatives).
On utilise la base (swiss) de R, que nous mettons en forme
data(swiss)
Cette base de données comprend les mesures sur 47 observations et 6 variables :
Fertility; Examination; Agriculture; Education; Catholic; Infant.Mortality
1) Effectuer l’analyse de la régression en considérant toutes les variables.
1.a) Ecrire l’équation théorique de la régression du modèle.
Fertility=𝜷𝟎 + 𝜷𝟏 ∗ 𝑨𝒈𝒓𝒊𝒄𝒖𝒍𝒕𝒖𝒓𝒆 + 𝜷𝟐 ∗ 𝑬𝒙𝒂𝒎𝒊𝒏𝒂𝒕𝒊𝒐𝒏 + 𝜷𝟑 ∗ 𝑬𝒅𝒖𝒄𝒂𝒕𝒊𝒐𝒏 + 𝜷𝟒 ∗
𝑪𝒂𝒕𝒉𝒐𝒍𝒊𝒄 + 𝜷𝟓 ∗ 𝑰𝒏𝒇𝒂𝒏𝒕. 𝑴𝒐𝒓𝒕𝒂𝒍𝒊𝒕𝒚 + 𝜺
1.b) Ecrire l’équation estimée du modèle.
𝐅𝐞𝐫𝐭𝐢𝐥𝐢𝐭𝐲 =66.91-0.17*(Agriculture)-0.26*(Examination)-0.87*(Education)+
0.10*(Catholic)+1.07*(Infrant.Mortality)
2) Si on voulait garder que 4 des 5 variables exogènes, quel est le meilleur modèle réduit
(modèle 2).
On enlève la variable non significatif et qui a la p-valeur la plus élevée. Dans ce cas, on
va éliminer la variable Examination (p-value= 0.315).
le meilleur modèle réduit (modèle 2) est le suivant :
Modele 2<- lm( Fertility ~ Agriculture + Education+ Catholic+ Infant.Mortality , data= swiss)
3) Comparer les deux modèles, lequel est le plus adéquat ?
Le modèle le plus adéquat est celui qui à la valeur (AIC) la plus petite ;
AIC(modele 2) < AIC(modele1), donc le modèle 2 est le modèle le plus adéquat.
4) Supposons que nous disposions des données pour un no uveau pays, par exemple
l’Allemagne.
4.1) comparer la fertilité estimée avec ce modèle avec la fertilité observée.
Agricultaire=39 , Education= 12, Catholic=9, Infant.Mortality=22
Avec les valeurs ci-dessus, On re marque que la fertilité (69.15) est comprise dans
l’inte rvalle [54.33;83.98], alors il n’y a pas de contradiction avec le modèle.