Stat Analytiq 1
Stat Analytiq 1
Statistique Analytique
Glèlè Y. , PhD
Kpozehouen A., PhD
1
Paraïso M.N. , PhD
Objectifs d’apprentissage
A la fin du processus d'apprentissage de l'UE STA, l'apprenant doit
avoir acquis les compétences énumérées ci-dessous :
• Utiliser avec leur sens approprié les concepts suivants: Inférence
statistique, Hypothèse statistique, Hypothèse nulle, Hypothèse
alternative, erreur de type I, erreur de type II, test d’Inférence,
degrés de liberté, échantillons indépendants, séries appariées
• Tester une hypothèse pour une moyenne de population
• Procéder au choix du test statistique approprié en fonction des
paramètres à comparer et de la taille de l’échantillon
• Comparer des Moyennes (tests t, Z, F)
• Comparer des Proportions (test χ² )
• Déterminer l’Intervalle de confiance (IC) de moyennes, de
proportions
• Corrélation et Régression (r, R²)
2
Comparaison de Moyennes
3
Vérification de la Normalité d’une Variable
• Test de normalité (Plot Normal ): test d’"ajustement" ou
"goodness of fit"
• les Méthodes possibles pour le test d’ajustement :
• Le χ2
• Le Test de Kolmogorov-Smirnov
• Les Tests de Shapiro-Wilk ou Shapiro-Francia (vérifier pas
logiciel)
• Approche graphique (plot normal): le plus souvent suffisant
• On représente les valeurs des percentiles et les scores
normaux correspondants
• l’hypothèse de normalité est que les points du diagramme
doivent tenir sur une droite
• Commande sur Stata : qnormal ˄ ‘’Variable’’
4
Vérification de la Normalité
5
Exemple des Valeurs de Percentiles
Poids (en kg)
-------------------------------------------------------------
Percentiles
1% 31
5% 42
10% 45 Obs 169
25% 52 Sum of Wgt. 169
6
Approche graphique (1)
.05
.04.03
Density
.02 .01
0
60 70 80 90 100
age
20 40 60 80 100
Inverse Normal
Distribution du poids (enquête démence chez les
personnes âgées de 65 ans et + à Cotonou; 2008)
9
Comparaison d’une Moyenne observée avec
une Moyenne théorique ou de population
10
Comparaison d’une Moyenne observée
à une valeur théorique (1)
Estimer la moyenne d’une population ou tester l’hypothèse de
l’égalité entre une moyenne observée sur un échantillon et une
moyenne théorique donnée. Soit :
o n la taille de l’échantillon
o x la moyenne observée dans l’échantillon
o sx la déviation standard calculée
o μ la moyenne de la population dans laquelle l’échantillon a été
tirée ou moyenne théorique
12
Comparaison d’une Moyenne observée
à une valeur théorique (3)
Test t de Student
Il est égal à la différence entre la moyenne théorique et la moyenne
observée sur un échantillon x 0
t sx
Ce test est souhaitable quand : n
- la taille (n) de l’échantillon est petite
- l’écart-type (s) de la moyenne de l’échantillon est connu
- la population est normalement distribuée
- σ est inconnu (mais que s est connu ou peut être calculé)
- et que n < 30
Degré de liberté
Pour utiliser la distribution t, il faut son degré de liberté qui est
égal à la taille de l’échantillon moins un (ddl = n-1)
13
Exercice
Le poids moyen de naissance dans une population de
"référence" de filles vaut 3,2kg. Le poids moyen observé dans
un échantillon de 14 filles est de 2,81kg avec un écart-type de
0,44 kg.
• On veut savoir avec un risque d’erreur de 5% si ce poids est
"compatible" avec cette moyenne théorique ?
14
Exercice Corrigé
Remarquons que 2,81 kg est plus petit que 3,2kg mais a priori
nous ne pouvons pas dire qu’il y a une différence entre ces 2
poids.
Nous allons donc faire un test
• L’hypothèse nulle H0: μ0=μ=3,2
• L’hypothèse alternative Ha: μ0≠μ
• On calcule sous H0 la statistique de student
2,81 3.2
t 3.32
0,44
14
Pour conclure , nous allons déterminer dans la table de student,
la probabilité correspondant à cette valeur (ie. 3,32)
15
Comparaison de Deux Moyennes
Indépendantes
16
Comparaison de Deux Moyennes Indépendantes
Cas de petits échantillons
1- On suppose que les échantillons proviennent des populations qui
peuvent ne pas avoir les mêmes moyennes mais des variances
égales. Son estimation est égale à : (n 1) s 2
(n 1) s 2
2
s
1 1 2 2
n1 n2 2
2- son degré de liberté est égal à : ddl = n1 + n2 - 2
3- la comparaison entre les deux moyennes observées entre les deux
échantillons dont l’un au moins est petit est basée sur la valeur
de : x x
t 1 2
s 1 1 S est la racine carré de la variance commune
n n
1 2
18
Résolution de l’Exercice (Logiciel STATA)
ttest poids,by(diabete)
19
Non diabétique Diabétique
n Moy. sx n Moy. sy
poids poids
Poids 149 61.861 16.656 20 70 13.186
(kg)
Ens. 169 62.824
Donc nous pouvons parler de l’égalité des variances des deux groupes
(diabétiques/non diabétiques)
• Calcul de s2
( 201)*(13.186)2 (1491)*(16.656)2
s 2
( 201492)
265.641 et s 16.298
• L’intervalle de confiance est : IC à 95% : 62.824 1.96 * 16,298 *
1
20 1
149
= 55,22kg à 70,43kg
20
Application numérique
21
Comparaison de Moyennes issues de Deux
Séries Appariées
22
Comparaison de 2 moyennes appariées
Deux échantillons sont appariés s’il existe un lien entre chaque
individu d’un groupe et un ou plusieurs individus de l’autre groupe (ici
on utilisera les appariements 1-1)
23
Comparaison de Deux Moyennes Appariées
Pour faire comparaison :
1- Calculer pour chaque individu lié (1 et 2), la différence (d) entre
les mesures,
2- calculer la moyenne des différences (md ou d barre)
3- calculer l’écart-type des différences (sd)
4- calculer le t ’’Pair’’, la comparaison entre les deux moyennes
observées entre les deux échantillons dont l’un au moins est petit
est basée sur la valeur de t pair : d
t
sd
5- le degré de liberté est : ddl= n-1 n
Les intervalles de confiance et les tests porteront sur cette différence
Pour l’interprétation, on lit sur la table t la valeur correspondante au
niveau de signification obtenu
24
Comparaison de 2 moyennes appariées
Intervalle de confiance
• Soit n le nombre de paires
• xi1 et xi2 les valeurs de la variable pour les deux membres de la
paire i
• di =xi1-xi2 = la différence entre les valeurs de xi1 et xi2
• d = la moy. des di et sd = la déviation standard
• L’intervalle de confiance de cette différence à (1-α) 100% est
donnée par : d t *
sd
( n 1);(1 / 2)
n
• Avec t(n-1); (1-α/2) le percentile (1-α/2) de la distribution t à
n-1 degré de liberté
25
Exercice
On considère l’effet d’une nouvelle stratégie de traitement du diabète
en mesurant l’effet sur la glycémie. On dose la glycémie (en g/l) chez
15 sujets avant le début du nouveau protocole (série A) et 3 mois
après, (série B).
Dans le tableau ci-dessous sont consignés les résultats obtenus
A 2.47 3.09 2.14 2.47 3.06 2.72 2.29 1.90 2.34 2.75 2.67 2.80 2.51 2.23 2.20
B 2.30 2.96 2.23 2.34 2.84 2.59 2.15 1.88 2.32 2.65 2.68 2.58 2.43 2.02 2.17
26
Résolution de l’Exercice
a b A-B moyenne ecart type
2,47 2,3 0,17
3,09 2,96 0,13
2,14 2,23 -0,09
2,47 2,34 0,13
3,06 2,84 0,22
2,72 2,59 0,13
2,29 2,15 0,14
1,9 1,88 0,02
2,34 2,32 0,02
2,75 2,65 0,1
2,67 2,68 -0,01
2,8 2,58 0,22
2,51 2,43 0,08
2,23 2,02 0,21
2,2 2,17 0,03
0,1 0,09118
0,05223
d-t97,5,14*sd/racine(n)
IC_min 0,04777
d+t97,5,14*sd/racine(n)
IC_max 0,15223
27
Résolution de l’Exercice
μ1 et μ2 les moyennes de la variable dans les deux populations
dont sont extraits les échantillons
• Hypothèse nulle H0 μ1 = μ2
• Hypothèse alternative Ha μ1 ≠ μ2
15
28
Comparaison de plus de Deux Moyennes
(Analyse de Variances)
29
Analyse de Variances
Supposons que nous veillions comparer les moyennes de TAS
observées dans 3 groupes différents (Ex: gynécologues, pédiatres,
ophtalmologues)
Est-ce que les 3 moyennes observées sont différentes avec 1
risque d’erreur de 5% ?
Les Hypothèses H 0: μ 1 = μ 2 = μ 3 Ha: μ1 ≠ μ2 ≠ μ3
Analyse de Variance (ANOVA):
Le procédé plus raisonnable en statistique à utiliser
Conditions d'application
Elles se reposent sur les postulats fondamentaux suivants :
- échantillonnage aléatoire
- normalité de la distribution du (ou des) paramètre(s)
étudié(s)
- égalité des variances dans les populations mères
30
Analyse de Variances
On suppose que les 3 observations sont faites sur la même
population
S’il y a variation entre les moyennes, on peut penser que c’est due
à la fluctuation de l’échantillonnage ou parce que les populations
mères ne sont pas identiques
Deux estimations de la variance (σ²) sont possibles:
Estimation 1: dépend des différences entre les échantillons
Estimation 2: dépend des différences à l’intérieur de chaque
échantillon
31
Comment procéder au test d’ANOVA ?
Etape 1 :
Pour chaque groupe, on calcule :
1- le nombre d’observations dans le groupe (n),
2- la somme des observations du groupe : ∑(x)
3- la somme des carrés des observations du groupe : ∑(x²)
4- on en déduit la somme des carrés résiduels du groupe :
SCRg = ∑(x²) – [(∑(x))²/n]
Etape 2 :
5- on additionne la somme des carrés résiduels de tous les
groupes : ∑(SCRg)
6- on fait la somme de degrés de liberté de tous les groupes:
∑(ddl) égale à la somme de toutes les n moins le nombre de
groupes
32
Comment procéder au test d’ANOVA ? (Suite)
Etape 3 :
Pour l’ensemble des groupes c'est-à-dire l’échantillon total, on
calcul :
7- on additionne les tailles : ∑(n)
8- on addition la somme des observations de tous les groupes :
[∑(∑(x)]
9- on additionne la somme des carrés des observations de tous
les groupes : [∑(∑(x²)]
10- on en déduit la somme des carrés totaux : SCT
= [∑(∑(x²)] - [∑(∑(x)]²/ ∑(n)
33
Comment procéder au test d’ANOVA ? (Fin)
Etape 4 :
On présente le tableau des sources de variations et
On en déduit la somme des carrés factoriels : SCF = SCT – SCR
34
Exercice
On souhaite comparer 3 traitements A, B et C contre l’asthme. Le
traitement B est nouveau que veut mettre en compétition sur la
marché avec A et C. on répartit au hasard les patients venant en soins
dans un centre de santé et on leur affecte l’un des 3 traitements. On
mesure sur chaque patient la durée en jours entre de la prochaine
crise.
Peut-on conclure que les traitements ont une efficacité différente
pour le critère ‘’jours entre la prochaine crise’’ ? (Ci-dessous les
mesures)
A 26 27 35 36 38 38 41 42 45 50 65
B 29 42 44 44 45 48 48 52 56 56 58 58 60 61 63 63 69
C 26 26 30 30 33 36 38 38 39 46 47 51 51 56 75
35
Résolution de l’Exercice
Traitements n ∑(x) ∑(x²) SCR
A 11 443 19 009 19 009 – 443² /11 = 1168,2
B 17 896 48 834 48 834 – 896² /17 = 1609,53
C 15 622 28 234 28 234 – 622² /15 = 2441,73
SCR A+B+C = 5219,44
Total de Gps SCT
A+B+C 43 1961 96 077 96 077 – 1961² /43 = 6646,28
37
Objectifs visés à la fin du cours
• Notions qui devraient être comprises :
– Intervalle de confiance pour une proportion dans une
population
– Test d’hypothèse dans une population pour une proportion
"vraie"
– Intervalle de confiance de la différence entre deux
proportions "vraies" – échantillons :
• Indépendants
• Appariés
– Tests d’égalité de deux proportion vraies – échantillons
• Indépendants
• appariés
– Table de contingence
• Comment pouvons-nous comparer deux distribution de
fréquence ?
• En particulier lorsque nous avons un tableau croisé,
représentant le facteur de risque X et une variable Y,
représentant la présence ou non d’une certaine affection ?
• Ou encore, existe-t-il une relation statistique entre X et Y ?
Intervalle de confiance
• Proportion "vraie" et pour la différence "vraie" entre 2
échantillons indépendants :
Soit :
• z(1-α/2) le percentile d’ordre 1-α/2 de la loi normale centrée
réduite
• p les proportions observées dans les échantillons avec q=1-p
• π les proportions dans les populations (inobservées)
• IC à 100(1- α)% pour π "vraie" dans la population est
p z (1 ) pq
n
2
• n la taille de l’échantillon
• o1 nombre d’individus ayant les caractéristiques considérées
• o2=n- o1 nombre individus sans caractéristiques considérées
• p la proportion observées dans l’échantillon (p=o1/n)
• π la proportion "vraie" dans la pop. dont a été tiré l’échan.
• π0 une proportion théorique donnée
• L’hypothèse nulle est H0 : π= π0 p0
z
• En supposant H0 vraie, on calcule → 0(10)
n
Ou (o e )
→ 2 1 1 2 2
2
(o e )2
e1 e2
• e1 et e2 sont les nombre de sujets "attendus" sous H0
• e1=n π0 et e2= n(1-π0)
Conclusion
• Conclusion du test
– Déterminer la p-value avec la distribution de z ou du χ² ddl=1
– Conclure à l’acceptation de H0 ou à son rejet selon que la p-
value > seuil ou ≤ au seuil
Exemple
E1 E2 En total E1 E2 En total
A1 o11 t1 A1 e11 t1
Ai oij tj Ai eij Tj
total n1 n2 nj N total n1 n2 nj N
• Avec eij=njti/N
• et o e ij
2
c
2 ij
e ij
Calcul du χ²
• Les eij (effectifs théoriques) doivent être ≥ 5, sinon on fait des
regroupements des modalités de la variable
• On lit dans la table au seuil 5% et au ddl (l-1)(c-1) degré de
liberté ( χt² )
• Si χc² dépasse χt², on rejette alors l’hypothèse nulle
Exemple (1)
• Le tableau ci-dessous représente la distribution de la présence de l’
œdème à l’admission dans établissement de soins et de la
mortalité chez des enfants dans une localité
Décédés Vivants
Œdème
présent 106 214
absent 83 703
• 189X320/1106=54,7
• Le χ² calculé > au χ² de ddl=(2-1)x(2-1)=1 à 5%
10654,72 214265,32 83134,32 703651,72
2
54,7 265,3 134,3 651,7 81,7
• Il existe une association statistiqnt significative entre les 2 variables
• La proportion de décès est significativement + élevé chez les
enfants ayant un œdème à l’admission
Exemple (2)
• On désire étudier la distribution de l’évolution d’une maladie divisée en
3 classes: guérison, rechute, décès en fonction de l’administration d’un
médicament divisé en 3 classes : abstention (NT), voie orale (VO), voie
parentérale (IV); l’échantillon est composé de 81 individus.
Le tableau donne les effectifs de chaque classe de A dans chaque classe
de B
Médicament
NT VO IV Total
Evolution de la maladie
guérison 5 6 16 27
rechute 9 9 10 28
décès 15 4 7
Total 29 19 33 81
Exemple (3)
Le test de dépistage pour le virus VIH est proposé
systématiquement lors d’une grossesse. On désire savoir si la
fréquence d’acceptation de ce test varie selon la religion de la
femme enceinte. Un échantillon de 3608 femmes est étudié.
Religion
A B C D Total
Test effectué 477 1746 248 135 2606
Test non effectué 135 582 218 67 1002
Total tests 612 2328 466 202 3608
% tests effectués 77,9 75 53,2 66,8 81
Exemple (4)
Parmi 3225 accouchements survenus dans 2 maternités, 244
césariennes primaires ont été enregistrés. Les 244 cas de césariennes
primaires ont été comparés à 244 accouchements par voie basse
(témoins).
On a observé les distributions suivantes pour l’âge et la taille de la mère
chez les cas et les témoins :
non 495 12
oui 65 135
2 i i 2
i ei bc
64
Objet des études de Corrélation et de Régression
Sur un échantillon de 200 naissances, l'âge de la mère (x) et le
poids de naissance de l'enfant (y)
A partir de ces 200 couples de valeurs (x,y), on se pose la
question suivante : y-a-t-il une relation entre le poids de naissance
de l'enfant et l'âge de sa mère?
Si on prend dans la population d'origine une femme enceinte
dont on connaît l'âge, peut-on prédire le poids de naissance de son
enfant?
Plus généralement, si on connaît l'âge de la mère, le terme de
la grossesse à la naissance et par exemple l'état nutritionnel de la
mère, que peut-on dire du poids de naissance de l'enfant qui va
naître?
65
Corrélation et de Régression
Définitions
L'analyse de régression et de corrélation: outils mis au point pour
étudier et mesurer la relation statistique entre 2 variables. On
parlera de régression et de corrélation simples
Plus de 2 variables, on parlera de régression et de corrélation
multiples
Dans ce chapitre, il s’agira de corrélation et de régression dans le
cas de variables quantitatives
La régression quantifie la relation entre une variable y et une (ou
plusieurs) variable(s) x sous la forme de équation du type y = f (x)
Elle permet de prédire ou d'estimer la valeur de la variable y à
partir de la valeur prise par la variable x (ou les variables x)
66
La Régression
La régression linéaire dont la forme de l'équation est la suivante:
y=bx+a
Variable dépendante: celle qui doit être estimée
Elle est appelée (y)
Variable indépendante ou explicative: est censée exercer une
influence sur la variable dépendante càd sur la variable qui explique
les fluctuations observées sur la variable dépendante
Elle est appelée (x)
67
La Régression
68
69
La Régression
2. La droite de régression
Sur le diagramme de dispersion, la droite de régression décrit la
relation qui existe entre y et x
Équation de régression est utilisée pour ajuster la droite de
régression aux données du diagramme de dispersion
L'équation de la droite de régression sera : y=bx+a
b = la pente de la droite de régression
a = l'ordonnée à l'origine (la valeur de y pour x = 0)
x = valeur de la variable indépendante
yc = valeur estimée (calculée) de la variable dépendante
n XY ( X )( Y ) Y X
b a b Y bX
n ( X ²) ( X )² n n
70
La Régression
Hypothèses
Pour faire des inférences, il faut que certaines hypothèses soient
vérifiées :
• la relation entre les variables X et Y est linéaire
• A et B de la droite de régression pour la population sont inconnus
mais fixes
• a et b calculées à partir d’échantillon sont les estimations de A et B
• pour chaque X, les valeurs Y suivent une distribution normale dont
la moyenne est égale à la valeur de Y sur la droite de régression
• Homoscédasticité = distributions des valeurs de Y pour chacune
des valeurs de X qui ont le même écart-type
• chaque valeur de Y dans ces distributions est indépendante des
autres
71
La Régression
Un test t pour la pente (valeur de b)
Hypothèse nulle, Ho: b = 0 Hypothèse alternative, HA: b 0
- Seuil de signification : 0,05
- Pour un échantillon de petite taille (n 30), lire la table t
- Le degrés de liberté = n - 2
- Calcul du test statistique t (voir formule) :
b0 ou
t r n2
s t
b 1 r²
sb est une estimation de l'erreur type sur b calculée avec la formule:
s ² b = pente de la droite de régression
y
b²
s ² Sb = estimation de l'erreur-type sur b
s x
a = ordonnée à l'origine
b n2
n = taille de l'échantillon
72
La Corrélation
Analyse de Corrélation
c’est se forger des mesures pour juger du degré d'association ou de
corrélation qui existent entre les variables ou pour
juger de la qualité de l'ajustement des points par la droite de
régression
73
La Corrélation
74
La Corrélation
75
La Corrélation
Il n'est pas aussi utile que le R², parce qu'il représente une mesure
abstraite qui ne se prête pas à une interprétation précise
C’est une racine carrée d'un % et ne peut donc pas être interprété
en termes de %
76
La Corrélation
n XY ( X )( Y )
r
n X ² ( X )² * n Y ² ( Y )²
77
La Corrélation
Erreurs Fréquentes et Limites
L'analyse de corrélation est utilisée, à l'occasion, pour établir une
relation de cause à effet. Le R² n'indique nullement la nature de la
relation qui unit les 2 variables
78
Exercice d’Application
On estime la performance des infirmiers d’une zone sanitaire à partir de
leurs résultats à un test (voir le tableau ci-dessous)
Infirmier Performance Test
X Y
A 30 6 On vous demande de:
B 49 9 1- formuler l'équation de la droite
C 18 3 de régression après avoir calculé
D 42 8 les valeurs de a et de b
E 39 7 2- faire l’inférence en testant le t de
F 25 5 la pente à un seuil de 5%
G 41 8
3- calculer le coefficient de
H 52 10 détermination
Total 296 56
79
Exercice d’Application
Infirmier Performance Test
X Y XY X² Y²
A 30 6 180 900 36
B 49 9 441 2401 81
C 18 3 54 324 9
D 42 8 336 1764 64
E 39 7 273 1521 49
F 25 5 125 625 25
G 41 8 328 1681 64
H 52 10 520 2704 100
Total 296 56 2257 11920 428
80