Pr.
BOUAITI
30/09/2015
UNIVERSITE MOHAMMED V - RABAT
FACULTE DE MEDECINE ET DE PHARMACIE
BIOSTATISTIQUE
Pr E. BOUAITI
UPR Mdecine sociale
Programme
1.
2.
3.
4.
5.
6.
7.
8.
Principes de base en Biostatistiques
La statistique descriptive
Organisation et Prsentation des donnes
Estimation et fluctuations dchantillonnage
Les principales lois de probabilit
Principes des tests statistiques
Les tests de comparaison de pourcentages
Les tests de comparaison de moyennes
30/09/2015
Programme
1.
2.
3.
4.
5.
6.
7.
8.
Principes de base en Biostatistiques
La statistique descriptive
Organisation et Prsentation des donnes
Estimation et fluctuations dchantillonnage
Les principales lois de probabilit
Principes des tests statistiques
Les tests de comparaison de pourcentages
Les tests de comparaison de moyennes
30/09/2015
Pr. BOUAITI
30/09/2015
La Statistique Descriptive
Plan
Dfinition
Rappels
Statistique descriptive : Variable qualitative
Statistique descriptive : Variable quantitative
Statistique deux dimensions
Conclusion
30/09/2015
La Statistique Descriptive
Dfinition
Cest l'ensemble des mthodes et
techniques permettant de
Prsenter
Dcrire
et Rsumer
des donnes nombreuses et varies.
30/09/2015
Pr. BOUAITI
30/09/2015
La Statistique Descriptive
Dfinition
Peut concerner :
Une variable la fois : statistique une
dimension
Deux variables la fois : statistique deux
dimensions
Plus de deux variables la fois : statistique
multidimensionnelle.
30/09/2015
La Statistique Descriptive
Dfinition
Dcrire les donnes par
Des paramtres statistiques :
Rduction des donnes quelques valeurs
numriques caractristiques.
Des tableaux : distributions de frquences.
Des diagrammes : graphiques.
Pour la bien mener il faut savoir de quelle type de
variable sagit-il
30/09/2015
Plan
Dfinition
Rappels
Statistique descriptive : Variable qualitative
Statistique descriptive : Variable quantitative
Statistique deux dimensions
Conclusion
30/09/2015
Pr. BOUAITI
30/09/2015
Rappels : Base de donnes
Nom
Situation de
famille
Nombre
denfants
Age
sexe
Patient 1
Mari
30
Patient 2
Veuf
45
Patiente 3
Marie
27
Patiente 4
Clibataire
32
Patient 5
Mari
39
Le nombre d'individus tant gnralement grand, une telle srie brute est
difficilement lisible et interprtable. Il est indispensable de la rsumer.
30/09/2015
10
Exemple : base de donnes
Npatient
15
208
125
62
135
90
223
252
18
49
58
11
234
197
40
50
330
255
274
102
250
336
241
133
142
149
140
283
103
296
Prnom
Sanae
Zineb
Fatima
Fatima Zahra
Maguat
Mahjouba
Loubna
Fatima Zahra
Fatima
Houda
Hanane
Najat
Hadhoum
Rahma
Halima
Amina
Saida
Zinba
Kaoutar
Khadija
touriya
Fatima
Touria
Fatima Zahra
Fatima
Najat
Hassna
Achoura
Lekheila
Amina
30/09/2015
Circonstances
phlyctne : henn
liq_chd
flam_gaz
flamme
flamme
liq_chd
flamme
liq_chd
ex_bo_gz
ex_bo_gz
liq_chd
liq_chd
flam_gaz
liq_chd
liq_chd
flam_gaz
ex_bo_gz
liq_chd
flam_gaz
liq_chd
flamme
flamme
ex_bo_gz
flamme
liq_chd
ex_bo_gz
ex_bo_gz
flamme
liq_chd
delaiconsultation
mme jour
dans la semaine
mme jour
aprs un mois
dans la semaine
mme jour
mme jour
dans la semaine
dans la semaine
aprs une semaine
mme jour
mme jour
dans la semaine
dans la semaine
mme jour
aprs une semaine
mme jour
dans la semaine
mme jour
mme jour
aprs une semaine
dans la semaine
mme jour
mme jour
dans la semaine
aprs une semaine
Sexe Age
F
20
F
20
F
21
F
23
F
24
F
24
F
26
F
26
F
26
F
27
F
27
F
27
F
28
F
28
F
29
F
29
F
30
F
30
F
30
F
31
F
32
F
32
F
32
F
32
F
34
F
34
F
35
F
35
F
36
F
36
Annee
2 008
2 004
2 006
2 007
2 006
2 006
2 004
2 009
2 008
2 007
2 007
2 008
2 004
2 005
2 008
2 007
2 010
2 009
2 009
2 006
2 009
2 010
2 004
2 006
2 005
2 005
2 005
2 009
2 006
2 010
orig_vil
Dur_hosj type_brul ATCD
19
2
21
0
45
0
Kenitra
14
0
Mauritanie
110
0
Temara
12
0
Casa Blanca
10
0
Rabat
22
0
Taounate
21
0
Kenitra
21
0
Taounate
30
0
Sal
14
0
Rabat
5
0
88
0
Kenitra
9
0
Kenitra
13
0
Midelt
62
0
Tadla
69
0
7
0
Khemissat
50
0
Sal
35
0
Tiflet
92
0
13
0
Eljadida
0
24
0
52
0
Mkns
9
0
Tiflet
93
0
Mauritanie
27
0
Agadir
21
0
2
2
2
2
2
2
1
1
2
2
2
1
2
2
2
2
2
2
1
2
1
2
1
1
2
2
2
2
2
2
11
Rappels : variables
Dichotomiques
Binaires
Observables
Variables
qualitatives
Nominales
Variables
Mesurables
30/09/2015
Ordinales
Variables
quantitatives
Continues
Discrtes
- Sexe
-Niveau
dtude
- Couleur
-Ville dorigine
-Taille
-Poids
-Nombre
de
patients
12
Pr. BOUAITI
30/09/2015
Plan
Dfinition
Rappels
Statistique descriptive : Variable qualitative
Statistique descriptive : Variable quantitative
Statistique deux dimensions
Conclusion
30/09/2015
13
Statistique descriptive
Variable qualitative
Dichotomiques
- Sexe
Binaires
Observables
Variables
qualitatives
Nominales
Variables
Mesurables
30/09/2015
Variables
quantitatives
-Niveau
dtude
Ordinales
- Couleur
-Ville dorigine
Continues
Discrtes
-Taille
-Poids
-Nombre
de
patients
14
Statistique descriptive
Variable qualitative
Un caractre qualitatif ne peut tre mesur
Do notion de frquence
Frquence absolue : effectif
Nombre dindividus par classe : n
100 sujets: 24 ont la maladie x
Frquences relatives
Pour chaque classe, le rapport de son effectif au
nombre total dindividus
Exprimes en pourcentage
p = : 0,24 ou 24 %
30/09/2015
15
Pr. BOUAITI
30/09/2015
Statistiques descriptives
variables qualitatives
xi
ni
fi
x1
n1
f1
x2
n2
f2
xp
np
fp
S1 xi
30/09/2015
Chaque ligne
correspond une
modalit diffrente.
ni correspond au nombre
dobservations (effectif)
ayant comme valeur xi
fi correspond la
frquence (pourcentage)
dobservations ayant
comme valeur xi
fi
ni
X 100
n
16
Statistiques descriptives
variables qualitatives
On a not la situation familiale des 150
patients dune tude
Nom
Situation de famille
Patient 1
Mari
Patient 2
Veuf
Patiente 3
Marie
Patiente 4
Clibataire
Patient 5
Divorc
30/09/2015
17
Statistiques descriptives
variables qualitatives
30/09/2015
Modalits
Effectifs (n)
Mari
80
Clibataire
30
Veuf
20
Divorc
20
Total
150
Pr. BOUAITI ([email protected])
18
Pr. BOUAITI
30/09/2015
Statistiques descriptives
variables qualitatives
Modalits
Effectifs (n)
Pourcentage
Mari
80
53,3%
Clibataire
30
20%
Veuf
20
13,3%
Divorc
20
13,3%
Total
150
100%
30/09/2015
19
Statistiques descriptives
variables qualitatives
Sexe
Masculin
70
58,3%
Fminin
50
41,7%
Total
120
100%
30/09/2015
20
Statistiques descriptives
variables quantitatives continues
Classe d'ge
ni
[14-16[
10
9,1%
[16-18[
20
18,2%
[18-20[
35
31,8%
[20-22[
15
13,6%
[22-24[
4,5%
>24
25
22,7%
Total
110
100,0%
30/09/2015
21
Pr. BOUAITI
30/09/2015
Plan
Dfinition
Rappels
Statistique descriptive : Variable qualitative
Statistique descriptive : Variable quantitative
Statistique deux dimensions
Conclusion
30/09/2015
22
Statistique descriptive
Variable qualitative
Dichotomiques
- Sexe
Binaires
Observables
Variables
qualitatives
Nominales
Variables
Mesurables
30/09/2015
Variables
quantitatives
-Niveau
dtude
Ordinales
- Couleur
-Ville dorigine
Continues
Discrtes
-Taille
-Poids
-Nombre
de
patients
23
Statistiques descriptives
variables quantitatives
Paramtres de position : Mesures de la
tendance centrale
Paramtres de dispersion
Dispersion
Position
30/09/2015
24
Pr. BOUAITI
30/09/2015
Paramtres de position
Moyenne arithmtique
Mdiane
Mode
30/09/2015
25
Moyenne arithmtique
La somme de toutes les valeurs individuelles
divise par le nombre de valeurs
=
Avec :
n : nombre dobservations
xi : les valeurs de la variable
: la somme de toutes les valeurs
observes.
30/09/2015
26
Moyenne arithmtique
Exemple
Exemple: Calculer la moyenne des valeurs
suivantes : 10, 12, 18, 20, 25, 35
30/09/2015
27
Pr. BOUAITI
30/09/2015
Moyenne arithmtique
donnes groupes
Tranches dge
Nombre (ni)
[10-20[
[20-30[
[30-40[
[40-50[
[50-60[
[60-70[
6
10
4
4
2
Total (n)
30
30/09/2015
28
Moyenne arithmtique
donnes groupes
Si les observations sont groupes en classes,
alors
=
ni : le nombre de sujets pour la classe xi
xi : la valeur centrale de la classe
30/09/2015
29
Moyenne arithmtique
donnes groupes
Valeur centrale
Tranches dge
Nombre (ni)
[10-20[
15
60
[20-30[
25
150
[30-40[
10
35
350
[40-50[
[50-60[
4
4
45
55
180
220
[60-70[
65
Total (n)
30
=
30/09/2015
(xi)
ni x xi
130
1090
= 1090/30=36,3
30
10
Pr. BOUAITI
30/09/2015
Paramtres de position
Moyenne arithmtique
Mdiane
Mode
30/09/2015
31
Mdiane
La mdiane est la valeur qui divise les
observations en 2 groupes de taille gale :
Le premier contenant les valeurs infrieures la
mdiane
Et le second les valeurs suprieures la mdiane
La valeur qui partage la srie en 2 parties
de mme effectif (ordre croissant+++)
30/09/2015
32
Mdiane
exemples
9 patients hospitaliss dans un service de
mdecine. Leurs dures de sjour (en jours)
sont les suivantes :
3; 15; 23; 46;
64; 126; 279; 623; 1350
n=3
n=3
La mdiane est la valeur de rang 5 : 64j
30/09/2015
33
11
Pr. BOUAITI
30/09/2015
Mdiane
Mthode de calcul
Classer les valeurs par ordre de grandeur
(ascendante ou descendante).
Identifier le milieu de la srie de valeurs :
Place de la valeur mdiane =
Avec N = Nombre total de valeurs dans la srie de
valeurs.
Le chiffre se trouvant cette place dans la srie de
valeurs correspond la mdiane.
30/09/2015
34
Mdiane
exemples
Mdiane dun nombre impair de donnes
10, 12, 18, 20, 25
Ranger les valeurs en ordre ascendant : 10, 12, 18, 20,
25
Dterminer le point central de la srie : (5 valeurs +1)/
2 = 3.
La mdiane est donc la valeur en 3me position dans la
srie
La 3me valeur est 18.
La mdiane quivaut donc 18.
30/09/2015
35
Mdiane
exemples
Mdiane dun nombre pair de donnes
10, 12, 18, 20, 25, 45
Ranger les valeurs en ordre ascendant : 10, 12, 18,
20, 25, 45
Dterminer le point central de la srie (6
valeurs+1)/2 = 7/2 = 3,5.
La mdiane est la valeur mi-chemin entre le 3me
et le 4me chiffre : Le 3me chiffre est 18 et le 4me
est 20.
La mdiane est (18+20)/2 = 19.
30/09/2015
36
12
Pr. BOUAITI
30/09/2015
Moyenne - Mdiane
Srie de valeurs:
Moyenne
10, 12, 18, 20, 25
17
18
21,7
19
10, 12, 18, 20, 25, 45
Mdiane
La moyenne est sensible aux valeurs extrmes
La mdiane est insensible aux valeurs extrmes
30/09/2015
37
Paramtres de position
Moyenne arithmtique
Mdiane
Mode
30/09/2015
38
Mode
La valeur que lon observe le plus
frquemment dans une srie de valeurs.
Exemple 1 : Le mode des valeurs 10, 12, 12,
12, 18, 18, 20, 25, 35 est 12
Exemple 2 : La srie 10, 12, 12, 12, 18, 18, 18,
20, 25, 35 2 modes, 12 et 18
30/09/2015
39
13
Pr. BOUAITI
30/09/2015
Mode
Distribution unimodale
Distribution bimodale
N
250
120
200
80
150
100
40
50
0
45
98
150
203
256
309
361
414
467
519
2.1
572
3.3
4.6
5.8
7.0
8.3
9.5
10.8
12.0
13.3
14.5
Glycmie (mmol/l)
Cratinine (mol/l)
30/09/2015
40
Mode, mdiane, moyenne
Si distribution unimodale, symtrique
les 3 concident
Mode =
Mdiane =
Moyenne
0.4
ddp
0.3
0.2
0.1
0.0
-4
-2
18Pr. BOUAITI
22([email protected])
23
25
30/09/2015
27
41
Mode, mdiane, moyenne
Si distribution asymtrique
droite
mode < mdiane < moyenne
gauche
moyenne < mdiane < mode
Mode
Mode
Histogramme
Mdiane
20
Mdiane
Moyenne
18
Moyenne
16
14
12
10
8
6
4
2
0
1
30/09/2015
5
PSA (ng/l)
Notes
10
42
14
Pr. BOUAITI
30/09/2015
Statistiques descriptives
variables quantitatives
Paramtres de position : Mesures de la
tendance centrale
Paramtres de dispersion
Dispersion
Position
30/09/2015
43
Paramtres de dispersion
tendue
Les quartiles
La variance
cart-type
30/09/2015
44
tendue
Ltendue indique la distance entre la plus
grande et la plus petite valeur observe dans
la distribution.
tendue = valeur maximale - valeur minimale
Exemple :
Une srie : 10, 12, 18, 20, 25, 35
tendue : 10 35.
30/09/2015
45
15
Pr. BOUAITI
30/09/2015
tendue
Histogram m e
Histogram m e
200
140
180
120
160
100
120
Nombre
Nombre
140
100
80
60
80
60
40
40
20
20
0
0
0
100 200 300 400 500 600 700 800 900 1000
Cratinine J PBR
100
200
300
400 500 600
Cratinine J PBR
700
800
900
Valeur min
= 45mol/l
Valeur min
= 45mol/l
Valeur max
= 939 mol/l
Valeur max
= 572 mol/l
Etendue = 894 mol/l
30/09/2015
Etendue = 527 mol/l
Pr. BOUAITI (
[email protected])
46
Paramtres de dispersion
tendue
Les quartiles
La variance
cart-type
30/09/2015
47
Les quartiles
Ce sont des valeurs (Q1, Q2, Q3) qui sparent
lchantillon en 4 parties qui contiennent le
mme nombre de donnes.
25%
Quart 1
30/09/2015
25%
Quart 2
25%
Quart 3
25%
Quart 4
48
16
Pr. BOUAITI
30/09/2015
Les quartiles
Le premier quartile ou le quartile infrieur Q1 =
25 % des valeurs sont infrieures Q1 et 75 % lui
sont suprieures
Le troisime quartile ou le quartile suprieur Q3
= 75 % des valeurs sont infrieures Q3 et 25 %
lui sont suprieures
La mdiane = le deuxime quartile Q2
30/09/2015
49
Les quartiles
Mdiane de la distribution (15+1)/2
= 8e donne
3 4
9 10 11 12
13
14
15
3 4 4 5 5 5 6 6 6 6 8 8 10 12 15
Quart 1
Quart 2
Q2
Quart 3
Mdiane des donnes
prcdent Q2
30/09/2015
Quart 4
Q3
Q1
Mdiane des donnes qui
suivent Q2
50
Les quartiles
exemple
Donnes ordonnes : 10, 12, 18, 20, 25, 45
Mdiane Q2: (20 + 18)/2 = 19
Quartile infrieur Q1:
la mdiane de 10, 12, 18 = 12
Quartile suprieur Q3:
la mdiane de 20, 25, 45 = 25
30/09/2015
51
17
Pr. BOUAITI
30/09/2015
Paramtres de dispersion
tendue
Les quartiles
La variance
cart-type
30/09/2015
52
La variance
La variance :
La moyenne des carrs des carts la moyenne
La somme des carrs des carts la moyenne
divise par le nombre d'observations
30/09/2015
)2
1
53
La variance
mthode de calcul
Calculer la moyenne m
Calculer la diffrence entre chaque
observation et la moyenne (xi - m)
Porter chacune de ces diffrences au carr
(xi - m)2
Additionner tous ces carrs et diviser la
somme des carrs par le nombre
dobservations moins 1 (n -1)
30/09/2015
54
18
Pr. BOUAITI
30/09/2015
La variance
exemple
Calculer la variance s2 : 10, 12, 18, 20, 25, 35
Calculer la moyenne : m=20
Observations xi
Diffrence la moyenne
xi- 20
Carr de la diffrence la
moyenne
10
12
18
20
25
35
-10
-8
-2
+5
+15
100
64
25
225
Calculer la somme des carrs de la diffrence la
moyenne : 100+64+4+0+25+225=418
Diviser la somme des carrs par n -1 soit :
30/09/2015
= 83,6
55
Paramtres de dispersion
tendue
Les quartiles
La variance
cart-type
30/09/2015
56
cart-type
Mesure la dispersion autour de m
La mesure de dispersion la plus couramment
utilise
= Standard Deviation (SD)
Calcul
s=
30/09/2015
)2
1
57
19
Pr. BOUAITI
30/09/2015
cart-type
x1
x12
x3
x2
x11
x4
x10
x5
x9
x8
x7
x6
Reprsente l cart moyen des donnes de
lchantillon par rapport la moyenne
30/09/2015
58
cart-type
10
25
35
m=20
18
20
12
Reprsente l cart moyen des donnes de
lchantillon par rapport la moyenne
30/09/2015
59
cart-type
En pratique :
Calculer la variance
Puis prendre la racine carre du rsultat obtenu
Exemple : calculer lcart-type de la srie de 6
valeurs : 10, 12, 18, 20, 25, 35
On calcul la variance : s2 =83,6
Puis lcart-type est la racine carre du rsultat
obtenu := 83,6 = 9,14
30/09/2015
60
20
Pr. BOUAITI
30/09/2015
La signification probabiliste de lcart-type
Echantillon 2
Echantillon 1
s2 < s1
s1
s2
m
30/09/2015
61
La signification probabiliste de lcart-type
50 % des individus en-dessous de la moyenne et 50 % au-dessus
68 % des individus entre -1 et +1
95 % des individus entre -1,96 et +1,96
99,7 % des individus entre -3 et +3
30/09/2015
62
La signification probabiliste de lcart-type
Exemple : Chez le sujet adulte non diabtique
La glycmie est distribue selon une loi normale
Moyenne : 0,86 g/L
cart - type 0,07 g/L
95 % des individus entre -1,96 et +1,96
95 % des sujets normaux de cette
population ont une glycmie comprise
entre 0,72 et 1,00 g/L
30/09/2015
63
21
Pr. BOUAITI
30/09/2015
Plan
Dfinition
Rappels
Statistique descriptive : Variable qualitative
Statistique descriptive : Variable quantitative
Statistique deux dimensions
Conclusion
30/09/2015
64
Statistique descriptive
2 dimensions
Objectif : mettre en vidence les relations qui
existent entre deux sries d'observations.
Nature des variables : les deux variables peuvent
tre
Qualitatives
Quantitatives
Ou l'une quantitative et l'autre qualitative.
Deux variables mesures chez le mme individu
Exemples :
Prsence dun cancer et tabagisme...
Poids et taille
30/09/2015
65
Statistique descriptive 2 dimensions
deux variables qualitatives
Distribution de frquences : tables de contingence.
Sujet
1
2
3
4
5
6
7
8
9
10
30/09/2015
Cancer
oui
oui
non
oui
oui
oui
oui
oui
non
non
Tabac
oui
oui
non
oui
oui
non
non
oui
oui
Oui
oui
Tabac non
total
oui
40
10
50
Cancer
non
20
30
50
total
60
40
100
66
22
Pr. BOUAITI
30/09/2015
Statistique descriptive 2 dimensions
deux variables qualitatives
Effectif d'une case = nij
Total de chaque ligne = li
oui
Tabac non
total
oui
40
10
50
Cancer
non
20
30
50
total
60
40
100
Total de chaque colonne = cj
Nombre de mesures totale : n
30/09/2015
67
Statistique descriptive 2 dimensions
deux variables qualitatives
100 = Nombre total de mesures.
50 = Nombre d'individus ayant
un cancer.
60= Nombre d'individus sont
fumeurs.
40 / 100 = % d'individus
fumeurs ayant un cancer.
oui
40 / 60 = % d'individus parmi les
fumeurs ayant un cancer.
Tabac non
40 / 50 = % d'individus parmi les
total
malades ayant un cancer qui
sont des fumeurs.
oui
40
10
50
Cancer
non
20
30
50
total
60
40
100
Recherche de facteurs de risques
30/09/2015
68
Recherche de facteurs de risques
Cancer du poumon et tabagisme
Frquences relatives : Risques
Cancer chez les
fumeurs:
R1 = 40/60 = 0,70
Cancer chez les non
fumeurs:
R0 = 10/40 = 0,25
30/09/2015
oui
Tabac non
total
oui
40
10
50
Cancer
non
20
30
50
total
60
40
100
69
23
Pr. BOUAITI
30/09/2015
Recherche de facteurs de risques
Risque relatif :
Le rapport du risque chez les exposs (R1) sur le
risque des non exposs (R0).
RR = R1/R0 = 0,7/0,25 =2,8
Odds ratio (OR) ou rapport de cotes:
Cote (Odds) :
Chez les fumeurs : R1/(1-R1) = 2,33
Chez les non fumeurs : R0/(1-R0) = 0,33
OR = 2,33/0,33 = 7
30/09/2015
70
Statistique descriptive 2 dimensions
deux variables quantitatives
patient
1
2
3
4
5
6
7
8
9
10
30/09/2015
Age (ans)
21
24
25
22
19
21
24
22
22
21
taille (cm)
169
188
162
161
180
189
184
151
175
162
71
Statistique descriptive 2 dimensions
deux variables quantitatives
Coefficient de corrlation linaire ( ou r)
X ,Y
COV(X, Y)
VAR(X) VAR(Y)
COV (X,Y) = moyenne des produits des carts
la moyenne
30/09/2015
72
24
Pr. BOUAITI
30/09/2015
Coefficient de corrlation linaire
Mesure l'intensit de la liaison linaire entre X et Y
Le coefficient de corrlation varie entre -1 et 1.
0 signifie une association nulle
Le signe correspond la direction de la corrlation.
Quand les deux valeurs augmentent ou diminuent
ensemble il s'agit d'une corrlation positive.
Quand une valeur augmente alors que l'autre diminue il
s'agit d'une corrlation ngative
|x,y| Proche de 1 RELATION LINEAIRE entre les
variables
30/09/2015
73
Exemple
30/09/2015
74
Conclusion
La statistique descriptive
Premire tape dtudes pidmiologiques
Obligatoire
Variable qualitative
Effectif & Pourcentage
Variable quantitative
Moyenne cart- type
Mdiane et quartiles
30/09/2015
75
25