Cours Biostatistique I 1ere Medecine (ALIA Zeid)
Cours Biostatistique I 1ere Medecine (ALIA Zeid)
Cours de Biostatistique 1
Statistique descriptive et probabilité
Préparé par
Dr. ALIA Zeid
Introduction 1
Chapitre 1 : Statistique(s) et Probabilité(s) 3
1.1 Statistique 3
1.2 Population et échantillon 3
1.3 Statistique et probabilité 4
1.4. Définitions générales 5
Chapitre 2 : Rappels Statistiques descriptives 7
2.1. Variables, données statistiques, tableaux, effectifs 7
2.1.1 Définitions fondamentales 7
2.1.1.1 La science statistique 7
2.1.1.2 Mesure et variable 7
2.1.1.3 Typologie des variables 7
2.1.1.4 Série statistique 8
2.1.2 Variable qualitative nominale 8
2.1.2.1 Effectifs, fréquences et tableau statistique 8
2.1.2.2 Diagramme en secteurs et diagramme en barres 9
2.1.3 Variable qualitative ordinale 10
2.1.3.1 Le tableau statistique 10
2.1.3.2 Diagramme en secteurs et diagramme en barres 11
2.1.4 Variable quantitative discrète 12
2.1.4.1 Tableau statistique 12
2.1.4.2 Diagramme en bâtonnets des effectifs 13
2.1.4.3 Fonction de répartition 14
2.1.5 Variable quantitative continue 14
2.1.5.1 Tableau statistique 14
2.1.5.2 Histogramme 16
2.1.5.3 Fonction de répartition 17
2.2. Statistique descriptive univariée 17
2.2.1 Paramètres de position 17
2.2.1.1 Mode (Mo) 17
2.2.1.2 Moyenne (M) 19
2.2. 1. 3. Médiane (Me) : 20
2.2. 1. 4. Quantile (Qi) : 21
2.2.2 Paramètres de dispersion 22
2.2.2. 1. Etendue 22
2.2.2.2. Distance interquartile 22
2.2.2.3. Variance et écart-type 22
2.2.2.5. Ecart absolu moyen. 24
2.2.2.6. Coefficient de variation. 25
2.2.3. Moments 25
2.2.4. Paramètres de forme 26
2.2.4.1. Coefficient d'asymétrie. 26
2.2.4.2. Paramètre d’aplatissement (kurtosis) 28
2.2.5 Boîte à moustaches : 29
2.3. Statistique descriptive bivariée 32
2.3.1 Série statistique bivariée 32
2.3.2 Deux variables quantitatives 32
2.3.2.1 Représentation graphique de deux variables 32
2.3.2.2 Analyse des variables 33
2.3.2.3 Covariance 33
Biostatistique 1 ALIA Zeid
2.3.2.4 Corrélation 34
2.3.2.5 Droite de régression 35
Chapitre 3 : Rappels mathématiques 38
3.1 Ensembles, éléments : 38
3.2 Opérations sur les ensembles : 38
3.3 Ensembles finis, dénombrables, non dénombrables 40
3.4 Ensembles produits 40
3.5 Familles d’ensembles 41
3.6 Autres rappels mathématiques 41
3.6.1 Rappel sur les sommes 41
3.6.2 Rappel sur les intégrales 42
Chapitre 4 : Eléments de calcul des Probabilités 43
4.1 Probabilités 43
4.1.1 Evénement 43
4.1.2 Opérations sur les événements 43
4.1.3 Relations entre les événements 44
4.1.4 Ensemble des parties d’un ensemble et système complet 44
4.1.5 Axiomatique des Probabilités 44
4.1.6 Probabilités conditionnelles et indépendance 46
4.1.7 Théorie des probabilités totales et théorème de Bayes 47
4.2 Analyse combinatoire 50
4.2.1 Introduction 50
4.2.2 Permutations (sans répétition) 50
4.2.3 Permutations avec répétition 50
4.2.4 Arrangements (sans répétition) 51
4.2.5 Combinaisons 51
4.3 Variables aléatoires 52
4.3.1 Définition 52
4.3.2 Variables aléatoires discrètes 53
4.3.2.1 Définition, espérance et variance 53
4.3.2.2 Loi de Bernoulli 54
4.3.2.3 Loi binomiale 54
4.3.2.4 Loi de Poisson 57
4.3.3 Variable aléatoire continue 58
4.3.3.1 Définition, espérance et variance 58
4.3.3.2. Loi normale (ou loi de Laplace-Gauss ou loi de Gauss) 60
4.3.3.3. Distribution exponentielle 66
4.4 Distribution bivariée 67
4.4.1 Cas continu 67
4.4.2 Cas discret 68
4.4.3 Indépendance de deux variables aléatoires 69
Références bibliographique 70
Tables statistique 72
Biostatistique 1 ALIA Zeid
Introduction
Cette introduction décrit quelques exemples typiques de problèmes statistiques dans les
sciences médicales et biologiques. La plupart des exemples provient du livre de Brown
and Hollander (1978). Les techniques nécessaires pour résoudre ces problèmes sont
traitées dans les chapitres suivants.
Exemples de problèmes statistiques
Attitude des médecins par rapport à deux types d’assurés
Une étude conduite à la Clinique pédiatrique de la Stanford University Medical School
(Cannon and Remen, 1972) avait pour but d’étudier l’association entre le type
d’assurance des patients et les services proposés. Le 50% des enfants qui demandaient
une consultation ambulatoire à la clinique étaient couverts par un programme
d’assistance, appelé Medi-Cal, qui bénéficiait d’une subvention fédérale, tandis que le
reste était couvert par d’autres sources (assurances privées, payements privés, etc.). La
question posée était : est-ce que le service proposé aux patients “Medi-Cal” et aux
patients “Non Medi-Cal” est le même ?
En effet, des hypothèses différentes pouvaient être formulées:
1. l patient Medi-Cal re¸coit plus de tests de diagnostic en moyenne car le coût de l’acte
médical est totalement couvert par son assurance;
2. le patient Medi-Cal re¸coit moins de tests car il est peu intéressé à l’élaboration du
diagnostic;
3. les patients Medi-Cal et les patients Non Medi-Cal reçoivent des traitements différents
car le patient Medi-Cal suit moins les prescriptions de son médecin que le patient Non
Medi-Cal. Il est alors préférable de recourir à l’hospitalisation plutôt qu’au traitement
ambulatoire, ou à des injections à long effet plutôt qu’à un traitement oral et journalier.
La question étant complexe, il a fallu la simplifier et réduire l’étude aux cas bien
document ès avec un diagnostic clair et un traitement standard.
Dans cet échantillon, les patients Medi-Cal reçoivent plus d’injections intramusculaires
que les patients Non Medi-Cal. La question originale devient alors un problème
statistique : est-ce que ce résultat est valable pour l’ensemble (non observé) de tous les
cas de pneumonie ? Pourrait-on obtenir le même tableau par le simple mécanisme de
sélection (au hasard) de l’échantillon ?
Pour y répondre il faut alors:
1
Biostatistique 1 ALIA Zeid
2
Biostatistique 1 ALIA Zeid
3
Biostatistique 1 ALIA Zeid
4
Biostatistique 1 ALIA Zeid
en utilisant les mathématiques, de prédire le comportement d’un modèle donné (c’est par
exemple une « loi » de la physique) : c’est la démarche déductive. A l’inverse, observant
des faits expérimentaux il va tenter de dégager des propriétés générales du phénomène
observé qu’il va en général représenter sous forme d’un modèle (toutes les lois de la
physique et de la chimie sont des modèles mathématiques les plus généraux possibles des
faits expérimentaux) : c’est la construction inductive de la théorie. Cette démarche
générale va plus loin car le modèle permet de prédire des expériences non réalisées. Si les
prédictions ainsi réalisées sont contradictoires avec les résultats expérimentaux alors on
pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; dans le cas
contraire on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, à
l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des éléments
permettant de réfuter le modèle. Nous verrons dans la suite que cette approche se
transpose exactement dans la démarche statistique, en particulier dans le domaine des
tests.
1.4. Définitions générales
Statistique : L’art de collecter, d’analyser et d’interpréter des « données » pour évaluer
la « fiabilité » des décisions fondées sur ces « données » – une des manières de
représenter et de structurer les connaissances disponibles sur un domaine.
• Biostatistiques : application des statistiques à des problèmes biologiques.
Donnée (valeur) = résultat de l’observation d’un individu.
– Observer = réduire un objet infiniment complexe à un nombre limité de
caractéristiques.
• Bien choisir la « caractéristique » reflète déjà une connaissance sur l’individu.
• Observer nécessite un instrument de mesure
• Le plus souvent, la « caractéristique » n’est intéressante que si l’on peut l’observer sur
plusieurs individus. Généralement, elle n’est pas strictement identique d’un individu à
l’autre. On parlera donc de variable, et on dira que la donnée observée est la « réalisation
» de cette variable pour l’individu observé.
– Analyser : statistiques descriptives : L’art d’organiser, de présenter et de résumer les
données acquises sur des échantillons représentatifs d’une population.
– Interpréter : statistiques interprétatives, ou inférentielles : L’art d’inférer, à partir
des données acquises sur des échantillons représentatifs d’une population, le
5
Biostatistique 1 ALIA Zeid
6
Biostatistique 1 ALIA Zeid
7
Biostatistique 1 ALIA Zeid
– Variable quantitative continue : Une variable est dite continue, si l’ensemble des
valeurs possibles est continu.
Exemple 1 Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F).
Le domaine de la variable est {M, F}.
Exemple 1 Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5,. .
.C’est une variable quantitative discrète.
2.1.1.4 Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées x1, . . . , xi, . . . , xn.
Exemple On s’intéresse à la variable état-civil’ notée X et à la série statistique des
valeurs prises par X sur 20 personnes. La codification est C : célibataire, M : marié(e), V :
veuf (ve), D : divorcée.
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
MMDCCMCCCM
CMVMVDCCCM
Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.
2.1.2 Variable qualitative nominale
2.1.2.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être
ordonnées. On note J le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x1, . . . , xi , . . . , xI . On appelle effectif d’une modalité
ou d’une valeur distincte, le nombre de fois que cette modalité (ou valeur distincte)
apparaît. On note nj l’effectif de la modalité xi . La fréquence d’une modalité est l’effectif
divisé par le nombre d’unités d’observation.
fj =ni /N , i = 1, . . . , n.
Exemple : Avec la série de l’exemple précédent, on obtient le tableau 1 statistique : xi, ni
fi
8
Biostatistique 1 ALIA Zeid
xi ni fi
C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
N 20 1
Pour tracer le diagramme en secteur il faut calcule l’angle (y°) de chaque variable avec la
formule suivante : (y°) = fi *360°
9
Biostatistique 1 ALIA Zeid
Nj = , i = 1….i.
On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées
i = 1….i
Exemple On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y). La
codification a été faite selon le Tableau 2. On a obtenu la série
Codification de la variable Y
Dernier diplôme obtenu xj, Sans diplôme Sd, Primaire P, Secondaire Se, Supérieur non-
universitaire Su, Universitaire U, donc :
Sd Sd Sd Sd P P P P P P P P P P P Se Se Se Se Se Se Se Se Se Se Se
Se Se Se Su Su Su Su Su Su Su Su Su U U U U U U U U U U U U
10
Biostatistique 1 ALIA Zeid
Xi Fi xi ni Ni fi Fi
xi fi
cumule cumule
Sd x1 x1 f1 f1 Sd 4 4 0,08 0,08
P x2 x1+x2 f2 f1+f2 P 11 15 0,22 0,3
Se x3 x1+x2+.. f3 f1+f2+.. Se 14 29 0,28 0,58
Su x4 f4 Su 9 38 0,18 0,76
U x5 N f5 1 U 12 50 0,24 1
N 1 50
11
Biostatistique 1 ALIA Zeid
12
Biostatistique 1 ALIA Zeid
xi ni Ni fi Fi
1 5 5 0,1 0,1
2 9 14 0,18 0,28
3 15 29 0,3 0,58
4 10 39 0,2 0,78
5 6 45 0,12 0,9
6 3 48 0,06 0,96
8 2 50 0,04 1
50 1
Figure 6 – Diagramme en bâtonnets des effectifs pour une variable quantitative discrète
13
Biostatistique 1 ALIA Zeid
14
Biostatistique 1 ALIA Zeid
– La règle de Yule : I =
L’intervalle de classe est obtenu ensuite de la manière suivante :
Longueur de l’intervalle = (xmax − xmin) / I, où xmax (resp. xmin) désigne la plus grande
(resp. la plus petite) valeur observée.
A partir de la plus petite valeur observée, on obtient les bornes de classes en additionnant
successivement l’intervalle de classe (l’amplitude).
Exemple On mesure la taille en centimètres de 50 élèves d’une classe :
152 152 152 153 153 154 154 154 155 155 156 156 156 156 156 157 157 157 158 158
159 159 160 160 160 161 160 160 161 162 162 162 163 164 164 164 164 165 166 167
168 168 168 169 169 170 171 171 171 171
On a les classes de tailles définies préalablement comme il suit :
15
Biostatistique 1 ALIA Zeid
2.1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par
des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la
fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
classe i est donc donné par : hi = ni / ai
– On appelle hi la densité d’effectif.
– L’aire de l’histogramme est égale `a l’effectif total n, puisque l’aire de chaque
rectangle est égale à l’effectif de la classe j : ai × hi = ni. Pour un histogramme des
fréquences on a di = fi / ai
– On appelle dj la densité de fréquence.
– L’aire de l’histogramme est égale `a 1, puisque l’aire de chaque rectangle est égale
à la fréquence de la classe i : ai × di = fj. Figure 8 représente l’histogramme des
fréquences de l’exemple précèdent :
16
Biostatistique 1 ALIA Zeid
17
Biostatistique 1 ALIA Zeid
Remarques.
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
mode coïncide avec le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu'elle est
plurimodale.
Cette situation est intéressante : elle met en évidence l'existence de plusieurs sous-
populations, donc l'hétérogénéité de la population étudiée.
18
Biostatistique 1 ALIA Zeid
Exemple.
L'étude de 21 familles a conduit à la distribution suivante le nombre d'enfants dans la
famille :
19
Biostatistique 1 ALIA Zeid
La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures
à Me est égal à l'effectif des observations dont les modalités sont supérieures à Me. Cette
définition n'a de sens que si les modalités sont toutes ordonnées. Dans le cas d'une
variable qualitative il est parfois possible de choisir un ordre.
Exemple : niveau d'études scolaires : école primaire < 1er cycle < CAP < BEP < Bac <
BTS < DEUG < .... Une variable quantitative X doit être définie dans
Détermination pratique de la médiane.
Cas d'une variable discrète.
Reprenons l'exemple de variable discrète (appels téléphoniques).
La fréquence cumulée est 42,8 % pour x = 2, et 64,6 % pour x = 3.
L'intervalle [2, 3[ est appelé intervalle médian. Dans l'intervalle médian, la médiane est
calculée par interpolation linéaire.
En général on note
x(1), . . . , x(i), . . . , x(n), la série ordonnée par ordre croissant. On appelle cette série
ordonnée la statistique d’ordre. Cette notation, très usuelle en statistique, permet de
définir la médiane de manière très synthétique.
– Si n est impair
– Si n est pair
20
Biostatistique 1 ALIA Zeid
En général on note
21
Biostatistique 1 ALIA Zeid
– qème quantile (ou qème percentile) = valeur au-dessous de laquelle se trouvent q p. 100 de
ces n observations. On le note Qq
• Q50 = médiane
• Q25 = 1er quartile
• Q75 = 3ème quartile
• Q95 = 95ème percentile
– Si q(n+1) est un entier i, Qq = xi
– Si r < q(n+1) < r + 1, Qq = (xr + xr+1)/2
Ce paramètre est souvent utilisé dans les contrôles de fabrication, pour lesquels on donne,
a priori, des marges de construction.
Son intérêt est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui
peuvent être des valeurs aberrantes.
2.2.2.2. Distance interquartile
L'intervalle interquartile, noté I, est la différence entre les deux quartiles Q3 et Q1 :
I = Q3 - Q1
Cet intervalle contient 50% de la population en en éliminant 25% à chaque extrémité.
Cette caractéristique est nettement meilleure que l'étendue.
2.2.2.3. Variance et écart-type
a) Définition
Soit X = {(xi, ni)}1 ≤ i ≤ p une variable statistique réelle.
On appelle variance de X, la moyenne arithmétique des carrés des écarts de X à sa
moyenne :
22
Biostatistique 1 ALIA Zeid
b) Formule de la variance
En développant le carré (xi – )2, la formule de définition de la variance peut être écrite :
Cette formule (la variance est égale à la moyenne du carré moins le carré de la moyenne)
est appelée formule de la variance, ou formule de König. Elle peut s'écrire sous la forme :
c) Propriétés de la variance
1. La variance est toujours un nombre réel positif. En effet, c'est une somme de carrés.
2. La variance est nulle si, et seulement si, X possède une seule valeur. En effet, une
23
Biostatistique 1 ALIA Zeid
On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par
rapport à un nombre réel a quelconque.
On peut démontrer que l'écart absolu moyen par rapport à un nombre réel a est minimum
lorsque a est égal à la moyenne de X.
b) Calcul pratique.
Lorsque les observations sont groupées par classe, on adopte généralement pour valeur de
variable statistique le centre de chaque classe.
L'écart absolu moyen présente un inconvénient majeur : il ne se prête pas facilement aux
calculs algébriques, à cause de la valeur absolue.
24
Biostatistique 1 ALIA Zeid
Pour une variable statistique X à valeurs dans Rq, le coefficient de variation est défini par
Le coefficient de variation est un nombre sans dimension qui permet de comparer deux
variables statistiques de natures différentes.
On remarquera que, au signe près, c'est l'écart-type de la variable statistique
2.2.3. Moments
Soit X une variable statistique quantitative réelle. On appelle moment d'ordre r de X, la
quantité :
25
Biostatistique 1 ALIA Zeid
Le coefficient d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini
par
Le coefficient d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par
Lorsque le coefficient d'asymétrie est positif, la distribution est plus étalée à droite : on
dit qu'il y a oblicité à gauche.
Lorsque le coefficient d'asymétrie est négatif, la distribution est plus étalée à gauche : on
dit qu'il y a oblicité à droite.
On utilise souvent un coefficient d'asymétrie de Pearson basé sur les moments centrés :
26
Biostatistique 1 ALIA Zeid
27
Biostatistique 1 ALIA Zeid
F2 = 0 F2 > 0
F2 < 0
28
Biostatistique 1 ALIA Zeid
29
Biostatistique 1 ALIA Zeid
30
Biostatistique 1 ALIA Zeid
Exemple : Taux d’attaque du R. rattus sur les spathes du palmier dattier avant et après
leur ouverture au sud-est d’Algérie
Exemple : Taux d’attaque stationnaires dus à R. rattus tenant compte de l’état des
spathes (fermée et ouverte) du palmier dattier au sud-est d’Algérie (TAA: Taux d’attaque
avant ouverture des spathes ; TAP: Taux d’attaque après ouverture des spathes)
31
Biostatistique 1 ALIA Zeid
32
Biostatistique 1 ALIA Zeid
33
Biostatistique 1 ALIA Zeid
Remarque
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi, pour tout i = 1, . . . , n, la covariance est égale à la variance.
Théorème La covariance peut également s’écrire :
Démonstration
2.3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux
Remarque
– Le coefficient de corrélation mesure la dépendance linéaire entre deux variables :
34
Biostatistique 1 ALIA Zeid
– Si le coefficient de corrélation est positif, les points sont alignés le long d’une droite
croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long d’une droite
décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance
linéaire. On peut cependant avoir une dépendance non-linéaire avec un coefficient de
corrélation nul.
2.3.2.5 Droite de régression
La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des
moindres carrés.
On considère que la variable X est explicative et que la variable Y est dépendante.
L’équation d’une droite est y = a + bx.
Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la régression
définis par : ei = yi − a − bxi.
Le résidu ei est l’erreur que l’on commet (voir Figure) en utilisant la droite de régression
pour prédire yi à partir de xi. Les résidus peuvent être positifs ou négatifs.
35
Biostatistique 1 ALIA Zeid
Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés
qui consiste à chercher la droite qui minimise la somme des carrés des résidus :
Théorème : Les coefficients a et b qui minimisent le critère des moindres carrés sont
donnés par :
36
Biostatistique 1 ALIA Zeid
La première équation montre que la droite passe par le point ( ̄x,  ̄y). On obtient
On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la matrice
des dérivées secondes est définie positive. La droite de régression est donc
37
Biostatistique 1 ALIA Zeid
38
Biostatistique 1 ALIA Zeid
Réunion
La réunion de A et B, notée A ∪ B, est l’ensemble des éléments x tels que x ∈ A ou x ∈
B. Soit : A ∪ B = {x : x ∈ A ou ∈ B}
Le terme « ou » est employé au sens x ∈ A ou B si x appartient à A, ou à B, ou à A et B
(Car x ∈ A signifié x ∈ A et x ∈ B).
Complémentaire
Le complémentaire de A est l’ensemble des éléments de E qui n’appartiennent pas à A.
CA = A = {x : x ∉ A}
Différence
La différence entre A et B, ou complémentaire de B relatif à A, est l’ensemble des
éléments de A qui n’appartiennent pas à B.
A – B = CAB = {x : x ∉ B et x ∈ A}
39
Biostatistique 1 ALIA Zeid
40
Biostatistique 1 ALIA Zeid
Partition
Une partition d’un ensemble A est une subdivision de A en sous-ensembles disjoints dont
la réunion forme A.
Notation
Soit une famille d’ensembles {Ai} = {A1, A2, ...., An, ....} qui peut être finie ou non. On
note :
∪ Ai = A1 ∪ A2 ∪ ... ∪ An ∪ ...
∩ Ai = A1 ∩ A2 ∩ ... ∩ An ∩ ...
3.6 Autres rappels mathématiques
3.6.1 Rappel sur les sommes
Soit {ai} une suite de termes ai. On note
Propriétés :
Si k est une constante (indépendante de i), elle peut être sortie de la somme.
41
Biostatistique 1 ALIA Zeid
Fonction primitive
Soit f une fonction réelle. L’aire sous la courbe sur l’intervalle ]-∞, x] varie lorsqu’on fait
varier x de -∞ à +∞. Cette aire est une fonction F de x, appelée fonction primitive de f.
Elle est définie par : F(x) = f(τ)dτ
Noter l’utilisation de la variable d’intégration τ. On peut utiliser n’importe quel nom de
variable (il s’agit d’une variable muette), différent de la borne d’intégration x.
42
Biostatistique 1 ALIA Zeid
43
Biostatistique 1 ALIA Zeid
44
Biostatistique 1 ALIA Zeid
Propriété Pr(∅) = 0.
Démonstration
Comme ∅ est d’intersection vide avec ∅, on a que Pr(∅ ∪ ∅) = Pr(∅) + Pr(∅).
Donc, Pr(∅) = 2Pr(∅), ce qui implique que Pr(∅) = 0.
Propriété
Pr(Ā) = 1 − Pr(A).
Démonstration
On sait que
A ∪ Ā = Ω et A ∩ Ā = ∅.
Ainsi, on a que Pr(Ω) = Pr(A ∪ Ā) = Pr(A) + Pr(Ā).
Mais, par la définition d’une probabilité, Pr(Ω) = 1. Donc, Pr(A) + Pr(Ā) = 1
On en déduit que Pr(Ā) = 1 − Pr(A).
Propriété
Pr(A) ≤ Pr(B) si A ⊂ B.
Démonstration
Comme A ⊂ B, on a B = (B ∩ ĀA) ∪ A.
Mais on a que (B ∩ Ā) ∩ A = ∅.
Ainsi, on a Pr(B) = Pr(B ∩ Ā) + Pr(A).
Or une probabilité est à valeur dans [0,1], donc Pr(B ∩ Ā) ≥ 0. On a alors Pr(B) ≥ Pr(A).
Propriété
Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B).
Démonstration
On a A ∪ B = A ∪ (B ∩ Ā), et A ∩ (B ∩ Ā) = ∅.
Donc Pr(A ∪ B) = Pr(A) + Pr(B ∩ Ā).
Il reste à montrer que Pr(B ∩ Ā) = Pr(B) − Pr(A ∩ B)
En effet, B = (B ∩ Ā) ∪ (B ∩ A)
Avec (B ∩ Ā) ∩ (B ∩ A) = ∅
Donc Pr(B) = Pr(B ∩ Ā) + Pr(B ∩ A),
ce qui donne Pr(B ∩ Ā) = Pr(B) − Pr(A ∩ B).
4.1.6 Probabilités conditionnelles et indépendance
Probabilité conditionnelle
45
Biostatistique 1 ALIA Zeid
46
Biostatistique 1 ALIA Zeid
Exemple
On jette une paire de dés bien équilibrés (espace équiprobable). On observe une
réalisation de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un des
deux dés ait donné le résultat 2 ?
B = {somme des deux dés = 6}
A = {au moins un des deux dés donne 2}
B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}
Nombre de réalisations de A ∩ B = {(2, 4), (4, 2)} = 2
47
Biostatistique 1 ALIA Zeid
Exemple Supposons qu’une population d’adultes soit composée de 30% de fumeurs (A1) et de
70% de non-fumeurs (A2). Notons B l’événement “mourir d’un cancer du poumon”. Supposons
en outre que la probabilité de mourir d’un cancer du poumon est égale `a Pr(B/A1) = 20% si l’on
est fumeur et de Pr(B/A2) = 1% si l’on est non-fumeur. Le théorème de Bayes permet de calculer
les probabilités a priori, c’est-`a-dire la probabilité d’avoir été fumeur si on est mort d’un cancer
du poumon. En effet, cette probabilité est notée Pr(A1/B) et peut être calculée par
La probabilité de ne pas avoir été non-fumeur si on est mort d’un cancer du poumon vaut quant à
elle :
Exemple
Considérons, pour illustrer notre propos, le problème du diagnostic d’une douleur aiguë de
l’abdomen. Il s’agit d’un patient arrivant aux urgences pour un « mal au ventre ». Si l’on ne sait
rien d’autre sur le patient (on n’a pas fait d’examen clinique ou complémentaire), on ne connaît
que les probabilités d’avoir tel ou tel diagnostic si on observe une douleur. Soient D1, D2 et D3
les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs ; par exemple
D1 = appendicite, D2 = perforation d’ulcère, D3 = autres diagnostics. Soit un signe s1 pour
lequel on connaît Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3). Par exemple, s1 serait « présence d’une
fièvre ≥ 38,5°C » ; Pr(s1/D1) = 0,90 ; Pr(s1/ D2) = 0,30 ; et Pr(s1/D3) = 0,10.
Ces probabilités peuvent être estimées sur une population de patients en dénombrant le nombre
de sujets ayant le diagnostic D1 et présentant le signe s1. De même, on peut connaître Pr(D1),
Pr(D2) et Pr(D3).
Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic le plus
probable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/ s1) et
on retient le diagnostic qui a la plus grande probabilité : c’est l’application de l’approche
bayésienne au problème de l’aide au diagnostic.
Indépendance entre événements
48
Biostatistique 1 ALIA Zeid
On dit que deux événements A et B sont indépendants si la probabilité pour que A soit
réalisé n’est pas modifiée par le fait que B se soit produit. On traduit cela par :
Pr(A / B) = Pr(A). D’après la définition d’une probabilité conditionnelle,
,
On tire la définition : A et B sont indépendants si et seulement si
La symétrie de cette définition implique qu’on a aussi bien Pr(A / B) = Pr(A) (A est
indépendant de B) que Pr(B / A) = Pr(B) (B est indépendant de A) : l’apparition d’un des
deux événements n’influe pas sur l’apparition de l’autre.
Note
Ce qui est défini précédemment est l’indépendance de deux événements. Si on considère
maintenant 3 événements A, B, C, on dira que ces 3 événements sont indépendants : 1.
s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; et B
indépendant de C 2. et si .
Cette condition n’est pas une conséquence des précédentes.
Indépendance, inclusion et exclusion de deux événements
Considérons deux événements A et B.
1. Si A ⊂ B (A est inclus dans B) : si A est réalisé, alors B aussi
49
Biostatistique 1 ALIA Zeid
4.2.1 Introduction
L’analyse combinatoire est l’étude mathématique de la manière de ranger des objets.
L’analyse combinatoire est un outil utilisé dans le calcul des probabilités.
4.2.2 Permutations (sans répétition)
Une permutation sans répétition est un classement ordonné de n objets distincts.
Considérons par exemple l’ensemble {1, 2, 3}. Il existe 6 manières d’ordonner ces trois
chiffres : {1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}.
Si on dispose de n objets, chacun des n objets peut être placé à la première place. Il reste
ensuite n−1 objets qui peuvent être placés à la deuxième place, puis n−2 objets pour la
troisième place, et ainsi de suite. Le nombre de permutations possibles de n objets
distincts vaut donc n × (n − 1) × (n − 2) × · · · × 2 × 1 = n!. La notation n! se lit
factorielle de n.
4.2.3 Permutations avec répétition
On peut également se poser la question du nombre de manières de ranger des objets qui
ne sont pas tous distincts. Supposons que nous ayons 2 boules rouges (notées R) et 3
boules blanches (notées B). Il existe 10 permutations possibles qui sont :
{R,R,B,B,B}, {R,B,R,B,B}, {R,B,B,R,B}, {R,B,B,B,R}, {B,R,R,B,B},
{B,R,B,R,B}, {B,R,B,B,R}, {B,B,R,R,B}, {B,B,R,B,R}, {B,B,B,R,R}.
Si l’on dispose de n objets appartenant à deux groupes de tailles n1 et n2, le nombre de
permutations avec répétition est
Si l’on dispose de n objets appartenant `a p groupes de tailles n1, n2, . . . , np, le nombre
de permutations avec répétition est
50
Biostatistique 1 ALIA Zeid
4.2.5 Combinaisons
Soit n objets distincts. On appelle une combinaison une manière de sélectionner k objets
parmi les n sans tenir compte de leur ordre. Le nombre de combinaisons est le nombre de
sous-ensembles de taille k dans un ensemble de taille n. Soit l’ensemble {1, 2, 3, 4, 5}. Il
existe 10 sous-ensembles de taille 3 qui sont : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3,
5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}.
De manière générale, quel est le nombre de combinaisons de k objets parmi n ?
Commençons par calculer le nombre de manières différentes de sélectionner k objets
parmi n en tenant compte de l’ordre : c’est le nombre d’arrangements sans répétition .
Comme il existe k! manières d’ordonner ces k éléments, si l’on ne veut pas tenir compte
de l’ordre on divise par k!. Le nombre de combinaisons de k objets parmi n vaut donc
51
Biostatistique 1 ALIA Zeid
4.3.1 Définition
Considérons un ensemble fondamental E correspondant à une certaine expérience. Les
éléments de E, résultats possibles de l’expérience, ne sont généralement pas des nombres.
Il est cependant utile de faire correspondre un nombre à chaque élément de E, en vue de
faire ensuite des calculs. Pour un jet de dé, il semble naturel de faire correspondre à la
face obtenue par le jet, le nombre de points qu’elle porte, mais ce n’est pas une
obligation. Si on jette 2 dés, on s’intéressera par exemple à la somme des points obtenus.
Pour une carte à jouer, il faut convenir d’une valeur pour chaque carte.
Une variable aléatoire X, sur un ensemble fondamental E, est une application de E dans ℜ
: à tout résultat possible de l’expérience (à tout élément de E), la variable aléatoire X fait
correspondre un nombre.
Lorsque E est fini ou infini dénombrable, toute application de E dans ℜ est une variable
aléatoire. Lorsque E est non dénombrable, il existe certaines applications de E dans ℜ qui
ne sont pas des variables aléatoires. En effet, la définition rigoureuse d’une variable
aléatoire X impose que tout intervalle de ℜ soit l’image d’un événement de E par
l’application X. Cette condition est vérifiée pour toute application X si E est fini ou
dénombrable, puisque toute partie de E est un événement.
Ce n’est plus vrai si E est non dénombrable. Heureusement, les applications choisies
naturellement sont des variables aléatoires.
On parle de variable aléatoire discrète lorsque la variable est une application de E dans
un sous-ensemble discret de ℜ, le plus souvent N ou une partie de N. On parle sinon de
variable aléatoire continue.
Pour un nombre réel a donné, l’événement constitué de tous les résultats ξ d’expérience
tels que X(ξ) = a est noté [X(ξ) = a], ou, en abrégé, X = a.
Pour deux nombres réels a et b (a ≤ b), l’événement constitué de tous les résultats ξ
d’expérience tels que a ≤ X(ξ) ≤ b est noté [a ≤ X(ξ) ≤ b] ou, en abrégé, a ≤ X ≤ b.
Si X et Y sont des variables aléatoires définies sur le même ensemble fondamental E, et si
k est une constante, on peut montrer que les fonctions suivantes sont aussi des variables
aléatoires : (X + Y)(ξ) = X(ξ) + Y(ξ) (X + k)(ξ) = X(ξ) + k
(kX)(ξ) = kX(ξ) (XY)(ξ) = X(ξ) Y(ξ) pour tout élément ξ de E.
Exemple On considère une expérience aléatoire consistant à lancer deux pièces de
monnaie. L’ensemble des résultats possibles est Ω = {(F, F), (F, P), (P, F), (P, P)}.
52
Biostatistique 1 ALIA Zeid
Chacun des éléments de Ω a une probabilité 1/4. Une variable aléatoire va associer une
valeur à chacun des éléments de Ω. Considérons la variable aléatoire représentant le
nombre de “Faces” obtenus : X =
0 avec une probabilité 1/4
1 avec une probabilité 1/2
2 avec une probabilité 1/4.
C’est une variable aléatoire discrète dont la distribution de probabilités est présentée en
Figure.
53
Biostatistique 1 ALIA Zeid
et sa variance
Rappel
54
Biostatistique 1 ALIA Zeid
55
Biostatistique 1 ALIA Zeid
56
Biostatistique 1 ALIA Zeid
Cette loi dépend d’un paramètre λ, nombre réel strictement positif. Les nombres k
possibles sont toutes les valeurs entières 0, 1, 2, etc. Cependant, lorsque k est
suffisamment grand, la probabilité correspondante devient extrêmement faible.
Propriétés
• On peut montrer que
57
Biostatistique 1 ALIA Zeid
Remarques
Si on connaît la probabilité de n’observer aucun événement Pr(X=0) = p :
• D’après la formule,
On en déduit : λ = –lnp
On peut ainsi calculer facilement de proche en proche les probabilités des diverses
valeurs de k.
Lien avec la loi binomiale
Si une variable aléatoire X est distribuée selon une loi binomiale B(n, Π), on montre que
si Π est petit (en pratique inférieur à 0,1) et n assez grand (supérieur à 50), la loi
binomiale peut être approximée par une loi de Poisson de paramètre λ=nΠ. Les calculs
sont plus simples avec la loi de Poisson qu’avec la binomiale. Notons que puisque X est
distribuée selon une loi binomiale, ses valeurs possibles ne peuvent dépasser n, alors que
l’approximation par la loi de Poisson autorise des valeurs supérieures. Cependant le
calcul fournit des probabilités très faibles pour ces valeurs aberrantes.
58
Biostatistique 1 ALIA Zeid
La probabilité que la variable aléatoire soit inférieure à une valeur quelconque vaut :
59
Biostatistique 1 ALIA Zeid
Si la variable aléatoire est continue, la probabilité qu’elle prenne exactement une valeur
quelconque est nulle :
Pr(X = a) = 0
L’espérance d’une variable aléatoire continue est définie par :
et la variance
60
Biostatistique 1 ALIA Zeid
61
Biostatistique 1 ALIA Zeid
62
Biostatistique 1 ALIA Zeid
63
Biostatistique 1 ALIA Zeid
Résumé :
64
Biostatistique 1 ALIA Zeid
Notation
Le quantile d'ordre α pour la loi normale centrée réduite est noté zα.
Par exemple, z0,975 = 1,96.
Quantile < 50% d'une N(0,1)
Exemple
On cherche le quantile à 14% pour la N(0,1). Cela revient à trouver a tel que P(Z ≤ a) =
0; 14.
Il n'y a pas de nombre < 0,5 dans la table !
Le quantile est donc z0;14 = -1,08.
65
Biostatistique 1 ALIA Zeid
A retenir : Qα = µ + σ * zα
On dit que X suit une loi exponentielle de paramètre λ positif. De manière synthétique, on
écrit :
66
Biostatistique 1 ALIA Zeid
Avec les distributions marginales, on peut définir les moyennes marginales, et les
variances marginales :
67
Biostatistique 1 ALIA Zeid
68
Biostatistique 1 ALIA Zeid
De même,
var(X|Y = y) = E {[X − E(X|Y = y)]2|Y = y} = E(X2|Y = y) − E2(X|Y = y).
On a également
cov(X, Y ) = E[X − E(X)][Y − E(Y )] = E[XY − Y E(X) − XE(Y ) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y ) = E(XY ) − E(X)E(Y ).
L’opérateur espérance permet donc de définir la variance et la covariance.
4.4.3 Indépendance de deux variables aléatoires
Deux variables aléatoires X et Y sont dites indépendantes, si
Pr(X ≤ x et Y ≤ y) = Pr(X ≤ x)Pr(Y ≤ y), pour tout x, y ∈ R.
– Si X et Y sont discr`etes, cela implique que
Pr(X = x et Y = y) = Pr(X = x)Pr(Y = y), pour tout x, y ∈ Z.
– Si X et Y sont continues, en notant fX(.) et fY (.) les fonctions de densité respectives de
X et Y, et en notant fXY (x, y) la densité jointe des deux variables, alors X et Y sont
indépendants si fXY (x, y) = fX(x)fY (y), x, y ∈ R.
Propriétés des espérances et des variances
De manière générale, pour des variables aléatoires X et Y, et avec a et b constants, on a
les résultats suivants qui sont démontrées pour le cas continu. Ces résultats sont
également valables pour le cas discret pour lequel les démonstrations sont similaires.
E(a + bX) = a + bE(X)
E(aY + bX) = aE(Y ) + bE(X).
E(X + Y ) = E(X) + E(Y ).
var(a + bX) = b2var(X).
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).
De plus, si X et Y sont indépendantes, on a f(x, y) = fX(x)Y f(y) pour tout x, y :
E(XY ) = E(X)E(Y ).
69
Biostatistique 1 ALIA Zeid
Références bibliographiques
Benjamin, J. R., & Cornell, C. A., 2014. Probability, statistics, and decision for civil
engineers. Courier Corporation. 676p.
Bickel, P. J., & Lehmann, E. L., 2012. Descriptive statistics for nonparametric models
IV. Spread. In Selected Works of EL Lehmann (pp. 519-526). Springer, Boston, MA.
Bickel, P. J., & Lehmann, E. L., 2012. Descriptive statistics for nonparametric models
I. Introduction. In Selected Works of EL Lehmann (pp. 465-471). Springer, Boston, MA.
DeGroot, M. H., & Schervish, M. J., 2012. Probability and statistics. Pearson
Education.
DELAGARDE J., 1983. Initiation à l’analyse des données. Ed Dunod, Paris, 157 p.
PHILIPEAU G., 1992. Analyse en composantes principales. Corllection STAT-
ITCF,Institut Technique des Céréales et Fourrages, 15 p.
Fisz, M., & Bartoszyński, R., 2018. Probability theory and mathematical statistics (Vol.
3). J. wiley. 276p.
Golmard J.L., Mallet A. et Morice V., 2007. Biostatistique PCEM1. Université Paris -
VI, faculté de médecine. 281 p.
Hannigan, A., & Lynch, C. D., 2013. Statistical methodology in oral and dental
research: pitfalls and recommendations. Journal of Dentistry, 41(5), 385-392.
70
Biostatistique 1 ALIA Zeid
McHugh M. L., & Hudson‐Barr D., 2003. Descriptive statistics, part II: Most
commonly used descriptive statistics. Journal for Specialists in Pediatric Nursing, 8(3),
111-116.
Millot, G., 2018. Comprendre et réaliser les tests statistiques à l'aide de R: manuel de
biostatistique. De Boeck Supérieur. 945p
Papoulis, A., 1990. Probability & statistics (Vol. 2). Englewood Cliffs: Prentice-Hall.
448p.
Robert V.H., Joseph M.K. and Allen T. C., 2005. Introduction to Mathematical
Statistics (6th Edition). Pearson Education, Upper Saddle River, N.J. 119p
Ross, S. M., Ross, S. M., Ross, S. M., Ross, S. M., & Mathématicien, E. U.,1998. A
first course in probability. Upper Saddle River, NJ: Prentice Hall. 295p.
Stafford, R. E., 1971. The speededness quotient: A new descriptive statistic for
tests. Journal of Educational Measurement, 8(4), 275-277.
Triola, M., & Triola, M. F., 2012. Biostatistique pour les sciences de la vie et de la
santé : édition revue et corrigée. Pearson Education France. 358p.
Von Mises, R., 1981. Probability, statistics, and truth. Courier Corporation. 243.
71
Biostatistique 1 ALIA Zeid
Tables statistique
72
Biostatistique 1 ALIA Zeid
73
Biostatistique 1 ALIA Zeid
74
Biostatistique 1 ALIA Zeid
75
Biostatistique 1 ALIA Zeid
76