0% ont trouvé ce document utile (0 vote)
1K vues79 pages

Cours Biostatistique I 1ere Medecine (ALIA Zeid)

Transféré par

radhiradhi991
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
1K vues79 pages

Cours Biostatistique I 1ere Medecine (ALIA Zeid)

Transféré par

radhiradhi991
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université Echahid Hamma Lakhdar d’El-Oued


Attaché Médicale

Cours de Biostatistique 1
Statistique descriptive et probabilité

Pour première année médecine

Préparé par
Dr. ALIA Zeid

Année universitaire 2024 - 2025


Biostatistique 1 ALIA Zeid

Table des matières

Introduction 1
Chapitre 1 : Statistique(s) et Probabilité(s) 3
1.1 Statistique 3
1.2 Population et échantillon 3
1.3 Statistique et probabilité 4
1.4. Définitions générales 5
Chapitre 2 : Rappels Statistiques descriptives 7
2.1. Variables, données statistiques, tableaux, effectifs 7
2.1.1 Définitions fondamentales 7
2.1.1.1 La science statistique 7
2.1.1.2 Mesure et variable 7
2.1.1.3 Typologie des variables 7
2.1.1.4 Série statistique 8
2.1.2 Variable qualitative nominale 8
2.1.2.1 Effectifs, fréquences et tableau statistique 8
2.1.2.2 Diagramme en secteurs et diagramme en barres 9
2.1.3 Variable qualitative ordinale 10
2.1.3.1 Le tableau statistique 10
2.1.3.2 Diagramme en secteurs et diagramme en barres 11
2.1.4 Variable quantitative discrète 12
2.1.4.1 Tableau statistique 12
2.1.4.2 Diagramme en bâtonnets des effectifs 13
2.1.4.3 Fonction de répartition 14
2.1.5 Variable quantitative continue 14
2.1.5.1 Tableau statistique 14
2.1.5.2 Histogramme 16
2.1.5.3 Fonction de répartition 17
2.2. Statistique descriptive univariée 17
2.2.1 Paramètres de position 17
2.2.1.1 Mode (Mo) 17
2.2.1.2 Moyenne (M) 19
2.2. 1. 3. Médiane (Me) : 20
2.2. 1. 4. Quantile (Qi) : 21
2.2.2 Paramètres de dispersion 22
2.2.2. 1. Etendue 22
2.2.2.2. Distance interquartile 22
2.2.2.3. Variance et écart-type 22
2.2.2.5. Ecart absolu moyen. 24
2.2.2.6. Coefficient de variation. 25
2.2.3. Moments 25
2.2.4. Paramètres de forme 26
2.2.4.1. Coefficient d'asymétrie. 26
2.2.4.2. Paramètre d’aplatissement (kurtosis) 28
2.2.5 Boîte à moustaches : 29
2.3. Statistique descriptive bivariée 32
2.3.1 Série statistique bivariée 32
2.3.2 Deux variables quantitatives 32
2.3.2.1 Représentation graphique de deux variables 32
2.3.2.2 Analyse des variables 33
2.3.2.3 Covariance 33
Biostatistique 1 ALIA Zeid

2.3.2.4 Corrélation 34
2.3.2.5 Droite de régression 35
Chapitre 3 : Rappels mathématiques 38
3.1 Ensembles, éléments : 38
3.2 Opérations sur les ensembles : 38
3.3 Ensembles finis, dénombrables, non dénombrables 40
3.4 Ensembles produits 40
3.5 Familles d’ensembles 41
3.6 Autres rappels mathématiques 41
3.6.1 Rappel sur les sommes 41
3.6.2 Rappel sur les intégrales 42
Chapitre 4 : Eléments de calcul des Probabilités 43
4.1 Probabilités 43
4.1.1 Evénement 43
4.1.2 Opérations sur les événements 43
4.1.3 Relations entre les événements 44
4.1.4 Ensemble des parties d’un ensemble et système complet 44
4.1.5 Axiomatique des Probabilités 44
4.1.6 Probabilités conditionnelles et indépendance 46
4.1.7 Théorie des probabilités totales et théorème de Bayes 47
4.2 Analyse combinatoire 50
4.2.1 Introduction 50
4.2.2 Permutations (sans répétition) 50
4.2.3 Permutations avec répétition 50
4.2.4 Arrangements (sans répétition) 51
4.2.5 Combinaisons 51
4.3 Variables aléatoires 52
4.3.1 Définition 52
4.3.2 Variables aléatoires discrètes 53
4.3.2.1 Définition, espérance et variance 53
4.3.2.2 Loi de Bernoulli 54
4.3.2.3 Loi binomiale 54
4.3.2.4 Loi de Poisson 57
4.3.3 Variable aléatoire continue 58
4.3.3.1 Définition, espérance et variance 58
4.3.3.2. Loi normale (ou loi de Laplace-Gauss ou loi de Gauss) 60
4.3.3.3. Distribution exponentielle 66
4.4 Distribution bivariée 67
4.4.1 Cas continu 67
4.4.2 Cas discret 68
4.4.3 Indépendance de deux variables aléatoires 69
Références bibliographique 70
Tables statistique 72
Biostatistique 1 ALIA Zeid

Introduction
Cette introduction décrit quelques exemples typiques de problèmes statistiques dans les
sciences médicales et biologiques. La plupart des exemples provient du livre de Brown
and Hollander (1978). Les techniques nécessaires pour résoudre ces problèmes sont
traitées dans les chapitres suivants.
Exemples de problèmes statistiques
Attitude des médecins par rapport à deux types d’assurés
Une étude conduite à la Clinique pédiatrique de la Stanford University Medical School
(Cannon and Remen, 1972) avait pour but d’étudier l’association entre le type
d’assurance des patients et les services proposés. Le 50% des enfants qui demandaient
une consultation ambulatoire à la clinique étaient couverts par un programme
d’assistance, appelé Medi-Cal, qui bénéficiait d’une subvention fédérale, tandis que le
reste était couvert par d’autres sources (assurances privées, payements privés, etc.). La
question posée était : est-ce que le service proposé aux patients “Medi-Cal” et aux
patients “Non Medi-Cal” est le même ?
En effet, des hypothèses différentes pouvaient être formulées:
1. l patient Medi-Cal re¸coit plus de tests de diagnostic en moyenne car le coût de l’acte
médical est totalement couvert par son assurance;
2. le patient Medi-Cal re¸coit moins de tests car il est peu intéressé à l’élaboration du
diagnostic;
3. les patients Medi-Cal et les patients Non Medi-Cal reçoivent des traitements différents
car le patient Medi-Cal suit moins les prescriptions de son médecin que le patient Non
Medi-Cal. Il est alors préférable de recourir à l’hospitalisation plutôt qu’au traitement
ambulatoire, ou à des injections à long effet plutôt qu’à un traitement oral et journalier.
La question étant complexe, il a fallu la simplifier et réduire l’étude aux cas bien
document ès avec un diagnostic clair et un traitement standard.
Dans cet échantillon, les patients Medi-Cal reçoivent plus d’injections intramusculaires
que les patients Non Medi-Cal. La question originale devient alors un problème
statistique : est-ce que ce résultat est valable pour l’ensemble (non observé) de tous les
cas de pneumonie ? Pourrait-on obtenir le même tableau par le simple mécanisme de
sélection (au hasard) de l’échantillon ?
Pour y répondre il faut alors:

1
Biostatistique 1 ALIA Zeid

– comparer deux taux dans un échantillon ;


– vérifier ou tester s’il existe une différence entre les taux correspondants de la
population entière de patients Medi-Cal et Non Medi-Cal de Stanford.
Des questions importantes se posent dans toutes les activités humaines: elles débouchent
souvent sur des décisions que les scientifiques, les gestionnaires, les hommes politiques,
etc. doivent prendre sur la base d’une information limitée sous forme de données.
Comment cette information est-elle élaborée et comment peut-on l’utiliser? Ces questions
relèvent de la statistique. La démarche statistique peut être comparée à la recherche d’une
solution dans une énigme policière. La première étape est constituée par l’analyse
exploratoire de données.
Analyse exploratoire et descriptive
A ce point, l’analyste essaie d’explorer et décrire le contenu de ses données. Il les
représente de façon à voir des tendances et à découvrir des structures. Les méthodes
utilisées à ce stade sont relativement simples. On s’intéresse par exemple de savoir dans
quel intervalle la majorité des données est située où quelles sont les valeurs les plus
fréquentes; on représente l’éventuelle association entre deux quantités observées, etc. Les
instruments nécessaires sont souvent graphiques mais on caractérise aussi la distribution
des données des par quelques valeurs numériques dites statistiques de résumé.
Le calcul des probabilités
Comme l’inférence s’appuie sur des échantillons aléatoires il est nécessaire d’utiliser le
calcul des probabilités pour mesurer l’incertitude des résultats obtenus, par exemple, pour
calculer les probabilités d’erreur dans un test statistique.
Structure du cours
Le premier chapitre du cours traite une introduction à la statistique descriptive et
probabilité. Le deuxième chapitre sert à établir les outils de calcul des statistiques
descriptives. Alors qu’un troisième chapitre porte une rappelle mathématique. Enfin un
quatrième chapitre traité les calculs de la probabilité nécessaires à l’inférence.

2
Biostatistique 1 ALIA Zeid

Chapitre 1 : Statistique(s) et Probabilité(s)


Nous commencerons par définir les termes et les concepts importants.
1.1 Statistique
Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité
qui consiste en leur recueil, leur traitement et leur interprétation. Les termes statistiques,
ou statistiques (au pluriel) englobent ainsi plusieurs notions distinctes :
1. D’une part le recensement de grandeurs d’intérêt comme le nombre d’habitants d’un
pays, le revenu moyen par habitant, le nombre de séropositifs dans la population
française. Nous voyons que la notion fondamentale qui se dégage de cette énumération
est celle de Population. Une population est un ensemble d’objets, d’êtres vivants ou
d’objets abstraits (ensemble des mains de 5 cartes distribuées au bridge...) de même
nature.
2. La statistique en tant que science s’intéresse aux propriétés des populations naturelles.
Plus précisément elle traite de nombres obtenus en comptant ou en mesurant les
propriétés d’une population. Cette population d’objets doit en outre être soumise à une
variabilité, qui est due à de très nombreux facteurs inconnus (pour les populations
d’objets biologiques qui nous intéressent ces facteurs sont les facteurs génétiques et les
facteurs environnementaux).
3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme
statistique (au singulier) qui définit toute grandeur calculée à partir d’observations. Ce
peut être la plus grande valeur de la série statistique d’intérêt, la différence entre la plus
grande et la plus petite, la valeur de la moyenne arithmétique de ces valeurs, etc.
1.2 Population et échantillon
On appelle population P un ensemble généralement très grand, voire infini, d’individus
ou d’objets de même nature. Tous les médecins de France constituent une population, de
même que l’ensemble des résultats possibles du tirage du loto. Une population peut donc
être réelle ou fictive.
Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus
constituant une population ; on travaille alors sur une partie de la population que l’on
appelle échantillon. Pour qu’un échantillon permette l’étude de la variabilité des
caractéristiques d’intérêt de la population, il faut qu’il soit convenablement sélectionné.
On parlera d’échantillon représentatif si les individus le constituant ont été tirés au sort1

3
Biostatistique 1 ALIA Zeid

dans la population. Si par exemple on souhaite déterminer les caractéristiques «


moyennes » du poids et de la taille des prématurés masculins on tirera au hasard un
certain nombre de sujets parmi les naissances de prématurés de l’année.
Chaque individu, ou unité statistique, appartenant à une population est décrit par un
ensemble de caractéristiques appelées variables ou caractères. Ces variables peuvent être
quantitatives (numériques) ou qualitatives (non numériques) :
Quantitatives pouvant être classées en variables continues (taille, poids) ou discrètes
(nombre d’enfants dans une famille)
Qualitatives pouvant être classées en variables catégorielles (couleurs des yeux) ou
ordinales (intensité d’une douleur classée en nulle, faible, moyenne, importante).
1.3 Statistique et probabilité
La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet
de modéliser les phénomènes où le hasard intervient (initialement développée à propos
des jeux de hasard, puis progressivement étendue à l’ensemble des sciences
expérimentales, dont la physique et la biologie). Cette théorie permet de construire des
modèles de ces phénomènes et permet le calcul : c’est à partir d’un modèle probabiliste
d’un jeu de hasard comme le jeu de dés que l’on peut prédire les fréquences d’apparition
d’événements comme le nombre de fois que l’on obtient une valeur paire en jetant un dé
un grand nombre de fois. Les éléments de calcul des probabilités indispensables à la
compréhension des statistiques seront traités dans la première partie du cours. Sous-
jacente à la notion de statistiques se trouve la notion de Population dont on souhaite
connaître les propriétés (plus précisément les régularités), permettant en particulier de
savoir si deux populations sont identiques ou non. Ce cas est celui du cadre des essais
thérapeutiques, où l’on considère 2 populations (patients traités avec le médicament A ou
avec le médicament B) dont on souhaite savoir si elles diffèrent ou non (c’est le cas le
plus simple des essais cliniques). Pour ce faire il est nécessaire de modéliser les
populations, en utilisant des modèles probabilistes. Un modèle de ce type est par exemple
de considérer que la taille des individus suit une distribution gaussienne. A partir de ce
modèle on peut calculer les propriétés d’échantillons ; c’est ce qu’on appelle une
déduction qui va du modèle vers l’expérience. A l’inverse, considérant un échantillon
d’une population on peut essayer de reconstruire le modèle de la population. Cette
démarche est calquée sur la démarche scientifique habituelle. Le scientifique est capable,

4
Biostatistique 1 ALIA Zeid

en utilisant les mathématiques, de prédire le comportement d’un modèle donné (c’est par
exemple une « loi » de la physique) : c’est la démarche déductive. A l’inverse, observant
des faits expérimentaux il va tenter de dégager des propriétés générales du phénomène
observé qu’il va en général représenter sous forme d’un modèle (toutes les lois de la
physique et de la chimie sont des modèles mathématiques les plus généraux possibles des
faits expérimentaux) : c’est la construction inductive de la théorie. Cette démarche
générale va plus loin car le modèle permet de prédire des expériences non réalisées. Si les
prédictions ainsi réalisées sont contradictoires avec les résultats expérimentaux alors on
pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; dans le cas
contraire on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, à
l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des éléments
permettant de réfuter le modèle. Nous verrons dans la suite que cette approche se
transpose exactement dans la démarche statistique, en particulier dans le domaine des
tests.
1.4. Définitions générales
Statistique : L’art de collecter, d’analyser et d’interpréter des « données » pour évaluer
la « fiabilité » des décisions fondées sur ces « données » – une des manières de
représenter et de structurer les connaissances disponibles sur un domaine.
• Biostatistiques : application des statistiques à des problèmes biologiques.
Donnée (valeur) = résultat de l’observation d’un individu.
– Observer = réduire un objet infiniment complexe à un nombre limité de
caractéristiques.
• Bien choisir la « caractéristique » reflète déjà une connaissance sur l’individu.
• Observer nécessite un instrument de mesure
• Le plus souvent, la « caractéristique » n’est intéressante que si l’on peut l’observer sur
plusieurs individus. Généralement, elle n’est pas strictement identique d’un individu à
l’autre. On parlera donc de variable, et on dira que la donnée observée est la « réalisation
» de cette variable pour l’individu observé.
– Analyser : statistiques descriptives : L’art d’organiser, de présenter et de résumer les
données acquises sur des échantillons représentatifs d’une population.
– Interpréter : statistiques interprétatives, ou inférentielles : L’art d’inférer, à partir
des données acquises sur des échantillons représentatifs d’une population, le

5
Biostatistique 1 ALIA Zeid

comportement des variables d’intérêt dans la population et de prendre des décisions


valides dans la population, fondées sur les observations dans les échantillons.
• L’art de maîtriser le risque d’erreur des inférences et des décisions (évaluer la fiabilité).
– Ce qui nécessitera un détour par le domaine des « probabilités ».
Population : C’est l’ensemble des « individus » à propos desquels on souhaite pouvoir
inférer des décisions
– Elle est le plus souvent définie par une propriété portant une ou plusieurs variables :
• L’ensemble des français
• L’ensemble des nouveaux nés de mère diabétique
– Les décisions vont être fondées sur des observations de variables d’intérêt dans cette
population
Echantillons : Sauf exception (population de taille très réduite), il est impossible de
mesurer la variable d’intérêt sur l’ensemble des individus de la population
• Un échantillon est un sous-ensemble de cette population sur lequel on pourra observer
la variable d’intérêt, et utiliser ces observations pour inférer des décisions sur un individu
quelconque de la population. L’effectif de l’échantillon est le nombre d’individus
constituant l’échantillon.
Echantillonnage aléatoire (représentatif) : Pour que l’inférence de décisions soit
valide, l’échantillon doit être constitué de manière aléatoire (« randomisé »).
– Chaque individu de la population a la même « chance » d’être inclus dans l’échantillon.
– Le fait de retenir un individu dans l’échantillon n’affecte pas la « chance » d’un autre
individu d’être également sélectionné.
• Idéalement, affecter un numéro à chaque individu, et tirer au sort avec un générateur de
nombres aléatoires. En pratique, plus complexe… nous supposerons toujours que les
échantillons dont nous parlons ont été « randomisés ».
Paramètres : Un paramètre est une grandeur apportant une information résumée sur la
variable d’intérêt (exemple que nous reverrons : la moyenne).
• Un paramètre peut être mesuré dans un échantillon
• Un paramètre peut être estimé dans la population, à partir des observations de
l’échantillon

6
Biostatistique 1 ALIA Zeid

Chapitre 2 : Rappels Statistiques descriptives


2.1. Variables, données statistiques, tableaux, effectifs
2.1.1 Définitions fondamentales
2.1.1.1 La science statistique
– Méthode scientifique du traitement des données quantitatives.
– Etymologiquement : science de l’état.
– La statistique s’applique à la plupart des disciplines : agronomie, biologie,
démographie, économie, sociologie, linguistique, psychologie, . . .
2.1.1.2 Mesure et variable
– On s’intéresse à des unités statistiques ou unités d’observation : par exemple des
individus, des entreprises, des ménages. En sciences humaines, on s’intéresse dans la
plupart des cas `a un nombre fini d’unités.
– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires de
l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie socioprofessionnelle
d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque
unité. Les variables sont désignées par simplicité par une lettre (X, Y, Z).
– Les valeurs possibles de la variable, sont appelées modalités.
– L’ensemble des valeurs possibles ou des modalités est appelé le domaine de la variable.
2.1.1.3 Typologie des variables
– Variable qualitative : La variable est dite qualitative quand les modalités sont des
catégories.
– Variable qualitative nominale : La variable est dite qualitative nominale quand les
modalités ne peuvent pas être ordonnées.
– Variable qualitative ordinale : La variable est dite qualitative ordinale quand les
modalités peuvent être ordonnées. Le fait de pouvoir ou non ordonner les modalités est
parfois discutable. Par exemple : dans les catégories socioprofessionnelles, on admet
d’ordonner les modalités : ‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités
‘sans profession’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles
sont numériques.
– Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des valeurs
possibles est dénombrable.

7
Biostatistique 1 ALIA Zeid

– Variable quantitative continue : Une variable est dite continue, si l’ensemble des
valeurs possibles est continu.
Exemple 1 Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F).
Le domaine de la variable est {M, F}.
Exemple 1 Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5,. .
.C’est une variable quantitative discrète.
2.1.1.4 Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées x1, . . . , xi, . . . , xn.
Exemple On s’intéresse à la variable état-civil’ notée X et à la série statistique des
valeurs prises par X sur 20 personnes. La codification est C : célibataire, M : marié(e), V :
veuf (ve), D : divorcée.
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
MMDCCMCCCM
CMVMVDCCCM
Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.
2.1.2 Variable qualitative nominale
2.1.2.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être
ordonnées. On note J le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x1, . . . , xi , . . . , xI . On appelle effectif d’une modalité
ou d’une valeur distincte, le nombre de fois que cette modalité (ou valeur distincte)
apparaît. On note nj l’effectif de la modalité xi . La fréquence d’une modalité est l’effectif
divisé par le nombre d’unités d’observation.
fj =ni /N , i = 1, . . . , n.
Exemple : Avec la série de l’exemple précédent, on obtient le tableau 1 statistique : xi, ni
fi

8
Biostatistique 1 ALIA Zeid

xi ni fi
C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
N 20 1
Pour tracer le diagramme en secteur il faut calcule l’angle (y°) de chaque variable avec la
formule suivante : (y°) = fi *360°

2.1.2.2 Diagramme en secteurs et diagramme en barres


Le tableau statistique d’une variable qualitative nominale peut être représenté par deux
types de graphique. Les effectifs sont représentés par un diagramme en barres et les
fréquences par un diagramme en secteurs (voir Figures 1 et 2)

Figure 1. – Diagramme en secteurs des fréquences

9
Biostatistique 1 ALIA Zeid

Figure 2 – Diagramme en barres des effectifs


2.1.3 Variable qualitative ordinale
2.1.3.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on écrit
x1 < x2 < · · · < xi−1 < xi < · · · < xj-1 < xj .
La notation x1 < x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulés :

Nj = , i = 1….i.
On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées

i = 1….i
Exemple On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y). La
codification a été faite selon le Tableau 2. On a obtenu la série
Codification de la variable Y
Dernier diplôme obtenu xj, Sans diplôme Sd, Primaire P, Secondaire Se, Supérieur non-
universitaire Su, Universitaire U, donc :
Sd Sd Sd Sd P P P P P P P P P P P Se Se Se Se Se Se Se Se Se Se Se
Se Se Se Su Su Su Su Su Su Su Su Su U U U U U U U U U U U U

10
Biostatistique 1 ALIA Zeid

Table 2 – Tableau statistique complet

Xi Fi xi ni Ni fi Fi
xi fi
cumule cumule
Sd x1 x1 f1 f1 Sd 4 4 0,08 0,08
P x2 x1+x2 f2 f1+f2 P 11 15 0,22 0,3
Se x3 x1+x2+.. f3 f1+f2+.. Se 14 29 0,28 0,58
Su x4 f4 Su 9 38 0,18 0,76
U x5 N f5 1 U 12 50 0,24 1
N 1 50

2.1.3.2 Diagramme en secteurs et diagramme en barres


Les fréquences d’une variable qualitative ordinale sont représentées au moyen d’un
diagramme en secteurs (Figure 3).

Figure 3 – Diagramme en secteurs des fréquences

11
Biostatistique 1 ALIA Zeid

Figure 4 – Diagramme en barres des fréquences

Figure 5 – Diagramme en barres des effectifs cumulés

2.1.4 Variable quantitative discrète


2.1.4.1 Tableau statistique
Une variable discrète a un domaine dénombrable.
Exemple Un quartier est composé de 50 ménages, et la variable Z représente le nombre
de personnes par ménage. Les valeurs de la variable sont : 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3
3333333333333444444444455555566688
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les
effectifs cumulés, les fréquences, les fréquences cumulées. `A nouveau, on peut
construire le tableau statistique :

12
Biostatistique 1 ALIA Zeid

xi ni Ni fi Fi
1 5 5 0,1 0,1
2 9 14 0,18 0,28
3 15 29 0,3 0,58
4 10 39 0,2 0,78
5 6 45 0,12 0,9
6 3 48 0,06 0,96
8 2 50 0,04 1
50 1

2.1.4.2 Diagramme en bâtonnets des effectifs


Quand la variable est discrète, les effectifs sont représentés par des bâtonnets (Figure 6).

Figure 6 – Diagramme en bâtonnets des effectifs pour une variable quantitative discrète

13
Biostatistique 1 ALIA Zeid

2.1.4.3 Fonction de répartition


Les fréquences cumulées sont représentées au moyen de la fonction de répartition. Cette
onction, présentée en Figure 7, est définie de R dans [0, 1] et vaut :

Figure 7 – Fonction de répartition d’une variable quantitative discrète

2.1.5 Variable quantitative continue


2.1.5.1 Tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs possibles. Le
domaine de la variable est alors R ou un intervalle de R. En pratique, une mesure est
limitée en précision. La taille peut être mesurée en centimètres, voire en millimètres. On
peut alors traiter les variables continues comme des variables discrètes. Cependant, pour
faire des représentations graphiques et construire le tableau statistique, il faut procéder à
des regroupements en classes. Le tableau regroupé en classe est souvent appelé
distribution groupée. Si [c−i ; c+i[ désigne la classe i, on note, de manière générale :
– c−i la borne inférieure de la classe i,
– c+i la borne supérieure de la classe i,
– ci = (c+i + c−i) / 2 le centre de la classe i,

14
Biostatistique 1 ALIA Zeid

– ai = c+i − c−i l’amplitude de la classe i,


– ni l’effectif de la classe i,
– Ni l’effectif cumulé de la classe i,
– fi la fréquence de la classe i,
– Fi la fréquence cumulée de la classe i.
La répartition en classes des données nécessite de définir a priori le nombre de classes I
et donc l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes
de même amplitude. Cependant, il existe des formules qui nous permettent d’établir le
nombre de classes et l’intervalle de classe (l’amplitude) pour une série statistique de n
observations.
– La règle de Sturge : I = 1 + (3.3 log10(n)).

– La règle de Yule : I =
L’intervalle de classe est obtenu ensuite de la manière suivante :
Longueur de l’intervalle = (xmax − xmin) / I, où xmax (resp. xmin) désigne la plus grande
(resp. la plus petite) valeur observée.
A partir de la plus petite valeur observée, on obtient les bornes de classes en additionnant
successivement l’intervalle de classe (l’amplitude).
Exemple On mesure la taille en centimètres de 50 élèves d’une classe :
152 152 152 153 153 154 154 154 155 155 156 156 156 156 156 157 157 157 158 158
159 159 160 160 160 161 160 160 161 162 162 162 163 164 164 164 164 165 166 167
168 168 168 169 169 170 171 171 171 171
On a les classes de tailles définies préalablement comme il suit :

On construit le tableau statistique.

15
Biostatistique 1 ALIA Zeid

2.1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par
des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la
fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
classe i est donc donné par : hi = ni / ai
– On appelle hi la densité d’effectif.
– L’aire de l’histogramme est égale `a l’effectif total n, puisque l’aire de chaque
rectangle est égale à l’effectif de la classe j : ai × hi = ni. Pour un histogramme des
fréquences on a di = fi / ai
– On appelle dj la densité de fréquence.
– L’aire de l’histogramme est égale `a 1, puisque l’aire de chaque rectangle est égale
à la fréquence de la classe i : ai × di = fj. Figure 8 représente l’histogramme des
fréquences de l’exemple précèdent :

Figure 8 – Histogramme des fréquences

2.1.5.3 Fonction de répartition


La fonction de répartition F(x) est une fonction de R dans [0, 1], qui est définie par

16
Biostatistique 1 ALIA Zeid

Figure 10 – Fonction de répartition d’une distribution groupée

2.2. Statistique descriptive univariée


Les paramètres de position (mode, médiane, moyenne) permettent de savoir autour de
quelles valeurs se situent les valeurs d'une variable statistique.
2.2.1 Paramètres de position
2.2.1.1 Mode (Mo)
Le mode, noté Mo, est la modalité qui admet la plus grande fréquence :
f (Mo) = Max (fi) ; i  [ 1, p ]
Il est parfaitement défini pour une variable qualitative ou une variable quantitative
discrète.
Pour une variable quantitative continue nous parlons de classe modale : c'est la classe
dont la densité de fréquence est maximum. Si les classes ont même amplitude la densité
est remplacée par l'effectif ou la fréquence et nous retrouvons la définition précédente.
Nous définissons le mode, pour une variable quantitative continue, en tenant compte des
densités de fréquence des 2 classes adjacentes par la méthode suivante.

17
Biostatistique 1 ALIA Zeid

La classe modale [ xi, xi + 1 [ étant déterminée, le mode Mo vérifie :

Dans une proportion, on ne change pas la valeur du rapport en additionnant les


numérateurs et en additionnant les dénominateurs :

Remarques.
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
mode coïncide avec le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu'elle est
plurimodale.
Cette situation est intéressante : elle met en évidence l'existence de plusieurs sous-
populations, donc l'hétérogénéité de la population étudiée.

18
Biostatistique 1 ALIA Zeid

2.2.1.2 Moyenne (M)


La moyenne ne se définit que pour une variable statistique quantitative. Pour une variable
statistique discrète {(xi, ni)}1  i  p à valeurs dans , la moyenne est la moyenne
arithmétique des modalités pondérées par les effectifs :

Exemple.
L'étude de 21 familles a conduit à la distribution suivante le nombre d'enfants dans la
famille :

Le nombre moyen d'enfants par famille est

= 1/21(0*5+ 1*3+ 2*6+ 3*1+ 4*5+ 5*3) = 45/21 = 15/7


Naturellement, cette moyenne ne représente pas une "famille moyenne" mais donne une
estimation du nombre d'enfants dans une famille dont est extrait l'échantillon : nous
pourrons dire que, dans cette population, il faudra, en moyenne, 7 familles pour avoir 15
enfants, ou que 100 familles auront, en moyenne, 214 enfants.
Propriétés de la moyenne.
Somme : La somme X + Y de deux variables statistiques X et Y est définie par :

Nous avons alors écrit :

Produit par un scalaire


Le produit  X d'une variable statistique X par un nombre réel  est défini par :

Nous pouvons alors écrire :

19
Biostatistique 1 ALIA Zeid

2.2. 1. 3. Médiane (Me) :

La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures
à Me est égal à l'effectif des observations dont les modalités sont supérieures à Me. Cette
définition n'a de sens que si les modalités sont toutes ordonnées. Dans le cas d'une
variable qualitative il est parfois possible de choisir un ordre.
Exemple : niveau d'études scolaires : école primaire < 1er cycle < CAP < BEP < Bac <
BTS < DEUG < .... Une variable quantitative X doit être définie dans
Détermination pratique de la médiane.
Cas d'une variable discrète.
Reprenons l'exemple de variable discrète (appels téléphoniques).
La fréquence cumulée est 42,8 % pour x = 2, et 64,6 % pour x = 3.
L'intervalle [2, 3[ est appelé intervalle médian. Dans l'intervalle médian, la médiane est
calculée par interpolation linéaire.

En général on note
x(1), . . . , x(i), . . . , x(n), la série ordonnée par ordre croissant. On appelle cette série
ordonnée la statistique d’ordre. Cette notation, très usuelle en statistique, permet de
définir la médiane de manière très synthétique.
– Si n est impair
– Si n est pair

20
Biostatistique 1 ALIA Zeid

Cas d'une variable continue :


Reprenons l'exemple de variable continue (entreprises automobiles).
La fréquence cumulée est 36,1 % pour x = 0,50, et 52,7 % pour x = 1,00.
L'intervalle [0,50, 1,00 [ est l'intervalle médian. Dans l'intervalle médian, la médiane est
calculée par interpolation linéaire.

En général on note

xi : Valeur de la borne inférieure de la classe


N (i-1) : effective cumulée de la classe i-1
ni : effective simple de la classe i (contenant l’effective cumulée N/2)
a : Amplitude de la classe i (contenant l’effective cumulée N/2)
Remarques
La médiane ne dépend que de l'ordre des modalités, elle n'est donc pas influencée par les
observations aberrantes. La médiane partage l'histogramme des fréquences en 2 parties
d'aires égales.
2.2. 1. 4. Quantile (Qi) :

C’est une généralisation de la notion de médiane


– Soit X une variable quantitative observée sur n individus d’un échantillon
– Ranger les valeurs mesurées par ordre croissant : on obtient {xr, r = 1,..,n}
– Médiane = valeur au-dessous de laquelle se trouvent 50% de ces n observations

21
Biostatistique 1 ALIA Zeid

– qème quantile (ou qème percentile) = valeur au-dessous de laquelle se trouvent q p. 100 de
ces n observations. On le note Qq
• Q50 = médiane
• Q25 = 1er quartile
• Q75 = 3ème quartile
• Q95 = 95ème percentile
– Si q(n+1) est un entier i, Qq = xi
– Si r < q(n+1) < r + 1, Qq = (xr + xr+1)/2

Remarque : Ces éléments se déterminent facilement à partir des courbes cumulatives, en


cherchant les abscisses des points d'ordonnées n/2 pour Me, n/4 pour Q1...

2.2.2 Paramètres de dispersion


2.2.2. 1. Etendue
Soit X une variable statistique réelle discrète.
L'étendue ω de X est la différence entre la plus grande valeur de X et la plus petite valeur
de X.

Ce paramètre est souvent utilisé dans les contrôles de fabrication, pour lesquels on donne,
a priori, des marges de construction.
Son intérêt est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui
peuvent être des valeurs aberrantes.
2.2.2.2. Distance interquartile
L'intervalle interquartile, noté I, est la différence entre les deux quartiles Q3 et Q1 :
I = Q3 - Q1
Cet intervalle contient 50% de la population en en éliminant 25% à chaque extrémité.
Cette caractéristique est nettement meilleure que l'étendue.
2.2.2.3. Variance et écart-type
a) Définition
Soit X = {(xi, ni)}1 ≤ i ≤ p une variable statistique réelle.
On appelle variance de X, la moyenne arithmétique des carrés des écarts de X à sa
moyenne :

22
Biostatistique 1 ALIA Zeid

On appelle écart-type de X la racine carrée s (X) de la variance de X. S = N s2 (X) est la


somme des carrés des écarts :

b) Formule de la variance
En développant le carré (xi – )2, la formule de définition de la variance peut être écrite :

Cette formule (la variance est égale à la moyenne du carré moins le carré de la moyenne)
est appelée formule de la variance, ou formule de König. Elle peut s'écrire sous la forme :

c) Propriétés de la variance
1. La variance est toujours un nombre réel positif. En effet, c'est une somme de carrés.
2. La variance est nulle si, et seulement si, X possède une seule valeur. En effet, une

somme de carrés est nulle si, et seulement si,

chaque carré est nul.

3. s2 (a + b X) = b2 s2 (X), quels que soient les nombres réels a et b. En effet, si X est à


valeurs réelles, on a :

23
Biostatistique 1 ALIA Zeid

Puis, si X est à valeurs dans Rq, on a :

2.2.2.5. Ecart absolu moyen.


a) Définition.
Soit X = {(xi, ni)}1 ≤ i ≤ p une variable statistique réelle. On appelle écart absolu moyen
de X la moyenne arithmétique des valeurs absolues des écarts de X à sa moyenne :

On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par
rapport à un nombre réel a quelconque.

On peut démontrer que l'écart absolu moyen par rapport à un nombre réel a est minimum
lorsque a est égal à la moyenne de X.
b) Calcul pratique.
Lorsque les observations sont groupées par classe, on adopte généralement pour valeur de
variable statistique le centre de chaque classe.
L'écart absolu moyen présente un inconvénient majeur : il ne se prête pas facilement aux
calculs algébriques, à cause de la valeur absolue.

24
Biostatistique 1 ALIA Zeid

2.2.2.6. Coefficient de variation.


Pour une variable statistique réelle X, on appelle coefficient de variation le rapport

Pour une variable statistique X à valeurs dans Rq, le coefficient de variation est défini par

Le coefficient de variation est un nombre sans dimension qui permet de comparer deux
variables statistiques de natures différentes.
On remarquera que, au signe près, c'est l'écart-type de la variable statistique

2.2.3. Moments
Soit X une variable statistique quantitative réelle. On appelle moment d'ordre r de X, la
quantité :

On appelle moment centré d'ordre r de X, la quantité :

25
Biostatistique 1 ALIA Zeid

2.2.4. Paramètres de forme


Nous définissons les paramètres de forme pour une variable statistique quantitative,
discrète ou continue, à valeurs réelles.
2.2.4.1. Coefficient d'asymétrie.
a) Définition.
Il existe plusieurs coefficients d'asymétrie. Les principaux sont les suivants. Le
coefficient d'asymétrie de Pearson fait intervenir le mode Mo : quand il existe, il est
défini par

Le coefficient d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini
par

Le coefficient d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par

Lorsque le coefficient d'asymétrie est positif, la distribution est plus étalée à droite : on
dit qu'il y a oblicité à gauche.
Lorsque le coefficient d'asymétrie est négatif, la distribution est plus étalée à gauche : on
dit qu'il y a oblicité à droite.
On utilise souvent un coefficient d'asymétrie de Pearson basé sur les moments centrés :

Ce coefficient d'asymétrie est toujours positif.


Il est nul pour une distribution à densité de fréquence symétrique, telle la loi de Gauss.

26
Biostatistique 1 ALIA Zeid

27
Biostatistique 1 ALIA Zeid

2.2.4.2. Paramètre d’aplatissement (kurtosis)

On peut se demander pourquoi – 3 ?


C'est parce que, en Probabilités, on peut démontrer que le coefficient d'aplatissement de
Pearson pour une variable aléatoire réelle qui suit une loi de Gauss, est égal à 3.
Il est alors naturel, pour comparer l'aplatissement d'une distribution statistique à
l'aplatissement d'une variable de Gauss, d'introduire le coefficient F 2 = β 2 – 3.
*Si F2 est égal à 0, le polygone statistique de la variable réduite a le même aplatissement
qu'une courbe en cloche, on dit que la variable est mésokurtique.
*Si F2 est > 0, le polygone statistique de la variable réduite est moins aplati qu'une
courbe en cloche, on dit que la variable est leptokurtique.
*Si F2 est < 0, le polygone statistique de la variable réduite est plus aplati qu'une courbe
en cloche, on dit que la variable est platykurtique.

F2 = 0 F2 > 0

F2 < 0

28
Biostatistique 1 ALIA Zeid

2.2.5 Boîte à moustaches :


La boîte `a moustaches, ou diagramme en boîte, ou encore boxplot en anglais, est un
diagramme simple qui permet de représenter la distribution d’une variable. Ce
diagramme est composé de :
– Un rectangle qui s’étend du premier au troisième quartile. Le rectangle est divisé par
une ligne correspondant `a la médiane.
– Ce rectangle est complété par deux segments de droites.
– Pour les dessiner, on calcule d’abord les bornes

où IQ est la distance interquartile.


– On identifie ensuite la plus petite et la plus grande observation comprise entre ces
bornes. Ces observations sont appelées “valeurs adjacentes”.
– On trace les segments de droites reliant ces observations au rectangle.
– Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont représentées par
des points et sont appelées “valeurs extrêmes”.

29
Biostatistique 1 ALIA Zeid

30
Biostatistique 1 ALIA Zeid

Exemple : Taux d’attaque du R. rattus sur les spathes du palmier dattier avant et après
leur ouverture au sud-est d’Algérie

Exemple : Taux d’attaque stationnaires dus à R. rattus tenant compte de l’état des
spathes (fermée et ouverte) du palmier dattier au sud-est d’Algérie (TAA: Taux d’attaque
avant ouverture des spathes ; TAP: Taux d’attaque après ouverture des spathes)

31
Biostatistique 1 ALIA Zeid

2.3. Statistique descriptive bivariée


2.3.1 Série statistique bivariée
On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n unités
d’observation. Pour chaque unité, on obtient donc deux mesures. La série statistique est
alors une suite de n couples des valeurs prises par les deux variables sur chaque individu :
(x1, y1), . . . , (xi, yi), . . . , (xn, yn).
Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine deux
cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.
2.3.2 Deux variables quantitatives
2.3.2.1 Représentation graphique de deux variables
Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de
nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan
(x1, y1), . . . , (xi, yi), . . . , (xn, yn).
Exemple
yi 60 62 64 70 73 90 96 100
xi 155 162 157 169 173 175 185 188

Figure – Nuage de points

32
Biostatistique 1 ALIA Zeid

Figure – Exemples de nuages de points et coefficients de corrélation


2.3.2.2 Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut calculer tous les
paramètres dont les moyennes et les variances :

Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes


marginales, écarts-types marginaux, quantiles marginaux, etc.. . .
2.3.2.3 Covariance
La covariance est définie :

33
Biostatistique 1 ALIA Zeid

Remarque
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi, pour tout i = 1, . . . , n, la covariance est égale à la variance.
Théorème La covariance peut également s’écrire :

Démonstration

2.3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux

Le coefficient de détermination est le carré du coefficient de corrélation :

Remarque
– Le coefficient de corrélation mesure la dépendance linéaire entre deux variables :

34
Biostatistique 1 ALIA Zeid

– Si le coefficient de corrélation est positif, les points sont alignés le long d’une droite
croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long d’une droite
décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance
linéaire. On peut cependant avoir une dépendance non-linéaire avec un coefficient de
corrélation nul.
2.3.2.5 Droite de régression
La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des
moindres carrés.
On considère que la variable X est explicative et que la variable Y est dépendante.
L’équation d’une droite est y = a + bx.
Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la régression
définis par : ei = yi − a − bxi.
Le résidu ei est l’erreur que l’on commet (voir Figure) en utilisant la droite de régression
pour prédire yi à partir de xi. Les résidus peuvent être positifs ou négatifs.

Figure – Le nuage de points, le résidu

35
Biostatistique 1 ALIA Zeid

Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés
qui consiste à chercher la droite qui minimise la somme des carrés des résidus :

Théorème : Les coefficients a et b qui minimisent le critère des moindres carrés sont
donnés par :

Démonstration : Le minimum M (a, b) en (a, b) s’obtient en annulant les dérivées


partielles par rapport à a et b.

On obtient un système de deux équations `a deux inconnues. En divisant les deux


équations par -2n, on obtient :

36
Biostatistique 1 ALIA Zeid

La première équation montre que la droite passe par le point ( ̄x,  ̄y). On obtient

En remplaçant a par : dans la seconde équation, on a

On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la matrice
des dérivées secondes est définie positive. La droite de régression est donc

Remarque La droite de régression de y en x n’est pas la même que la droite de


régression de x en y.

Figure: Droit de régrission

37
Biostatistique 1 ALIA Zeid

Chapitre 3 : Rappels mathématiques


3.1 Ensembles, éléments :
On appelle ensemble, toute liste ou collection d’objets bien définis, explicitement ou
implicitement ; on appelle éléments ou membres de l’ensemble les objets appartenant à
l’ensemble et on note :
*p ∈ A si p est un élément de l’ensemble A.
*B est partie de A, ou sous ensemble de A, et l’on note B ⊂ A ou A ⊃ B si x ∈ B⇒x ∈ A.
On définit un ensemble soit en listant ses éléments, soit en donnant la définition de ses
éléments :
• A = {1, 2, 3}
• X = {x : x est un entier positif}
Notations :
• La négation de x ∈ A est x ∉ A
• ∅ est l’ensemble vide
• E est l’ensemble universel.
3.2 Opérations sur les ensembles :
Soient A et B deux ensembles quelconques.
Intersection
L’intersection de A et B, notée A ∩ B, est l’ensemble des éléments x tels que x ∈ A et x ∈
B. Soit :
A ∩ B = {x : x ∈ A et x ∈ B}
Le terme « et » est employé au sens x ∈ A et B si x appartient à la fois à A et à B.

Cas particulier : si A ∩ B = ∅, on dit que A et B sont disjoints.

38
Biostatistique 1 ALIA Zeid

Réunion
La réunion de A et B, notée A ∪ B, est l’ensemble des éléments x tels que x ∈ A ou x ∈
B. Soit : A ∪ B = {x : x ∈ A ou ∈ B}
Le terme « ou » est employé au sens x ∈ A ou B si x appartient à A, ou à B, ou à A et B
(Car x ∈ A signifié x ∈ A et x ∈ B).

Complémentaire
Le complémentaire de A est l’ensemble des éléments de E qui n’appartiennent pas à A.
CA = A = {x : x ∉ A}

Différence
La différence entre A et B, ou complémentaire de B relatif à A, est l’ensemble des
éléments de A qui n’appartiennent pas à B.
A – B = CAB = {x : x ∉ B et x ∈ A}

39
Biostatistique 1 ALIA Zeid

Algèbre des ensembles

3.3 Ensembles finis, dénombrables, non dénombrables


•Un ensemble est fini s’il est vide (∅) ou s’il contient un nombre fini d’éléments ; sinon,
il est infini :
A = {a1, a2, a3} est fini ;
I = {x ∈ [0,1]} est infini.
• Un ensemble infini est dit dénombrable si on peut faire correspondre de façon unique
chaque élément de l’ensemble à un entier naturel et un seul :
A = {n : n est un entier pair} est infini dénombrable.
• Un ensemble infini est non dénombrable dans le cas contraire. Dans la pratique, les
seuls ensembles infinis non dénombrables que nous rencontrerons seront des intervalles
de ℜ : {x ∈ [a,b]} ou des intervalles de ℜ2 : {(x, y) : x ∈ [a,b], y ∈ [c,d]}.
3.4 Ensembles produits
Soient A et B deux ensembles ; l’ensemble produit de A et de B, noté A × B, est
l’ensemble de tous les couples ordonnés (a, b), avec a ∈ A et b ∈ B.
Exemples :
A = {a, b, c} ; B = {1, 2}
A × B = {(a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2)}
ℜ × ℜ est le plan cartésien, chaque élément d’étant défini par son abscisse et son
ordonnée :

40
Biostatistique 1 ALIA Zeid

3.5 Familles d’ensembles


Les éléments d’un ensemble peuvent eux-mêmes être des ensembles. On dit alors que ces
ensembles font partie de la même classe ou de la même famille.
Parties
Soit un ensemble A quelconque. On appelle famille des parties de A l’ensemble des sous-
ensembles de A.

Exemple : A = {1, 2}, P(A) = {∅, {1}, {2}, {1, 2}}

Partition
Une partition d’un ensemble A est une subdivision de A en sous-ensembles disjoints dont
la réunion forme A.
Notation
Soit une famille d’ensembles {Ai} = {A1, A2, ...., An, ....} qui peut être finie ou non. On
note :
∪ Ai = A1 ∪ A2 ∪ ... ∪ An ∪ ...
∩ Ai = A1 ∩ A2 ∩ ... ∩ An ∩ ...
3.6 Autres rappels mathématiques
3.6.1 Rappel sur les sommes
Soit {ai} une suite de termes ai. On note

Propriétés :

Si k est une constante (indépendante de i), elle peut être sortie de la somme.

41
Biostatistique 1 ALIA Zeid

3.6.2 Rappel sur les intégrales


Définition
Soit f une fonction réelle. L’intégrale définie de cette fonction sur l’intervalle [a,b] est
l’aire sous la courbe de f sur l’intervalle [a,b].

Elle est notée

Fonction primitive
Soit f une fonction réelle. L’aire sous la courbe sur l’intervalle ]-∞, x] varie lorsqu’on fait
varier x de -∞ à +∞. Cette aire est une fonction F de x, appelée fonction primitive de f.
Elle est définie par : F(x) = f(τ)dτ
Noter l’utilisation de la variable d’intégration τ. On peut utiliser n’importe quel nom de
variable (il s’agit d’une variable muette), différent de la borne d’intégration x.

42
Biostatistique 1 ALIA Zeid

Chapitre 4 : Eléments de calcul des Probabilités


4.1 Probabilités
4.1.1 Evénement
Une expérience est dite aléatoire si on ne peut pas prédire a priori son résultat. On note ω
un résultat possible de cette expérience aléatoire. L’ensemble de tous les résultats
possibles est noté Ω. Par exemple, si on jette deux pièces de monnaie, on peut obtenir les
résultats Ω = {(P, P), (F, P), (P, F), (F, F)}, avec F pour “face” et P pour “pile”. Un
événement est une assertion logique sur une expérience aléatoire comme “avoir deux fois
pile” ou “avoir au moins une fois pile”. Formellement, un événement est un sous-
ensemble de Ω.
– L’événement “avoir deux fois pile” est le sou ensemble {(P, P)}.
– L’événement “avoir au moins une fois pile” est le sou ensemble {(P, P), (F, P), (P, F)}.
L’ensemble Ω est appelé événement certain, et l’ensemble vide ∅ est appelé événement
impossible.
4.1.2 Opérations sur les événements
Sur les événements, on peut appliquer les opérations habituelles de la théorie des
ensembles.
Union
L’événement A∪B est réalisé d`es que A ou B est réalisé. Dans un lancer de dé, si
l’événement A est “obtenir un nombre pair” et l’événement B “obtenir un multiple de 3”,
l’événement A ∪ B est l’événement “obtenir un nombre pair ou un multiple de 3”, c’est-
`a-dire {2, 3, 4, 6}.
Intersection
L’événement A ∩ B est réalisé dès que A et B sont réalisés conjointement dans la même
expérience. Dans un lancer de d´e, si l’événement A est “obtenir un nombre pair” et
l’événement B “obtenir un multiple de 3”, l’événement A ∩ B est l’événement “obtenir
un nombre pair ET multiple de 3”, c’est-`a-dire {6}.
Différence
L’événement A\B est réalisé quand A est réalisé et que B ne l’est pas.
Complémentaire
Le complémentaire de l’événement A est l’événement Ω\A. Le complémentaire est noté
A.

43
Biostatistique 1 ALIA Zeid

Exemple L’expérience peut consister à jeter un d´e, alors Ω = {1, 2, 3, 4, 5, 6}, et un


événement, noté A, est “obtenir un nombre pair”. On a alors A = {2, 4, 6} et A = {1, 3, 5}.
4.1.3 Relations entre les événements
Evénements mutuellement exclusifs
Si A ∩ B = ∅ on dit que A et B sont mutuellement exclusifs, ce qui signifie que A et B ne
peuvent pas se produire ensemble.
Exemple Si on jette un dé, l’événement “obtenir un nombre pair” et l’événement “obtenir
un nombre impair” ne peuvent pas être obtenus en même temps. Ils sont mutuellement
exclusifs. D’autre part, si l’on jette un d´e, les événements A : “obtenir un nombre pair”
n’est pas mutuellement exclusif avec l’événement B : “obtenir un nombre inférieur ou
égal à 3”. En effet, l’intersection de A et B est non-vide et consiste en l’événement
“obtenir 2”.
Inclusion
Si A est inclus dans B, on écrit A ⊂ B. On dit que A impliqué B.
Exemple Si on jette un d´e, on considère les événements A “obtenir 2” et B “obtenir un
nombre pair”. A = {2} et B = {2, 4, 6}.
4.1.4 Ensemble des parties d’un ensemble et système complet
On va associer à Ω l’ensemble A de toutes les parties (ou sous-ensembles) de Ω.
Exemple 5.4 Si on jette une pièce de monnaie alors Ω = {P, F}, et A = {∅, {F}, {P}, {F,
P}}.
Définition Les événements A1, . . . , An forment un système complet d’événements, si ils
constituent une partition de Ω, c’est-`a-dire si

– Tous les couples Ai, Aj sont mutuellement exclusifs quand i ≠ j,


4.1.5 Axiomatique des Probabilités
Définition Une probabilité P(.) est une application de A dans [0, 1], telle que :
– Pr(Ω) = 1,
– Pour tous ensemble dénombrable d’événements A1, ..,An mutuellement exclusifs (tels
que Ai ∩ Aj = ∅, pour tout i ≠ j),
Pr (A1 ∪ A2 ∪ A3 ∪ · · · ∪ An) = Pr(A1)+Pr(A2)+Pr(A3)+· · ·+Pr(An).
A partir des axiomes, on peut déduire les propriétés suivantes :

44
Biostatistique 1 ALIA Zeid

Propriété Pr(∅) = 0.
Démonstration
Comme ∅ est d’intersection vide avec ∅, on a que Pr(∅ ∪ ∅) = Pr(∅) + Pr(∅).
Donc, Pr(∅) = 2Pr(∅), ce qui implique que Pr(∅) = 0.
Propriété
Pr(Ā) = 1 − Pr(A).
Démonstration
On sait que
A ∪ Ā = Ω et A ∩ Ā = ∅.
Ainsi, on a que Pr(Ω) = Pr(A ∪ Ā) = Pr(A) + Pr(Ā).
Mais, par la définition d’une probabilité, Pr(Ω) = 1. Donc, Pr(A) + Pr(Ā) = 1
On en déduit que Pr(Ā) = 1 − Pr(A).
Propriété
Pr(A) ≤ Pr(B) si A ⊂ B.
Démonstration
Comme A ⊂ B, on a B = (B ∩ ĀA) ∪ A.
Mais on a que (B ∩ Ā) ∩ A = ∅.
Ainsi, on a Pr(B) = Pr(B ∩ Ā) + Pr(A).
Or une probabilité est à valeur dans [0,1], donc Pr(B ∩ Ā) ≥ 0. On a alors Pr(B) ≥ Pr(A).
Propriété
Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B).
Démonstration
On a A ∪ B = A ∪ (B ∩ Ā), et A ∩ (B ∩ Ā) = ∅.
Donc Pr(A ∪ B) = Pr(A) + Pr(B ∩ Ā).
Il reste à montrer que Pr(B ∩ Ā) = Pr(B) − Pr(A ∩ B)
En effet, B = (B ∩ Ā) ∪ (B ∩ A)
Avec (B ∩ Ā) ∩ (B ∩ A) = ∅
Donc Pr(B) = Pr(B ∩ Ā) + Pr(B ∩ A),
ce qui donne Pr(B ∩ Ā) = Pr(B) − Pr(A ∩ B).
4.1.6 Probabilités conditionnelles et indépendance
Probabilité conditionnelle

45
Biostatistique 1 ALIA Zeid

Soient A et B deux événements quelconques d’un ensemble fondamental E muni d’une


loi de probabilité Pr. On s’intéresse à ce que devient la probabilité de A lorsqu’on
apprend que B est déjà réalisé, c’est-à-dire lorsqu’on restreint l’ensemble des résultats
possibles E à B. La probabilité conditionnelle de A, sachant que l’événement B est réalisé,
est notée Pr(A/ B) et est définie par la relation suivante :

Equation : probabilité conditionnelle


Dans cette équation, les probabilités des événements A ∩ B et B doivent être calculées sur
tout l’ensemble fondamental E, comme si on ne savait pas que B s’est déjà réalisé. Sinon,
on obtient évidemment Pr(B) = 1.

Figure : probabilité conditionnelle


Cette relation générale pour tout espace probabilisé s’interprète facilement dans le cas où
E est un espace équiprobable (mais cette relation est vraie pour un espace non-
équiprobable !). En notant le nombre d’éléments de A :

Pr(A/ B) traduit le rapport de la surface de A ∩ B sur la surface de B dans la figure.


Toujours dans le cas où E est équiprobable, on a

Cette interprétation de la probabilité conditionnelle, facile à appréhender dans le cas


d’équiprobabilité, est la définition générale de la probabilité conditionnelle qu’on doit
utiliser telle quelle, sans chercher une interprétation fréquentielle dans tous les cas.

46
Biostatistique 1 ALIA Zeid

Exemple
On jette une paire de dés bien équilibrés (espace équiprobable). On observe une
réalisation de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un des
deux dés ait donné le résultat 2 ?
B = {somme des deux dés = 6}
A = {au moins un des deux dés donne 2}
B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}
Nombre de réalisations de A ∩ B = {(2, 4), (4, 2)} = 2

4.1.7 Théorie des probabilités totales et théorème de Bayes


Théorème (des probabilités totales) Soit A1, . . . ,An un système complet d’événements,
alors

Table – Illustration du théorème des probabilités totales

Théorème (de Bayes) Soit A1, . . . ,An un système complet d’événements,alors

47
Biostatistique 1 ALIA Zeid

En effet, par le théorème des probabilités totales,

Exemple Supposons qu’une population d’adultes soit composée de 30% de fumeurs (A1) et de
70% de non-fumeurs (A2). Notons B l’événement “mourir d’un cancer du poumon”. Supposons
en outre que la probabilité de mourir d’un cancer du poumon est égale `a Pr(B/A1) = 20% si l’on
est fumeur et de Pr(B/A2) = 1% si l’on est non-fumeur. Le théorème de Bayes permet de calculer
les probabilités a priori, c’est-`a-dire la probabilité d’avoir été fumeur si on est mort d’un cancer
du poumon. En effet, cette probabilité est notée Pr(A1/B) et peut être calculée par

La probabilité de ne pas avoir été non-fumeur si on est mort d’un cancer du poumon vaut quant à
elle :

Exemple
Considérons, pour illustrer notre propos, le problème du diagnostic d’une douleur aiguë de
l’abdomen. Il s’agit d’un patient arrivant aux urgences pour un « mal au ventre ». Si l’on ne sait
rien d’autre sur le patient (on n’a pas fait d’examen clinique ou complémentaire), on ne connaît
que les probabilités d’avoir tel ou tel diagnostic si on observe une douleur. Soient D1, D2 et D3
les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs ; par exemple
D1 = appendicite, D2 = perforation d’ulcère, D3 = autres diagnostics. Soit un signe s1 pour
lequel on connaît Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3). Par exemple, s1 serait « présence d’une
fièvre ≥ 38,5°C » ; Pr(s1/D1) = 0,90 ; Pr(s1/ D2) = 0,30 ; et Pr(s1/D3) = 0,10.
Ces probabilités peuvent être estimées sur une population de patients en dénombrant le nombre
de sujets ayant le diagnostic D1 et présentant le signe s1. De même, on peut connaître Pr(D1),
Pr(D2) et Pr(D3).
Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic le plus
probable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/ s1) et
on retient le diagnostic qui a la plus grande probabilité : c’est l’application de l’approche
bayésienne au problème de l’aide au diagnostic.
Indépendance entre événements

48
Biostatistique 1 ALIA Zeid

On dit que deux événements A et B sont indépendants si la probabilité pour que A soit
réalisé n’est pas modifiée par le fait que B se soit produit. On traduit cela par :
Pr(A / B) = Pr(A). D’après la définition d’une probabilité conditionnelle,

,
On tire la définition : A et B sont indépendants si et seulement si

La symétrie de cette définition implique qu’on a aussi bien Pr(A / B) = Pr(A) (A est
indépendant de B) que Pr(B / A) = Pr(B) (B est indépendant de A) : l’apparition d’un des
deux événements n’influe pas sur l’apparition de l’autre.
Note
Ce qui est défini précédemment est l’indépendance de deux événements. Si on considère
maintenant 3 événements A, B, C, on dira que ces 3 événements sont indépendants : 1.
s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; et B

indépendant de C 2. et si .
Cette condition n’est pas une conséquence des précédentes.
Indépendance, inclusion et exclusion de deux événements
Considérons deux événements A et B.
1. Si A ⊂ B (A est inclus dans B) : si A est réalisé, alors B aussi

A et B ne sont pas indépendants


2. Si A ∩ B = ∅ (A et B sont exclusifs) : si A est réalisé, B ne peut pas l’être

De même A et B ne sont pas indépendants

4.2 Analyse combinatoire

49
Biostatistique 1 ALIA Zeid

4.2.1 Introduction
L’analyse combinatoire est l’étude mathématique de la manière de ranger des objets.
L’analyse combinatoire est un outil utilisé dans le calcul des probabilités.
4.2.2 Permutations (sans répétition)
Une permutation sans répétition est un classement ordonné de n objets distincts.
Considérons par exemple l’ensemble {1, 2, 3}. Il existe 6 manières d’ordonner ces trois
chiffres : {1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}.
Si on dispose de n objets, chacun des n objets peut être placé à la première place. Il reste
ensuite n−1 objets qui peuvent être placés à la deuxième place, puis n−2 objets pour la
troisième place, et ainsi de suite. Le nombre de permutations possibles de n objets
distincts vaut donc n × (n − 1) × (n − 2) × · · · × 2 × 1 = n!. La notation n! se lit
factorielle de n.
4.2.3 Permutations avec répétition
On peut également se poser la question du nombre de manières de ranger des objets qui
ne sont pas tous distincts. Supposons que nous ayons 2 boules rouges (notées R) et 3
boules blanches (notées B). Il existe 10 permutations possibles qui sont :
{R,R,B,B,B}, {R,B,R,B,B}, {R,B,B,R,B}, {R,B,B,B,R}, {B,R,R,B,B},
{B,R,B,R,B}, {B,R,B,B,R}, {B,B,R,R,B}, {B,B,R,B,R}, {B,B,B,R,R}.
Si l’on dispose de n objets appartenant à deux groupes de tailles n1 et n2, le nombre de
permutations avec répétition est

Par exemple si l’on a 3 boules blanches et 2 boules rouges, on obtient

Si l’on dispose de n objets appartenant `a p groupes de tailles n1, n2, . . . , np, le nombre
de permutations avec répétition est

4.2.4 Arrangements (sans répétition)

50
Biostatistique 1 ALIA Zeid

Soit n objets distincts. On appelle un arrangement une manière de sélectionner k objets


parmi les n et de les ranger dans des boîtes numérotées de 1 à k. Dans la première boîte,
on peut mettre chacun des n objets. Dans la seconde boîte, on peut mettre chacun des n−1
objets restants, dans la troisième boîte, on peut mettre chacun des n − 2 objets restants et
ainsi de suite. Le nombre d’arrangements possibles est donc égal à :

4.2.5 Combinaisons
Soit n objets distincts. On appelle une combinaison une manière de sélectionner k objets
parmi les n sans tenir compte de leur ordre. Le nombre de combinaisons est le nombre de
sous-ensembles de taille k dans un ensemble de taille n. Soit l’ensemble {1, 2, 3, 4, 5}. Il
existe 10 sous-ensembles de taille 3 qui sont : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3,
5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}.
De manière générale, quel est le nombre de combinaisons de k objets parmi n ?
Commençons par calculer le nombre de manières différentes de sélectionner k objets
parmi n en tenant compte de l’ordre : c’est le nombre d’arrangements sans répétition .
Comme il existe k! manières d’ordonner ces k éléments, si l’on ne veut pas tenir compte
de l’ordre on divise par k!. Le nombre de combinaisons de k objets parmi n vaut donc

Le nombre de combinaisons de k objets parmi n s’écrit parfois et parfois

Par exemple, si on cherche à déterminer le nombre de combinaisons de 3 objets parmi 5,


on a

4.3 Variables aléatoires

51
Biostatistique 1 ALIA Zeid

4.3.1 Définition
Considérons un ensemble fondamental E correspondant à une certaine expérience. Les
éléments de E, résultats possibles de l’expérience, ne sont généralement pas des nombres.
Il est cependant utile de faire correspondre un nombre à chaque élément de E, en vue de
faire ensuite des calculs. Pour un jet de dé, il semble naturel de faire correspondre à la
face obtenue par le jet, le nombre de points qu’elle porte, mais ce n’est pas une
obligation. Si on jette 2 dés, on s’intéressera par exemple à la somme des points obtenus.
Pour une carte à jouer, il faut convenir d’une valeur pour chaque carte.
Une variable aléatoire X, sur un ensemble fondamental E, est une application de E dans ℜ
: à tout résultat possible de l’expérience (à tout élément de E), la variable aléatoire X fait
correspondre un nombre.
Lorsque E est fini ou infini dénombrable, toute application de E dans ℜ est une variable
aléatoire. Lorsque E est non dénombrable, il existe certaines applications de E dans ℜ qui
ne sont pas des variables aléatoires. En effet, la définition rigoureuse d’une variable
aléatoire X impose que tout intervalle de ℜ soit l’image d’un événement de E par
l’application X. Cette condition est vérifiée pour toute application X si E est fini ou
dénombrable, puisque toute partie de E est un événement.
Ce n’est plus vrai si E est non dénombrable. Heureusement, les applications choisies
naturellement sont des variables aléatoires.
On parle de variable aléatoire discrète lorsque la variable est une application de E dans
un sous-ensemble discret de ℜ, le plus souvent N ou une partie de N. On parle sinon de
variable aléatoire continue.
Pour un nombre réel a donné, l’événement constitué de tous les résultats ξ d’expérience
tels que X(ξ) = a est noté [X(ξ) = a], ou, en abrégé, X = a.
Pour deux nombres réels a et b (a ≤ b), l’événement constitué de tous les résultats ξ
d’expérience tels que a ≤ X(ξ) ≤ b est noté [a ≤ X(ξ) ≤ b] ou, en abrégé, a ≤ X ≤ b.
Si X et Y sont des variables aléatoires définies sur le même ensemble fondamental E, et si
k est une constante, on peut montrer que les fonctions suivantes sont aussi des variables
aléatoires : (X + Y)(ξ) = X(ξ) + Y(ξ) (X + k)(ξ) = X(ξ) + k
(kX)(ξ) = kX(ξ) (XY)(ξ) = X(ξ) Y(ξ) pour tout élément ξ de E.
Exemple On considère une expérience aléatoire consistant à lancer deux pièces de
monnaie. L’ensemble des résultats possibles est Ω = {(F, F), (F, P), (P, F), (P, P)}.

52
Biostatistique 1 ALIA Zeid

Chacun des éléments de Ω a une probabilité 1/4. Une variable aléatoire va associer une
valeur à chacun des éléments de Ω. Considérons la variable aléatoire représentant le
nombre de “Faces” obtenus : X =
0 avec une probabilité 1/4
1 avec une probabilité 1/2
2 avec une probabilité 1/4.
C’est une variable aléatoire discrète dont la distribution de probabilités est présentée en
Figure.

Figure – Distribution de “faces” obtenus

4.3.2 Variables aléatoires discrètes


4.3.2.1 Définition, espérance et variance
Une variable aléatoire discrète prend uniquement des valeurs entières (de Z). Une
distribution de probabilités pX(x) est une fonction qui associe `a chaque valeur entière
une probabilité.
pX(x) = Pr(X = x), x ∈ Z.
La fonction de répartition est définie par

L’espérance mathématique d’une variable aléatoire discrète est définie de la manière


suivante :

53
Biostatistique 1 ALIA Zeid

et sa variance

4.3.2.2 Loi de Bernoulli


On considère une expérience n’ayant que deux résultats possibles, par exemple succès et
échec (ou présence et absence d’une certaine caractéristique). On introduit la variable
aléatoire X qui associe la valeur 0 à l’échec (ou à l’absence de la caractéristique) et la
valeur 1 au succès (ou à la présence de la caractéristique). Cette variable aléatoire est
appelée variable de Bernoulli.
Distribution de X. Appelons Π la probabilité de l’événement succès :
Pr({succès}) = Pr(X = 1) = Π d’où
Pr({échec}) = Pr(X = 0) = 1 – Π

4.3.2.3 Loi binomiale


Définition
Soient les épreuves répétées et indépendantes d’une même expérience de Bernoulli.
Chaque expérience n’a que deux résultats possibles : succès ou échec. Comme
précédemment, appelons Π la probabilité de l’événement élémentaire succès. A cette
expérience multiple on associe une variable aléatoire X qui mesure le nombre de succès
obtenus.
Distribution de X
On montre aisément que la probabilité d’avoir k succès lors de n épreuves répétées est
P(X = k pour n essais) =

Rappel

54
Biostatistique 1 ALIA Zeid

n! = 1 × 2 × …× n pour tout n entier positif


0! = 1 par définition
Remarques
a. La probabilité de n’avoir aucun succès au cours de n épreuves (k = 0) est (1-Π)n ; la
probabilité d’avoir au moins un succès est donc 1 - (1-Π)n (un succès ou plus)

55
Biostatistique 1 ALIA Zeid

56
Biostatistique 1 ALIA Zeid

4.3.2.4 Loi de Poisson


La loi de Poisson (due à Siméon Denis Poisson en 1837) est la loi du nombre
d’événements observé pendant une période de temps donnée dans le cas où ces
événements sont indépendants et faiblement probables. Elle peut s’appliquer au
nombre d’accidents, à l’apparition d’anomalies diverses, à la gestion des files d’attentes,
au nombre de colonies bactériennes dans une boîte de Pétri, etc.
Définition
Soit X la variable aléatoire représentant le nombre d’apparitions indépendantes d’un
événement faiblement probable dans une population infinie. La probabilité d’avoir k
apparitions de l’événement est

Cette loi dépend d’un paramètre λ, nombre réel strictement positif. Les nombres k
possibles sont toutes les valeurs entières 0, 1, 2, etc. Cependant, lorsque k est
suffisamment grand, la probabilité correspondante devient extrêmement faible.
Propriétés
• On peut montrer que

• Si deux variables aléatoires indépendantes X1 et X2 sont distribuées selon des lois de


Poisson de paramètres λ1 et λ2, alors la variable X1+X2 est distribuée selon une loi de
Poisson de paramètre λ1+λ2.

57
Biostatistique 1 ALIA Zeid

Remarques
Si on connaît la probabilité de n’observer aucun événement Pr(X=0) = p :
• D’après la formule,

On en déduit : λ = –lnp

On peut ainsi calculer facilement de proche en proche les probabilités des diverses
valeurs de k.
Lien avec la loi binomiale
Si une variable aléatoire X est distribuée selon une loi binomiale B(n, Π), on montre que
si Π est petit (en pratique inférieur à 0,1) et n assez grand (supérieur à 50), la loi
binomiale peut être approximée par une loi de Poisson de paramètre λ=nΠ. Les calculs
sont plus simples avec la loi de Poisson qu’avec la binomiale. Notons que puisque X est
distribuée selon une loi binomiale, ses valeurs possibles ne peuvent dépasser n, alors que
l’approximation par la loi de Poisson autorise des valeurs supérieures. Cependant le
calcul fournit des probabilités très faibles pour ces valeurs aberrantes.

4.3.3 Variable aléatoire continue


4.3.3.1 Définition, espérance et variance
Une variable aléatoire continue prend des valeurs dans R ou dans un intervalle de R.
La probabilité qu’une variable aléatoire continue soit inférieure à une valeur particulière
est donnée par sa fonction de répartition.
Pr(X ≤ x) = F(x).

58
Biostatistique 1 ALIA Zeid

La fonction de répartition d’une variable aléatoire continue est toujours :


– dérivable,
– positive : F(x) ≥ 0, pour tout x,
– croissante,
– limx→∞ F(x) = 1,
– limx→−∞ F(x) = 0.
On a
Pr(a ≤ X ≤ b) = F(b) − F(a).
La fonction de densité d’une variable aléatoire continue est la dérivée de la fonction de
répartition en un point

La probabilité que la variable aléatoire soit inférieure à une valeur quelconque vaut :

Dans la Figure 5,4, la probabilité Pr[X ≤ a] est l’aire sous la densité de −∞ à a.

Figure – Probabilité que la variable aléatoire soit inférieure à a


La probabilité que la variable aléatoire prenne une valeur comprise entre a et b vaut

59
Biostatistique 1 ALIA Zeid

Si la variable aléatoire est continue, la probabilité qu’elle prenne exactement une valeur
quelconque est nulle :
Pr(X = a) = 0
L’espérance d’une variable aléatoire continue est définie par :

et la variance

4.3.3.2. Loi normale (ou loi de Laplace-Gauss ou loi de Gauss)


Fondamentaux
La distribution normale est une distribution théorique, en ce sens qu'elle est une
idéalisation mathématique qui ne se rencontre jamais exactement dans la nature. Mais de
nombreuses distributions réellement observées s’en rapprochent et ont cette fameuse
forme de « cloche » (beaucoup d’individus autour de la moyenne, de moins en moins au
fur à mesure qu’on s’en éloigne, et ceci de façon symétrique).
D'autre part, elle est très utilisée en statistiques inférentielles : nous verrons en particulier
qu’une moyenne calculée sur un échantillon est une variable aléatoire. qui tend à suivre
une loi normale quand la taille de l’échantillon augmente, même si la population initiale a
une tout autre distribution.
Sa forme : la courbe en cloche
La loi normale de paramètres m et σ, notée N(m ; σ), est définie sur R par la densité :

dont la représentation graphique est la suivante :

60
Biostatistique 1 ALIA Zeid

Notons que : - la droite x= m est axe de symétrie


- les points d’inflexion sont situés à une distance s de cet axe de symétrie
Théorème Central-limite
Le Théorème Central-limite sera très précieux puisqu’il nous explique que si on fait la
somme d’un très grand nombre de variables aléatoires de loi quelconque, cette somme
suit approximativement une loi normale (en fait, sans rentrer dans le détail des
hypothèses, il nous dit que la variable X = X1 + X2+ … Xn tend à suivre une loi normale
quand n tend vers l’infini).
D’une part, cela nous permet de comprendre pourquoi autant de distributions observées
dans la réalité ont approximativement cette forme de cloche : elles décrivent des
phénomènes qui résultent de l’addition d’un grand nombre de causes de fluctuation
indépendantes. Exemple : la taille d’un individu.
D’autre part, cela nous permettra d’approcher beaucoup de lois par une loi normale, pour
peu que la variable étudiée s’exprime comme une somme d’un grand nombre de variables
indépendantes. C’est le cas notamment de la variable binomiale (somme de n variables de
Bernoulli indépendantes), dont la loi « tend à prendre la forme d’une cloche » quand n
augmente. Cela reste possible même quand on ne connaît pas loi des variables Xi.
Espérance et variance
Soit X une variable aléatoire qui suit la loi N(m, σ). Par raison de symétrie : E(X) = m et
on montre facilement que V(X) = σ2, donc le paramètre s correspond à l’écart-type (d’où
les notations…). Ainsi grâce à ses 2 paramètres, la loi normale permet de décrire des
distributions de moyenne quelconque (on translate la courbe vers la gauche ou vers la
droite), et de dispersion quelconque (on rapproche ou on écarte le point d’inflexion).

61
Biostatistique 1 ALIA Zeid

Calculs de probabilités sur une loi normale centrale


Exemple 1 : On suppose qu'une certaine variable X ~ N(0; 1). Pour quelle proportion
d'individus est-ce que X ≤ 1,56 ?
On cherche P(X ≤ 1,56) (rappel : on écrit aussi F(1,56))

Donc P(X ≥ 1,56) = 0,9406.


Pour 94,06 % des individus, la variable X est inférieure à 1,56.
Exemple 2 On suppose qu'une certaine variable X ~ N(0; 1). Pour quelle proportion
d'individus est-ce que X ≥ 1,49 ?
On cherche P(X ≥ 1,49). On écrit d'abord

62
Biostatistique 1 ALIA Zeid

P(X ≥ 1,49) = 1 - P(X ≤ 1; 49) = 1 - F(1; 49)

Donc P(X ≤ 1,49) = 0,9319.


Soit P(X ≥ 1,49) = 1 – 0,9319 = 0,0681
Exemple 3 On suppose qu'une certaine variable X ~ N(0,1). Pour quelle proportion
d'individus est-ce que X ≤ -1,1 ?
On cherche P(X ≤ -1,1), c'est à dire F(-1,1).

63
Biostatistique 1 ALIA Zeid

Résumé :

Calcule loi normale quelconque N(m,σ)


Pour faire des calculs avec une N(m,σ), on se ramène à la loi N(0,1).
Théorème
Si X ~ N(m,σ) alors

On dit que l'on centre et réduit X.


On utilise la lettre Z pour désigner une loi normale centrée réduite.
Exemple
On suppose qu'une certaine variable X ~ N(11,2). Pour quelle proportion d'individus est-
ce que X ≤ 14 ? On cherche P(X ≤ 14).

On trouve finalement P(X ≤ 14) = 0; 9332.

64
Biostatistique 1 ALIA Zeid

Calcule des quantiles


Quantile > 50% d'une N(0,1)
Exemple
On cherche le quantile à 97,5% pour la N(0; 1). Cela revient à trouver a tel que
P(Z ≤ a) = 0,975.
On lit la table à l'envers :

Notation
Le quantile d'ordre α pour la loi normale centrée réduite est noté zα.
Par exemple, z0,975 = 1,96.
Quantile < 50% d'une N(0,1)
Exemple
On cherche le quantile à 14% pour la N(0,1). Cela revient à trouver a tel que P(Z ≤ a) =
0; 14.
Il n'y a pas de nombre < 0,5 dans la table !
Le quantile est donc z0;14 = -1,08.

65
Biostatistique 1 ALIA Zeid

Quantile d'une loi normale quelconque


Notons Qα le quantile d'ordre alpha d'une loi normale quelconque N(m,σ).

A retenir : Qα = µ + σ * zα

On "déréduit" et on "décentre" le quantile de la loi normale centrée/réduite.


Exercice
Quel est le quantile à 90% pour une loi normale N(11,2) ?

4.3.3.3. Distribution exponentielle


Soit une variable aléatoire X qui définit la durée de vie d’un phénomène ou d’on objet. Si
la durée de vie est sans vieillissement, c’est-`a-dire la durée de vie au de la d’un instant T
est indépendante de l’instant T, alors sa fonction de densité est donnée par :

On dit que X suit une loi exponentielle de paramètre λ positif. De manière synthétique, on
écrit :

Quand x > 0, sa fonction de répartition vaut :

On peut alors calculer la moyenne : E(X) =1/λ


Démonstration

66
Biostatistique 1 ALIA Zeid

Il est également possible de montrer que la variance vaut :

4.4 Distribution bivariée


Deux variables aléatoires peuvent avoir une distribution jointe

Figure – Fonction de densité d’une variable exponentielle avec λ = 1


4.4.1 Cas continu
Soit deux variables aléatoires X et Y continues, leur distribution de densité f(x, y) est une
fonction continue, positive, et telle que

La fonction de répartition jointe est définie par

On appelle densités marginales les fonctions

Avec les distributions marginales, on peut définir les moyennes marginales, et les
variances marginales :

Avec les distributions conditionnelles, on peut définir les moyennes conditionnelles, et


les variances conditionnelles :

67
Biostatistique 1 ALIA Zeid

4.4.2 Cas discret


Soit deux variables aléatoires X et Y discrètes, leur distribution de probabilité jointe p(x,y)
est telle que

Avec les distributions conditionnelles, on peut définir les moyennes conditionnelles, et


les variances conditionnelles :

*Dans les deux cas discrets et continus, on peut toujours écrire


var(X) = E[X − E(X)]2 = E[X2 − 2XE(X) + E2(X)] = E(X2) − 2E(X)E(X) + E2(X) = E(X2)
− E2(X).

68
Biostatistique 1 ALIA Zeid

De même,
var(X|Y = y) = E {[X − E(X|Y = y)]2|Y = y} = E(X2|Y = y) − E2(X|Y = y).
On a également
cov(X, Y ) = E[X − E(X)][Y − E(Y )] = E[XY − Y E(X) − XE(Y ) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y ) = E(XY ) − E(X)E(Y ).
L’opérateur espérance permet donc de définir la variance et la covariance.
4.4.3 Indépendance de deux variables aléatoires
Deux variables aléatoires X et Y sont dites indépendantes, si
Pr(X ≤ x et Y ≤ y) = Pr(X ≤ x)Pr(Y ≤ y), pour tout x, y ∈ R.
– Si X et Y sont discr`etes, cela implique que
Pr(X = x et Y = y) = Pr(X = x)Pr(Y = y), pour tout x, y ∈ Z.
– Si X et Y sont continues, en notant fX(.) et fY (.) les fonctions de densité respectives de
X et Y, et en notant fXY (x, y) la densité jointe des deux variables, alors X et Y sont
indépendants si fXY (x, y) = fX(x)fY (y), x, y ∈ R.
Propriétés des espérances et des variances
De manière générale, pour des variables aléatoires X et Y, et avec a et b constants, on a
les résultats suivants qui sont démontrées pour le cas continu. Ces résultats sont
également valables pour le cas discret pour lequel les démonstrations sont similaires.
E(a + bX) = a + bE(X)
E(aY + bX) = aE(Y ) + bE(X).
E(X + Y ) = E(X) + E(Y ).
var(a + bX) = b2var(X).
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).
De plus, si X et Y sont indépendantes, on a f(x, y) = fX(x)Y f(y) pour tout x, y :
E(XY ) = E(X)E(Y ).

69
Biostatistique 1 ALIA Zeid

Références bibliographiques

Andrew K. et Simone M.P., 2011. Méthodes biostatistiques appliquées à la recherche


clinique en cancérologie. JOHN LIBBEY EUROTEXT, Pars. 384p.

Benjamin, J. R., & Cornell, C. A., 2014. Probability, statistics, and decision for civil
engineers. Courier Corporation. 676p.

Bickel, P. J., & Lehmann, E. L., 2012. Descriptive statistics for nonparametric models
IV. Spread. In Selected Works of EL Lehmann (pp. 519-526). Springer, Boston, MA.

Bickel, P. J., & Lehmann, E. L., 2012. Descriptive statistics for nonparametric models
I. Introduction. In Selected Works of EL Lehmann (pp. 465-471). Springer, Boston, MA.

DeGroot, M. H., & Schervish, M. J., 2012. Probability and statistics. Pearson
Education.

DELAGARDE J., 1983. Initiation à l’analyse des données. Ed Dunod, Paris, 157 p.
PHILIPEAU G., 1992. Analyse en composantes principales. Corllection STAT-
ITCF,Institut Technique des Céréales et Fourrages, 15 p.

Fisher, R. A., 1930. Inverse probability. In Mathematical Proceedings of the Cambridge


Philosophical Society (Vol. 26, No. 4, pp. 528-535). Cambridge University Press.

Fisz, M., & Bartoszyński, R., 2018. Probability theory and mathematical statistics (Vol.
3). J. wiley. 276p.

FRANÇOIS D., 2007. Les probabilités et la statistique de A à Z. Ed Dunod, Paris, 202p.

Golmard J.L., Mallet A. et Morice V., 2007. Biostatistique PCEM1. Université Paris -
VI, faculté de médecine. 281 p.

Hannigan, A., & Lynch, C. D., 2013. Statistical methodology in oral and dental
research: pitfalls and recommendations. Journal of Dentistry, 41(5), 385-392.

70
Biostatistique 1 ALIA Zeid

McHugh M. L., & Hudson‐Barr D., 2003. Descriptive statistics, part II: Most
commonly used descriptive statistics. Journal for Specialists in Pediatric Nursing, 8(3),
111-116.

Millot, G., 2018. Comprendre et réaliser les tests statistiques à l'aide de R: manuel de
biostatistique. De Boeck Supérieur. 945p

Papoulis, A., 1990. Probability & statistics (Vol. 2). Englewood Cliffs: Prentice-Hall.
448p.

RENEE V., 2006. Aide-mémoire Statistique et probabilités pour l’ingénieur 2ème


édition. Ed. Dunod. Paris, 489p.

Robert V.H., Joseph M.K. and Allen T. C., 2005. Introduction to Mathematical
Statistics (6th Edition). Pearson Education, Upper Saddle River, N.J. 119p

Ross, S. M., Ross, S. M., Ross, S. M., Ross, S. M., & Mathématicien, E. U.,1998. A
first course in probability. Upper Saddle River, NJ: Prentice Hall. 295p.

Severini, T. A., 2000. Likelihood Methods in Statistics. Oxford University Press.

Stafford, R. E., 1971. The speededness quotient: A new descriptive statistic for
tests. Journal of Educational Measurement, 8(4), 275-277.

Triola, M., & Triola, M. F., 2012. Biostatistique pour les sciences de la vie et de la
santé : édition revue et corrigée. Pearson Education France. 358p.

Von Mises, R., 1981. Probability, statistics, and truth. Courier Corporation. 243.

71
Biostatistique 1 ALIA Zeid

Tables statistique

72
Biostatistique 1 ALIA Zeid

73
Biostatistique 1 ALIA Zeid

74
Biostatistique 1 ALIA Zeid

75
Biostatistique 1 ALIA Zeid

76

Vous aimerez peut-être aussi