Statistiques descriptives et bivariées
Thèmes abordés
Statistiques descriptives et bivariées
Thèmes abordés
Première partie L’effectif total est de 1000, ce qui permet de calculer facilement les fréquences situées
sur la dernière ligne du tableau.
Statistique descriptive On peut imaginer de multiples représentations graphiques pour une série statistique :
diagramme en batons, camemberts...Une seule présente une petite difficulté : l’histo-
1 statistiques à une variable gramme, utilisé pour représenter par une suite de rectangle des résultats regroupés en
classes.
1.1 vocabulaire, représentation exemple 2 : un technicien mesurant des tiges métalliques obtient les valeurs suivantes :
La statistique est l’étude des populations, dont les éléments sont des individus ; le plus
souvent on n’étudie pas toute la population, mais seulement un échantillon de celle-ci.
L’effectif d’un échantillon est le nombre d’individus qui le composent. longueur (mm) [330; 340[ [340; 343[ [343; 345[ [345; 350[ [350; 360[
Plus précisément, on étudie certains caractères des individus, caractères qui peuvent
être qualitatifs (par exemple le prénom, la nationalité, ...) ou quantitatifs (l’âge, la taille,
les revenus mensuels...). Les caractères quantitatifs peuvent être discrets (la pointure de effectifs 57 195 204 30 14
chaussures, le nombre de personnes au foyer, ...) ou continus (la taille, la superficie d’une
région, ...).
Pour faciliter l’étude, en particulier des caractères continus, on peut regrouper les va- 57 195 204 30 14
fréquences ≃ 0.11 ≃ 0.39 ≃ 0.41 ≃ 0.06 ≃ 0.03
leurs en classes, c’est à dire en intervalles deux à deux disjoints. La longueur d’un tel 500 500 500 500 500
intervalle est appelé amplitude de la classe.
Par exemple, pour décrire la taille d’un adulte, on pourra considérer les intervalles Pour tracer l’histogramme on place en abscisse les différentes classes, ici [330; 340[,
[0; 100[, [100, 110[, . . ., [190, 200[, [200, +∞[, la première classe est d’amplitude 100, la [340; 343[, [343; 345[, [345; 350[ et [350; 360[.
dernière d’amplitude infinie alors que toutes les autres sont d’amplitude 10. Pour chaque classe on calcule alors la hauteur du rectangle correspondant : c’est l’ef-
fectif divisé par l’amplitude de la classe. Ici, on trouve donc respectivement 5.7, 65, 102, 6
Une série statistique est un ensemble de couples (xi , ni ), où les xi sont les valeurs et 14.
prises du caractère et les ni le nombre de fois où P
la valeur xi apparaît. Alors l’aire de chaque rectangle est proportionnelle à l’effectif de chaque classe. Atten-
L’effectif total de l’échantillon est donc n = i ni . tion, c’est bien l’aire, et non la hauteur, qui est proportionnelle à l’effectif !
On appelle fréquence d’appparition de xi le nombre fi = ni /n.
exemple 1 : sur un échantillon de mille pièces tirées de la production journalière d’une 1.2 caractéristiques de position
usine, on compte le nombre de défauts constatés :
le mode est la valeur la plus fréquente d’une série statistique ; pour une série répartie
nombre de défauts 0 1 2 3 4 en classe on parle de classe modale. Le mode n’est pas forcément unique.
effectifs 570 215 140 60 15 Dans l’exemple 1, le mode est 0 ; dans l’exemple 2, la classe modale est l’intervalle
fréquences 0.57 0.215 0.140 0.06 0.015 [343; 345[.
Ici les valeurs sont donc x0 = 0, x1 = 1, . . ., x4 = 4 d’effectifs respectifs n0 = 570, la médiane est la valeur M e telle que la moitié des individus de la série ont un caractère
n1 = 215, n2 = 140, n3 = 60, n4 = 15. inférieur ou égal à M e et l’autre moitié un caractère supérieur ou égal.
Quand les données sont regroupées en classes on parle de classe modale. remarque 1 : on peut développer l’expression donnant la variance et obtenir après cal-
Dans l’exemple 1, la médiane est 0 ; dans l’exemple 2, la classe médiane est [340; 343[. cul la formule σ ′2 = x2 − x̄2 .
la moyenne d’une série statistique (xi , ni ) est le nombre remarque 2 : la formule donnant la variance fait bien intervenir un n, et pas un n − 1,
cf 10.2 pour plus de précisions.
n1 x1 + n2 x2 + . . . + np xp
x̄ = = f1 x1 + f2 x2 + . . . + fp xp
n
On souhaite estimer si les valeurs d’une série statistique sont regroupées ou non autour
de la valeur moyenne.
La caractéristique de dispersion la plus élémentaire et la plus facile à calculer est l’éten-
due, différence entre la plus grande et la plus petite des valeurs. On peut aussi considérer la
moyenne des écarts à la moyenne de chaque valeur. 2.1 Droite de régression linéaire
Mais on préfère utiliser la variance et l’écart-type qui pour chaque valeur :
la variance de la série statistique est exemple 1 : On mesure simultanément le courant et l’intensité aux bornes d’une résis-
tance. On obtient les valeurs :
n1 (x1 − x̄)2 + n2 (x2 − x̄)2 + . . . + np (xp − x̄)2
=
n
f1 (x1 − x̄)2 + f2 (x2 − x̄)2 + . . . + fp (xp − x̄)2 . intensité en ampères 0.053 0.067 0.095 0.16 0.21
Ainsi, la variance est simplement « la moyenne des carrés des écarts à la moyenne ».
Dans l’exemple 1, on trouve une étendue de 4, une variance égale à 0.57 × (0.735)2 +
0.215 × (1 − 0.735)2 + 0.14 × (2 − 0.735)2 + 0.06 × (3 − 0.735)2 + 0.015 × (4 − 0.735)2 ≃ On peut représenter ces mesures par un nuage de points Mi (xi , yi ) ; G(x̄, ȳ) est appelé
1.015 et donc σ ′ ≃ 1.01. point moyen. Ici, on trouve pour point moyen G(x̄ = 0.117, ȳ = 17.61).
25 n
1X
σx,y = xi yi − x̄ȳ.
n i=1
20
* G(0.117,17.61) En utilisant l’une ou l’autre de ces formules, on trouve ici σx,y = 0.503.
15
On appelle alors droite de régression de y en x la droite D : y = ax + b passant par
G et de coefficient directeur
10
σx,y
a= .
σx2
5
D et D’, quasiment indiscernables C’est la droite D pour laquelle la somme des Mi Pi2 est minimale, les Pi étant les points de
0 D d’abscisse xi .
0 0.025 0.05 0.075 0.1 0.125 0.15 0.175 0.2
Ici, D : y = 143.27x − 0.847.
Sur cet exemple, que constate-t-on ? Les mesures semblent indiquer qu’il y a une re- De même la droite de régression de x en y D′ : x = a′ y + b′ passant par G et de coef-
lation linéaire entre les valeurs x du courant et y de la tension, i.e que l’on peut écrire de σx,y
ficient a′ = 2 minimise la somme i Mi Q2i où les Qi sont les points de D′ d’ordonnée
P
manière « presque » exacte y = ax + b. Mais comment choisir les « meilleurs » a et b ? σy
On peut bien sûr tracer à la main une droite qui passe au plus près des points, puis déter- yi .
miner par lecture graphique son coefficient directeur a et son ordonnée à l’origine b. Cette Ici D′ : x = 6.927 × 10−3 y − 0.00498, soit y = 144.36x + 0.719.
méthode est tout à fait valable, en particulier pour des valeurs obtenues en TP et tracées à On constate sur cet exemple que les deux droites sont quasiment indiscernables, et la
la main ! loi théorique U = RI (soit ici y = Rx) semble a peu près vérifiée, avec une valeur de R
Mais nous allons voir une méthode calculatoire plus systématique (et plus utilisable lors proche de 143 ou 144 Ω.
d’un traitement informatique des données) : la méthode des moindres carrés.
On commence par determiner les caractéristiques de chacune desr séries : les moyennes exemple 2 : dans un SAV, on note pour chaque appareil défectueux l’heure d’arrivée et
Pn 2 le temps d’atelier nécessaire à la réparation. Dans ce cas, il est probable que le graphique
i=1 (xi − x̄)
x̄ = 0.117 et ȳ = 17.61 déjà calculées, et les écarts-types σx = = ressemble à un nuage de points d’apparence aléatoire, car les deux caractéristiques n’ont
n
r Pn
2 probablement aucun lien entre elles. Les droites D et D′ ne coïncideront pas du tout.
i=1 (yi − ȳ)
0.0593 et σy = = 8.53.
n
On définit alors la covariance de la série des (xi , yi ) par la formule Un outil numérique permet d’estimer si deux variables sont liées ou pas par une relation
linéaire :
n
1X σx,y
σx,y = (xi − x̄)(yi − ȳ). le coefficient de corrélation r= .
n i=1 σx σy
3/27 I
r est toujours compris entre −1 et 1. S’il vaut ±1, les droites D et D′ sont confondues, Pn 2 2 Pn
< a( n1 i=1 xi − x̄ ) 1
8
et plus il est proche de ±1, plus les points (xi , yi ) semblent alignés : on dit qu’il y a une = n i=1 xi yi − x̄ȳ
bonne corrélation linéaire entre les quantités x et y.
ax̄ + b = ȳ
:
Ici, r = 0.994. En pratique, on commence à considérer une valeur |r| > 0.7 comme
significative d’une corrélation linéaire. Mais on reconnait dans la première équations les expressions de la variance x2 − x̄2 et de la
σx,y σx,y
covariance déjà étudiées. Ainsi, a = 1 Pn = , et la deuxième équation exprime
n
x
i=1 i
2
− x̄ 2 σx2
remarque 1 : le fait que r soit proche de 0 n’indique pas qu’il n’y a aucune corrélation bien le fait que la droite D passe par le point moyen du nuage de points.
entre les variables, mais seulement qu’il n’y a pas de corrélation linéaire. En effet, on ren- Des considérations intuitives montrent (la démonstration rigoureuse dépasse le niveau de ce
contre souvent des relations du type y = 1/(ax + b), y = kcx , y = kxc , ... et tout ce qui cours) qu’il doit bien exister une droite réalisant ce minimum, et on vient de prouver que ce n’est
précède est inadapté pour traiter ces corrélations non linéaires. possible que pour les valeurs de a et b définies plus haut.
Mais il suffit d’un changement de variable pour se ramener au cas linéaire : voir les
exercices. 2.2 Régression linéaire passant par l’origine
remarque 2 : une bonne corrélation (|r| proche de 1) ne signifie pas qu’il existe une Dans le cas de la résistance, si l’on connaît préalablement à l’expérience la loi d’Ohm,
relation de cause à effet entre deux phénomènes ; une étude physique plus approfondie sera on sait que la relation à chercher est du type U = RI, et l’on peut souhaiter simplement dé-
nécessaire pour le savoir : r n’est qu’un indice pour le technicien. terminer le meilleur coefficient R correspondant aux mesures, avec une relation sans terme
On peut illustrer cela par un troisième exemple : si à Grenoble on note, chaque jour de constant.
l’hiver, la hauteur de neige tombée et la température de l’air, on observera une corrélation : Si l’on recherche une relation de la forme y = ax, on prendra alors la valeur
il neige très peu les jours très froids. Peut-on en déduire que le froid empêche la neige de P
tomber ? En fait, il n’y a pas de relation physique directe : en altitude, ou dans d’autres xi yi xy
a = Pi 2 = .
régions du globe, il peut neiger avec des températures très froides. Mais en France, ce sont i xi x2
les anticyclones sibériens qui amènent le froid vif...et l’air sec. Il y a bien corrélation entre
les phénomènes, mais pas de lien de cause à effet.
Dans cet exemple, i x2i = 0.086023 et i xi yi = 12.82095, d’où a ≃ 149.04Ω.
P P
Complément : démonstration de la formule des moindres carrés Le choix entre ces deux méthodes dépendra des circonstances : dans cette expérience, le
On considère un nuage de points Mi (xi , yi ) et une droite D : y = ax + b. fait qu’une régression linéaire « classique » ne donne pas b = 0 peut s’expliquer par le fait
Une manière d’exprimer le fait que la droite D passe au plus près des points Mi est de demander que la résistance n’est pas une résistance « pure » (le terme b ayant alors une signification
que le produit des carrés des écarts Pd’ordonnée yi − (axi2+ b) soit le plus petit possible : on souhaite physique) ou bien par le fait qu’une ou plusieurs mesures sont peu précises.
trouver a et b tels que la quantité n i=1 ((axi + b) − yi ) soit minimale.
Il s’agit d’une application de deux variables (a, b) positive et à valeurs réelles. De plus cette ap-
plication est dérivable : si elle admet un minimum, on sait qu’en celui-ci les dérivées partielles doivent
s’annuler. On peut calculer ces dérivées partielles :
∂( n 2
∂( n 2
P P
i=1 (axi + b − yi ) ) i=1 (axi + b − yi ) )
Pn
= 2 i=1 xi (axi + b − yi ) et =
∂a ∂b
2 n
P
i=1 (ax i + b − y i ).
équations Pn
P
Ainsi la P condition nécessaire de minimum s’exprime Ppar les deuxP i=1 xi (axi + b −
n n 2 n n
yiP
) = 0 et i=1 (ax i + b − yi ) = 0, soit encore a i=1 x i + b i=1 x i − i=1 xi yi = 0 et
n Pn
a i=1 xi + nb − i=1 yi = 0. En divisant par n les deux équations on obtient le système :
8 1 Pn 2 1
Pn
< a n i=1 xi + bx̄ = n i=1 x i yi
ax̄ + b = ȳ
:
3.1 cardinal
3.4 arrangements
Si E est un ensemble fini, on appelle cardinal de E, et on note card(E), le nombre de
ses éléments. Combien de podiums sont possibles pour une épreuve olympique avec 10 participants ?
exemple : Il faut choisir la médaille d’or parmi les 10, puis la médaille d’argent parmi les 9 restants,
– Si E = { pique, trèfle, coeur, carreau }, son cardinal est card(E) = 4. puis la médaille de bronze parmi les 8 restants, soit 10 × 9 × 8 = 720.
– Si E = {1, 2, 3, 4, 5, 6}, card(E) = 6. Plus généralement,
– Si E est l’ensemble des entiers, card(E) est infini.
– Si E est l’ensemble des manières de placer Amandine, Bertrand et Cécile sur un
le nombre de manières de classer p personnes choisies parmi n est
banc, quel est le cardinal de E ? n!
On peut énumérer les possibités, en indiquant l’ordre de droite à gauche : A, B, C, Apn = n × (n − 1) × . . . × (n − p + 1) = .
(n − p)!
ou bien A, C, B, ou bien B, A, C ou bien B, C, A, ou bien C, A, B, ou bien C, B, A.
Et donc card(E) = 6.
5/27 II - 3 Combinatoire
n
se prononce « p parmi n ». Les np sont les coefficients binômiaux ; l’écriture lar-
p pour tous a,b complexes,
gement utilisée dans le secondaire en France au siècle précédent est Cnp (lire « C n p »)
n
(attention à l’ordre : n est en haut dans p , en bas dans Cnp )
n n n 0 n n−1 1 n 1 n−1 n 0 n
(a + b) = a b + a b + ...+ a b + a b
On peut aussi voir np comme le nombre de parties à p-éléments dans un ensemble à n
0 1 n−1 n
éléments. Avec cette définition, il est alors clair que
col.0 col.1 col.2 col.3 col.4 col.5 col.6 col.7 col.8 col.9 . . .
ligne 0 : 1
ligne 1 : 1 1
ligne 2 : 1 2 1
ligne 3 : 1 3 3 1
ligne 4 : 1 4 6 4 1
ligne 5 : 1 5 10 10 5 1
ligne 6 : 1 6 15 20 15 6 1
ligne 7 : 1 7 21 35 35 21 7 1
ligne 8 : 1 8 28 56 70 56 28 8 1
ligne 9 : 1 9 36 84 126 126 84 36 9 1
... ...
algébriques :
6/27 II - 3 Combinatoire
4 Probabilités - définitions élémentaires un nombre inférieur ou égal à 4 », et A ∩ B = {1, 3} = « on obtient un nombre impair
inférieur ou égal à 4 ».
4.1 expériences aléatoires
Deux événements sont incompatibles s’ils ne peuvent se produire simultanément, i.e si
On appelle expérience aléatoire une expérience dont les issues (les résultats) ne sont leur intersection A ∩ B est vide.
pas déterminés à l’avance. Bien sûr, un événement et son contraire sont toujours incompatibles.
L’ensemble, souvent noté Ω, de toutes les issues possibles est appelé univers ou espace
d’échantillonnage de l’expérience.
4.4 loi de probabilité
exemples :
– On jette un dé à six faces, il y a six issues possibles : Ω = {1, 2, 3, 4, 5, 6}. On peut associer à une expérience aléatoire et à son univers une probabilité qui permet
– Un fabricant contrôle les produits sortis de ses chaînes : il y a deux issues possibles, de quantifier le fait qu’un événement est « probable » ou est « peu probable ».
ou bien le produit est sans défaut et peut être vendu, ou bien le produit présente des
Une probabilité est une application p de P(Ω) dans [0; 1] telle que p(Ω) = 1 et telle
défauts et va être jeté : Ω = { conforme , non conforme }.
que si A et B sont deux événements incompatibles, p(A ∪ B) = p(A) + p(B).
– On choisit un nombre entier positif : Ω = N. A la différence des exemples précé-
dents, Ω est ici infini. On parle là d’infini discret (les valeurs possibles sont toutes Comme conséquence de cette définition, on a donc les propriétés suivantes :
isolées).
– On choisit un point dans le plan. Là, Ω = R2 , et l’univers est aussi infini, mais cette
0 ≤ p(A) ≤ 1 pour tout événement A
fois-ci on parle d’infini continu.
p(∅) = 0, p(Ω) = 1
4.2 événements
p(Ā) = 1 − p(A) pour tout événement A
Un sous-ensemble, ou partie, de Ω est appelé un événement. L’ensemble des événe-
ments est donc l’ensemble noté P(Ω) des parties de Ω. p(A ∪ B) + p(A ∩ B) = p(A) + p(B) pour tous événements A, B.
En particulier Ω et ∅ sont appelés événement certain et événement impossible.
Un ensemble qui ne contient qu’une seule issue est un événement élémentaire.
exemple : dans l’expérience du dé, « on obtient 1 » est un événement élémentaire, « on
obtient un nombre impair » ou « on obtient un nombre inférieur ou égal à 4 » sont deux remarque : pour chaque univers, on peut bien sûr imaginer plusieurs lois de proba-
événements (non élémentaires). bilités différentes. Dans l’expérience de la fabrication d’objets, on peut imaginer qu’un
chaîne de fabrication fonctionnant bien ait pour probabilité p(« conforme ») = 0, 95 et
p(« non conforme ») = 0, 05, alors qu’une chaîne moins efficace ait des probabilités asso-
4.3 opérations sur les événements ciées p(« conforme ») = 0, 75 et p(« non conforme ») = 0, 25.
A et B sont deux événements. Alors : On doit donc définir non seulement l’univers Ω, mais aussi la loi de probabilité p dont
L’événement contraire de A est son complémentaire dans Ω, noté Ā ou Ω − A, et se on le munit. Pour être rigoureux on parle donc en toute rigueur d’un espace probabilisé
comprend « A n’est pas réalisé ». (Ω, p).
La réunion de A et B est A ∪ B et se comprend « A ou B (ou les deux) sont réalisés ».
L’intersection de A et B est A ∩ B et se comprend « A et B sont réalisés simultané- 4.5 le cas particulier des univers finis
ment ». Pour étudier un phénomène à l’aide des probabilités, on a besoin de connaître la loi de
exemple : Dans l’expérience du dé, si A = {1, 3, 5} = « on obtient un nombre probabilité p, qui est une fonction de P(Ω) dans [0; 1], donc a priori on a besoin de connaître
impair » et B = {1, 2, 3, 4} = « on obtient un nombre inférieur ou égal à 4 », alors sa valeur sur chaque sous-ensemble de Ω. Mais en fait, quand Ω est fini, la connaissance de p
Ā = {2, 4, 6} =« on obtient un nombre pair », B̄ = {5, 6} =« on obtient un nombre sur chaque événement élémentaire suffit : si A ⊂ Ω est un événement quelconque, A est fini
strictement supérieur à 4 », A ∪ B = {1, 2, 3, 4, 5} = « on obtient un nombre impair ou et on peut écrire A = {a1 , a2 , . . . , ak }, donc p(A) = p({a1 }) + p({a2 }) + . . . + p({ak }).
lité p est caractérisée par le fait que pour tout événement A, p(A) = f . En particulier,
exemples : dans des expérience de tirage au sort (pile ou face, dé, jeu de cartes, ...), Z b A
sans précisions supplémentaires on supposera que le jeu n’est pas truqué, ce qui revient à p([a; b]) = f pour tout segment [a; b].
dire que la loi est équiprobable : tous les événements élémentaires ont la même probabilité a
(une chance sur deux de faire pile, une chance sur deux de faire face ; une chance sur six de
exemple : le cas le plus simple est celui de la probabilité uniforme sur [0; 1], qui corres-
tirer 1, une chance sur six de tirer 2, etc... ; une chance sur 32 de tirer chacune des cartes du
pond à l’expérience « on choisit au hasard un nombre compris entre 0 et 1, sans privilégier
paquet).
aucune valeur ».
Alors la densité correspondante est f = 1, et la probabilité d’obtenir un nombre entre a
4.6 le cas particulier des probabilités infinies discrètes Z b
et b (pour 0 ≤ a ≤ b ≤ 1) est égale à p([a, b]) = 1 = b − a.
Ω infini est dit discret si on peut énumérer ses éléments, i.e si on peut écrire Ω = a
{x1 , x2 , . . . , }. Typiquement, cela correspond à des expériences dont le résultat est un entier Ainsi, avec a = 0 et b = 1, la probabilité est 1 : le choix d’un nombre entre 0 et 1 donne
naturel. Comme dans le cas précédent, on obtient la probabilité d’un événement quelconque à coup sûr un nombre entre 0 et 1 !
comme somme (éventuellement infinie) des événements élémentaires qui le composent. Au contraire, si a = b, on constate que la probabilité de choisir un nombre a donné à
l’avance est nulle.
exemple : On considère la probabilité de désintégration des atomes d’un composé ra- Si a = 0, 25 et b = 0, 75 : on a une chance sur deux que le nombre choisi soit dans
dioactif durant un intervalle de temps de longueur t fixé. Ici, Ω = N, et on montrera en l’intervalle [a; b] de longueur 1/2.
Λn tn −Λt
exercice que pn = e . Quelle est la probabilité d’obtenir moins de 5 désintégra-
n!
tions ?
remarque : on n’a jamais équiprobabilité sur un ensemble infini discret. En effet,
supposonsPles probabilités élémentaires pi (i ∈ N) toutes égales à un même α. Alors
+∞
p(Ω) = i=0 α ne peut valoir que 0 (si α = 0) ou +∞ (si α > 0), mais en aucun
cas 1.
exemple : on lance deux dés bien équilibrés. Quelle est la probabilité que la somme des exemple : Un test de dépistage d’une maladie rare touchant une personne sur 10000
résultats soit strictement supérieure à 10 sachant que l’un des dés a donné 6. semble efficace : il détecte 99% des personnes infectées, avec seulement 0, 5% de « faux
"somme > 10" ={(6, 6); (6, 5); (5, 6)}, "l’un des dés donne 6" est de cardinal 11, et positifs ». Quelle est la probabilité qu’une personne dont le test est positif soit effectivement
l’intersection est de cardinal 3, donc la probabilité est 3/11. malade ? p(M |P ) = p(P |M )p(M )/(p(P |M )p(M ) + p(P |M̄ )p(M̄ )) ≃ 1, 94%.
Connaissant p(A|B), on aimerait parfois connaître p(B|A). C’est souvent possible en 4.9 événements indépendants
écrivant de deux manières différentes p(A ∩ B) à l’aide des définitions de p(A|B) et de
p(B|A) : On dit que deux événements A et B sont indépendants quand l’un des deux est de pro-
babilité nulle, ou bien, quand les deux sont de probabilité non nulle, si le fait de savoir que
l’un est réalisé n’influe pas sur la probabilité que l’autre le soit. Autrement dit deux événe-
p(A ∩ B) = p(A)p(B|A) = p(B)p(A|B).
ments de probabilité non nulle sont indépendants quand p(B|A) = p(B) (ou de manière
équivalente quand p(A|B) = p(A)).
exemple : 48 des 53 étudiants de T I ont eu la moyenne en automatique, et 14 des 26 p(A ∩ B)
Comme p(B|A) = , cela équivaut à la
étudiants M CP C. Quelle est la probabilité qu’un étudiant ayant eu la moyenne soit en T I ? p(A)
On a p(S|M CP C) = 14/26 et p(S|T I) = 48/53. De plus p(S) = 62/79 et proposition : deux événements sont indépendants si et seulement si p(A ∩ B) =
p(T I ∩ S) = 48/79. Donc p(T I|S) = (48/79)/p(S) = (48/79) × (79/62) = 48/62 = p(A)p(B).
24/31. remarque : ne pas confondre les deux notions d’événements indépendants et d’événe-
La formule ci-dessus peut s’exprimer sous la forme plus directement utilisable suivante : ments incompatibles ! Deux événements incompatibles ne sont jamais indépendants (sauf
si les deux sont de probabilités nulle). En effet, si A et B sont incompatibles et que l’on sait
que A est réalisé, justement, B ne peut pas se produire...il n’y a donc pas indépendance.
p(B|A) × p(A)
p(A|B) = .
p(B)
Dans les cas un peu plus compliqués, on peut avoir besoin de la formule de Bayes.
Considérons donc des événements incompatibles A1 , A2 , . . ., An , et un événement B
qui ne peut se produire que si l’un des Ai se produit, les p(B|Ai ) étant connus. On cherche
la probabilité pour que, B s’étant produit, Ak en soit la cause.
Commençons par remarquer que p(B) = p(A1 ∩ B) + . . . + p(An ∩ B) ; comme
p(Ak ∩ B) = p(Ak )p(B|Ak ), on obtient la formule des probabilités totales :
FX est une fonction croissante, à valeurs dans [0; 1]. De plus, comme p(∅) = 0 et
p(Ω) = 1, la limite de FX en −∞ est 0, sa limite en +∞ est 1, et donc p(X ≥ x) = On peut déduire de ces probabilités élémentaires les probabilités des autres événements.
1 − FX (x). Ainsi, p(le nombre d’atomes désintégrés est compris entre 2 et 4) = p(X ∈ [2; 4]) =
p(X = 2) + p(X = 3) + p(X = 4) = FX (5) − FX (2) (car FX (5) = p(X < 5) = p(X ≤
Bien sûr, donner la loi d’une variable aléatoire en donnant chaque pX (A) est fastidieux, 4), FX (2) = p(X < 2)). De même, p(deux atomes au moins se sont désintégrés) =
et souvent impossible si X(Ω) est infini. Mais nous allons voir que l’on peut être plus ef- p(X ∈ [2; +∞[) = 1 − p(X < 2) = 1 − FX (2).
ficace en décrivant la loi seulement pour certains événements « simples » : les événements exemple 3 : on joue dix fois de suite à pile ou face, et on compte le nombre de « face ».
élémentaires (pour une variable discrète) ou les événements du type ] − ∞; x[ (pour une Ω est ici constitué des listes de 10 résultats successifs « pile » ou « face ».
variable continue), ce qui revient à donner seulement la fonction de répartition. Que vaut X(Ω) ? C’est {0; 1; 2; . . . ; 10} : on peut obtenir face 0, 1, 2, . . ., 9 ou 10 fois.
nombre de listes avec k fois « face »
5.2 cas des univers finis ou infinis discrets Et si k désigne un nombre entre 0 et 10, pX (k) = ;
nombre total de listes
10
mais le nombre total de listes de 10 résultats pile ou face est 2 , alors que le nombre de
5.2.1 variables aléatoires 10
listes avec exactement k résultats face est 10 k
. Ainsi, p(X = k) = .
Si les valeurs prises par X forment un ensemble discret X(Ω) = {x1 , x2 , . . . , xn , . . .} k 210
on peut décrire la loi de la variable X en donnant seulement les pX ({xi }), probabilité que On obtient les représentations graphiques :
les éléments de Ω « prennent » la valeur xi . En effet pour tout événement A, pX (A) sera la
valeurs des pk = p(X = k) fonction de répartition
somme des pX ({a}) pour a ∈ A.
0.3 1
remarque : la notation pX ({xi }) est lourde et abrège en pX (xi ) ou p(X = xi ). 0.25
Ainsi la probabilité de chaque événement élémentaire xi est un nombre p(X = xi ) = pi 0.2
XΩ
card 0.15
tel que pi = 1, et décrire la loi de X revient à donner l’ensemble des valeurs pi . 0.1
i=1
0.05
exemple 1 : on joue à pile ou face, et on appelle X la variable aléatoire qui vaut 0 en 0 0
cas de résultat pile et 1 en cas de résultat face. Alors Ω = {pile, face}, et X(Ω) = {0; 1}. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
On définit pour une variable aléatoire discrète X qui prend les valeurs Var(aX) = a2 Var(X) et σ(aX) = |a|σ(X)
{x1 , x2 , . . . , xn , . . .} avec les probabilités {p1 , p2 , . . . , pn , . . .} (où pi = p(X = xi )) les
trois quantités suivantes : Var(X + b) = Var(X) et σ(X + b) = σ(X)
n
X
l’espérance de X est E(X) = pi xi = p1 x1 + p2 x2 + . . . , Une variable aléatoire X est dite centrée si E(X) = 0, et réduite si Var(X) = 1.
i=1 Des propriétés précédentes on déduit que
Citons quelques-unes des propriétés remarquables de ces quantités : que l’on peut représenter graphiquement, pour a = 1, b = 3 :
0
p( E(X) − λσ(X) < X < E(X) + λσ(X) ) ≥ 1 − 1/λ2 ,
0
-2 -1 0 1 2 3 4 5 -2 -1 0 1 2 3 4 5
soit encore :
|X − E(X)|
remarque : nous ne présentons ici qu’un cas particulier, suffisant pour une première p( ≥ λ ) ≤ 1/λ2 .
σ(X)
approche : en fait une variable aléatoire continue n’admet pas forcément de densité et on
parle, si cette densité existe, de variables aléatoires absolument continues. Toutes les va-
riables continues que nous rencontrerons seront en fait absolument continues. Autrement dit, si λ tend vers l’infini, la probabilité que X prenne une valeur dans
[E(X) − λσ(X); E(X) + λσ(X)] devient proche de 1.
On définit alors pour une variable aléatoire continue X, par analogie avec le cas discret : Pour λ = 2 par exemple, la probabilité que X prenne une valeur dans [E(X) −
2σ(X); E(X) + 2σ(X)] est au moins de 3/4. Pour λ = 3, la probabilité que X prenne
une valeur dans [E(X) − 3σ(X); E(X) + 3σ(X)] est au moins de 8/9.
Z Ces valeurs sont, la plupart du temps, loin d’être optimales. Mais elles ont l’avantage
l’espérance de X : E(X) = x fX (x) dx d’être vérifiées sans aucune hypothèse sur la loi de X. Quand cette loi est connue, nous
I
verrons plus loin comment améliorer ces résultats.
Z
la variance de X : Var(X) = fX (x) (x − E(X))2 dx
I
p
l’écart-type de X : σ(X) = Var(X).
Ces formules sont bien entendu analogues aux formules vues dans le cas discret.
Plus précisément, les probabilités élémentaires pi = p(X = xi ) sont remplacées par la
fonction densité fX (x), que l’on peut intérpréter en disant que fX (x)dx est la probabilité
de l’événement infinitésimal p(x ≤ X ≤ x + dx).
P Dans le cas discret, on obtient la probabilité de l’événement A par la formule p(A) =
a∈A p(X = a) (la probabilité d’un événement est la somme des probabilités des événe-
ments élémentaires qui le composent). R Dans le cas continu, la somme est remplacée par une
intégrale, et on a la formule p(A) = A fX (x)dx.
P
De même, l’espérance E(X) = i xi pi , qui est la somme des produits de la
Rforme (valeur de la variable aléatoire X) × (probabilité d’obtenir cette valeur), devient
x∈R xf (x)dx : on somme ici encore le produit de la valeur x par la probabilité f (x)dx
que X prenne une valeur infiniment proche de x.
On peut vouloir étudier plusieurs variables définies sur une même population, et les
liens entre ces variables. Par exemple : l’âge X, la taille Y , le revenu mensuel Z, . . ....Dans 6.2 loi d’un couple de variables aléatoires continues : densité
ce but nous allons introduire la notion de couple de variables aléatoires.
Si X et Y sont des variables continues, on Rappelle densité conjointe de
On considère donc deux variables X et Y définies sur un même univers Ω. (X, Y ) est
R
X et Y une fonction f (x, y) positive telle que f (x, y) dxdy = 1 et
une nouvelle variable aléatoire, à deux dimensions : c’est une application de P(Ω) dans R2 . Z bZ d
p((a < X < b) ∩ (c < Y < d)) = f (x, y) dxdy.
a c
Z +∞
6.1 loi d’un couple de variable aléatoires discrètes
Les densités marginales de X et Y sont respectivement fX (x) = f (x, y) dy et
Si Ω est discret, pour connaître la loi conjointe, la loi de (X, Y ), il suffit de la −∞
Z +∞
connaître sur les événements élémentaires (x, y) : on doit donc connaître les pxy = p(X = fY (y) = f (x, y) dx.
2
x
Pet Y = y). Alors si A est une P partie quelconque de R , on a p((X, Y ) ∈ A) =
−∞
(x,y)∈A p((X, Y ) = (x, y)) = (x,y)∈A pxy . En particulier, les pxy sont tous positifs, et
leur somme vaut 1. Indépendance : on dit que deux variables continues X et Y sont indépendantes si tous
les événements a < X < b et c < Y < d sont indépendants, autrement dit si l’on a
La loi d’un couple de variables
X aléatoires (X, Y ) X
étant donnée, on définit la loi margi- p(a < X < b, c < Y < d) = p(a < X < b) × p(c < Y < d) pour tous les intervalles
nale de X par p(X = x) = p(X = x, Y = y) = pxy ; et de même la loi marginale [a, b] et [c, d]. Cela équivaut à demander que la densité conjointe soit égale au produit des
y
X y
X densités marginales : f (x, y) = fX (x)fY (y).
de Y est donnée par p(Y = y) = p(X = x, Y = y) = pxy .
x x exemple : on peut voir un couple de variables aléatoires (X, Y ) comme la détermina-
On représente en général ces informations sous forme d’un tableau : les cases centrales tion d’une répartition de masse totale de 1 sur R2 . Dans le cas discret, il s’agit de répartir
donnent les probabilités des événements élémentaires, la somme de chaque ligne ou chaque des masses ponctuelles. Dans le cas continu, des masses continues, la densité de probabilité
colonne fournissant les probabilités marginales. correspond à une densité « physique ».
Par exemple quelle est la densité associé à la répartition de la masse uniformément sur
exemple : dans une urne contenant 4 boules indiscernables au toucher marquées 1 à 4, un triangle de sommets (0, 0), (0, 1), (1, 1) ?
on en tire simultanément deux. Le triangle T est déterminé par les équations y ≤ 1, x ≥ 0 et y ≥ x. On cherche une
On appelle X le plus petit des deux numéros sortis, et Y le plus grand. Donner la loi fonction nulle en dehors de T et constante sur T . Z 1Z 1
conjointe et les lois marginales de (X, Y ). R
Sa valeur k doit donc vérifier D k = 1, soit k dxdy = 1, soit encore
0 x
X|Y 2 3 4 loi marginale en X R1
(1 − x)k = k/2 = 1, donc k = 2.
0
1 1/6 1/6 1/6 1/2 R1
Réponse : 2 0 1/6 1/6 1/3 La densité marginale en x vaut 0 si x < 0 ou si x > 1, et sinon fX (x) = y=x 2 dy =
3 0 0 1/6 1/6 2(1 − x) ; elle est, logiquement, plus importante quand x est proche de 0 que de 1.
loi marginale en Y 1/6 1/3 1/2 R y De même la densité marginale en y vaut 0 en dehors de [0; 1] et sur [0; 1] : fY (y) =
x=0
2 dx = 2y.
(attention, il ne suffit pas que ces relations soient vérifiées Pour tous a, b réels, Var(aX + bY ) = a2 Var(X) + 2abcov(X, Y ) + b2 Var(Y )
pour que les variables aléatoires soient indépendantes ! !)
dont le calcul sera souvent laborieux et parfois délicat : si les variables sont indépendantes,
la formule E(XY ) = E(X)E(Y ) est bien plus efficace !
6.4 covariance
Ainsi, à chaque fois que l’on cherchera à modéliser des événements rares, dont le 2) = 1 − p(X < 2) = 1 − p(X = 0)− p(X = 1) = 1 − e−5/2 − e−5/2 ( 52 ) ≃ 71, 3%.
nombre moyen par unité de temps est λ connu et qui se succèdent de manière indépen- – quelle est la probabilité pour qu’en une heure, il reçoive au plus 8 appels ?
dante sans que deux événements ne soient jamais simultanés, le nombre X d’événements Le nombre X d’appels suit une loi de Poisson de paramètre 10, donc p(X ≤ 8) =
qui ont lieu durant l’unité de temps fixée suivra une loi de Poisson de paramètre λ. p(X = 0) + p(X = 1) + p(X = 2) + p(X = 3) + p(X = 4) + p(X = 5) + p(X =
Alors : 6) + p(X = 7) + p(X = 8).
a+b
et on a : E(X) = ,
2
(b − a)2 b−a
Var(X) = , σ(X) = √ . 0 0
12 2 3 -2 -1 0 1 2 3 4 5 6 7 -2 -1 0 1 2 3 4 5 6 7
Var(X) = σ 2 , σ(X) = σ.
application pratique : la loi exponentielle modélise les pannes d’un composant sans
vieillissement : si la durée de vie moyenne d’un tel composant est 1/k, la variable « durée
de vie du composant » suit une loi exponentielle de paramètre k.
On appelle usuellement la durée de vie moyenne « temps moyen entre deux dé- Traçons l’allure du graphe de la fonction densité et de la fonction de répartition :
faillances » (MTBF, soit : « mean time between failures » en anglais, et « moyenne des
temps de bon fonctionnement » en français).
0.1
0 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
7.2.3 la loi normale
C’est la loi la plus utilisée car en pratique elle « colle bien » à la réalité, pour décrire la
répartition de valeurs aléatoires autour d’une valeur moyenne. Par exemple, la répartition
des notes à un examen, la répartition des tailles dans une population. Les valeurs de FX ne sont pas directement accessibles, car on ne sait pas exprimer à
l’aide des fonctions usuelles les primitives de fX . On doit utiliser des tables ou des ordina-
teurs qui donnent des valeurs approchées.
Si une variable aléatoire à valeurs dans R a pour densité la fonction définie par
1 x−µ 2
1 − ( )
f (x) = √ e 2 σ , on dit qu’elle suit la loi normale de paramètres µ et σ, Pour voir l’effet des paramètres µ et σ, on peut représenter trois exemples de densités ;
σ 2π 5 1
souvent notée N (µ, σ 2 ). On peut démontrer facilement les propriétés suivantes : de gauche à droite, (µ = −2, σ = 2), (µ = 0, σ = 1) et (µ = , σ = ) :
2 2
et ces deux dernières valeurs, qui sont des valeurs de la fonction de répartition de Z, se Nous utiliserons plus tard, sans les étudier préalablement, d’autres lois qui apparaissent
trouvent dans la table de la loi normale centrée réduite N (0; 1). naturellement en statistiques : loi du χ2 , loi de Student.
exemple : X est une variable aléatoire de loi normale N (1, 4). Déterminer p(X ≤ 3),
p(X > 2) et p(−2.5 ≤ X ≤ 3).
On applique ce qui précède (avec µ = 1, σ = 2) : p(X ≤ 3) = p(Z ≤ 1) soit 0.8413.
De même on a p(X > 2) = p(Z > 0, 5) = 1 − p(Z ≤ 0, 5) = 1 − 0.6915 = 0.3085,