Cours 2017-2018
Cours 2017-2018
PLAN DU COURS
1) INTRODUCTION
2) RAPPELS
3) ÉCHANTILLONNAGE
4) TESTS D’HYPOTHESES
6) ESTIMATION PONCTUELLE
Rachid HARBA
1
1) INTRODUCTION
Bibliographie :
Livre facile d’accès : Murray R. Spiegel : Probabilités et statistique, Editions Série Schaum.
Livre avec toutes les démonstrations utiles : Benjamin Jourdain : Probabilités et statistique,
Editions Ellipses.
Autre livre : William H Greene, Econométrie, Paris, Pearson Education, 2005, 5e edition.
2
2) RAPPELS
Fréquence
Une population est un ensemble fini d'individus ou d’objets partageant une ou plusieurs
caractéristiques qui servent à les regrouper. On parle ainsi de population humaine, population
statistique, de population biologique. On peut aussi parler d'une population d'écrous produits
dans une usine.
Les éléments de la population répondent à une ou plusieurs caractéristiques communes que l’on
regroupe au sein d’une classe (classe des écrous en titane produits dans l’usine dont nous venons
de parler). En statistique, on appelle fréquence de la classe le rapport entre la taille de la classe
divisée par la taille de la population.
Probabilité
Dans toute expérience aléatoire A, il y a toujours une incertitude en ce qui concerne la
réalisation ou la non réalisation d’un événement particulier. Il est commode de quantifier la
chance, ou à la probabilité, de voir cet événement se réaliser. La probabilité d’un événement A
est notée Pr(A).
Par définition, la probabilité est le nombre de cas favorables divisé par le nombre d’essais
NE lorsque NE tend vers l’infini :
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
Pr(𝐴) = lim
𝑁𝐸→∞ 𝑁𝐸
La probabilité est un nombre sur lequel il n’y a aucune incertitude : c’est une constante.
On a aussi 0 Pr(A) 1.
Plus ce nombre est grand, plus la chance que l'événement se produise est grande.
Si A est l’évènement certain, Pr(A) = 1. On a aussi Pr(A) = 0 pour un événement qui n’a jamais
lieu.
Ex : lors du jet d’une pièce de monnaie, la probabilité d’avoir Face (F) est de 0,5 donc
Pr(F) = 0,5.
Pr(A,B) = Pr(A)Pr(B).
3
Relation entre fréquence et probabilité : on remarque que la fréquence et la probabilité sont
identiques si la population est infinie. Sinon, la probabilité est une constante, et la fréquence
pourra varier suivant la taille de la population de l’étude.
Ex : lors du jet simultané de deux pièces de monnaie où l’on peut avoir soit face (F) soit pile
(P) pour chaque pièce, l’espace d’échantillonnage est {FF, FP, PF, PP}.
Supposons que l’on affecte une valeur à chaque point de l’espace d’échantillonnage. Nous
obtenons un nouvel espace, dit espace des valeurs. Nous avons alors défini une fonction entre
l’espace d’échantillonnage et l’espace des valeurs. Cette fonction est appelée variable aléatoire
discrète (VAD). On la désigne par une lettre majuscule, X par exemple, et les valeurs possibles
par des lettres minuscules, x par exemple.
Ex : nous définissons la VAD X comme le nombre de faces possibles lors du jet simultané de
deux pièces de monnaie. A chaque point de l’espace d’échantillonnage, nous avons une valeur
de X (2, 1, 1 0) associées respectivement à {FF, FP, PF, PP}).
En pratique, on dira qu’une VA est une valeur ou une caractéristique issue d’une expérience
aléatoire.
Soit X une VAD pouvant prendre uniquement les valeurs x1,x2,..,xN, on définit alors la
probabilité
f(x) Pr(X = x) .
F(x) f(u)
ux
La fonction de répartition F(x) est continue strictement non décroissante. Pour des VAD c'est
une fonction en escalier.
On a aussi F(-∞) = 0 et F(+∞) = 1.
4
Exemple : tracer f(x) et F(x) dans le cas d’un dé à 6 faces.
On définit comme pour une VAD la fonction de répartition F(x) = Pr(Xx). On a donc :
x
F(x) f(u) du
-
F(x) et f(x) sont aussi reliées par l'équation suivante : dF(x) = f(x) dx.
Exemple : tracer f(x) et F(x) pour X étant la VAC taille d’une personne prise au hasard dans
une population.
5
Considérons maintenant deux VA notées X et Y de ddp f et g respectivement. On dira que f et
g sont les ddp marginales. Leur ddp conjointe notée h est définie comme :
μ X E(X) = x f(x) dx
-
Pour un VAC et par
μ X E(X) = xi f(xi)
i
pour une VAD.
Propriétés de l’espérance :
E(kX) = k E(X)
De plus
E(X + Y) = E(X) + E(Y).
On a aussi :
E(k) = k
Si X et Y sont deux VA indépendantes c'est à dire que leur ddp conjointe h(x,y) = f(x) g(y)
alors :
E(XY) = E(X) E(Y).
6
Variance :
x2 = Var(X) = (x-X)2f(x)dx
et pour une VAD
x2 = Var(X) = (xi- X)2 f(xi)
Propriétés de la variance :
Var(kX) = k2 Var(X).
On a aussi :
Var(k) = 0
7
Ecart quadratique moyen QX = E(X2) = Var(X) + (E(X))2 = X2 + X2.
Covariance :
Cov(X, k) = 0.
mr = E(Xr).
mr = E((X-E(X))r).
Heureusement, nous verrons par la suite qu’en pratique on se contente de donner sa moyenne
et sa variance (et très souvent que la moyenne). Ceci est du à l’hypothèse gaussienne qui est
faite, et au théorème central limite comme nous le verrons un peu plus loin dans ce cours.
Ainsi, avec seulement 2 chiffres, on peut se faire une idée très précise des variations d’une
VA gaussienne.
D’un point de vue théorique, on dit que ces deux quantités définissent complètement la
VA gaussienne.
8
2-3 Centile :
Avant de présenter les principales lois de probabilités, nous allons définir la notion de centile.
Par exemple, sur la figure suivante, on a définit la 95ième centile x telle que l'aire à gauche de
x vaille 0.95 (ou 95%).
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
X
Lorsque α = 0,25, on dit que c’est le premier quartile.
Pour α = 0,5, on parle du deuxième quartile, ou médiane.
Pour α = 0,75, c’est le troisième quartile.
STATISTIQUE DESCRIPTIVE
Sans aucun a priori sur la question que l'on se pose, quelques valeurs simples permettent de
décrire une variable aléatoire :
la moyenne,
la médiane,
le mode (la fréquence la plus forte),
le maximum,
le minimum,
l'écart type (et la variance),
les quartiles.
Les deux premières sont souvent nommées critères de position, et les autres entrent plutôt dans
la catégorie des critères de dispersion.
Boîte à moustache.
Pour se donner une idée de la statistique que l’on étudie, on peut faire une boîte à moustache qui
est très utilisée pour sa simplicité.
9
2-4 Les principales lois de probabilités :
Nous allons voir 4 lois pour des VA continues : gaussienne, Student, Chi-deux et uniforme.
2-4-1 : VA continues
Gaussienne :
1 -(x -μ )2
f(x) = e 2σ 2
σ 2π
Voici la loi N (0,1) :
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
On fournit une table pour et = 1 des valeurs de fonctions de répartition F(u) en fonction
de u
u
1 -x2
F(u) = e 2 dx
- 2
10
On peut donc lire directement sur ces tables les centiles.
mr = 0 si r est impair
et
mr = 1.3. ... (r-1) 2 si r est pair.
( n+1 ) - n+1
2 2
La ddp de Student a la forme suivante : f(x) = 2 1+ x
n ( n ) n
2
Les valeurs des centiles données dans les tables sont notées t,N ou plus brièvement t si N est
sous-entendu.
Pratiquement, pour N > 30, la ddp de Student est identique à celle de Gauss de moyenne 0 et
d’écart type 1 (vérifier avec les tables).
11
N χ2
2 2 -1 -
(χ )e 2
f( χ 2) = U(χ 2)
N N
2 ( )
2
2
Les valeurs des centiles données dans les tables sont notées 2 ,N ou plus brièvement 2 si N
est sous-entendu.
Cas limite :
Si N est grand alors la variable 2 est distribuée comme une VA gaussienne de moyenne N et
de variance 2N (vérifier avec les tables).
Cas particuliers :
- la loi du Chi-deux à deux degrés de libertés est appelée la loi de Rayleigh.
- la loi du Chi-deux à trois degrés de libertés est appelée la loi de Maxwell.
Loi uniforme :
1
f(x) dans l’intervalle [a, b] et zéro ailleurs.
ba
ab (b - a) 2
Sa moyenne vaut et sa variance .
2 12
2-4-1 : VA discrètes
Binomiale:
Soient p la probabilité de succès et 1-p = q la probabilité d'échec d'un événement. On parle
d’essai de Bernoulli.
12
Considérons N essais de Bernoulli identiques et indépendants. La probabilité pour que cet
événement se réalise x fois au cours de N essais vaut alors :
N! x N -x
f(x) = Pr(X = x) = p q .
x! (N - x)!
On dit que X suit une loi B(N,p).
Cas limite 2 :
Si N est grand et p ni trop petit ni trop grand alors la distribution binomiale tends vers une
gaussienne de moyenne Np et de variance Npq.
Cas limite 2 :
Si p faible on retrouve la loi de Poisson.
Poisson :
C’est la loi des événements rares (p de la loi binomiale très faible) comme par exemple les
pannes.
Pour x entier on a
x
f(x) = e .
x!
2-5) Combinaisons de VA :
où les Xi sont indépendants, normaux de moyenne 0 et d'écart type 1 alors Y est distribuée en
Chi-carré à N ddl.
Si les VA ne sont pas à moyenne nulle et à variance unité, il suffit d'utiliser X* d'où :
13
1 N
(Xi - )
2
2
i=1
Rapport de deux VA :
Soient X1 distribuée en chi-deux à N ddl et X2 gaussienne centrée de variance unité alors
X2
Y=
X1
N
est une VA de Student à N ddl.
Remarque importante :
En statistique, le comportement individuel est impossible à prévoir (comportement
microscopique).
14
3) ECHANTILLONNAGE
Position du problème
On veut produire des objets ayant certaines caractéristiques conformément à un cahier des
charges (exemple : on veut produire des pièces d’une certaine longueur L avec une certaine
précision). L’ensemble des objets produits est appelé population. Or nous faisons face à des
phénomènes aléatoires c'est-à-dire que chacune des pièces produites a des caractéristiques qui
diffèrent (exemple : chacune des pièces aura une longueur différente de l’autre).
Objectif : on veut s’assurer du niveau de conformité par rapport à un cahier des charges d’une
production ou d’une commande.
La première solution consiste à s’assurer que chacune des pièces est conforme au cahier des
charges. Cette solution n’est pas viable économiquement car trop chère.
On peut aussi « faire confiance » et déclarer la conformité des produits. On conçoit que c’est
une stratégie risquée.
Une solution intermédiaire consiste à ne tester qu'un sous-ensemble de N éléments que l'on
prélève au hasard dans la population. On l’appelle ce sous ensemble un échantillon (ou N-
échantillon). Ex : on extrait au hasard N pièces produites dans l’usine que l’on mesure. On a
donc à notre disposition N mesures.
Question : comment peut-on à partir de ces N mesures s’assurer de la conformité au cahier des
charges ?
Pour définir précisément cette notion, nous allons construire un modèle, dit modèle statistique
qui va nous permettre de répondre à cette question fondamentale.
Modèlisation statistique
On suppose que la population est de taille infinie. Alors et la moyenne et l'écart type de la
population, sont des valeurs certaines (non aléatoires : ce sont des constantes).
Pour un échantillon de taille N, chaque mesure n de 0 à N-1 est considérée comme étant la
réalisation d'une VA Xn. Celles-ci sont supposées indépendantes les unes des autres et
distribuées identiquement (elles ont toutes la même moyenne et le même écart type
que ceux de la population).
Toute grandeur ou combinaison de grandeurs obtenues à partir d'un échantillon est appelée une
statistique. C'est elle même une VA puisqu’elle est fonction des N variables aléatoires Xn. Cette
statistique a donc une ddp appelée distribution d'échantillonnage.
15
3-2) Moyenne de l’échantillon :
Soient X0, ..XN-1 les N VA d’un échantillon. La moyenne de l’échantillon μ̂ (ou moyenne
empirique) est par analogie avec la moyenne la VA suivante :
N -1
X
n 0
n
μ̂ = .
N
Théorème 1 :
E(μ̂) = μ.
E() .
Le biais b est donc la quantité suivante :
b E (ˆ) .
Le biais de μ̂ est nul : ce résultat signifie que μ̂ est un estimateur non biaisé de .
Théorème 2 :
σ2
var(μ̂) = E(( μ̂ - μ) ) = 2
.
N
On peut montrer que N/σ2 est la quantité d’information dans l’échantillon de taille N pour
estimer la moyenne µ. Commentez ce résultat.
16
Exercice : illustrer ces deux résultats en traçant la ddp d’un des Xn et la ddp de μ̂ .
La variance de l’échantillon (ou variance empirique) notée ˆ 2 est par analogie avec la
variance :
N -1
(X n - μ̂) 2
ˆ 2 = n 0
.
N
Théorème 3 :
N -1 2
E(ˆ 2 ) = .
N
On dit que ˆ est un estimateur biaisé de 2 . Le biais vaut alors - 2 /N.
2
Théorème 4 :
𝑁−1
𝑉𝑎𝑟(𝜎̂ 2 ) = 2𝜎 4 .
𝑁2
2𝜎4
Remarque : dans le cas gaussien 𝑉𝑎𝑟(𝜎̂ 2 ) = .
𝑁
17
3-4) Autres résultats importants :
La probabilité pour que cet événement se déroule X fois au cours de N essais est régi par la loi
binômiale de moyenne Np et de variance Npq.
Soit un N-échantillon extrait de cette population dont on peut calculer F=X/N, la fréquence de
succès de cet échantillon. F est une VA. On a alors :
E(F) = p
et
var(F) = pq/N.
Si N > 30, et p ni trop petit, ni trop faible, la distribution d'échantillonnage des fréquences est
distribuée normalement.
Exercice : Un candidat aux élections a recueilli 46% des voix. Quelle est la probabilité pour
qu'un groupe de :
a) 200 et
b) 1000 personnes choisies au hasard lui aient donné une majorité lors d’un sondage
précédent cette élection ?
18
4) TESTS D’HYPOTHESES
Sur la base d’un N-échantillon, il faut prendre une décision (Ex : on veut produire de objets de
20 cm de long. Les objets produits sont-ils conformes au cahier des charges ?).
Un test d'hypothèse consiste à formuler une hypothèse de base ou hypothèse nulle H0.
H0 doit être une hypothèse d’égalité. Ex : les pièces produites font 20 cm.
Si les mesures issues d’un N-échantillon sont proches de celles relatives à l’hypothèse H0, cette
hypothèse sera acceptée. C’est le cas qui arrive le plus souvent en cas de production conforme.
On définit ensuite une hypothèse alternative notée H1. Celle-ci est une hypothèse de différence,
d’infériorité ou de supériorité.
Si les mesures issues du N-échantillon sont loin de ce que l’on attend pour H0, alors H0 sera
refusée et H1 sera acceptée. C’est le cas qui arrive le plus souvent en cas de production de
pièces non conformes.
Si nous rejetons H0 alors qu'elle devrait être acceptée, nous dirons qu'une erreur de première
espèce ou erreur de type I a été commise et est notée .
En pratique, on choisit = 1% , 5% ou 10%.
De même, si H0 est acceptée alors qu'elle devrait être refusée, nous commettons une erreur de
deuxième espèce ou erreur de type II. Elle est notée β.
Pour qu'un test soit efficace, il faut que les erreurs de type I et II soit faibles. La seule vraie
solution est d'augmenter la taille de l'échantillon N. Cela n'est pas toujours possible car ceci
entraîne un coût qui peut être important.
H0 retenue H0 rejetée
H0 vraie OK erreurs de type I
H0 fausse β : erreurs de type II OK
19
4-2) Tests unilatéraux et bilatéraux :
Nous nous sommes intéressés aux deux valeurs extrêmes d'une statistique S. Le test est dit
bilatéral. Mais il peut arriver qu'une seule branche de la distribution nous intéresse. C'est le cas
par exemple lorsque l'on veut savoir si une méthode est meilleure qu'une autre. Alors, le test est
dit unilatéral. La région critique n'est que d'un côté de la distribution.
.
Le choix entre un test unilatéral et bilatéral se fera suivant le contexte du problème c'est à dire
sur la base d'informations a priori.
1) On définit l'hypothèse H0 qui sera la base du test. C’est une hypothèse d’égalité.
2) On choisit soit un test unilatéral soit un test bilatéral. On définit l'hypothèse alternative H1.
3) on choisit le niveau du test.
4) On réalise l'expérience c'est à dire que l'on prélève un échantillon de taille N d'une population.
A partir de cet échantillon on calcule les quantités qui nous intéressent (dans ce cours on
calculera et 2).
5) On formule la règle de décision en s’appuyant sur des résultats théoriques de statistique. Si
la condition est vérifiée alors on accepte H0, sinon, on refuse H0 et on accepte H1.
20
Dans le cas d’un test bilatéral avec H1 : 2 2, H0 sera acceptée avec un niveau de
signification si
/22 < N 2 /2< 1-/22
Exercice :
Les spécifications du diamètre d'un arbre de transmission sont les suivantes : 23,6 ± 0,1 mm.
Sur un échantillon de taille 12 extrait à partir d’arbres produits dans une usine, on trouve une
moyenne de 23,61 mm et un écart type de 0,02 mm.
Les arbres produits dans l'usine respectent-ils les spécifications ?
Nous choisirons égal à 1%.
Le niveau de confiance est la probabilité de faire une erreur de type I (refuser une hypothèse
vraie). On peut se dire qu'il suffit de diminuer pour que le test passe plus facilement. Mais
c'est un faux calcul car alors les erreurs de type II vont augmenter (accepter une hypothèse
fausse).
Pour savoir si un test est efficace il faut prendre en compte la globalité des erreurs c'est à dire
les erreurs de type I et II. Soit H0 l'hypothèse nulle telle que la moyenne =o au niveau .
Soit une hypothèse fausse H1 telle que =1=o+. Quelle est la probabilité () d'accepter
cette hypothèse fausse ?
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3 4 5 6
21
permet de choisir le nombre d'échantillon si on connaît aussi
Pour la variance, on peut raisonner identiquement.
On voit donc que pour un test complet, il faut se fixer le niveau de signification ou probabilité
de faire une erreur I et () probabilité de faire une erreur II. Le test sera d'autant plus efficace
que sera faible. On définit donc 1- comme étant la puissance du test relativement à
l'hypothèse H1.
Exemple : Soit un processus dont l'écart type vaut 0.1. Déterminer N pour réaliser sur la
moyenne un test au niveau = 0.05 pour =o et de puissance 1- = 0.9 pour 1 = 1.1 o. On
prendra o = 1.
Erreur totale pour un test : l’erreur totale pour un test est donc αPr(H0) + βPr(H1).
Le contrôle d’entrée (ou contrôle de réception) consiste à prendre une décision d’acceptation
ou de rejet concernant un lot d’objets issus de la même fabrication ou de la même commande.
Dans une industrie donnée, on se met d’accord sur la qualité générale de fabrication. On définit
un pourcentage maximal d’objet défectueux que l’on tolère dans une production. Ce
pourcentage est appelé le Niveau de Qualité Acceptable (NQA).
Médical : gants à usage médical NQA = 1,5% pour étanchéité à l’eau (norme EN 455-1)
Par rapport au NQA, on peut alors tracer f(x/NQA) la ddp du nombre de pièces défectueuses,
noté x dans un lot de N pièces, si l’on considère que l’hypothèse NQA est vraie.
Cette ddp est régie par une loi binomiale, et on peut alors construire le contrôle d’entrée au
niveau , et déterminer le seuil de décision.
22
4-8) Test du chi-deux :
Lorsque l'on désire tester la forme de la ddp d’un processus, on étudie une réalisation de taille
N et on forme son histogramme formé de K classes. On dit aussi que l’histogramme est un
estimateur de la ddp. Voir exemple ci-dessous.
On fait une hypothèse H0 quant à la forme de la ddp et on désire savoir si cette hypothèse est
correcte. On est donc amené à comparer des fréquences (ou effectif) théoriques à des fréquences
mesurées.
Exemple : on veut savoir si un dé est truqué. On fait l'hypothèse H0 que le dé est non truqué,
ce qui veut dire que la ddp est uniforme. Pour tester cette hypothèse, on jette 600 fois le dé et
on obtient pour les faces de 1 à 6 respectivement 99, 114, 98, 90, 86 et 113. On sait donc que
théoriquement on devrait avoir 100 apparitions de chaque face. Comment tester H0 ?
K ( Xj Np ) 2
2 j
Fisher a démontré que la statistique D
j 1 Np
j
23
4-9) Test de normalité
K ( Xj Np ) 2
2 j
D
j 1 Np
j
Xj est le nombre d'échantillons dans un intervalle considéré et Npj est le nombre de réalisations
théoriques ou espérées. D2 est une variable du chi-deux à K-3 ddl (le calcul de la moyenne et
de la variance enlève deux ddl). Si D2 est nul, il y a accord parfait entre la distribution normale
est la distribution observée sur la réalisation. On se fixe un niveau de signification et si
D2 < 1-2
24
5) ESTIMATION PAR INTERVALLE DE CONFIANCE
On peut faire une estimation par intervalle de confiance en donnant les deux bornes entre
lesquelles un paramètre doit se trouver avec une confiance a donnée.
T est une VA de Student à N-1 ddl, alors les bornes de confiance de pour a donné sont :
σ̂ σ̂
μ̂ t 1 a μ μ̂ t 1 a
2 N 1 2 N 1
V est distribuée en khi-carré à N-1 ddl. On peut définir a/22 et 1-a/22 qui sont les valeurs de 2
tels que l'aire correspondant sous les branches de la distribution soit égale à 1-a. On peut dire
alors que :
nˆ 2
χ (1
2
- a)/2 < < χ (1
2
a)/2 .
σ 2
avec un niveau de confiance a d'où les bornes de confiance pour sont pour a donné :
σ̂ N σ̂ N
χ (1a)/2 χ (1a)/2
Nous avons vu que pour N > 30 et si p ni trop petit ni trop grand, la distribution
d'échantillonnage de la fréquence F était normale, donc les bornes de confiance pour p,
pourcentage de réussite, sont pour a donnée :
F(1 - F)
F Z (1+a)/2 . (2)
N
Exercice : On a obtenu 24 faces au cours de 40 lancers d'une pièce. Évaluez les limites de
confiance à 95% pour la probabilité d’obtenir face.
25
6) ESTIMATION PONCTUELLE
Par la suite, on notera un paramètre à estimer à partir d’une réalisation de N mesures.
E() .
Le biais b est donc la quantité suivante :
b E (ˆ) .
var() BCR( ).
var() BCR( ).
Le meilleur estimateur ponctuel est celui qui est sans biais, et qui a une variance minimale
c'est-à-dire lorsque E( θ̂ ) = et si Var(𝜃̂) = 𝐵𝐶𝑅(𝜃).
Mais que faire s’il n’existe pas d’estimateur non biaisé et de variance minimale ?
26
2
MSE(𝜃̂) = 𝐸((𝜃̂ − 𝜃) ).
Dans le cas de la moyenne, on sait que 𝜇̂ est non biaisé et ont peut montrer que sa variance
atteint la BCR.
C’est donc un estimateur efficace (on ne peut pas faire mieux).
Exemple 2 : cas de la variance (cas un peu plus compliqué que celui de la moyenne).
Pour une distribution gaussienne, des calculs montrent que (voir Greene 2005, p. 861):
Mais d’un autre côté, la variance de est plus faible que celle de .
Lequel choisir ?
Pour répondre à cette question, nous allons calculer l’erreur quadratique moyenne des deux
estimateurs précédents et retenir celui qui a cette erreur la plus faible.
27
L'estimateur biaisé est donc plus précis en termes d'erreur quadratique moyenne. On
pourrait croire que c’est celui-ci qu’il faut choisir.
Les qualités d’un appareil de mesure sont : l’étendue (domaine de variation possible), la
résolution (la plus petite variation qu’il peut déceler), la sensibilité (variation de la sortie en
fonction de celle de l’entrée), la linéarité, l’exactitude.
L’exactitude se décompose en justesse et en fidélité : plus il est juste, plus le biais est faible, et
plus il est fidèle, plus l’écart-type de la mesure est faible.
Par exemple, on mesure une tension continue et on sait qu'un bruit vient se superposer aux
mesures. On peut tracer alors la courbe représentant la probabilité pour que le paramètre tension
ait une valeur donnée : cette courbe s'appelle la fonction de vraisemblance qui présente un
maximum proche de la vraie valeur.
28
Généralement, il est plus commode de calculer le logarithme népérien de L et d’en chercher le
maximum.
On peut facilement généraliser au cas de plusieurs paramètres à estimer. Il suffit alors de trouver
le maximum d’une fonction à plusieurs paramètres. Si il y a m paramètres à estimer 1, 2, .. m
= , on calcule les dérivées partielles par rapport aux m paramètres et on dit qu’elles doivent
être nulles. On a donc un système à m équations avec m inconnues.
Exercice 1 : traiter l'exemple d'une mesure de tension continue en supposant qu'elle est noyée
dans un bruit blanc, gaussien, de moyenne 0 et de variance 2.
Pour une taille donnée N, il existe une précision limite qu'on ne peut pas dépasser pour
l’estimation d’un paramètre. En effet, si à partir d'une seule mesure on avait un résultat tout le
temps parfait, cela signifierait que la variance des observation est nulle et que toutes les mesures
sont identiques.
Cette limite inférieure s'appelle la borne de Cramer-Rao (BCR). On peut démontrer que la
borne de Cramer-Rao se met sous la forme :
1 1
BCR(θ) = =-
2
E[[ Ln[L( x; θ)] ]2] E[ 2 Ln[L( x; θ)]]
θ θ
var() BCR( ).
Démonstration :
Soit un estimateur de sur la base d'une observation de x . Si est non biaisé alors
E( ˆ - ) = 0
R
Pr(x; θ)(θ̂ - θ ) dx = 0
29
Pr(x; θ)
θ
θ̂ - θ dx = 1
R
D'autre part
Pr(x; θ) LnPr(x; θ)
= Pr(x; θ)
θ θ
d'où
Ln p x/(x)
R
1
1
p x/(x) 2 p x/(x) 2( ^ -) dx = 1
d'où
1
var(θ̂) cqfd.
LnPr(x; θ) 2
E
θ
Remarque 1 : nous avons étudié l'estimateur par MV car cette méthode donne un estimateur
asymptotiquement efficace, donc généralement le meilleur qui puisse être. Quand on peut
utiliser cette méthode, il faut le faire. Mais, celle-ci est généralement très lourde à implémenter
et très gourmande en temps de calcul.
Remarque 2 : dans le cas gaussien, l’estimateur par MV et celui du MSE sont les mêmes.
30
7) RÉGRESSION LINÉAIRE – CORRÉLATION
Il arrive très souvent que l'on désire mettre en lumière les relations de cause à effet entre deux
variables aléatoires X et Y d'une même population. Pour cela, on tire un échantillon de taille N
et on obtient deux séries de mesures x et y. La relation la plus simple est une dépendance linéaire
entre X et Y
Y = a X + b.
On cherche à estimer a et b. Pour ce faire, on utilise la technique des moindres carrés, qui dans
le cas Gaussien, et identique à la technique du maximum de vraisemblance.
On définit la meilleure courbe d'ajustement comme étant celle qui minimise l'écart D entre la
courbe et les données. D est la somme des distances di2 entre la droite d'ajustement et les
données. Cette distance D peut s'écrire :
D = ( ax i + b y i )
2
â = Cov(x,y)/Var(x).
cov(x, y)
On définit le coefficient de corrélation d'échantillon par : r =
x y
7-3) Test de corrélation entre deux variables :
Pour savoir si une va X est corrélée avec une variable Y avec un coefficient r, on est amené à
calculer le coefficient de corrélation r̂ entre ces deux variables en partant d'un échantillon de
taille N. On teste ensuite une hypothèse concernant r.
Test r = 0 :
On applique le fait que la statistique
rˆ N 2
t=
1 rˆ2
suit une distribution de Student à N-2 ddl.
31
Loi Normale
32
33
Loi
34
35