0% ont trouvé ce document utile (0 vote)
71 vues35 pages

Cours 2017-2018

Le document présente un plan de cours sur les statistiques, abordant des concepts fondamentaux tels que l'échantillonnage, les tests d'hypothèses, et la régression linéaire. Il explique également des notions clés comme la variabilité des données, les variables aléatoires, et les moments statistiques. Enfin, il inclut des définitions et des propriétés essentielles liées à la fréquence, la probabilité, la moyenne, et la variance.

Transféré par

mouandhui.3mh.technis
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
71 vues35 pages

Cours 2017-2018

Le document présente un plan de cours sur les statistiques, abordant des concepts fondamentaux tels que l'échantillonnage, les tests d'hypothèses, et la régression linéaire. Il explique également des notions clés comme la variabilité des données, les variables aléatoires, et les moments statistiques. Enfin, il inclut des définitions et des propriétés essentielles liées à la fréquence, la probabilité, la moyenne, et la variance.

Transféré par

mouandhui.3mh.technis
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STATISTIQUE

PLAN DU COURS

1) INTRODUCTION

2) RAPPELS

3) ÉCHANTILLONNAGE

4) TESTS D’HYPOTHESES

5) ESTIMATION PAR INTERVALLE DE CONFIANCE

6) ESTIMATION PONCTUELLE

7) RÉGRESSION LINÉAIRE - CORRÉLATION

Rachid HARBA

1
1) INTRODUCTION

Les statistiques, la statistique, une statistique


Le mot statistique a plusieurs sens suivant le contexte :
Les statistiques : dénombrement fournissant des renseignements à caractère administratif (Ex :
les statistiques du chômage).
La statistique : science mathématique qui permet d'interpréter des données variables (variables
aléatoires).
Une statistique : combinaison de plusieurs variables aléatoires.

La statistique, un passage obligé


Les statistiques à caractère administratif remontent bien avant JC en Chine ou en Egypte lors
du recensement du bétail. A partir de travaux de Fermat et Pascal, Bayes définit au 18ème siècle
les fondements de la statistique mathématique. K. Pearson et R. A. Fisher, deux anglais du début
du 19ème siècle, ont posé les bases modernes de cette science en étudiant des problèmes
d'agronomie.
Aujourd'hui, tout n'est que chiffres. L'ingénieur, le scientifique, le chercheur ne peuvent plus
observer, expérimenter ou produire sans se poser des questions sur la signification de tous ces
chiffres. La méthode statistique, ou statistique, permet de donner un sens à toutes ces valeurs.
Tout ingénieur doit connaître les bases de cette science.

Variabilité des données


La variabilité des données est un caractère essentiel de la vie. De multiples exemples peuvent
illustrer ce fait (Ex : la taille d'un individu dans une population, sa couleur de cheveux, la
longueur d’une pièce produite dans une usine de mécanique, la tension aux bornes d'un capteur
mesurant le champ magnétique terrestre, la quantité de pluie qui tombe annuellement dans une
ville, la température moyenne de la planète terre, etc…).
Ces variables sont divisées en deux classes : les variables quantitatives et les variables
qualitatives. La taille est une grandeur quantitative (un nombre que l'on peut représenter sur un
axe) alors que la couleur des cheveux est un caractère qualitatif.

Buts de ce cours de statistique


A partir d'une série de valeurs issues d'un échantillon d'une population homogène, nous allons
établir les fondements de la statistique en établissant les résultats de la théorie de
l’échantillonnage.
Puis, nous allons tester une hypothèse. Cette méthode est la base de la théorie de la décision et
du contrôle qualité.
Il faudra être capable d'estimer un paramètre. Cela permet de mettre en place ce que l’on appelle
la Maîtrise statistique des procédés et la théorie de la mesure.
La régression linéaire et la corrélation permettent de connaître si deux variables aléatoires
sont liées ou non et met ainsi en lumière les relations de cause à effet.

Bibliographie :
Livre facile d’accès : Murray R. Spiegel : Probabilités et statistique, Editions Série Schaum.
Livre avec toutes les démonstrations utiles : Benjamin Jourdain : Probabilités et statistique,
Editions Ellipses.
Autre livre : William H Greene, Econométrie, Paris, Pearson Education, 2005, 5e edition.

2
2) RAPPELS

2-1) Définitions : fréquence, probabilité, variable aléatoire :

Fréquence
Une population est un ensemble fini d'individus ou d’objets partageant une ou plusieurs
caractéristiques qui servent à les regrouper. On parle ainsi de population humaine, population
statistique, de population biologique. On peut aussi parler d'une population d'écrous produits
dans une usine.

Les éléments de la population répondent à une ou plusieurs caractéristiques communes que l’on
regroupe au sein d’une classe (classe des écrous en titane produits dans l’usine dont nous venons
de parler). En statistique, on appelle fréquence de la classe le rapport entre la taille de la classe
divisée par la taille de la population.

Remarque : Si la fréquence est exprimée par un chiffre en 0 et 1, on parle de :


- fréquence relative telle que définie ci-dessus,
- sinon, on dit que c’est la fréquence absolue, c'est-à-dire la taille de la classe elle-même.
On emploi aussi le terme effectif à la place de la fréquence absolue.

Probabilité
Dans toute expérience aléatoire A, il y a toujours une incertitude en ce qui concerne la
réalisation ou la non réalisation d’un événement particulier. Il est commode de quantifier la
chance, ou à la probabilité, de voir cet événement se réaliser. La probabilité d’un événement A
est notée Pr(A).

Par définition, la probabilité est le nombre de cas favorables divisé par le nombre d’essais
NE lorsque NE tend vers l’infini :
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
Pr(𝐴) = lim
𝑁𝐸→∞ 𝑁𝐸

La probabilité est un nombre sur lequel il n’y a aucune incertitude : c’est une constante.
On a aussi 0  Pr(A)  1.

Plus ce nombre est grand, plus la chance que l'événement se produise est grande.

Si A est l’évènement certain, Pr(A) = 1. On a aussi Pr(A) = 0 pour un événement qui n’a jamais
lieu.

Ex : lors du jet d’une pièce de monnaie, la probabilité d’avoir Face (F) est de 0,5 donc
Pr(F) = 0,5.

Cas très important : si A et B sont deux événement indépendants, la probabilité d’avoir


l’événement A et l’événement B, notée Pr(A,B), dépend de Pr(A) et de Pr(B) :

Pr(A,B) = Pr(A)Pr(B).

3
Relation entre fréquence et probabilité : on remarque que la fréquence et la probabilité sont
identiques si la population est infinie. Sinon, la probabilité est une constante, et la fréquence
pourra varier suivant la taille de la population de l’étude.

Variable aléatoire discrète


L’ensemble fini  constitué par tous les résultats possibles d’une expérience aléatoire est appelé
espace d’échantillonnage.

Ex : lors du jet simultané de deux pièces de monnaie où l’on peut avoir soit face (F) soit pile
(P) pour chaque pièce, l’espace d’échantillonnage est {FF, FP, PF, PP}.

Supposons que l’on affecte une valeur à chaque point de l’espace d’échantillonnage. Nous
obtenons un nouvel espace, dit espace des valeurs. Nous avons alors défini une fonction entre
l’espace d’échantillonnage et l’espace des valeurs. Cette fonction est appelée variable aléatoire
discrète (VAD). On la désigne par une lettre majuscule, X par exemple, et les valeurs possibles
par des lettres minuscules, x par exemple.

Ex : nous définissons la VAD X comme le nombre de faces possibles lors du jet simultané de
deux pièces de monnaie. A chaque point de l’espace d’échantillonnage, nous avons une valeur
de X (2, 1, 1 0) associées respectivement à {FF, FP, PF, PP}).

Nous avons donc Pr(X=0) = 0,25, Pr(X=1) = 0.5 et Pr(X=2) = 0,25.

En pratique, on dira qu’une VA est une valeur ou une caractéristique issue d’une expérience
aléatoire.

Soit X une VAD pouvant prendre uniquement les valeurs x1,x2,..,xN, on définit alors la
probabilité

Pr(X = x k ) = f(x k ) pour k = 1 à N.

ainsi que sa fonction de probabilité f(x) par

f(x)  Pr(X = x) .

Cette fonction est telle que f(x)  0 et  f(x) = 1.

On définit la fonction de répartition F(x) = Pr(Xx). On a alors :

F(x)   f(u)
ux

La fonction de répartition F(x) est continue strictement non décroissante. Pour des VAD c'est
une fonction en escalier.
On a aussi F(-∞) = 0 et F(+∞) = 1.

4
Exemple : tracer f(x) et F(x) dans le cas d’un dé à 6 faces.

Variable aléatoire continue : du discret au continu :


Si X est une VA continue (VAC), la probabilité pour qu'elle prenne une valeur précise est nulle.
Par contre, la probabilité pour que X soit comprise entre deux valeurs est une notion qui a un
sens. Cette fonction s'appelle densité de probabilité (ddp) notée f(x) et est telle que :

Pr(x  X  x + dx) = f(x) dx.

On a aussi f(x)  0 et f(x)dx = 1.

On définit comme pour une VAD la fonction de répartition F(x) = Pr(Xx). On a donc :

x
F(x)   f(u) du
-

F(x) et f(x) sont aussi reliées par l'équation suivante : dF(x) = f(x) dx.

Exemple : tracer f(x) et F(x) pour X étant la VAC taille d’une personne prise au hasard dans
une population.

5
Considérons maintenant deux VA notées X et Y de ddp f et g respectivement. On dira que f et
g sont les ddp marginales. Leur ddp conjointe notée h est définie comme :

Pr(x  X  x + dx , y  Y  y + dy) = h(x, y) dxdy.


On a alors :
h(x,y)dx = g(y)
h(x,y)dy = f(x)
h(x,y)dxdy = 1

D’autre part, si X et Y sont indépendantes h(x,y) = f(x) g(y).

2-2) Moments d’une VA :

Moyenne (ou espérance mathématique) :


On définit la moyenne ou l'espérance mathématique d’une VAC X par :


μ X  E(X) =  x f(x) dx
-
Pour un VAC et par
μ X  E(X) =  xi f(xi)
i
pour une VAD.

Remarque : E(*)=*f(x)dx. Dans *, il n’y a que des termes qui dépendent de x.

Exemple : *=2x2 +3x +2. Alors on a E(*)=(2x2 +3x +2)f(x)dx.

Si dans * interviennent deux VA, X et Y par exemple, E(*)=(*)h(x,y)dxdy où h(x,y) est la


ddp conjointe de X et Y.

Propriétés de l’espérance :

Soit k une constante et X et Y deux VA alors :

E(kX) = k E(X)
De plus
E(X + Y) = E(X) + E(Y).

On a aussi :
E(k) = k

Si X et Y sont deux VA indépendantes c'est à dire que leur ddp conjointe h(x,y) = f(x) g(y)
alors :
E(XY) = E(X) E(Y).

6
Variance :

On définit la variance d'une VAC X :

 x2 = Var(X) = (x-X)2f(x)dx
et pour une VAD
 x2 = Var(X) =  (xi- X)2 f(xi)

X est son écart type :  X  Var (X ) .

Propriétés de la variance :

Var(kX) = k2 Var(X).

On a aussi :
Var(k) = 0

Si X et Y sont indépendantes alors

Var(X ± Y) = Var(X) + Var(Y).

Remarque 1 : lien entre la variance et l’espérance : Var(X)  E((X  μ X ) 2 )

Remarque 2 : moyenne, écart type, et intervalle de probabilité dans le cas gaussien.

Remarque 3 : moyenne et cote nominale, écart type et tolérance.

7
Ecart quadratique moyen QX = E(X2) = Var(X) + (E(X))2 = X2 + X2.

Covariance :

La covariance de deux variables aléatoires X et Y est par définition :

Cov(X, Y) = E((X - μ X )(Y - μ Y )) = σ XY .


Propriétés :
Var(X ± Y) = Var(X) + Var(Y) ± 2 Cov(X,Y).

Si X et Y sont indépendantes, Cov(X,Y) = 0.

On définit le coefficient de corrélation


Cov(X, Y)
ρ= .
σXσY
On a -1    1.

Remarque : soit X une VA et k une constante alors :

Cov(X, k) = 0.

Variable centrée réduite X* :


X - μX
X*= .
σX
On a E(X*) = 0 et Var(X*) = 1.

Moments non centrés de degré r :


On définit les moments de degré r comme :

mr = E(Xr).

Moments centrés de degré r :


On définit les moments de degré r comme :

mr = E((X-E(X))r).

Théorème de Slutsky : Pour décrire une variable aléatoire, il faut :


- Soit connaitre sa ddp (ou sa fonction de probabilité),
- Soit connaitre l’ensemble de ses moments.

Heureusement, nous verrons par la suite qu’en pratique on se contente de donner sa moyenne
et sa variance (et très souvent que la moyenne). Ceci est du à l’hypothèse gaussienne qui est
faite, et au théorème central limite comme nous le verrons un peu plus loin dans ce cours.

Ainsi, avec seulement 2 chiffres, on peut se faire une idée très précise des variations d’une
VA gaussienne.
D’un point de vue théorique, on dit que ces deux quantités définissent complètement la
VA gaussienne.

8
2-3 Centile :

Avant de présenter les principales lois de probabilités, nous allons définir la notion de centile.
Par exemple, sur la figure suivante, on a définit la 95ième centile x telle que l'aire à gauche de
x vaille 0.95 (ou 95%).

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-3 -2 -1 0 1 2 3

X
Lorsque α = 0,25, on dit que c’est le premier quartile.
Pour α = 0,5, on parle du deuxième quartile, ou médiane.
Pour α = 0,75, c’est le troisième quartile.

STATISTIQUE DESCRIPTIVE

Sans aucun a priori sur la question que l'on se pose, quelques valeurs simples permettent de
décrire une variable aléatoire :

 la moyenne,
 la médiane,
 le mode (la fréquence la plus forte),
 le maximum,
 le minimum,
 l'écart type (et la variance),
 les quartiles.

Les deux premières sont souvent nommées critères de position, et les autres entrent plutôt dans
la catégorie des critères de dispersion.

Boîte à moustache.

Pour se donner une idée de la statistique que l’on étudie, on peut faire une boîte à moustache qui
est très utilisée pour sa simplicité.

Exemple d’une boîte à moustache :

9
2-4 Les principales lois de probabilités :

Nous allons voir 4 lois pour des VA continues : gaussienne, Student, Chi-deux et uniforme.

Puis 2 lois pour des VA discrètes : binomiale et Poisson.

2-4-1 : VA continues

Gaussienne :

Pour une VA gaussienne (ou normale) de moyenne  et de variance  notée N(,) on a :

1 -(x -μ )2
f(x) = e 2σ 2
σ 2π
Voici la loi N (0,1) :
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-3 -2 -1 0 1 2 3

On fournit une table pour  et  = 1 des valeurs de fonctions de répartition F(u) en fonction
de u
u
1 -x2
F(u) =  e 2 dx
- 2

10
On peut donc lire directement sur ces tables les centiles.

Propriétés des moments d'une VA gaussienne :

mr = 0 si r est impair
et
mr = 1.3. ... (r-1) 2 si r est pair.

Remarque : une VA Gaussienne est entièrement définie par sa moyenne et sa variance.

Enfin, la gaussienne est invariante par transformation linéaire. Si X et Y sont deux VA


gaussiennes, aX +bY est aussi gaussien.

Student à N degrés de libertés:

( n+1 )  - n+1
2 2
La ddp de Student a la forme suivante : f(x) = 2  1+ x 
n  ( n )  n 
2

 est la fonction gamma.


f(x) est une fonction paire qui ressemble à une gaussienne N(0,1) aplatie.

Les valeurs des centiles données dans les tables sont notées t,N ou plus brièvement t si N est
sous-entendu.

Pratiquement, pour N > 30, la ddp de Student est identique à celle de Gauss de moyenne 0 et
d’écart type 1 (vérifier avec les tables).

Khi deux à N degrés de libertés:

La ddp du khi deux à N ddl est de la forme

11
N χ2
2 2 -1 -
(χ )e 2
f( χ 2) = U(χ 2)
N N
2 ( )
2
2

avec U l'échelon de Heaviside.

Les valeurs des centiles données dans les tables sont notées  2 ,N ou plus brièvement  2 si N
est sous-entendu.

Cas limite :
Si N est grand alors la variable  2 est distribuée comme une VA gaussienne de moyenne N et
de variance 2N (vérifier avec les tables).

Cas particuliers :
- la loi du Chi-deux à deux degrés de libertés est appelée la loi de Rayleigh.
- la loi du Chi-deux à trois degrés de libertés est appelée la loi de Maxwell.

Loi uniforme :

Pour une VA uniformément distribuée entre a et b on a :

1
f(x)  dans l’intervalle [a, b] et zéro ailleurs.
ba

ab (b - a) 2
Sa moyenne vaut et sa variance .
2 12

2-4-1 : VA discrètes

Binomiale:
Soient p la probabilité de succès et 1-p = q la probabilité d'échec d'un événement. On parle
d’essai de Bernoulli.

12
Considérons N essais de Bernoulli identiques et indépendants. La probabilité pour que cet
événement se réalise x fois au cours de N essais vaut alors :

N! x N -x
f(x) = Pr(X = x) = p q .
x! (N - x)!
On dit que X suit une loi B(N,p).

Théorème : E(X) = Np et Var(X) = Npq.

Cas limite 2 :
Si N est grand et p ni trop petit ni trop grand alors la distribution binomiale tends vers une
gaussienne de moyenne Np et de variance Npq.

Cas limite 2 :
Si p faible on retrouve la loi de Poisson.

Poisson :

C’est la loi des événements rares (p de la loi binomiale très faible) comme par exemple les
pannes.

Pour x entier on a
x
f(x) = e  .
x!

La moyenne et la variance de X valent .


Voir applications de cette loi au calcul de la fiabilité des systèmes.

2-5) Combinaisons de VA :

Somme de deux VA indépendantes :


Soient X1 et X2 deux VA indépendantes et Y = X1 + X2.
Alors la ddp de Y (notée f) est le produit de convolution des ddp de X1 (notée g) et de X2 (notée
h) :

f(u)  g (u )  h(u )   g(v)h(u  v)dv


Théorème central limite :


Soient X1, ..,XN qui sont N variables aléatoires indépendantes identiquement distribuées de
moyenne  et d'écart type  et soit
Y = X1 + ... + XN

alors si n est grand, Y est normale de moyenne N et d'écart type  N .

Superposition quadratique de VA indépendantes


Soit
Y = X12 + .. + XN2

où les Xi sont indépendants, normaux de moyenne 0 et d'écart type 1 alors Y est distribuée en
Chi-carré à N ddl.
Si les VA ne sont pas à moyenne nulle et à variance unité, il suffit d'utiliser X* d'où :

13
1 N
 (Xi -  )
2

 2
i=1

est du chi-deux à N ddl mais


2
1 N  1 N 
  Xi -  Xi 
 2 i=1  N i=1 

est du chi-deux à N-1 ddl.

Rapport de deux VA :
Soient X1 distribuée en chi-deux à N ddl et X2 gaussienne centrée de variance unité alors

X2
Y=
X1
N
est une VA de Student à N ddl.

Remarque importante :
En statistique, le comportement individuel est impossible à prévoir (comportement
microscopique).

Seul le comportement moyen a un sens (comportement macroscopique).

Très souvent, la statistique étudiée est gaussienne, ou asymptotiquement gaussienne.


Si ce n’est pas le cas, on suppose, souvent sans le dire, que la statistique que l'on étudie est
gaussienne : il suffit alors de donner sa moyenne et sa variance pour la décrire entièrement.

C’est souvent ce que fait un ingénieur dans la pratique.

14
3) ECHANTILLONNAGE

Ce chapitre est le cœur de la statistique. Il est important de bien le comprendre.

3-1) Position du problème - Modélisation statistique :

Position du problème
On veut produire des objets ayant certaines caractéristiques conformément à un cahier des
charges (exemple : on veut produire des pièces d’une certaine longueur L avec une certaine
précision). L’ensemble des objets produits est appelé population. Or nous faisons face à des
phénomènes aléatoires c'est-à-dire que chacune des pièces produites a des caractéristiques qui
diffèrent (exemple : chacune des pièces aura une longueur différente de l’autre).

Objectif : on veut s’assurer du niveau de conformité par rapport à un cahier des charges d’une
production ou d’une commande.

La première solution consiste à s’assurer que chacune des pièces est conforme au cahier des
charges. Cette solution n’est pas viable économiquement car trop chère.
On peut aussi « faire confiance » et déclarer la conformité des produits. On conçoit que c’est
une stratégie risquée.
Une solution intermédiaire consiste à ne tester qu'un sous-ensemble de N éléments que l'on
prélève au hasard dans la population. On l’appelle ce sous ensemble un échantillon (ou N-
échantillon). Ex : on extrait au hasard N pièces produites dans l’usine que l’on mesure. On a
donc à notre disposition N mesures.

Question : comment peut-on à partir de ces N mesures s’assurer de la conformité au cahier des
charges ?

Intuitivement : si la moyenne de l’échantillon, moyenne des N mesures, est proche de l’objectif


visé, la conformité sera effective. Mais que signifie « proche de » ?

Pour définir précisément cette notion, nous allons construire un modèle, dit modèle statistique
qui va nous permettre de répondre à cette question fondamentale.

Modèlisation statistique
On suppose que la population est de taille infinie. Alors  et la moyenne et l'écart type de la
population, sont des valeurs certaines (non aléatoires : ce sont des constantes).

Pour un échantillon de taille N, chaque mesure n de 0 à N-1 est considérée comme étant la
réalisation d'une VA Xn. Celles-ci sont supposées indépendantes les unes des autres et
distribuées identiquement (elles ont toutes la même moyenne et le même écart type
que ceux de la population).

Toute grandeur ou combinaison de grandeurs obtenues à partir d'un échantillon est appelée une
statistique. C'est elle même une VA puisqu’elle est fonction des N variables aléatoires Xn. Cette
statistique a donc une ddp appelée distribution d'échantillonnage.

Nous allons nous intéresser à la moyenne de l’échantillon et à la variance de l’échantillon.

15
3-2) Moyenne de l’échantillon :

Soient X0, ..XN-1 les N VA d’un échantillon. La moyenne de l’échantillon μ̂ (ou moyenne
empirique) est par analogie avec la moyenne la VA suivante :
N -1

X
n 0
n
μ̂ = .
N

μ̂ est aussi appelé estimateur de la moyenne.

Théorème 1 :
E(μ̂) = μ.

Digression : théorie de l’estimation et qualités d'un estimateur

Soit θ̂ un estimateur du paramètre 

On dit θ̂ est non biaisé si :

E()   .
Le biais b est donc la quantité suivante :
b  E (ˆ)   .

Fin de la digression : retournons au cas de μ̂ .

Le biais de μ̂ est nul : ce résultat signifie que μ̂ est un estimateur non biaisé de  .

Théorème 2 :

σ2
var(μ̂) = E(( μ̂ - μ) ) = 2
.
N

Ce résultat montre que μ̂ fluctue de moins en moins autour de  lorsque N augmente.

C’est l’un des résultats les plus importants de statistique

On peut montrer que N/σ2 est la quantité d’information dans l’échantillon de taille N pour
estimer la moyenne µ. Commentez ce résultat.

MSP ou Maitrise Statistique des Procédés.


Nous verrons en TD une application directe de ce résultat et qui permet de tester la conformité
d’un système de production.

16
Exercice : illustrer ces deux résultats en traçant la ddp d’un des Xn et la ddp de μ̂ .

3-3) Variance de l’échantillon :

La variance de l’échantillon (ou variance empirique) notée ˆ 2 est par analogie avec la
variance :
N -1

 (X n - μ̂) 2
ˆ 2 = n 0
.
N

Théorème 3 :
N -1 2
E(ˆ 2 ) =  .
N
On dit que ˆ est un estimateur biaisé de  2 . Le biais vaut alors -  2 /N.
2

Théorème 4 :
𝑁−1
𝑉𝑎𝑟(𝜎̂ 2 ) = 2𝜎 4 .
𝑁2

2𝜎4
Remarque : dans le cas gaussien 𝑉𝑎𝑟(𝜎̂ 2 ) = .
𝑁

17
3-4) Autres résultats importants :

Théorème 5 : La variable aléatoire


( ˆ -  )
T=
ˆ
N 1
suit la loi de Student à N-1 ddl.

Théorème 6 : la variable aléatoire


N -1
 (X n - μ̂)
2
n 0
Nˆ 2
V= = .
2 2

est distribuée en khi-deux à N-1 ddl.

3-5) Cas des fréquences :

Soient p, la probabilité de succès, et q = 1-p la probabilité de ne pas présenter une propriété


donnée.

La probabilité pour que cet événement se déroule X fois au cours de N essais est régi par la loi
binômiale de moyenne Np et de variance Npq.

Soit un N-échantillon extrait de cette population dont on peut calculer F=X/N, la fréquence de
succès de cet échantillon. F est une VA. On a alors :

E(F) = p
et
var(F) = pq/N.

Si N > 30, et p ni trop petit, ni trop faible, la distribution d'échantillonnage des fréquences est
distribuée normalement.

Exercice : Un candidat aux élections a recueilli 46% des voix. Quelle est la probabilité pour
qu'un groupe de :

a) 200 et
b) 1000 personnes choisies au hasard lui aient donné une majorité lors d’un sondage
précédent cette élection ?

18
4) TESTS D’HYPOTHESES

Dans certains ouvrages, ce chapitre est aussi nommé Théorie de la décision.

4-1) Position du problème :

Sur la base d’un N-échantillon, il faut prendre une décision (Ex : on veut produire de objets de
20 cm de long. Les objets produits sont-ils conformes au cahier des charges ?).

Un test d'hypothèse consiste à formuler une hypothèse de base ou hypothèse nulle H0.
H0 doit être une hypothèse d’égalité. Ex : les pièces produites font 20 cm.

Si les mesures issues d’un N-échantillon sont proches de celles relatives à l’hypothèse H0, cette
hypothèse sera acceptée. C’est le cas qui arrive le plus souvent en cas de production conforme.

On définit ensuite une hypothèse alternative notée H1. Celle-ci est une hypothèse de différence,
d’infériorité ou de supériorité.
Si les mesures issues du N-échantillon sont loin de ce que l’on attend pour H0, alors H0 sera
refusée et H1 sera acceptée. C’est le cas qui arrive le plus souvent en cas de production de
pièces non conformes.

Maintenant deux autres cas peuvent se produire.

Si nous rejetons H0 alors qu'elle devrait être acceptée, nous dirons qu'une erreur de première
espèce ou erreur de type I a été commise et est notée .
En pratique, on choisit  = 1% , 5% ou 10%.

C’est la probabilité de refuser une hypothèse vraie.

C’est aussi le risque fournisseur.

De même, si H0 est acceptée alors qu'elle devrait être refusée, nous commettons une erreur de
deuxième espèce ou erreur de type II. Elle est notée β.

C’est aussi la probabilité d’accepter une hypothèse fausse.

C’est aussi le risque client.

Pour qu'un test soit efficace, il faut que les erreurs de type I et II soit faibles. La seule vraie
solution est d'augmenter la taille de l'échantillon N. Cela n'est pas toujours possible car ceci
entraîne un coût qui peut être important.

On peut résumer la situation par le tableau suivant :

H0 retenue H0 rejetée
H0 vraie OK erreurs de type I
H0 fausse β : erreurs de type II OK

19
4-2) Tests unilatéraux et bilatéraux :
Nous nous sommes intéressés aux deux valeurs extrêmes d'une statistique S. Le test est dit
bilatéral. Mais il peut arriver qu'une seule branche de la distribution nous intéresse. C'est le cas
par exemple lorsque l'on veut savoir si une méthode est meilleure qu'une autre. Alors, le test est
dit unilatéral. La région critique n'est que d'un côté de la distribution.
.

Le choix entre un test unilatéral et bilatéral se fera suivant le contexte du problème c'est à dire
sur la base d'informations a priori.

4-3) Méthodologie pour appliquer un test d'hypothèse :

1) On définit l'hypothèse H0 qui sera la base du test. C’est une hypothèse d’égalité.
2) On choisit soit un test unilatéral soit un test bilatéral. On définit l'hypothèse alternative H1.
3) on choisit  le niveau du test.

4) On réalise l'expérience c'est à dire que l'on prélève un échantillon de taille N d'une population.
A partir de cet échantillon on calcule les quantités qui nous intéressent (dans ce cours on
calculera  et  2).
5) On formule la règle de décision en s’appuyant sur des résultats théoriques de statistique. Si
la condition est vérifiée alors on accepte H0, sinon, on refuse H0 et on accepte H1.

4-4) Tests sur la moyenne : ou test de Student (Student t test en anglais)

Soit une population de moyenne  et de variance  inconnues. On désire tester l'hypothèse H0


suivante H0 :.

Pour un test bilatéral on définit l’hypothèse alternative H1 :.


 
On analyse un échantillon de taille N dont on calcule la moyenne d'échantillon  et  2 la
variance d’échantillon.

On sait que T est une VA de Student à N-1 ddl.

H0 sera acceptée avec un niveau de signification  si



- o
-t < <t . (1)
1 - /2 ˆ 1 - /2
N -1
Sinon H0 sera refusée et on acceptera H1.

t1-/2 est la 100(1-/2) centile pour la loi de Student à N-1 ddl.

4-5) Tests sur la variance :



On veut tester l'hypothèse H0 : 2 = 2. On sait que la VA V = N  2 /2 obéit à une distribution
en chi-carré à N-1 ddl.

20
Dans le cas d’un test bilatéral avec H1 : 2 2, H0 sera acceptée avec un niveau de
signification  si

/22 < N  2 /2< 1-/22

Pour un test unilatéral avec H1 : 2 > 2, nous acceptons H0 si



N  2 /2 < 1-2.

Exercice :
Les spécifications du diamètre d'un arbre de transmission sont les suivantes : 23,6 ± 0,1 mm.
Sur un échantillon de taille 12 extrait à partir d’arbres produits dans une usine, on trouve une
moyenne de 23,61 mm et un écart type de 0,02 mm.
Les arbres produits dans l'usine respectent-ils les spécifications ?
Nous choisirons  égal à 1%.

4-6) Efficacité d'un test, puissance d'un test :

Le niveau de confiance  est la probabilité de faire une erreur de type I (refuser une hypothèse
vraie). On peut se dire qu'il suffit de diminuer  pour que le test passe plus facilement. Mais
c'est un faux calcul car alors les erreurs de type II vont augmenter (accepter une hypothèse
fausse).

Pour savoir si un test est efficace il faut prendre en compte la globalité des erreurs c'est à dire
les erreurs de type I et II. Soit H0 l'hypothèse nulle telle que la moyenne =o au niveau .
Soit une hypothèse fausse H1 telle que =1=o+. Quelle est la probabilité () d'accepter
cette hypothèse fausse ?

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-3 -2 -1 0 1 2 3 4 5 6

La courbe de  en fonction de  est lacourbe


0 1 du test. Pour =0, =1- et pour
d'efficacité
 très grand vis-à-vis de o, =0.

Dans la pratique, on dispose de courbes établies en variables réduites / et en fonction de N


et en fonction de  (voir annexes). On vérifie que plus N est grand, plus le test est efficace. Cela

21
permet de choisir le nombre d'échantillon si on connaît aussi
Pour la variance, on peut raisonner identiquement.

On voit donc que pour un test complet, il faut se fixer  le niveau de signification ou probabilité
de faire une erreur I et () probabilité de faire une erreur II. Le test sera d'autant plus efficace
que  sera faible. On définit donc 1- comme étant la puissance du test relativement à
l'hypothèse H1.

Exemple : Soit un processus dont l'écart type vaut 0.1. Déterminer N pour réaliser sur la
moyenne un test au niveau  = 0.05 pour =o et de puissance 1- = 0.9 pour 1 = 1.1 o. On
prendra o = 1.

Erreur totale pour un test : l’erreur totale pour un test est donc αPr(H0) + βPr(H1).

4-7) Contrôle d’entrée : Cette partie sera traitée en TD.

Le contrôle d’entrée (ou contrôle de réception) consiste à prendre une décision d’acceptation
ou de rejet concernant un lot d’objets issus de la même fabrication ou de la même commande.

Dans une industrie donnée, on se met d’accord sur la qualité générale de fabrication. On définit
un pourcentage maximal d’objet défectueux que l’on tolère dans une production. Ce
pourcentage est appelé le Niveau de Qualité Acceptable (NQA).

Le NQA dépend de l’importance du défaut possible :

Critique : NQA ≤ 0.01% Majeur : NQA ≤ 0.65% Mineur : NQA ≤ 4%

Exemples pour le NQA :

Béton précontraint : NQA = 4% pour la résistance compression (norme EN 206-1 : 2000)

Fonderie : pièces moulées : NQA = 2,5% pour les tolérances dimensionnelles

Médical : gants à usage médical NQA = 1,5% pour étanchéité à l’eau (norme EN 455-1)

Industrie électrique : NQA = 0,65% (normes UTE – 002)

NQA = 0,065% pour les gants de chirurgie

Présence de verre dans les injectables : NQA = 0,01% !!!!

Par rapport au NQA, on peut alors tracer f(x/NQA) la ddp du nombre de pièces défectueuses,
noté x dans un lot de N pièces, si l’on considère que l’hypothèse NQA est vraie.

Cette ddp est régie par une loi binomiale, et on peut alors construire le contrôle d’entrée au
niveau , et déterminer le seuil de décision.

Erreur totale : Pr(erreur) = αPr(H0) + βPr(H1)

22
4-8) Test du chi-deux :

Lorsque l'on désire tester la forme de la ddp d’un processus, on étudie une réalisation de taille
N et on forme son histogramme formé de K classes. On dit aussi que l’histogramme est un
estimateur de la ddp. Voir exemple ci-dessous.

On fait une hypothèse H0 quant à la forme de la ddp et on désire savoir si cette hypothèse est
correcte. On est donc amené à comparer des fréquences (ou effectif) théoriques à des fréquences
mesurées.

Exemple : on veut savoir si un dé est truqué. On fait l'hypothèse H0 que le dé est non truqué,
ce qui veut dire que la ddp est uniforme. Pour tester cette hypothèse, on jette 600 fois le dé et
on obtient pour les faces de 1 à 6 respectivement 99, 114, 98, 90, 86 et 113. On sait donc que
théoriquement on devrait avoir 100 apparitions de chaque face. Comment tester H0 ?

K ( Xj  Np ) 2
2 j
Fisher a démontré que la statistique D  
j 1 Np
j

est une variable du chi-deux à K-1 degrés de libertés si Npj > 5.

Si D2 = 0, il y a accord parfait entre la théorie et la réalisation. Plus D2 est grand, plus il y a de


différences entre les deux. Le test d'hypothèse sera un test unilatéral et H0 sera acceptée avec
un niveau de confiance  si
D2 < 1-2

Exercice : traiter l'exemple considéré.

23
4-9) Test de normalité

Sur un échantillon de taille N, on estime la moyenne et la variance de l'échantillon. On peut


ainsi connaître la distribution théorique que devrait suivre le processus puisque l'on fait
l'hypothèse H0 que celui-ci est normal. Suivant N, on choisit le nombre de classes K de
l’histogramme. K dépend de N et est généralement choisi en accord avec le tableau suivant pour
 = 0.05 :

N 200 400 600 800 1000 1500 2000


K 16 20 24 27 30 35 39

On forme l’histogramme de K classes et on effectue le test du chi deux :

K ( Xj  Np ) 2
2 j
D  
j 1 Np
j
Xj est le nombre d'échantillons dans un intervalle considéré et Npj est le nombre de réalisations
théoriques ou espérées. D2 est une variable du chi-deux à K-3 ddl (le calcul de la moyenne et
de la variance enlève deux ddl). Si D2 est nul, il y a accord parfait entre la distribution normale
est la distribution observée sur la réalisation. On se fixe un niveau de signification et si
D2 < 1-2

24
5) ESTIMATION PAR INTERVALLE DE CONFIANCE

5-1) Position du problème :

On peut faire une estimation par intervalle de confiance en donnant les deux bornes entre
lesquelles un paramètre doit se trouver avec une confiance a donnée.

On choisit a = 0.95 ou 0.99 en pratique.

5-2) Intervalle de confiance de la moyenne :

On considère que la moyenne et la variance de la réalisation sont inconnues.

T est une VA de Student à N-1 ddl, alors les bornes de confiance de  pour a donné sont :

σ̂ σ̂
μ̂  t 1 a  μ  μ̂  t 1 a
2 N 1 2 N 1

t est lu dans la table de Student à N-1 ddl.

5-3) Intervalle de confiance de la variance :

V est distribuée en khi-carré à N-1 ddl. On peut définir a/22 et 1-a/22 qui sont les valeurs de 2
tels que l'aire correspondant sous les branches de la distribution soit égale à 1-a. On peut dire
alors que :
nˆ 2
χ (1
2
- a)/2 < < χ (1
2
 a)/2 .
σ 2

avec un niveau de confiance a d'où les bornes de confiance pour  sont pour a donné :

σ̂ N σ̂ N
 
χ (1a)/2 χ (1a)/2

5-4) Intervalle de confiance des fréquences :

Nous avons vu que pour N > 30 et si p ni trop petit ni trop grand, la distribution
d'échantillonnage de la fréquence F était normale, donc les bornes de confiance pour p,
pourcentage de réussite, sont pour a donnée :

F(1 - F)
F  Z (1+a)/2 . (2)
N

avec F la fréquence estimée sur l’échantillon de taille N.

Exercice : On a obtenu 24 faces au cours de 40 lancers d'une pièce. Évaluez les limites de
confiance à 95% pour la probabilité d’obtenir face.

25
6) ESTIMATION PONCTUELLE

6-1) Estimation ponctuelle :

L’estimation ponctuelle consiste à estimer un paramètre à partir de N mesures. C’est la base de


la théorie de la mesure.
Il existe de nombreuses méthodes pour estimer un paramètre. On peut citer entre autres
l'estimation par moindres carrés (ou MSE : Mean Square Error), le maximum de vraisemblance,
la méthode des moments...
Dans ce cours, nous allons traiter du maximum de vraisemblance et des moindres carrés.

Par la suite, on notera un paramètre à estimer à partir d’une réalisation de N mesures.

On notera aussi θ̂ un estimateur de 

6-2) Qualités d'un estimateur (ou d’une mesure) :

On dit qu'un estimateur est non biaisé si :

E()   .
Le biais b est donc la quantité suivante :
b  E (ˆ)   .

On sait que pour un estimateur non biaisé :

var()  BCR( ).

BCR = Borne de Cramer-Rao (voir 6-4).

On dit qu’un estimateur a une variance minimale si :

var()  BCR( ).

Le meilleur estimateur ponctuel est celui qui est sans biais, et qui a une variance minimale
c'est-à-dire lorsque E( θ̂ ) =  et si Var(𝜃̂) = 𝐵𝐶𝑅(𝜃).

Cet estimateur là sera dit efficace.

Mais que faire s’il n’existe pas d’estimateur non biaisé et de variance minimale ?

On définit alors l’erreur quadratique moyenne (ou risque quadratique) comme :

26
2
MSE(𝜃̂) = 𝐸((𝜃̂ − 𝜃) ).

On retiendra alors l’estimateur qui la plus petite erreur quadratique moyenne.

Cet estimateur est dit estimateur des moindres carrés.

Exemple 1 : cas de la moyenne.

Dans le cas de la moyenne, on sait que 𝜇̂ est non biaisé et ont peut montrer que sa variance
atteint la BCR.
C’est donc un estimateur efficace (on ne peut pas faire mieux).

Exemple 2 : cas de la variance (cas un peu plus compliqué que celui de la moyenne).

Comparons les deux estimateurs de la variance:

Pour une distribution gaussienne, des calculs montrent que (voir Greene 2005, p. 861):

L'estimateur est sans biais alors que est biaisé.

Mais d’un autre côté, la variance de est plus faible que celle de .

Lequel choisir ?

Pour répondre à cette question, nous allons calculer l’erreur quadratique moyenne des deux
estimateurs précédents et retenir celui qui a cette erreur la plus faible.

La comparaison des erreurs quadratiques moyennes (MSE) réduites donne:

27
L'estimateur biaisé est donc plus précis en termes d'erreur quadratique moyenne. On
pourrait croire que c’est celui-ci qu’il faut choisir.

Cependant l'estimateur , où on divise par , est le meilleur des 3 en termes

d'erreur quadratique moyenne réduite, cette dernière valant alors .

6-3) Relation avec les qualités métrologiques d’un appareil :

Les qualités d’un appareil de mesure sont : l’étendue (domaine de variation possible), la
résolution (la plus petite variation qu’il peut déceler), la sensibilité (variation de la sortie en
fonction de celle de l’entrée), la linéarité, l’exactitude.

L’exactitude se décompose en justesse et en fidélité : plus il est juste, plus le biais est faible, et
plus il est fidèle, plus l’écart-type de la mesure est faible.

Le schéma ci-contre illustre ce propos.

6-4) Estimation par maximum de vraisemblance :

La méthode du maximum de vraisemblance, inventée par Gauss, consiste à se dire la chose


suivante. En regardant les mesures, quelle est la valeur la plus probable pour un paramètre à
estimer ?

Par exemple, on mesure une tension continue et on sait qu'un bruit vient se superposer aux
mesures. On peut tracer alors la courbe représentant la probabilité pour que le paramètre tension
ait une valeur donnée : cette courbe s'appelle la fonction de vraisemblance qui présente un
maximum proche de la vraie valeur.

Plus précisément, l'estimation par MV consiste à prendre pour estimation du paramètre  la


valeur θ̂ MV qui rend maximum la fonction de vraisemblance L(x0,x1,...,xN-1 ; ) qui est
simplement leur distribution jointe paramétrée par :

L(x0,x1,...,xN-1 ; )= L( x ; ) = Pr(X0=x0,X1=x1,...,XN-1=xN-1 ; ).

x est le vecteur observation.

Pour trouver θ̂ MV, il suffit de déterminer le zéro de la dérivée de L( x ; ) par rapport à .

28
Généralement, il est plus commode de calculer le logarithme népérien de L et d’en chercher le
maximum.

On peut facilement généraliser au cas de plusieurs paramètres à estimer. Il suffit alors de trouver
le maximum d’une fonction à plusieurs paramètres. Si il y a m paramètres à estimer 1, 2, .. m
= , on calcule les dérivées partielles par rapport aux m paramètres et on dit qu’elles doivent
être nulles. On a donc un système à m équations avec m inconnues.

Exercice 1 : traiter l'exemple d'une mesure de tension continue en supposant qu'elle est noyée
dans un bruit blanc, gaussien, de moyenne 0 et de variance 2.

Exercice 2 : Si la population a une distribution de Poisson

p(X=x) = f(x) = e- x / x!

estimer la moyenne  par maximum de vraisemblance à partir d'un échatillon de taille N.

6-4) Borne de Cramer-Rao :

Pour une taille donnée N, il existe une précision limite qu'on ne peut pas dépasser pour
l’estimation d’un paramètre. En effet, si à partir d'une seule mesure on avait un résultat tout le
temps parfait, cela signifierait que la variance des observation est nulle et que toutes les mesures
sont identiques.
Cette limite inférieure s'appelle la borne de Cramer-Rao (BCR). On peut démontrer que la
borne de Cramer-Rao se met sous la forme :

1 1
BCR(θ) = =-
 
2
E[[ Ln[L( x; θ)] ]2] E[ 2 Ln[L( x; θ)]]
θ θ

Cette limite n’est valable que pour un estimateur non biaisé.


Le dénominateur est appelé la quantité d'information de l'échantillon ou du signal. Plus
l'information est importante, plus la BCR est faible.

Théorème : pour un estimateur non biaisé :

var()  BCR( ).

Démonstration :

Soit  un estimateur de  sur la base d'une observation de x . Si  est non biaisé alors

E( ˆ -  ) = 0

soit Pr( x ;) la fonction de vraisemblance du paramètre 


R
Pr(x; θ)(θ̂ - θ ) dx = 0

et en dérivant par rapport à 

29
 Pr(x; θ)
  θ
 

θ̂ - θ  dx = 1
R 
D'autre part
Pr(x; θ) LnPr(x; θ)
= Pr(x; θ)
θ θ
d'où
  Ln p x/(x)
R 
 
1
 1

p x/(x) 2  p x/(x) 2( ^ -) dx = 1

en appliquant l'inégalité de Schwartz


2
 
  uv    u2  v 2
 
R  R R
il vient
 LnPr(x; θ) 
2

R  θ  Pr(x; θ) dx R (θ̂ - θ) Pr(x; θ) dx  1


2

d'où
1
var(θ̂)  cqfd.
  LnPr(x; θ) 2 
E   
 θ 

Si il y a m paramètres à estimer 1, 2, .. m = , on peut aussi calculer la borne de Cramer-Rao


pour un paramètre i. On calcule la matrice information de Fischer qui est une matrice carrée
de taille mm comme suit :
 Ln[L(X; θ)]
2
~
Iij = - E[ ]
θiθj
La borne de Cramer-Rao pour i vaut alors
~
BCR(θi) = I 1ii

Remarque 1 : nous avons étudié l'estimateur par MV car cette méthode donne un estimateur
asymptotiquement efficace, donc généralement le meilleur qui puisse être. Quand on peut
utiliser cette méthode, il faut le faire. Mais, celle-ci est généralement très lourde à implémenter
et très gourmande en temps de calcul.

Remarque 2 : dans le cas gaussien, l’estimateur par MV et celui du MSE sont les mêmes.

30
7) RÉGRESSION LINÉAIRE – CORRÉLATION

7-1) Régression linéaire :

Il arrive très souvent que l'on désire mettre en lumière les relations de cause à effet entre deux
variables aléatoires X et Y d'une même population. Pour cela, on tire un échantillon de taille N
et on obtient deux séries de mesures x et y. La relation la plus simple est une dépendance linéaire
entre X et Y
Y = a X + b.

Exemple : On mesure la taille X des individus sur un échantillon de composé de N personnes


ainsi que leur poids Y.

On cherche à estimer a et b. Pour ce faire, on utilise la technique des moindres carrés, qui dans
le cas Gaussien, et identique à la technique du maximum de vraisemblance.
On définit la meilleure courbe d'ajustement comme étant celle qui minimise l'écart D entre la
courbe et les données. D est la somme des distances di2 entre la droite d'ajustement et les
données. Cette distance D peut s'écrire :
D =  ( ax i + b  y i )
2

La valeur estimée de a (notée â ) est :

â = Cov(x,y)/Var(x).

Pour estimer b, on fait un changement de repère x' = x - x et y' = y - y , où x et y sont


respectivement la moyennes observées sur les N mesures pour X et Y. On a alors y’ = a x’.

7-2) Coefficient de corrélation d'échantillon :

cov(x, y)
On définit le coefficient de corrélation d'échantillon par : r =
 x y
7-3) Test de corrélation entre deux variables :

Pour savoir si une va X est corrélée avec une variable Y avec un coefficient r, on est amené à
calculer le coefficient de corrélation r̂ entre ces deux variables en partant d'un échantillon de
taille N. On teste ensuite une hypothèse concernant r.

Test r = 0 :
On applique le fait que la statistique
rˆ N  2
t=
1  rˆ2
suit une distribution de Student à N-2 ddl.

31
Loi Normale

32
33
Loi

34
35

Vous aimerez peut-être aussi