Analyse des données
Plan
• Lien entre les statistiques et l’analyse des
données
• Propagation des erreurs
• Ajustement de fonctions
Échantillon vs population
• Une mesure échantillonne une population
• La distribution de l’échantillon approxime
celle de la population
• La précision sur les estimations augmente
avec la taille de l’échantillon N
Exemple de comptage
n = 100
n 100
µ 0,07
0,92
/ n 0,09
n = 1000
n 1000
µ 0,03
1,01
/ n 0,03
n = 1 000 000
n 1000000
µ 0,00076
1,0003
/ n 0,001
Précision sur la moyenne
• L’estimation de la moyenne s’affine avec N
1
µ xi
N
1
xi µ2
2
Population
N
1
2
xi µ 2
Échantillon
N 1
µ
N
Erreur sur une variable dépendante
y x/3
x 10
y 3,3
Erreur sur une variable dépendante
y 3x
x 5
y 15
Erreur sur une variable dépendante
y
y x
x
Propagation d’erreurs
f f ( x, y )
x x1 x
y y1 y
f ?
Propagation d’erreurs
Propagation d’erreurs
• x et y sont des variables indépendantes
• Et x et y sont des erreurs indépendantes
• Leurs effets s’additionnent quadratiquement
Propagation d’erreur
2 2
f f
f
2
x y ...
x y
pour des incertitudes indépendantes
Propagation d’erreurs
(sans corrélations)
2 2 2 2 2
f ax by f a x b y
2 2 2
f x y
f axy 2
2 2
f x y
bx f
f ae bx
f
Moyenne pondérée
• Plusieurs mesures de x (x1, x2, ... xi,, ... xn)
• Différentes précisions (1, 2, ... i,, ... n)
• On cherche la meilleure évaluation de la
moyenne µ
• Les mesures précises doivent contribuer
davantage
Moyenne pondérée
xi
2 1
2
µ i
µ
1 2 1 2
i
i
Si tous les i sont égaux,
2
µ xi
µ 2
i
N N
Ajustement de courbes
• Soit f(x) une fonction physique
• On fait une mesure de f(x) en x = x1
• On cherche la probabilité que la mesure soit
bonne
2
1 y y1
1 2 1
P e
2 1
2
1 f ( xi ) yi
1 2 i
Pi e
2 i
• La probabilité totale est
1 f ( xi ) y i 2
1 2 i
P Pi e
2 i
2
1 1 f ( xi ) yi
exp
2 2
i i
1 1 2
exp
2 i 2
2 2
2 f ( xi ) yi yi
i i
• La valeur de P ou de 2 nous dit si les
mesures représentent bien la théorie
Ajustement
• En général, la situation est inversée
• On ne connaît pas f(x)
• Mais on connaît (ou on essaye) une forme
– droite
– polynôme
– fonction arbitraire
Ajustement
f ( x) f ( x, a, b, c,...) f ( x, ai )
• On cherche les ai qui maximisent P
– Vraisemblance maximale
– Maximum likelihood
• Ou qui minimisent 2
– Moindres carrés
Régression linéaire
• On veut passer la meilleure droite à travers
n points expérimentaux
f ( x) a bx
Régression linéaire
• On cherche a et b qui minimisent 2
2 2
0 0
a b
• 2 équations, 2 inconnus (a et b)
Régression linéaire
2 2
f ( xi ) y i a bxi yi
2
i i
2 a bxi yi
2 2
0
a i
2
xi a bxi yi
2 2
0
b i
a bxi yi a 1 xi yi
2 2
b 2
2
0
i i i i
2 2
axi bxi xi yi xi xi xi y i
2
a 2
b 2
2
0
i i i i
2 2
1 xi x
2 2
i
i i2 i
2
1 xi yi xi xi yi
a 2 2 2 2
i i i i
1 1 xi y i xi yi
b 2 2 2 2
i i i i
Incertitudes égales
(votre calculatrice)
i
N xi xi
2 2
1
2
a xi y i x i xi y i
1
b N xi yi xi yi
Régression linéaire
• 5 mesures
• f(x) = 3x + 7
• a=7 b=3
2 = 10,1
• a = 5,9 b = 2,9
2min = 5,9
Contours du 2
Incertitude sur les paramètres
• a et b dépendent des yi
• a et b dépendent des i
• On applique la règle de propagation
2 2
2 a 1 x 2 2
a i i xi ( i égaux)
yi i
2
2 b 1 1 2
b i 2 N ( i égaux)
yi i
2 2
1 xi xi
N xi xi
2 2
2 2 ( i égaux)
i i i
Incertitude sur les paramètres
2 2
a 2 a
i
1 xi
i
a 5,9
yi
2 b
2
1 1 b 2,92
b i
yi i2
2 2
a 1,4
xi
1 x
2 2
i
i i i b 0 ,17
Incertitude et 2
2
min 5,87
2
min 1 6,87
Incertitude et 2
• La régression linéaire trouve le minimum du
2
• Un écart-type sur les paramètres correspond à
une augmentation de 1 du 2. Pourquoi ?
• Les courbes de niveau indiquent la corrélation
entre les paramètres
Incertitude et 2
2 2
f ( xi ) yi yi
2
i i
1 1 2
P exp
2 i 2
Gaussienne d’écart-type = 1
L’incertitude représente une variation de 1 du 2
Corrélation linéaire
• On peut toujours passer une droite par des
points
• Mais ces points peuvent-ils être décrits par
une droite ?
• Le coefficient de corrélation linéaire r nous
donne la réponse
Corrélation linéaire
• b = 2,7 b’ = 0,33 • b = 0,29 b’ = 0,33
• r = sqrt(bb’) = 0,95 • r = sqrt(bb’) = 0,31
Élimination de données suspectes
Critère de Chauvenet (pp. 154-156)
• Soit 5 mesures : 38 35 39 39 34 18
• Faut-il rejeter la dernière valeur ?
• Si on peut expliquer notre erreur, oui.
• Sinon, il faut réfléchir
• <x> = 34 =8
• Si on enlève, on a <x> = 37
• La valeur de 18 s’écarte de 2 de la moyenne
• Ceci n’est jamais impossible et devrait se produire
~ 1 fois sur 20
• Mais on n’a que 6 données
• On attend donc ~ 0,3 données de ce type et on
l’écarte
• Critère de Chauvenet
• On écarte si
n NP 0,5
Attention à l’auto-censure
• Expérience de Millikan
• e = 1,592 × 10-19 C
• e = 1,602 × 10-19 C
• Temps de vie du muon