Notes de Cours en Statistiques 2014-2015
Notes de Cours en Statistiques 2014-2015
` LA STATISTIQUE INFERENTIELLE
INTRODUCTION A
Formation : M2IGAPAS
UE : STATISTIQUE
2014-2015, Automne
J
er
ome BASTIEN
Identification Apog
ee
Mati`
ere
Statistiques
Formation
Master 2 [Link] (P)
Formation (code) SPM208
UE
3MIGAPAS1 Statistique
UE (code)
SPT3023M
Avant-propos
vii
5
5
5
12
17
24
25
33
33
37
38
44
49
54
61
61
61
61
61
61
63
63
63
63
64
65
65
65
66
Annexe
A.1.
A.2.
A.3.
iii
`
TABLE DES MATIERES
iv
Annexe
B.1.
B.2.
B.3.
67
67
67
67
Annexe
C.1.
C.2.
C.3.
C.4.
C.5.
Etude
de donnee qualitatives
Elements
de correction
69
69
69
70
70
76
Annexe
D.1.
D.2.
D.3.
D.4.
D.5.
D.6.
D. Donnees categorielles
La situation concr`ete : recuperation dun chier de donnees
Importer le jeu de donnees dans
Denombrer les categories
Les graphiques pour les categories
Extension a` letude de plus de deux categories
Les donnees ordinales
79
79
79
81
81
83
84
Annexe
E.1.
E.2.
E.3.
E.4.
E. Donnees numeriques
La situation concr`ete
Les graphiques pour donnees numeriques
Les indicateurs statistiques pour les donnees numeriques
Dangers des mauvaises aectations ! !
87
87
87
88
95
Annexe
F.1.
F.2.
F.3.
F.4.
F.5.
F.6.
F.7.
99
99
99
101
102
103
112
112
Annexe
G.1.
G.2.
G.3.
G.4.
G.5.
G.6.
117
117
117
120
120
120
125
Annexe
H.1.
H.2.
H.3.
H.4.
H.5.
127
127
127
135
137
137
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
`
TABLE DES MATIERES
Annexe
I.1.
I.2.
I.3.
I.4.
143
144
144
146
147
Annexe
J.1.
J.2.
J.3.
J. Projet
Quelques denitions
Travail `a fournir
Quelques elements de correction
149
149
150
152
Annexe K. Un exemple pedagogique sur les danger de la regression lineaire (sous forme dexercice corrige)165
Enonc
e
165
Corrige
165
Annexe
L.1.
L.2.
L.3.
177
177
178
180
Annexe
M.1.
M.2.
M.3.
181
181
183
186
Annexe N.
Lien entre la moyenne et lecart-type dune variable aleatoire et la moyenne et lecart-type des valeurs prises par c
189
Annexe
P.1.
P.2.
P.3.
191
191
192
194
Bibliographie
197
Avant-propos
Ces notes de cours constituent un support de cours, TD et TP de Statistiques pour lUE Statistique
du M2IGAPAS (2014-2015, Automne). Chacun des chapitres de ce poly sinspire de polycopies dej`
a existant
realises par des statisticiens de luniversite Lyon I, qui seront cites en debut de chapitre (avec les URL o`
u leurs
polycopies sont disponibles). Il sagira essentiellement
Anne-Beatrice DUFOUR (en collaboration avec de nombreux auteurs). Voir [1, 2, 3] toutes disponibles
sur [Link] puis rubrique Fiches de TD, puis statistique
descriptive.
Stephane CHAMPELY, auteur de [4] ainsi que de [5, 6] ce dernier etant disponibles sous SPIRAL.
Ce polycopie de cours et les chiers de donnees sont normalement disponibles a` la fois
en ligne sur [Link] `a la rubrique habituelle ;
en cas de probl`eme internet, sur le reseau de luniversite Lyon I : il faut aller sur :
Poste de travail,
puis sur le repertoire P: (appele aussi \\teraetu\Enseignants),
puis [Link],
enn sur M2IGAPAS.
Pour lexamen, les donnees se trouveront aussi, par mesure de precaution a` ces deux endroits.
Vous trouverez
au chapitre 6, lessentiel (et lexigible aux examens !) des notions, denitions, proprietes, exercices et
quil faut savoir (ou retrouver dans le polycopie de cours) ;
manipulations avec
en annexe A, un petit guide dinstallation du logiciel
et du package Rcmdr, pour ceux qui souhaitent
linstaller sur leur propre ordinateur ;
en annexe B, une prise en main a` la premi`ere seance, pour ceux ceux qui se sentent peu habitues aux
operations de telechargement de chiers, de demarrage de logiciels ;
en annexe I, lessentiel (et lexigible aux examens !) des notions et commandes avec .
Une reference `a consulter : [7] (voir bibliographie en page 197).
Pour ceux qui utilisent le package Rcmdr sur les ordinateurs 1 de luniversite Lyon I, a` cause dun probl`eme
avec le package Rcmdr de la version 2.9 de R, on prendra bien garde `a utiliser la version 2.7 de
et non la
version 2.9 ; on trouvera cette version, comme dhabitude, en faisant demarrer, puis programmes, puis R
puis R 2.7. Si cette version nest pas installee sur votre ordinateur, il faut le redemarrer !
Des notes en petits caract`eres comme suit pourront etre omises en premi`ere lecture :
Attention, passage dicile !
1. en date du mois de d
ecembre 2009 ; ce bug a peut-etre
et
e corrig
e depuis !
vii
CHAPITRE 1
R
evisions de statistiques descriptives
Ceux qui se sentent peu habitues aux operations de telechargement de chiers, de demarrage de logiciels
et pourront lire lannexe B en premi`ere seance.
Ce chapitre, traite en un ou deux seances, vous permettra de reviser les notions de statistiques univariees
et bivariees.
Consulter les annexes D, E, F, G, H, et lannexe recapitulative I.
` titre de revisions, vous pourrez aussi traiter lancien projet, qui ne sera plus etudie cette annee (cf annexe
A
J).
CHAPITRE 2
Cr
eer ses propres fichiers de donn
ees
par
Ce chapitre vous montre comment creer vos propres chiers de donnees dans un format adapte et lisible
.
prenom
age taille
jean
pierre
25
paul
32
jean-jacques 12
1,85
2,01
NA
1,78
masse sport
85
80
75
69
foot
Gymnastique aquatique
foot
petanque
Considerons les donnees tr`es simples du tableau 2.1. Les donnees manquantes correspondent `a des cases
vides ou contenant la chane de caract`ere NA.
Pour creer un chier de donnees lisible par
sous la forme dun data frame : il faut :
(1) lancer le tableur libre et gratuit OpenOce ;
(2) choisir [Link] Calc ;
(3) dans la feuille de calcul, saisir les donnees du tableau 2.1 ;
(4) enregister ensuite au format OpenOce : le nom du chier aura pour extension ods. Choisir, par
exemple [Link]. Vous pouvez alors modier le tableau, louvrir de nouveau, le modier ... et
toujours avec OpenOce.
Remarque 2.1. Ces manipulations peuvent aussi etre faites avec excel, la sauvegarde se faisant alors au
format xls.
Remarque 2.2. OpenOce est libre, gratuit et telechargeable sur internet.
Voir [Link]
Une fois que le chier est pret, il faut alors lenrergister sous un format que
peut lire ; car malheureusement, il ne peut lire le format OpenOce ! Il faut proceder ainsi : quand le chier est ouvert dans OpenOce,
il faut alors
(1) lenregistrer sous au format CSV (dextension csv) ;
(2) Il faut repondre choisir le format actuel (et non au format ODS) ;
(3) Il faut ensuite choisir en cliquant sur le separateur de champ ;.
On peut ensuite ouvrir le chier avec
:
Avec Rcmdr :
Pour que cette manipulation fonctionne, il est necessaire que les donnees manquantes soient codees
par la chane NA et non par des cases vides.
3
2. CREER
SES PROPRES FICHIERS DE DONNEES
(1) Dans le menu deroulant Donnees de Rcmdr, choisir loption Importer des donnees puis Depuis
un chier texte ou le presse-papier.... Dans la fenetre de dialogue qui souvre, donner un nom au
jeu de donnees (`a la place de Dataset, choisi par defaut), le nom du chier texte, ici, par exemple
dudu. pour le Separateur de champ, choisir Autre et Specier ;. Pour le Separateur Decimal,
choisir ,. Laisser les autres champs avec les valeurs choisies par defaut.
(2) Employer la fenetre qui souvre alors pour retrouver le chier a` importer ;
(3) Cliquer alors eventuellement sur le bouton Visualiser.
Sans Rcmdr :
On pourra taper, par exemple,
dudu <- [Link]("[Link]", header = TRUE, sep = ";", dec = ",", [Link] = c("NA",
""))
et travailler ensuite sur le data frame dudu, comme dhabitude. Taper par exemple
dudu
dudu$sport
Remarque 2.3. On peut aussi faire au export au format xls, mais
correctement. Voir remarque D.1.
Remarque 2.4. Il existe des tas de solutions dierents : exports au format texte, csv, excel... On peut
aussi le faire grace `
a [Link] une methode est ici presentee.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CHAPITRE 3
3.1. Introduction
Il est choisi de faire le moins de mathematiques possible ! !
Une experience aleatoire (jete de d`es, choix dune carte dans un jeu, mesure de la taille dun etudiant) a
par denition un resultat que lon ne peut prevoir. En revanche, sur un grand nombre dexperiences, il sera
possible, de calculer la proportion dapparition des resultats, grace aux notions de probabilite et frequences.
Ceux qui souhaitent utiliser Rcmdr doivent shabituer a` taper les commandes donnees directement dans
la fenetre de Rgui, puisquelle nexistent pas dans Rcmdr.
Exercice 3.2. Taper les lignes suivantes dans la fenetre de script et soumettez les successivement.
1:6
[1] 1 2 3 4 5 6
sample(1:6, size = 1, replace = T)
[1] 2
5
3. INTRODUCTION AUX PROBABILITES
[Link]. Denitions.
D
efinition 3.4. Si une experience est aleatoire, la probabilite dun evenement est la limite quand la
serie est longue de la proportion de fois (les frequences) o`
u il se realise.
Supposons par exemple que lon consid`ere le jette de de et que lon compte les frequences dapparition du
1 ; par exemple,
pour 10 lancers, on peut obtenir 2 fois le 1 ;
pour 100 lancers, on peut obtenir 16 fois le 1 ;
pour 1000 lancers, on peut obtenir 157 fois le 1.
Les nombres 2, 16, 157 sont les realisations de levenement tirer le 1. Les rapports 2/10, 16/100, 157/1000
sont les proportions (ou les frequences) et se rapprochent de la probabilite theorique 1/6. Attention, cette limite
est theorique. On peut tr`es bien obtenir, un jour, 500 fois la face 1 sur 1000 lancers (mais cest tr`es rare !).
Voir sur la gure 3.1 page ci-contre une simulation faite avec . Sur cette gure, on peut voir six courbes,
correspondant aux proportions experimentales dapparition de chacun des numeros, qui se rapprochent de 1/6.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
3.2. NOTIONS DE PROBABILITES
0.20
0.15
0.00
0.05
0.10
proportion
0.25
0.30
2000
4000
6000
8000
10000
P (X = k) =
n
1
k .
n k=1
1
.
n
(3.2)
(3.3)
Exemple 3.8. Supposons maintenant que lon sinteresse aux tailles dun ensemble detudiants. A priori,
les tailles peuvent prendre toutes les valeurs possibles, meme si en pratique, elles sont arrondie a` lunite. On
3. INTRODUCTION AUX PROBABILITES
consid`ere lexperience aleatoire qui consiste `a prendre la taille dun etudiant (issu dun groupe deni `a lavance).
X est ici la variable aleatoire continue egale a` la taille.
0.10
0.00
0.05
Density
0.15
Histogram of dede
dede
Cours de Statistiques
J
er
ome BASTIEN
3.2. NOTIONS DE PROBABILITES
0.6
0.4
0.0
0.2
[Link](table(dede))/n
0.8
1.0
Index
Figure 3.3. Courbe de frequence de la variable aleatoire numero de la face obtenue pour
n = 10000.
Avec Rcmdr :
Il faut choisir le menu deroulant Distributions, puis Distributions continues puis Distribution
normale puis Echantillon dune distribution normale. Dans la fenetre de dialogue qui souvre il faut
indiquer pour
mu : 171,
sigma : 8.7,
Nombre dechantillons : 10000,
Nombre dobservations : 1
Il se cree alors un tableau `a 10000 lignes et 1 colonne.
On trace ensuite un histogramme en densite avec 100 classes.
Sans Rcmdr :
On tape dans Rgui
dede<-rnorm(10000, mean = 171, sd = 8.7)
hist(dede,breaks=100,freq=F)
Ici la variable breaks correspond au nombre de classes choisi.
On obtient la gure 3.4 page suivante.
Sur cette gure, `a cause du grand nombre de polygone, lhistogramme semble se rappprocher dune courbe
continue (tracee en rouge sur la gure). Cette courbe est la representation dune loi ideale de disribution,
appelee la fonction de densite.
Cette courbe peut etre alors consideree comme la representation geometrique dune loi ideale de distribution. On parle de fonction de densite. Par denition, laire totale situee entre la cette courbe et laxe des x
est egale a` 1 (somme des probabilite). Sur la gure 3.5 page 11, la portion daire comprise entre les abscisses
177 et 189, representee en rouge, est la probabilite quune valeur issue de cette loi soit situee dans lintervalle
3. INTRODUCTION AUX PROBABILITES
Density
0.00
0.01
0.02
0.03
0.04
10
140
150
160
170
180
190
200
dede
Cours de Statistiques
J
er
ome BASTIEN
3.2. NOTIONS DE PROBABILITES
11
0.02
0.00
0.01
Density
0.03
0.04
140
150
160
170
180
190
200
q
P (X = ni )ni
(3.4)
i=1
L
ecart-type dune variable al
eatoire discr`
ete X est la racine carr
ee de la somme des carr
es des
ecarts entre les r
esultats
possibles et lesp
erance, pond
er
ee par les probabilit
es respectives.
Si lensemble des valeurs prise par la variable al
eatoire X est not
e {n1 , n2 , . . . , nq }, alors
q
2
2
= P (X = n1 )(n1 E(X)) + . . . + P (X = nq )(nq E(X)) =
P (X = ni )(ni E(X))2
(3.5)
i=1
La moyenne et l
ecart-type dune variable al
eatoire continue X de loi de densit
e p sont donn
ees par
E(X) =
xp(x)dx,
(x )2 p(x)dx.
Une preuve de l
equivalence de cette d
enition et de la pr
ec
edente peut etre trouvee en annexe N.
Exercice 3.13 (facultatif). Retrouver grace a` la denition 3.12 page ci-contre les valeurs obtenues dans
lexemple 3.11 page precedente, en montrant que
7
,
2
1.707825.
E(X) =
(3.6a)
(3.6b)
3. INTRODUCTION AUX PROBABILITES
12
3.3.2. La theorie
D
efinition 3.14. Le mod`ele probabiliste binomial correspond a` des circonstances o`
u
il ny a que deux resultats possibles dans une unique experience aleatoire : garcon/lle, pile/face, correct/defectueux, mort/vivant ; lun est considere comme un succ`es et lautre comme un echec 1,
les repetitions de cette experience se realisent independamment les unes des autres et
la probabilite de succ`es reste la meme a` chaque repetition.
1. Sans quil y ait pour autant jugement de valeur...
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
13
Le mod`ele probabiliste binomial decrit le comportement de la variable aleatoire nombre de succ`es apparus
sur lensemble des repetitions.
La famille binomiale est engendree par deux param`etres : le nombre de repetitions et la probabilite de
succ`es, notes respectivement n et p.
D
efinition 3.15. Nous dirons que la variable aleatoire X suit une loi binomiale de param`etres n et p et
on notera
X B (n, p)
(3.7)
Exercice 3.16. Quels sont les param`etres correspondant au nombre de pile dans un lancer de pi`ece cinq
fois de suite ? Quels sont les param`etres correspondant `a la roulette russe ?
Voir elements de correction page 26.
Proposition 3.17. Pour n repetitions avec une probabilite de succ`es p, la probabilite quune variable
` k {0, . . . , n} est
aleatoire binomiale 2 X soit egale a
P (X = k) = Cnk pk (1 p)nk
avec
Cnk
(3.8)
n!
.
k!(n k)!
Preuve facultative. La proposition 3.17 peut se montrer (en simpliant) de la facon suivante : pour
obtenir x succ`es et n x echecs dans un ordre donne, la probabilite est de pk (1 p)nk (on multiplie les
diferentes probabilites de chacun des evenements, independants). On multiplie ce resultas par Cnk qui correspond
au nombre total de combinaisons de k elements parmi n, puisquici lordre des succ`es ne compte pas.
Manipulation avec R 3.19. On peut calculer cette loi de probabilite :
Avec Rcmdr :
En utilisant le menu deroulant Distributions , loption Distributions discr`etes puis Distribution
binomiale puis Probabilites binomiales. Dans la fenetre de dialogue, il faut alors preciser le nombre
dessais (n) et la probabilite de succ`es (p).
Ainsi pour n = 5 essais et une probabilite de succ`es de p = 0.3, on obtient
Pr
0 0.16807
1 0.36015
2 0.30870
3 0.13230
4 0.02835
5 0.00243
et donc en particulier P (X = 2) = 0.3087.
2. ce nom vient de la formule du bin
ome de Newton :
(a + b)n =
n
k k nk
Cn
a b
.
k=0
On a un moyen mn
emotechnique de se rappeler (3.8) :
g(X) = (p + 1 p)n =
n
k=0
k k
Cn
p (1 p)nk =
3. INTRODUCTION AUX PROBABILITES
14
Sans Rcmdr :
On tape dans Rgui pour n = 5 et p = 0.3
dbinom(0:5, size=5, prob=0.3)
et on obtient alors les dierentes probablites correspondant `a 0, 1, ..., n succ`es. On peut aussi taper
directement pour k dans {0, ..., n = 5}
dbinom(k, size=5, prob=0.3)
Ainsi pour n = 5 essais et une probabilite de succ`es de p = 0.3, on obtient et donc en particulier
P (X = 2) = 0.3087.
On peut aussi tracer le graphe de la loi de probabilite : Sur ce graphe, pour chaque k dans 0, . . . , n, on
trace un segment dabscisse k et de hauteur P (X = k).
Manipulation avec R 3.20.
Avec Rcmdr :
On utilise loption Graphe de la distribution binomiale.
Sans Rcmdr :
On tape dans Rgui
x <- 0:n
plot(x, dbinom(x, size = n, prob = p), type = "h")
points(x, dbinom(x, size = n, prob = p), pch = 16)
abline(h = 0, col = "gray")
o`
u n = 5 et p = 0.3.
Exercice 3.21. Observer comment evolue le graphe de la distribution binomiale evolue lorsque vous
modiez la probabilite de succ`es en p = 0, p = 0.4, p = 0.5, p = 0.7, p = 0.9, p = 0.95 et p = 1 en conservant
le param`etre n = 5.
Voir elements de correction page 26.
Exercice 3.22. Representer graphiquement les lois de probabilites correspondant aux jeux de param`etres
suivants : (n = 10, p = 0.1), (n = 10, p = 0.25), (n = 10, p = 0.5), (n = 10, p = 0.85).
Voir elements de correction page 26.
Preuve partielle avec les mains. On peut remarquer formellement et facilement que lesperance
dune variable aleatoire binomiale de param`etres n et p est egale a` np.
En eet, pour un essai, la proportion de succ`es est egale a` p ; pour n essais, la proportion de succ`es est
egale au nombre moyen de succ`es (soit E(X)) divisee par le nombre dessais (n) ; bref, p = E(X)/n, do`
u le
resultat !
An de calculer lesperance, la variance et lecart-type pour une distribution binomiale comportant n = 5
essais et une probabilite de succ`es de p = 0.3, il faut ecrire dans la fenetre de script les trois commandes
suivantes et les soumettre successivement :
5*0.3
5*0.3*(1-0.3)
sqrt(5*0.3*(1-0.3))
On obtient donc
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
15
[1] 1.5
[1] 1.05
[1] 1.024695
cest-`a-dire
E(X) = 1.5,
= 1.024695
(3.9)
Exercice 3.24. Trouver lesperance et lecart-type pour les distributions binomiales suivantes :
n = 20 et p = 0,50 ;
n = 40 et p = 0,20 ;
n = 200 et p = 0,80.
Voir elements de correction page 27.
(3.11)
(3.12)
On note de meme
3. INTRODUCTION AUX PROBABILITES
16
(3.13)
(3.14)
P (ni X nj ) = P (X nj ) P (X ni1 ).
(3.15)
alors
Exercice 3.32. Pour une variable aleatoire binomiale X de param`etres n = 7 et p = 0.2
(1) Calculer `a laide du logiciel R : P (X = 2), P (X = 0), P (X = 9), P (X 5), P (X 5), P (X > 5),
et P (2 X 5)
(2) Verier que la probabilite cumulee P (X 5) est bien egale a`
P (X 5) = P (x = 0) + . . . + P (x = 5)
(3) Verier que la probabilite cumulee P (X > 5) est bien egale a`
P (X > 5) = P (X = 6) + P (X = 7)
(4) Representer par un graphique sa loi de probabilites cumulees.
Voir elements de correction page 27.
Exercice 3.33. La probabilite de contact des sondes au telephone est generalement estimee `a 60 %. Nous
decidons de lancer une vague dappels de n = 200 personnes. On considerera que le nombre de personnes que
lon va parvenir a` contacter suit une loi binomiale de param`etres n = 200 et p = 0.6. En eet, dans ce cas, on
rep`ete n = 200 fois lexperience appeler quelquun au telephone qui a deux issues : le succ`es est la prise de
contact de probalite p = 0.6 et lechec est la non prise de contact.
(1) Quel nombre moyen de personnes peut-on esperer toucher dans cette premi`ere vague dappels ?
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
17
On pourra aussi relire la section [Link] qui montre que la loi continue peut etre approchee par une
histogramme dun echantillon, extrait de cette population, de plus en plus grand. Nous constaterons aussi cela
de facon experimentale au cours de lannexe M.
3. INTRODUCTION AUX PROBABILITES
0.00
0.02
0.04
0.06
0.08
18
20
40
60
80
100
2
1 x
e 2
1
p(x) =
(3.16)
2
Nous dirons que la variable aleatoire X suit une loi normale de moyenne et decart-type et on notera
X N (, )
(3.17)
X N , 2
Cours de Statistiques
J
er
ome BASTIEN
19
0.03
0.02
0.00
0.01
Density
0.04
0.05
150
160
170
180
190
200
180
160
170
190
200
norm quantiles
Figure 3.7. Histogramme (en densite) et graphe quantile-quantile sur les donnees de Taille
de [Link].
les abscisses a et b, ce qui represente donc la probabilite quune variable aleatoire X normale, appartienne `a
lintervalle [a, b].
Par exemple,
3. INTRODUCTION AUX PROBABILITES
0.04
0.00
0.02
Density
0.06
20
160
170
180
190
200
Figure 3.8. Histogramme (en densite et avec 18 classes) et la loi normale associee sur les
donnees de Taille de [Link].
[Link](mu = 1, sigma = 1, aire = c(1.2, 3))
produirait la gure 3.10 page 22.
La moyenne correspond a` labscisse du maximum de cette courbe, cest un param`etre de position. Lecarttype correspond a` letalement de la courbe ; voir la gure 3.11 page 23, o`
u plusieurs courbes correspondant
a plusieurs valeurs de ont ete tracees.
`
D
efinition 3.36. La loi normale centree reduite correspond au cas o`
u = 1 et = 0.
Cette fonction est donnee sur la courbe 3.12 page 24.
Cette fonction de densite est symetrique, elle atteint son maximum en zero et est pratiquement nulle au
del`a de trois (en valeur absolue).
Remarque 3.37. On peut montrer que
X
N (0, 1) .
Autrement dit on passe la densite de la loi normale centree reduite `a celle de la loi normale generale par une
dilatation-translation. Ainsi, les deux graphes des gures 3.9 et 3.12 sont identiques et surperposables. Seules
les echelles sont dierentes.
X N (, )
p(x)dx = p.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
21
1.0
0.0
0.5
Density
1.5
2.0
2.4
2.6
2.8
3.0
3.2
3.4
3.6
(3.18)
(3.19)
P (X a) =
p(x)dx
(3.20)
et que la somme de ces deux aires vaut 1. Pour calculer dautres types de probabilite, on pourra utiliser la
formule (3.18) qui secrit aussi
b
b
a
P (a X b) =
p(x)dx =
p(x)dx
p(x)dx.
(3.21)
a
3. INTRODUCTION AUX PROBABILITES
22
0.2
0.0
0.1
Density
0.3
0.4
Figure 3.10. La loi normale avec = 1 et = 1 et laire en rouge comprise entre les
abscisses 1.2 et 3.
soit encore
P (a X b) = P (x b) P (x a)
(3.22)
P (a X b) = P (x a) P (x b)
(3.23)
P (X = a) = 0
(3.24)
P (X a) = P (X < a).
(3.25)
et donc
Cours de Statistiques
J
er
ome BASTIEN
23
1.0
0.0
0.5
Density
1.5
2.0
3. INTRODUCTION AUX PROBABILITES
24
0.2
0.0
0.1
Density
0.3
0.4
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
3.6. EL
DE CORRECTION
25
Nous dirons que la variable aleatoire X suit la loi de Student a` n (entier non nul) degres de liberte et on
notera
X tn .
(3.26)
Lentier n sera appele degre de liberte et note ddl (degree of freedom ou df en anglais).
Retenons que quand n grand(superieur `a 30 ou 60, selon les cas !), cette loi se rapproche de la loi normale.
Comme precedemment, on pourra faire des graphiques et calculer des probabilite :
Avec Rcmdr :
En utilisant le menu deroulant Distributions , loption Distributions continue puis Distribution
t.
Sans Rcmdr :
En utilisant les fonction dt, pt, qt et rt.
ements de correction
3.6. El
El
ements de correction de lexercice 3.2
La fonction sample eectue un tirage aleatoire dans lechantillon {1,2,3,4,5,6}. Au vu de la denition 3.4 page 6,
on observe bien des proportions qui se rapproche de la probabilite dapparition de chacune des six valeurs, soit
1/6.
Ces instructions permettent donc de simuler numeriquement des tirages de des a` six faces.
El
ements de correction de lexercice 3.3
(1) Tapez dans Rgui
sample(1:50, size = 6, replace = F)
ou mieux
sort(sample(1:50, size = 6, replace = F))
(2) Faire plusieurs fois la commande precedente ou alors, plus subtilement,
n <- 20
dudu <- matrix(nrow = n, ncol = 6)
for (i in 1:n) {
dudu[i, ] <- sort(sample(1:50, size = 6, replace = F))
}
dudu
Ceux qui souhaitent en savoir plus sur le fonctionnement des commandes for et matrix pourront taper dans
les commandes help("for") et help("matrix") ou ?matrix
3. INTRODUCTION AUX PROBABILITES
26
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
1
11
9
5
16
3
2
2
6
9
17
10
19
19
15
15
3
7
13
21
20
25
27
29
22
8
13
25
27
44
28
30
33
29
19
15
27
37
46
44
35
39
42
45
22
36
45
50
46
37
42
46
48
33
n = 5,
p = 5/6,
n = 1.
Attention, dans le cas de la roulette russe, cette experience ne peut etre repetee plusieurs fois, car une issue
malheureuse ne permet pas de continuer `a jouer !
El
ements de correction de lexercice 3.13 Pour retrouver (3.6a), on peut ecrire
E(X) =
1
(1 + 2 + 3 + 4 + 5 + 6)
6
1+2+3+4+5+6=
et donc
E(X) = 3.5
On peut aussi le calculer avec
en tapant
sum(1:6)/6
Pour retrouver (3.6b), on peut ecrire
et grace `a
6
1
2
=
(i 3.5)
6
i=1
en tapant
sqrt((sum((1:6 - 3.5)^2))/6)
on obtient
1.70783
(3.27)
El
ements de correction de lexercice 3.21
Voir en gure 3.13 page suivante les cinq courbes obtenues. On constate que quand le param`etre p augmente
et se rapproche de 1, les courbes de decalent vers la droite : cela signie que quand la probabilite de succ`es se
rapproche de 1, on a plus de chance dobtenir un grand nombre de succ`es ! Autrement dit, les resultats les plus
probables sont a` droite quand p se rapproche de 1, a` gauche quand p proche de 0, et proche du milieu quand
p proche de 0.5.
Pour les cas extr`emes p = 0 et p = 1 , les graphes de probabilites sont tr`es simples !
El
ements de correction de lexercice 3.22
Voir en gure 3.14 les quatres courbes obtenues.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
3.6. EL
DE CORRECTION
0.00
0.0
0.10
0.4
0.20
0.8
0.30
27
0.0
0.0
0.4
0.8
0.0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Figure 3.13. Les cinq graphes correspondant aux graphes de la loi binomiale avec la probabilite de succ`es en p = 0, p = 0.4, p = 0.5, p = 0.7, p = 0.9, p = 0.95, p = 1 et n = 5.
El
ements de correction de lexercice 3.24
On obtient successivement en ecrivant par exemple
20*0.5
20*0.5*(1-0.5)
sqrt(20*0.5*(1-0.5))
E(X) = 10,
E(X) = 8,
= 2.236068,
= 2.529822,
E(X) = 160,
El
ements de correction de lexercice 3.32
= 5.656854.
3. INTRODUCTION AUX PROBABILITES
0.0
0.00
0.05
0.1
0.10
0.2
0.15
0.20
0.3
0.25
0.4
28
10
10
10
10
0.00
0.00
0.05
0.05
0.10
0.10
0.15
0.20
0.15
0.25
0.20
0.30
0.35
0.25
Figure 3.14. Les quatre graphes correspondant aux graphes de la loi binomiale avec la
probabilite de succ`es en p = 0.1, p = 0.25, p = 0.5, p = 0.85 et n = 10.
(1) On obient successivement pour une variable aleatoire binomiale X de param`etres n = 7 et p = 0.2 :
P (X = 2) = 0.275251,
P (X = 0) = 0.209715,
P (X = 9) = 0,
P (X 5) = 0.999629,
P (X 5) = 0.000371,
P (X > 5) = 1 P (X 5) = 1 0.999629 = 0.000371
pour cette derni`ere, on peut aussi passer par laire a` droite :
P (X > 5) = 0.000371,
P (2 X 5) = P (X 5) P (X 1) = 0.999629 0.576717 = 0.422912.
(2) On a
P (X = 0) + . . . + P (X = 5) = 0.209715 + 0.367002 + 0.275251 + 0.114688 + 0.028672 + 0.004301
= 0.999629
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
3.6. EL
DE CORRECTION
29
et
P (X 5) = 0.999629
(3) On a
P (X = 6) + P (X = 7) = 0.000358 + 1.3e 05
= 0.000371
et
0.8
0.6
0.4
0.2
Cumulative Probability
1.0
P (X > 5) = 0.000371
Number of Successes
(4)
Figure 3.15. Le graphes des probabilites cumulees pour n = 7 et p = 0.2.
Voir le graphique 3.15.
El
ements de correction de lexercice 3.33
(1) Le nombre moyen de personnes que lon peut esperer toucher dans cette premi`ere vague dappels
est par denition la moyenne des valeurs de succ`es, soit encore lesperance de la loi binomiale de
param`etres n et p, cest-`
a-dire E(X) = np, soit 120 personnes.
(2) La probabilite de contacter au moins n3 = 120 personnes est egale a` P (X 120). On peut la calculer
de deux facon :
On ecrit et on calcule avec les probabilites cumulees
P (X 120) = 1 P (X < 120) = 1 P (X 119) = 0.5306621577.
On peut aussi passer par laire a` droite :
P (X 120) = P (X > 119) = 0.5306621577.
(3) La probabilite de contacter au moins n1 = 150 personnes est egale a` P (X 150). On peut la calculer
de meme de deux facon :
3. INTRODUCTION AUX PROBABILITES
30
El
ements de correction de lexercice 3.41
(1) On obtient
P (X 0.5) = 0.308538,
P (X 4.5) = 0.999997.
En passant par laire `a droite, on obtient
P (X 1.25) = 0.10565,
P (X 2) = 0.97725.
Ces derni`eres peuvent aussi etre obtenue par laire a` gauche :
P (X 1.25) = 1 0.89435 = 0.10565,
P (X 2) = 1 0.02275 = 0.97725.
(2) De meme, on obtient en utilisant (3.21) (en passant par laire a` gauche) :
P (1.25 X 1.5) = P (X 1.5) P (X 1.25) = 0.933193 0.89435 = 0.038843,
P (0.65 X 1.4) = P (X 1.4) P (X 0.65) = 0.919243 0.257846 = 0.661397,
(3)
En utilisant la remarque 3.35 page 18, on peut tracer les aires correspondant aux probabilites
P (X 0.5) et P (1.25 X 1.5) : voir gure 3.16 page ci-contre.
El
ements de correction de lexercice 3.42
(1) On obtient en utilisant laire `a gauche :
P (X 0.5) = 0.158655254,
P (X 4.5) = 0.933192799.
En passant par laire `a droite, on obtient
P (X 1.25) = 0.549738225,
P (X 2) = 0.959940843.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
3.6. EL
DE CORRECTION
31
0.2
0.0
0.1
Density
0.3
0.4
0.2
0.0
0.1
Density
0.3
0.4
Figure 3.16. Les deux aires correspondant aux probabilites P (X 0.5) et P (1.25 X 1.5).
Ces derni`eres peuvent aussi etre obtenue par laire a` gauche :
P (X 1.25) = 1 0.450261775 = 0.549738225,
P (X 2) = 1 0.040059157 = 0.959940843.
3. INTRODUCTION AUX PROBABILITES
32
(2) De meme, on obtient en utilisant (3.21) (en passant par laire a` gauche) :
P (1.25 X 1.5) = P (X 1.5) P (X 1.25) = 0.5 0.450261775 = 0.049738225,
P (0.65 X 1.4) = P (X 1.4) P (X 0.65) = 0.480061194 0.141187364 = 0.33887383.
El
ements de correction de lexercice 3.43
0.03
0.02
0.00
0.01
Density
0.04
0.05
30
40
50
60
70
80
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CHAPITRE 4
Intervalles de confiance
On pourra consulter [6] (dont sinspire partiellement ce chapitre), [4] ou [8].
Aire egale a` P (a X b) =
f (x)dx
a
Figure 4.1. Une densite de probabilite quelconque avec, en gris, laire egale a` P (a X b).
Voir gure 4.1.
On a aussi
p=
f (x)dx
(4.2)
o`
u
p = P (X q).
(4.3)
34
4. INTERVALLES DE CONFIANCE
Sans Rcmdr :
On peut utiliser la fonction qnorm qui fournit directement dans Rgui, le quantile en fonction de la
probabilite pour la loi normale normale ; plus precisement, si P = (p1 , . . . , pn ) est un vecteur de valeurs
(dites probabilites) , alors la commande
qnorm(X, mean = mu, sd = sigma)
fournit le vecteur des quantiles Q = (q1 , . . . , qn ) tels que P (X qi ) = pi associees `a la lois normales de
moyenne mu et decart-type sigma.
Exercice 4.2. On etudie la loi normale centree reduite (cest-`a-dire de moyenne nulle et decart-type egal
a 1) calculer les quantiles correspondant aux probabilite suivantes : p1 = 0.2, p2 = 0.7, p3 = 0, p4 = 1, p5 = 1.2.
`
Commentez !
Voir elements de correction page 54.
Exercice 4.3. Reprendre les questions de lexercice 4.2 en remplacant la loi normale centree reduite par
la loi X N ( = 1.5, = 2).
Voir elements de correction page 54.
Aire egale a` P (z X z)
(4.4)
P (z X z) = 2P (X z) 1
(4.5)
P (z X 0) = P (0 X z)
(4.6)
On a la propriete suivante ;
D
emonstration. Par sym
etrie, on a
On a aussi
1 = P ( X 0) + P (0 X )
Donc, (4.6) fournit
P ( X 0) =
1
.
2
(4.7)
On d
eduit donc de (4.6) et (4.7)
P (z X z) = P (z X 0) + P (0 X z)
= 2P (0 X z),
= 2 (P ( X z) P ( X 0)) ,
1
= 2 P (X z)
,
2
= 2P (X z) 1.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
DE PROBABILITE
35
(4.8)
Souvent, on appelle la probabilite p, niveau de conance et on la note N C. Il nous faut donc resoudre
2P (X z) 1 = N C.
(4.9)
(4.10)
Exemple 4.4. On suppose que la loi normale est centree reduite. On se donne
z = 2.
(4.11)
(4.12)
N C = 0.95
(4.13)
souvent arrondi en
Exemple 4.5. On suppose que la loi normale est centree reduite. Reciproquement, on se donne
N C = 0.95.
(4.14)
NC + 1
= 0.975.
2
On en deduit
z = 1.959964
(4.15)
36
4. INTERVALLES DE CONFIANCE
souvent arrondi en
z = 2.
(4.16)
z
0
0.67449
0.841621
1.036433
1.281552
1.644854
1.959964
2.575829
3.290527
Inf
z approche
0
0.7
0.8
1
1.3
1.6
2
2.6
3.3
Inf
Les dierentes valeurs de z en fonction du niveau de conance N C sont donnees dans le tableau 4.1.
Exercice 4.6. Retrouver ces valeurs de z. Voir elements de correction page 54
En reprenant ce quon a dit plus haut, on peut armer successivement que pour une loi normale centree
reduite il y a
50 chances sur 100 dobserver un ecart a` zero inferieur `a 0.7.
60 chances sur 100 dobserver un ecart a` zero inferieur `a 0.8.
70 chances sur 100 dobserver un ecart a` zero inferieur `a 1.
80 chances sur 100 dobserver un ecart a` zero inferieur `a 1.3.
90 chances sur 100 dobserver un ecart a` zero inferieur `a 1.6.
95 chances sur 100 dobserver un ecart a` zero inferieur `a 2.
99 chances sur 100 dobserver un ecart a` zero inferieur `a 2.6.
99.9 chances sur 100 dobserver un ecart a` zero inferieur a` 3.3.
On peut aussi remplir ce tableau a` lenvers : voir le tableau 4.2 page suivante.
Comme precedemmennt, on peut donc armer successivement que pour une loi normale centree reduite
il y a
68.3 chances sur 100 dobserver un ecart a` zero inferieur a` 1.
95.4 chances sur 100 dobserver un ecart a` zero inferieur a` 2.
99.7 chances sur 100 dobserver un ecart a` zero inferieur `a 3.
99.994 chances sur 100 dobserver un ecart a` zero inferieur a` 4.
99.99994 chances sur 100 dobserver un ecart a` zero inferieur `a 5.
Voir la gure 4(a) page 38 qui resume tout cela.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
4.2. PRINCIPE THEORIQUE
DE LINTERVALLE DE CONFIANCE
z
0
1
2
3
4
5
Inf
100 N C
0
68.268949
95.449974
99.73002
99.993666
99.999943
100
37
100 N C approche
0
68.3
95.4
99.7
99.994
99.99994
100
4.2. Principe th
eorique de lintervalle de conance
On se donne un niveau de conance N C, nombre compris entre 0 et 1.
On se ref`ere `
a la gure M.5 page 186.
On se donne une variable aleatoire, dont la loi est deni par (au moins) un param`etre . On suppose que
lon connat un echantillon issu de cette loi, cest-`a-dire, une valeur x prise par X.
Pour estimer le param`etre inconnu , nous allons construire un intervalle de conance, a` partir de , la
valeur de la statistique denie a` partir de x et qui contiendra la valeur inconnue dans 100N C% des cas, au
sens suivant : si lon repetait un grand nombre de constructions identiques (`a partir dautres valeurs dautres
echantillons), la proportion des intervalles de conance contenant reellement serait de N C. Cela signie aussi
que dans 100(1 N C)% des cas, lintervalle ne contiendra pas le param`etre infere !
Il faut comprendre aussi que si N C augmente et se rapproche de 1, la largeur de lintervalle de conance grandira. Pour le cas
limite correspondant `
a N C = 1, lintervalle de conance sera R, lensemble des r
eel tout entier ! Pour le cas limite correspondant
a N C = 0, lintervalle de conance sera r
`
eduit a
` , la valeur exp
erimentale. Entre ces deux cas limite, plus on voudra couvrir
large, plus on aura de valeur possible, ce qui est legitime.
En general, la valeur de N C est de 0.95 (valeur proche de 1). Dans des domaines sensibles, elle sera
beaucoup plus proche de 1 encore.
38
4. INTERVALLES DE CONFIANCE
+ 2
+ 3
68.3%
95.4%
99.7%
(a) moyenne = 0 et ecart-type = 1
68.3%
95.4%
99.7%
(b) moyenne et decart-type
Cours de Statistiques
J
er
ome BASTIEN
39
Plus precisement, on peut aussi generer un certain nombre dechantillons binomiaux, cest-`a-dire issus loi
binomiale de param`etre n et p.
Desormais, on sinteresse non plus `
a la variable aleatoire X egale au nombre de succ`es, mais `
a la variable
` la proportion de succ`es X/n.
aleatoire pr egale a
Nous allons donc creeer 10000 echantillons binomiaux correspondant a` n = 1000 et p = 0.3 et tracer
ensuite un histogramme en densite avec 25 classes. en procedant comme il suit :
Avec Rcmdr :
On utilise le menu deroulant Distributions, loption Distributions discr`etes puis Distribution
binomiale, puis Echantillon dune distribution binomiale. Dans la fenetre dialogue, il faut indiquer
pour
Nombre dessais (valeur de n) : 1000,
Probabilite de succ`es (valeur de p) : 0.3,
Nombre dechantillons : 10000,
Nombre dobservations : 1
Laisser les autres champs tels quels. Un jeu de donnees est alors cree qui sappelle par defaut EchantillonsBinomiaux.
On introduit alors une nouvelle variable obtenue en divisant EchantillonsBinomiaux par 1000. On trace
ensuite un histogramme en densite avec 25 classes.
Sans Rcmdr :
Il faut taper les commandes suivantes :
dede<-rbinom(n=10000, size=1000, prob=0.3)/1000
hist(dede,freq=T,breaks=25)
15
0
10
Density
20
25
30
histogramme
0.24
0.26
0.28
0.30
0.32
0.34
0.36
Figure 4.5. Histogramme de la distribution dechantillonnage (10000 tirages) dune proportion observee sur une loi binomiale de param`etre n = 1000 et p = 0.3 en densite avec 25
classes
On observe alors un histogramme similaire a` celui de la gure 4.5.
40
4. INTERVALLES DE CONFIANCE
On admet que, que par division par n, la proposition 3.23 page 14 donne le resultat suivant :
` la
proportion de
Proposition 4.8. Lesperance et lecart-type de la variable aleatoire pr correspondant a
p(1 p)
.
succ`es dune variable aleatoire binomiale de param`etres n et p sont respectivement egaux a
` p et
n
Dautre part, on constate sur la gure 4.5 page precedente que
lhistogramme a lallure dune densite normale (cest-`
a-dire, en
cloche). Voir la courbe rouge associee
a la loi normale de moyenne = p = 0.3 et decart-type = p(1 p)/n = 0.01449138, proche de
`
lhistogramme ;
la distribution de proportions observees est centree autour de la veritable valeur du param`etre p = 0.3.
En moyenne la proportion dun echantillon redonne la probabilite de succ`es. Voir la ligne dabscisse
p = 0.3 en bleu sur la gure.
Rappelons aussi le resultat de la section M.2.3 page 184. Ainsi, on a constate experimentalement que
p(1 p)
(4.17)
pr N p,
n
Ce resultat admis est valable pour peu que
n soit assez grand.
(4.18)
(4.19)
p(1p)
n
On se donne maintenant un niveau de conance N C dans [0, 1]. On utilisant le cas 2 page 35, on cherche
un nombre z veriant (4.10). Ainsi, (4.4) et (4.9) est vraies :
pr p
P z
z = N C.
(4.20)
p(1p)
n
Autrement dit (voir gure 4.3 page 35), dans 100 N C% des cas, la variable aleatoire
lintervalle [z, z], ce qui se traduit par
pr p
p(1p)
n
appartient `a
pr p
z
z.
p(1p)
n
p(1 p)
p(1 p)
pr z
p pr + z
.
(4.21)
n
n
On a donc montre que dans 100N C% des cas, la valeur theorique p de la proportion appartient a` lintervalle
deni par (4.21), deni `a partir de la valeur experimentale pr . On a donc repondu a` lobjectif annonce en
section 4.2 (o`
u ici = p et = pr ). Linconvient ici est que lintervalle de conance contient la valeur p
inconnue ! On remplace donc dans cette formule p par pr , ce qui sera valide si
soit encore
(4.22)
(4.23)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
41
4.3.2. Theorie
Bref, on a montre que
Proposition 4.9 (Intervalle de conance dune proportion). On suppose que lon realise un tirage aleatoire dune loi binomiale de param`etres n et p et que lon note pr la proportion de succ`es observee. Lintervalle
de conance au niveau de conance N C de la proportion p, sous les hypoth`ese (4.18) et (4.22) (ou (4.23)), est
donne par
pr (1 pr )
pr (1 pr )
, pr + z
(4.24)
pr z
n
n
Le coecient multiplicateur z est obtenu sous
de la facon suivante :
Avec Rcmdr :
Aller dans le menu distribution, puis distribution continue, puis distribution normale, puis
quantiles normaux et taper dans le champ probabilites, le nombre (1+NC)/2, o`
u NC est le niveau de
conance (laisser les autres champs tels quels).
Sans Rcmdr :
Gr
ace `
a la ligne de commande
qnorm((1 + NC)/2)
Une autre facon de proc
ed
erer pour
eviter cette approximation est de montrer que, pour tout x dans [0, 1], la quantit
e x(1x)
est major
ee par 1/4. On remplace donc lintervalle de conance d
eni par (4.24) par un intervalle plus large, mais plus s
ur :
1
1
pr z , pr + z
(4.25)
2 n
2 n
4.3.3. Avec
Pour evaluer cet intervalle de conance dans
, plusieurs solutions :
(1) Une fois le nombre z deni `a partir de la proposition 4.9, on peut taper dans Rgui
pr - z * sqrt(pr * (1 - pr)/n)
puis
pr + z * sqrt(pr * (1 - pr)/n)
Mieux, on pourra taper directement
pr + z * c(-1, 1) * sqrt(pr * (1 - pr)/n)
(2) Comme dans lannexe L page 177, vous pouvez recuperer et sourcer la fonction [Link].R qui
donne lintervalle de conance en fonction
de p la proportion mesuree,
n la taille de lechantillon
NC le niveau de conance en tapant
[Link](pr, n, NC)
ou encore, avec un ordre quelconque des arguments :
[Link](pr = pr, n = n, NC = NC)
Remarque 4.10.
pr (1pr )
(1) Parfois le nombre
est app
ele erreur standart de proportion (ou standart error of proportion) et notee SEP ,
n
de sorte que lintervalle de conance vaut [pr z SEP, pr + z SEP ] et que sa largeur vaut 2z SEP .
42
4. INTERVALLES DE CONFIANCE
4.3.4. Applications
Tout contexte binomial pourra etre utilise quand on etudie une grande population (en theorie innie),
qui se decompose en deux groupes, de proportions respectives p et 1 p. Si on prend au hasard, un individu
dans cette population, la probabilite quil soit dans le premier groupe est donc p. Si on prend maintenant au
hasard, n individus, on realise donc une experience binomiale de param`etre n et p.
En pratique, sur un echantillon de taille n, on observe la proportion experimentale de succ`es pr, a` partir
de laquelle on infere la probabilite theorique p, inconnue, grace a` la determination de lintervalle de conance
au niveau N C.
Attention, on rappelle que si lon construit ainsi un grand nombre dintervalles de conance, la proportion
eective des intervalles qui contiennent reellement p sera N C, tandis que la proportion eective des intervalles
qui ne contiennent pas p sera 1 N C ! Autrement dit, une construction de lintervalle de conance (certes dans
un rare nombre de cas) sera mauvaise ! !
Exemple 4.11. Reprenons maintenant les simulations du debut de la section 4.3.1.
Creons de nouveau un echantillon binomial correspondant a` n = 1000 et p = 0.3 :
Avec Rcmdr :
On utilise le menu deroulant Distributions, loption Distributions discr`etes puis Distribution
binomiale, puis Echantillon dune distribution binomiale. Dans la fenetre dialogue, il faut indiquer
pour
Nombre dessais (valeur de n) : 1000,
Probabilite de succ`es (valeur de p) : 0.3,
Nombre dechantillons : 1,
Nombre dobservations : 1
Sans Rcmdr :
Il faut taper les commandes suivantes :
dede<-rbinom(n=1, size=1000, prob=0.3)
Jobtiens, par exemple, pour mes valeurs la valeur suivante :
305 et donc pr =
305
= 0.305.
1000
(4.26)
331
= 0.331.
1000
(4.27)
Construisons pour ces deux valeurs un intervalle de conance au niveau N C = 0.95. On a successivement
z = 1.959964
et donc pour la valeur donnee par (4.26) un intervalle de conance dont les bornes sont
pr(1 pr)
0.305(1 0.305)
pr z
= 0.305 1.959964
,
n
1000
= 0.305 0.028536
et donc un intervalle de conance
[0.2764642, 0.3335358].
La valeur du param`etre (p = 0.3) est bien, dans ce cas, compris dans lintervalle de conance. Il faut bien
comprendre que le contraire ne se produit quune fois sur 20.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
43
De meme, lintervalle de conance deni par la valeur (4.27) me donnerait un intervalle de conance dont
les bornes sont
pr(1 pr)
0.331(1 0.331)
= 0.331 1.959964
,
pr z
n
1000
= 0.331 0.029166
et donc un intervalle de conance
[0.3018341, 0.3601659].
On nest dans les 5 % des cas non chanceux o`
u lintervalle de conance ne contient pas le param`etre p ! Ici, la
probabilite de sortie de la valeur 331 vaut 0.0028362 plus faible que la probabilite de sortie de la valeur 305,
egale a` 0.0258145 et qui a donne un intervalle contenant p. Si on faisait une etude compl`ete des cas o`
u on
trouve un intervalle ne contenant pas p, on trouverait une probabilite experimentale approchant 5% !
Remarque 4.12. Lexemple 4.11 nest que dordre pedagogique, puisque la valeur du param`etre infere
est connue, ce qui nest jamais le cas en pratique, comme dans lexercice 4.13.
Exercice 4.13. Quelle representation de lenseignant deducation physique et sportive (EPS) ont ses
coll`egues dautres disciplines ? Trois cent trente et un professeurs de coll`eges et lycees ont accepte de repondre
` part quinze dentre eux, ils se sont prononces sur la question :
a un questionnaire consacre `a ce th`eme. A
`
comparativement aux autres enseignants, lenseignant dEPS a une charge de travail :
moins importante (121 reponses),
equivalente (185 reponses) ou
plus importante (10 reponses) ?
Ici, il ny a pas veritablement une population clairement denie, sinon une hypothetique population denseignants dont une partie pense que... On la remplace par un mod`ele binomial. Nous allons calculer un intervalle
de conance concernant la probabilite quun enseignant estime que la charge de travail de lenseignant dEPS
est moindre. La taille de lechantillon est
n = 121 + 185 + 10 = 316.
et la proportion observee dans lechantillon est donc de
121
pr =
= 0.3829.
316
(1) Calculer un intervalle de conance au niveau N C = 0.95 de la proportion.
(2) Calculer un intervalle de conance au niveau N C = 0.9 de la proportion.
(3) Supposons que la proportion observee reste la meme mais que la taille de lechantillon soit de n = 50.
Calculer un intervalle de conance de la proportion au niveau N C = 0.95.
(4) Et si la taille de lechantillon est de n = 5000 ?
Voir elements de correction page 54.
Exercice 4.14. Un questionnaire envoye par la Caisse Nationale dAssurance Maladie a` un echantillon
representatif de la population francaise visait `a connatre les risques sportifs. Sur 7408 accidents declares, 1037
sont le fait de la pratique sportive.
Calculer le pourcentage que constituent les accidents sportifs.
Calculer un intervalle de conance au niveau N C = 95 % de cette proportion ? Que pensez-vous de la
` quoi est-elle due ?
precision des resultats ? A
Exercice 4.15. Apr`es une enquete sur un echantillon de 45 etudiants de L3 et M1 APA, on a constate
que 29 dentre eux avaient, dans leur entourage, une personne presentant un handicap. Estimer, par intervalle
de conance au niveau 0.95, la proportion detudiants ayant, dans leur entourage, une personne handicapee.
44
4. INTERVALLES DE CONFIANCE
Comme precedemment nous allons considerer que cet echantillon est un parmi dautres.
Attention, dans la section 4.3.1, un echantillon consistait en la donnee dune proportion, creee aleatoirement. Ici, un echantillon consiste en la donnee de 16 nombres. Pour considerer que cet echantillon est un parmi
dautres, nous allons donc maintenant creer un tableau rectangulaire de nombres. Chaque ligne de ce tableau
sera un echantillon.
Exercice 4.16.
(1)
Avec Rcmdr :
En choisissant :
mu : 15,
sigma :3,
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
45
0.3
0.0
0.1
0.2
Density
0.4
0.5
0.6
histogramme
12
13
14
15
16
17
18
Figure 4.6. Histogramme de la distribution des moyennes (echantillon de taille n=16, 10000
tirages) observees sur une loi normale de moyenne = 15 et decart-type = 3 en densite
avec 30 classes. Sur ce graphe se trouve aussi la loi normale de moyenne = 15 et decart-type
Vous devriez obtenir pour lhistogramme une gure analogue `a celle du graphique 4.6. Cette gure
rappelle fortement la gure 4.5 page 39 !
(3) La moyenne et lecart-type de toutes les moyennes (cest-`
a-dire de lavant derni`ere colonne de mon
echantillon) que jobtiens sur mon echantillon sont
m = 15.005754,
(4.28a)
sd = 0.757275
(4.28b)
46
4. INTERVALLES DE CONFIANCE
Comparez avec les votres. Comparez avec les nombres suivants (o`
u et sont les moyenne et ecarttype de la loi normale initiale) :
= 15,
(4.29a)
= = 0.75
4
n
(4.29b)
(4)
Conclusion partielle
Comme precedemment, on pourrait conclure que la moyenne des echantillons suit une loi normale
0.0
0.1
0.2
0.3
0.4
(5) Reprendre lechantillon normal cree precedemment et tracer lhistograme non plus des moyennes mais
de la variable suivante
m
m 15
=4
(4.30)
t= n
sd
sd
o`
u n (ici egal a` 16) est la taille de lechantillon, m est sa moyenne mesuree sd son ecart-type mesure.
Figure 4.7. Histogramme de la distribution des t (denie par (4.30) deni `a partir de lechantillon EchantillonsNormaux cree precedemment en densite avec 30 classes. En dessous se
trouvent la loi de student correspondant a` ddl=15 (en rouge, trait plein) et la loi normale (en
bleu, trait pointille).
Vous devriez obtenir lhistogramme de la gure 4.7. Sur cette gure, se trouvent aussi la loi de
student (voir section 3.5 page 24) correspondant `a ddl=15 (en rouge, trait plein) et la loi normale (en
bleu, trait pointille). On constate un leger ecart entre la loi de Student et la loi normale. La loi de
Student est en theorie plus proche de lhistogramme que la loi normale.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
47
Ainsi, dans 100 N C% des cas, on aura (le quantile t etant associe `a N C grace `a (4.4))
m
z
z n
sd
ce qui est equivalent a` (en remplacant z par t)
m
t n
t
sd
soit encore
sd
sd
m t m + t
n
n
On a peut donc construire un intervalle de conance de la moyenne m t sdn , m + t sdn , supposant que
la moyenne theorique et lecart-type theorique sont inconnus.
On pourra consulter par exemple [Link] ou la page 215 de
[9].
4.4.2. Theorie
Bref, on admet que
Proposition 4.17 (Intervalle de conance dune moyenne). On suppose que lon realise un tirage aleatoire dun echantillon consistant en la donnee de n valeurs issues dune loi normale. On note respectivement m
et sd la moyenne et lecart-type estimes (cest-`
a-dire, calcule a
` partir de lechantillon). Lintervalle de conance
au niveau de conance N C de la moyenne est donne par
sd
sd
m t , m t
(4.31)
n
n
de la facon suivante :
Le coecient multiplicateur t est obtenu sous
Avec Rcmdr :
Aller dans le menu distribution, puis distribution continue, puis distribution t, puis quantiles
t, taper dans le champ probabilites, le nombre (1+NC)/2, o`
u NC est le niveau de conance, et dans le
champ degres de liberte le nombre egal a
` n 1.
Sans Rcmdr :
Gr
ace `
a la ligne de commande
qt((1 + NC)/2, df = n - 1)
4.4.3. Avec
Pour evaluer cet intervalle de conance dans
, plusieurs solutions :
(1) Une fois le nombre t deni `a partir de la proposition 4.17, on peut taper dans Rgui
m - t * sd/sqrt(n)
puis
m + t * sd/sqrt(n)
Mieux, on pourra taper directement
m + c(-1, 1) * t * sd/sqrt(n)
(2) Comme dans lannexe L page 177, vous pouvez aussi telecharger et sourcer la fonction [Link].
moy.R qui determine lintervalle de conance en fonction de
mu : moyenne mesuree
sd : ecart-type (deviation standart) mesure ;
n : la taille de lechantillon ;
NC : seuil de conance.
48
4. INTERVALLES DE CONFIANCE
en tapant
[Link](mu = mu, sd = sd, n, NC)
ou encore, avec un ordre quelconque des arguments :
[Link](mu = mu, sd = sd, n = n, NC = NC)
(3) On peut aussi proceder ainsi si on dispose des donnees, et pas seulement des statistiques :
Avec Rcmdr :
Il sut de choisir le menu deroulant Statistiques, puis les options Moyennes et t-test univarie. Il faut laisser les champs relatifs aux hypoth`eses avec les valeurs denies par defaut.
Sans Rcmdr :
On tape dans Rgui : (x est le tableau des donnees)
[Link](x, [Link] = NC)
ou plus rapidement
[Link](x, [Link] = NC)$[Link]
Remarque 4.18. De facon analogue a
` la remarque 4.10, notons que :
ele erreur standart de la moyenne (ou standart error of the mean) et not
ee SEM , de
(1) Parfois le nombre sd/n est app
sorte que lintervalle de conance vaut [m t SEM, m + t SEM ] et que sa largeur vaut 2t SEM .
(2) Remarquons aussi, gr
ace `
a ce qui a
et
e observ
e dans la section 4.1.2, que la largeur 2t SEM
diminue quand n augmente ;
dimimue quand N C diminue.
4.4.4. Applications
Exercice 4.19. Pour les tailles dechantillons (n) et niveaux de conance (N C) suivants, trouver les
valeurs du coecient multiplicateur t `
a utiliser pour construire lintervalle de conance de la moyenne
(1) n = 25, N C =95 % ;
(2) n = 25, N C =90 % ;
(3) n = 15, N C =99 % ;
(4) n = 15, N C =98 % ;
Voir elements de correction page 55.
Exercice 4.20. R. Rollier (M2PPMR) a pris en charge lentranement de 39 joueurs de moins de 19 ans
de lASVEL Rugby. Un test de vitesse (30 m`etres avec deux changements de direction) a ete passe par tous ces
joueurs. Le temps (sec.) a ete releve. Voir le chier de donnees [Link] (voir la variable Temps).
(1) Representer graphiquement les donnees de temps
(2) Ces valeurs semblent-elles approximativement suivre une loi normale ?
(3) Calculer un intervalle de conance aux niveaux N C = 0.95 et N C = 0.9 de la moyenne.
Voir elements de correction page 55.
Concluons par quelques exercices issus de [8].
Exercice 4.21. Dans un centre medico-sportif, on a mesure la taille de 71 footballeurs du departement
du Rh
one. La moyenne est 177 cm pour un ecart-type 5.655. Determiner un intervalle de conance de la taille
moyenne des footballeurs du Rhone.
Exercice 4.22. On connait la taille (en m) de 12 basketteurs americains (in Mondial Basket, juillet-ao
ut
1994).
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
4.5. EXERCICES SUPPLEMENTAIRES
49
taibask <- c(2.08, 2.01, 2.03, 2.1, 1.98, 2.08, 1.85, 2.03, 2.16,
2.01, 1.91, 1.88)
(1) Donner la moyenne et lecart-type estimes de la population a` partir de lechantillon.
(2) Donner les intervalles de conance de la moyenne de la population aux niveaux de conance 0.95 et
0.99.
(3) On suppose que la taille suit une loi normale dont les param`etres ont ete estimes dans la premi`ere
question. Quelle est la probabilite pour un basketteur davoir une taille superieure a` 2.05 m.
[Link]. Cas o`
u lecart-type de la population est connue.
Si le nombre est connu, il nest plus la peine dintroduire la loi de Student ; en eet, dans ce cas, la variable aleatoire
(m )/ suit une loi normale centr
ee r
eduite et lintervalle de conance au niveau N C est encore donne par
m z ,m + z
(4.33)
n
n
50
4. INTERVALLES DE CONFIANCE
t Distribution: df = 4
0.2
Density
0.06
0.0
0.00
0.02
0.1
0.04
Density
0.08
0.3
0.10
0.12
t Distribution: df = 1
400
200
200
400
600
t Distribution: df = 10
t Distribution: df = 15
0.4
0.0
0.0
0.1
0.2
Density
0.3
0.3
0.2
0.1
Density
t Distribution: df = 20
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
Density
0.4
600
Figure 4.8. Traces des loi de student pour quelques valeurs de lentier n : n=1, voir graphique numero 1 ; n=4, voir graphique numero 2 ; n=10, voir graphique numero 3. n=15,
voir graphique numero 4. n=20, voir graphique numero 5. Pour n {30, 60, 100, 1000}, voir
derni`ere gure ; sur lensemble des gures, la loi normale centree reduite est trace en rouge
pointille.
qui simule en fait 1 fois directement la manipulation precedente. Commentez !
(5) Questions facultatives
(a) Tapez la commande suivante directement dans la fenetre de Rgui
rbinom(20, size=30, prob=0.5)
qui simule en fait 20 fois directement la manipulation precedente.
Quobservez-vous ?
(b) Pour chacun des groupes de commandes donnes, vous les taperez les unes `a la suite des autres
en tapant sur la touche enter apr`es chaque commande.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
4.5. EXERCICES SUPPLEMENTAIRES
51
(i) (A) Recuperez et sourcez la fonction [Link].R et tapez les commandes suivante
directement dans la fenetre de Rgui
IC<-[Link](rbinom(1, size=30, prob=0.5)/30,30,0.95)
(0.5>=IC[1])&(IC[2]>=0.5)
qui calcule 1 intervalle de conance et renvoie T (TRUE) sil contient la valeur du
param`etre p et F (FALSE) sinon. Refaites plusieurs fois cette commande (grace a` la
`eche de votre clavier). Commentez.
(B) Organiser un sondage sur lensemble des etudiants ! Conclure !
(ii) Tapez les commandes suivante directement dans la fenetre de Rgui
res<-rbinom(25, size=30, prob=0.5)
IC<-matrix(ncol=2,nrow=25)
for(i in 1:25) IC[i,]<-[Link](res[i]/30,30,0.95)
(0.5>=IC[,1])&(IC[,2]>=0.5)
qui calcule 25 intervalles de conance et renvoie T (TRUE) si ils contiennent la valeur du
param`etre p et F (FALSE) sinon. Commentez.
(iii) Tapez les commandes suivante directement dans la fenetre de Rgui
res<-rbinom(1000, size=30, prob=0.5)
IC<-matrix(ncol=2,nrow=1000)
for(i in 1:1000) IC[i,]<-[Link](res[i]/30,30,0.95)
100*sum((0.5>=IC[,1])&(IC[,2]>=0.5))/1000
qui calcule 1000 intervalles de conance et qui renvoie directement la poportion dintervalle
de conance construits qui contiennent la valeur du param`etre infere.
Quosbservez-vous ? Commentez !
(iv) Refaite la meme suite de commandes, mais en prenant le nombre de jeters n = 100, puis
n = 1e + 05. Commentez !
Voir elements de correction page 59.
Exercice 4.25. Comme dans lexercice 4.23, utilisez la fonction et tapez
[Link](p, n, NC, q)
pour
n = 100,
N C = 0.95,
q = 10000,
et
p {0.5, 0.1, 0.001, 1e 05}.
Commentez !
Voir elements de correction page 60.
Exercice 4.26.
Recuperez et sourcez la fonction [Link].R qui simule le travail des instituts de sondages en periode
pre-electorale pour un second tour delection avec seulement deux candidats (processus tr`es simplie, car en
realite, on utilise la methode des quotats, dont on extrapole certains resultats) : on introduit
tpop, la taille de population des electeurs ;
techan, la taille de lechantillon choisis (tires aleatoirement dans la population electorale) ;
52
4. INTERVALLES DE CONFIANCE
Cours de Statistiques
J
er
ome BASTIEN
4.5. EXERCICES SUPPLEMENTAIRES
Inscrits
Votants
nombre
pourcentage (/Inscrits)
44 472 733 100
37 342 004 83,97
Blancs ou Nuls
Exprimes
nombre
pourcentage (/Votants)
1 568 426 4,20
35 773 578 95,80
53
nombre
pourcentage (/Exprimes)
M. Nicolas SARKOZY 18 983 138 53,06
Mme Segol`ene ROYAL 16 790 440 46,94
$intc
[1] 0.4850261 0.5469739
[Link](35773578, 1000, 18983138/35773578, 0.9)
$prop
[1] 0.542
$intc
[1] 0.4850261 0.5469739
[Link](35773578, 1e+05, 18983138/35773578)
$prop
[1] 0.52849
$intc
[1] 0.5253961 0.5315839
Commentez !
(3) Si votre ordinateur ne vous permet pas de faire des simulations pour la France enti`ere, restreniez-vous
par exemple `a lIle-de-France
[Link]
voire `a Paris
[Link]
(4) Refaites les simulations precedentes en imaginant un score proche du resultat du second tour de
lelection presidentielle de 1974 : Giscard : 50,81 % et Mitterand : 49,19 % ; voir
[Link]
election_pr
esidentielle_fran
caise_de_1974
[Link](26367807, 1000, 13396203/26367807)
$prop
[1] 0.52
$intc
[1] 0.4890351 0.5509649
Commentez !
54
4. INTERVALLES DE CONFIANCE
ements de correction
4.6. El
El
ements de correction de lexercice 4.2
On obtient successivement q1 = 0.842, q2 = 0.524, q3 = Inf , q4 = Inf , q5 = N aN
Il est normal que les quantiles associes a` 0 et 1 valent et . Le qantile associe a` 1.2 nest pas deni,
car cette probabilite nest pas dans lintervalle [0, 1] !
El
ements de correction de lexercice 4.3
On obtient successivement q1 = 0.183, q2 = 2.549, q3 = Inf , q4 = Inf , q5 = N aN
Il est normal que les quantiles associes a` 0 et 1 valent et . Le qantile associe a` 1.2 nest pas deni,
car cette probabilite nest pas dans lintervalle [0, 1] !
El
ements de correction de lexercice 4.6
On obtient par exemple en ligne de commande
qnorm((1 + 0.6)/2)
[1] 0.8416212
et donc le z associe au Niveau de conance N C = 0.60 vaut z = 0.841621. Pour les plus avertis, on pourra
taper
NC <- c(0, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99, 0.999, 1)
qnorm((1 + NC)/2)
[1] 0.0000000 0.6744898 0.8416212 1.0364334 1.2815516 1.6448536 1.9599640
[8] 2.5758293 3.2905267
Inf
voire
NC <- c(0, seq(50, 90, by = 10)/100, 0.95, 0.99, 0.999, 1)
qnorm((1 + NC)/2)
e
ments de correction de lexercice 4.13
El
En tapant par exemple
pr<-121/(121+185+10)
[Link](pr,316,0.95)
[Link](pr,316,0.9)
[Link](pr,50,0.95)
[Link](pr,5000,0.95)
on obtient successivement les intervalles
[0.329316, 0.4365068],
[0.3379327, 0.4278901],
[0.2481747, 0.5176481],
[0.3694377, 0.3963851].
Pour obtenir le premier intervalle de conance, on peut aussi determiner la valeur de z de la proposition 4.9 page 41 :
NC <- 0.95
z <- qnorm((1 + NC)/2)
et taper ensuite
pr <- 121/(121 + 185 + 10)
n <- 121 + 185 + 10
puis
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
4.6. EL
DE CORRECTION
55
pr - z * sqrt(pr * (1 - pr)/n)
[1] 0.329316
puis
pr + z * sqrt(pr * (1 - pr)/n)
[1] 0.4365068
ou mieux
pr + z * c(-1, 1) * sqrt(pr * (1 - pr)/n)
[1] 0.3293160 0.4365068
El
ements de correction de lexercice 4.19
On trouve successivement
(1) pour n = 25, N C =95 % : t=2.0638986 ;
(2) pour n = 25, N C =90 % : t=1.7108821 ;
(3) pour n = 15, N C =99 % : t=2.9768427 ;
(4) pour n = 15, N C =98 % : t=2.6244941.
El
ements de correction de lexercice 4.20
(1) Voir la gure 4.9 qui represente `a la fois lhistogramme et le graphe quantile-quantile.
Voir la section E.3.2.5 page 95 pour le graphe quantile-quantile.
On rappelle ici le principe du graphe quantile-quantile.
Le graphe quantile-quantile cherche `a confronter lhistogramme des donnees `a une forme prototypique, celle de la loi normale dite aussi courbe en cloche. Il est tr`es important de determiner si les
donnees suivent approximativement cette forme car les procedures statistiques que nous verrons par
la suite sont generalement basees sur cette hypoth`eses. Lorsque les donnees suivent la loi normale, les
points sont situes exactement sur une droite. Toutefois, un ecart est inevitable, lecart normal etant
symbolise par deux courbes en pointillees sur le graphe.
Avec Rcmdr :
On trouvera cela dans le menu graphique.
Sans Rcmdr :
Il faut (eventuellement dabord installer) et charger le package car et donc taper
library(car)
puis on tapera
[Link](rollier$Temps)
(2) La courbe est a` peu pr`es en cloche (sauf peut-etre quelques valeurs extremales) et donc les donnees
peuvent etre considerees comme normale.
(3) (a) Donnons pour le niveau de conance N C les dierentes methodes citees juste apr`es la proposition 4.17 page 47
(i) Cas 1 page 47 :
On calcule le nombre t ainsi :
Avec Rcmdr :
On calcule dabord sous Rgui, le nombre (1+NC)/2=0.975. Aller ensuite dans le menu
distribution, puis distribution continue, puis distribution t, puis quantiles t et
rentrer `
a la place de probabilites, le resultat (1+NC)/2=0.975 et `a la place de degres
de liberte le nombre egal a` n 1 = 39. On obtient t = 2.024394
4. INTERVALLES DE CONFIANCE
10
0
Frequency
15
56
11
12
13
12.0
10.0
11.0
ord.x
13.0
10
norm quantiles
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
4.6. EL
DE CORRECTION
57
sd = 0.6517294
(4.34)
(4.35)
58
4. INTERVALLES DE CONFIANCE
15
0
10
Density
20
25
30
Histogram
0.26
0.28
0.30
0.32
0.34
15
0
10
Density
20
25
30
0.26
0.28
0.30
0.32
0.34
.x
Figure 4.10. Histogramme de la distribution dechantillonnage (10000 tirages) dune proportion et le graphique de la loi normale de moyenne m = 0.3 et decart-type = 0.014491
avec les deux droites correspondant aux abscisses 0.271597 et 0.328403
El
ements de correction de lexercice 4.23
Voir la gure 4.10 qui met en evidence que 95% des donnees de lhistogrammes des proportions se trouvent
dans lintervalle de conance N C ici egal a` [pmin , pmin ] = [0.271597, 0.328403].
Justions cela experimentalement en tapant la sequence suivante dans Rgui qui denombre le nombre de
proportions dans cet intervalle et qui en determine le pourcentage (une fois que lon fait les manipulations page
39) :
Avec Rcmdr :
sum((EchantillonsBinomiaux$obs/1000>=0.2715974)&
(EchantillonsBinomiaux$obs/1000<=0.3284026))
puis
100*sum((EchantillonsBinomiaux$obs/1000>=0.2715974)&
(EchantillonsBinomiaux$obs/1000<=0.3284026))/10000
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
4.6. EL
DE CORRECTION
59
Sans Rcmdr :
sum((dede>=0.2715974)&(dede<=0.3284026))
puis
100*sum((dede>=0.2715974)&(dede<=0.3284026))/10000
Cela donne pour mes valeurs un pourcentage egal a` 95.79%, qui est bien proche de 95 % ! Cela est corrobore
sur le graphique du haut de la gure 4.10 page ci-contre : on a represente les deux droites dabsxisses pmin et
pmax . Laire de lhistogramme (en densite) entre ces deux valeurs represente aussi 95% de laire totale !
Comme dans lannexe L page 177, vous pouvez recuperer et sourcer la fonction [Link].
R qui simule q intervalles de conances sur des simulation de la loi binomiale de param`etres n et p et calcule la
proportion dintervalles de conances qui contiennent reellement p en tapant
[Link](p, n, NC, q)
Par exemple
[Link](0.3,1000,0.95,10000)
donnera une proportion egale a` 95.14.
El
ements de correction de lexercice 4.24
On sinteresse a` lexperience aleatoire jeter 30 fois une pi`ece de monnaie o`
u lon note le nombre de face
(qui est considere comme un succ`es).
(1) Si la pi`ece est bien equilibree, on a p = 0.5 et n = 30.
(2) On obtient lintervalle de conance suivant :
[0.4246955, 0.7753045],
qui contient la valeur de p = 0.5.
(3) On proc`ede comme indique en cours.
On obtient donc ici 12 succ`es. Lintervalle de conance `a N C = 0.95 est
[0.2246955, 0.5753045],
qui contient pour mes valeurs la valeur de p = 0.5.
Refaisons un autre tirage.
On obtient donc ici 9 succ`es. Lintervalle de conance `a N C = 0.95 est
[0.1360176, 0.4639824],
qui ne contient pour ces valeurs pas la valeur de p = 0.5. Ici, on sera dans le cas defavorable o`
u
lintervalle de conance ne contient pas le param`etre infere !
(4) Si on tape la commande suivante directement dans la fenetre de Rgui
rbinom(1, size=30, prob=0.5)
on observe un tirage binomial de param`etre n = 30 et p = 0.5.
(5) Questions facultatives
(a) De meme, la commande suivante directement dans la fenetre de Rgui
rbinom(20, size=30, prob=0.5)
qui simule en fait 20 tirages binomiaux de param`etre n = 30 et p = 0.5.
(b)
(i) (A)
(B) Prevoir organisation dun sondage sur lensemble des etudiants !
(ii) Les commandes suivantes
60
4. INTERVALLES DE CONFIANCE
Cours de Statistiques
J
er
ome BASTIEN
CHAPITRE 5
Tests dhypoth`
eses
EN COURS DE REDACTION ; ne sera pas trait
e cette ann
ee !
Pour JB :
prevoir corrige auto sous R et lien avec probabilite critiques.
Voir cours M1PPMR.
Exmple de la th`ese....
61
CHAPITRE 6
R
ecapitulatifs des notions essentielles (statistique inf
erentielle)
Vous trouverez dans ce chapitre lessentiel (et lexigible aux examens !) des notions, denitions, proprietes,
quil faut savoir (ou retrouver dans le polycopie de cours) Ces notions sont
exercices et manipulations avec
presentees sous forme de listes, chapitre par chapitre, avec renvois aux points importants.
Compte tenu des modications mineurs faites en cours de semestre, les numeros de pages indiquees peuvent
avoir change par rapport a
` la version papier distribuee : il faut donc se referer au dernier document electronique
de ce cours en pdf, disponible sur le web et sur le reseaux de luniversite.
Statistiques descriptives
Voir les annexes D, E, F, G, H, ainsi que lannexe recapitulative I et lancien projet (revision) J.
Chapitre 3
Chapitre 4
63
6. RECAPITULATIFS
DES NOTIONS ESSENTIELLES (STATISTIQUE INFERENTIELLE)
64
Chapitre 5
Non traite cette annee.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE A
Installation du logiciel
A.1. Installation de
(et
eventuellement du package Rcmd)
pour Windows
(5) Cliquer enn sur Download R-2.15.1 for Windows (347 megabytes, 32/64 bit) Attention, le numero
de version de
est souvent reactualise depuis la compilation de ce document !
(6) Telecharger alors le logiciel dinstallation [Link] (ou la derni`ere version en date)
(7) Double-cliquer sur le logiciel [Link] (ou la derni`ere version en date) an de proceder
a linstallation de R. Choisir les options par defaut an de linstaller sur le disque C:\.
`
Remarque A.1. Dans la rubrique R-2.15.1 for Windows (ou la derni`ere en date), vous pouvez aussi
telecharger les anciennes versions de , parfois utiles quand les plus recentes peuvent etre instables ou presenter
un bug non encore resolus ! Voir Previous releases. Dans cette meme rubrique, vous pouvez aussi recuperer
des packages das anciennes versions, non distribuees dans la plus recente.
Remarque A.2. Dans la rubrique The Comprehensive R Archive Network, sous-rubrique Source Code
for all Platforms, puis Contributed extension packages, vous pouvez aussi recuperer des packages des anciennes versions (sous forme de zip) , non distribuees dans la plus recente.
A.2. Utilisation de
Utiliser le menu demarrer, puis Tous les programmes, puis R, puis R-2.15.1 (ou la derni`ere version en
date). Le logiciel souvre alors et une fenetre Rconsole apparat.
Il faut indiquer au logiciel R dans quel repertoire windows il doit aller chercher les chiers (en particulier les
jeux de donnees) dont nous avons besoin et o`
u les sauvegarder egalement ; ce repertoire est dit repertoire de travail. Dans le menu deroulant Fichier, existe une option Changer de repertoire courant qui par lintermediaire
dune arborescence permet de choisir le repertoire qui nous convient (par defaut cest C:\R\R-2.15.1).
En quittant R, ne pas sauvegarder la session !
Ceux qui ont dej`
a lhabitude dutiliser les lignes de commandes de
naturellement continuer le faire et donc ignorer ce qui suit.
65
66
A. INSTALLATION DU LOGICIEL
(ET EVENTUELLEMENT
DU PACKAGE RCMD)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE B
Prise en main `
a la premi`
ere s
eance
Cette annexe est destinee a
` ceux qui se sentent peu habitues aux operations de telechargement de chiers,
de demarrage de logociels et pourra etre lue en premi`ere seance.
B.1. Cr
eation dun dossier de travail (ou r
epertoire courant)
Il est necessaire de creer un dossier de travail pour stocker le polycopie de cours et les chiers de donnees.
Pour cela,
(1) Ouvrez un Explorateur Windows ou dans poste de travail, allez dans le repertoire W:. Ce repertoire
vous est propre et vous y aurez acc`es `a chaque ouverture de session (avec vos propres identiants).
(2) Creez-y un dossier (ou repertoire), par exemple appele statistiques.
Ce dossier constitue votre repertoire de travail ou repertoire courant.
B.2. T
el
echargement du cours et des chiers de donn
ees
Ce polycopie de cours et les chiers de donnees sont normalement disponibles a` la fois
en ligne sur [Link] `a la rubrique habituelle ;
en cas de probl`eme internet, sur le reseau de luniversite Lyon I : il faut aller sur :
Poste de travail,
puis sur le repertoire P: (appele aussi \\teraetu\Enseignants),
puis [Link],
enn sur M2IGAPAS.
Pour lexamen, les donnees se trouveront aussi, par mesure de precaution a` ces deux endroits.
(1) Rendez-vous sur donc soit sur internet soit (en cas de probl`eme de connexion) sur le reseau et
ou bien sur internet, telechargez dans votre repertoire de travail le polycopie de cours (rubrique
Version provisoire du cours ou Version denitive du cours), gr
ace au clic droit enregistrer
sous
ou bien sur le reseau, copiez-collez le polycopie de cours vers votre repertoire de travail.
(2) Faites de meme pour les chiers de donnees (disponibles soit sous la forme de chiers txt ou xls, soit
la forme dun chier zipe).
(3) Dans votre repertoire courant, cliquez sur la version pdf du cours.
(4) Dans votre repertoire courant, dezipez eventuellement (clic droit, extraire ici) les chiers de donnees.
B.3. D
emarrage du logiciel
(et
eventuellement du package Rcmd)
` LA PREMIERE
`
B. PRISE EN MAIN A
SEANCE
68
(3) Pour ceux qui utilisent Rcmdr, il faut charger linterface interactive de R en utilisant le menu deroulant
Packages puis loption Charger le package, choisir alors le package Rcmdr (une interface graphique
doit alors souvrir).
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE C
C.1. Introduction
Cette annexe a pour objectifs de donner les notions de bases relatives a` dierents types de donnees. Il est
conseille de la lire sans utiliser dordinateurs (une petite calculatrice sura).
Taille
Poids Sexe
Sport pratique
183
182
173
178
192
158
163
172
80
75
66
78
77
57
50
53
Basket-ball
Escalade
Basket-ball
Gymnastique
Basket-ball
Natation
Judo
Tennis
H
H
F
H
H
F
F
F
Nous allons dans toute cette seance nous interesser aux donnees que lon pourra trouver dans le tableau C.1 ;
elles ont ete collectee a` partir dun echantillon de 8 personnes (realise pour lannee 2008 dans un groupe de
M1APA).
Ces donnees sont des informations, de deux types : numeriques (on parle aussi de donnees quantitatives)
ou categorielles (on parle aussi de donnees qualitatives). Elles ont un sens dans un contexte precis.
On pourra consulter larticle de Wikipedia intitule Statistique descriptive (voir lurl
suivante
[Link]
On cherche `
a decrire, cest-`a-dire resumer ou representer, par des statistiques, les donnees disponibles
quand elles sont nombreuses 1. Il est important de resumer les observations sans detruire linformations quelles
contiennent.
Ces donnees varient (dans le temps, chez les individus) et prennent des valeurs dierentes. Cette variabilite
est si importante que lon va donner aux mesures le nom de variables. Ainsi, on evoquera pour la population
des N = 8 individus dej`
a evoques, les variables taille, poids, sexe et sport pratique.
Les valeurs de la variable poids sont successivement 80, 75, 66, 78, 77, 57, 50, 53.
Les valeurs de la variable sexe sont successivement H, H, F , H, H, F , F , F .
1. ce qui nest gu`ere pertinent dans notre cas ici !
69
70
C.3. Etude
de donn
ee qualitatives
On sinteressera au sexe des N = 8 etudiants de M1APA (voir le tableau C.1).
C.3.1. Statistiques
On determine tout dabord le nombre de categorie (ou de modalites), puis pour chacune delles, le nombre
deectifs (cest-`
a-dire le nombre dindividu pour lesquels la variable associee est dans cette categorie).
On divisant ces eectifs par le nombre total dindividu, on obtient les frequences. En multipliant ces
frequences par 100, on obtient les pourcentages.
Exercice C.1. Determiner les valeurs de ces statistiques pour lechantillon des huit etudiants etudie.
Voir elements de correction page 76.
C.3.2. Graphiques
On peut produire des graphiques du type graphe en barres : on trace autant de barres que de categories,
chacune delle etant de meme largeur, et de hauteur proportionnelle `a la frequence.
On peut aussi tracer un camembert, o`
u chaque categorie est representee par un secteur angulaire proportionnel a` la frequence ; lensemble des secteurs angulaire est le disque total.
Exercice C.2.
(1) Determiner le graphe en barres et le camembert pour les sexes des huit etudiants.
(2) Ces graphes sont-ils pertinents ?
Voir elements de correction page 76.
Exercice C.3. On sinteresse maintenant au sport pratique par les huit etudiants dej`a etudies. Il faudra
prende garde au fait quici, il existe des cas de non reponse possibles (si aucun sport nest pratiques).
(1) Reprendre lanalyse precedente de cette variable.
(2) Representer graphiquement ces donnees
(3) Quel ordre choisir pour les categories ? Peut-on regrouper les categories ou utiliser une categorie
Autre?
C.4. Etude
de donn
ees quantitatives
On sinteressera au poids des N = 8 etudiants de M1APA (voir le tableau C.1 page precedente).
C.4.1. Statistiques
Ces donnees constitue un ensemble de nombres relatifs a` une population de N = 8 individus. On les notera
n1 , n2 , ..., n8 . De facon generale, ils seront notes (ni )1iN .
On a donc successivement
n1 = 80,
n2 = 75,
n3 = 66,
n4 = 78,
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
C.4. ETUDE
DE DONNEES
QUANTITATIVES
n5
n6
n7
n8
71
= 77,
= 57,
= 50,
= 53
C.4.1.1. La centralite.
On cherche tout dabord a` denir la centralite, cest-`
a-dire, la valeur autour de laquelle sorganisent les
dierentes donnees.
La notion la plus connue est la moyenne 2.
Si lon dispose de deux nombre, la moyenne est tout simplement le milieu, cest-`a-dire la demi-somme.
De facon plus generale, la moyenne est le nombre, souvent note m, qui se trouve a` egale distance de tous les
nombres (ni )1iN , soit encore le nombre m tel que
(m n1 ) + (m n2 ) + . . . + (m nN ) = 0
D
efinition C.4. La moyenne m des N nombres (ni )1iN est denie par
m=
N
1
1
(n1 + n2 + . . . + nN ) =
ni
N
N i=1
(C.1)
Exemple C.5. La moyenne m des N = 8 poids du tableau C.1 page 69 se calcule de la facon suivante :
Le detail du calcul est le suivant :
m=
N
1
ni ,
N i=1
1
(80 + 75 + 66 + 78 + 77 + 57 + 50 + 53) ,
8
536
,
=
8
= 67
2. ladjectif moyen provient du latin medianus, qui signie du milieu; cet adjectif a
et
e substantiv
e au f
eminin dans
moyenne qui a perdu son sens initial, pour exprimer ce qui est egalement distant des deux extr`emes et correspond au type le
plus r
epandu [11]
65
50
55
60
poids
70
75
80
72
Index
Si on trace le graphe indexe ci-dessus avec en pointille la moyenne, on constate que la somme des distances
(alg`ebriques) de chacun des poids a` la moyenne est nulle. Un autre image peut-etre donnee : on place sur une
regle graduee (inniment leg`ere) dierentes masses egales a` des abscisses correspondant aux dierentes donnees.
Cette regle, posee horizontale sur une pointe, sera en equilibre si cette pointe correspond a` la moyenne.
Une notions moins connue est la la mediane 3. La mediane est un nombre qui divise en deux parties la
population. On la note Q2 .
D
efinition C.6. La mediane Q2 des N nombres (ni )1iN est une valeur choisie pour que la moitie des
donnees lui soit inferieure et lautre moitie superieure. On la notera Q2 .
De facon plus precise, pour denir la mediane, on classe les donnees dans lordre croissant. Sil y a un
nombre pair de valeurs, la moyenne des deux valeurs centrales est prise. Sil y a un nombre impair de valeurs,
la valeur centrale est choisie. Contrairement `a la moyenne, la valeur mediane permet dattenuer linuence
perturbatrice des valeurs extremes enregistrees lors de circonstances exceptionnelles. On dit que la mediane est
moins sensible aux extr`emes que la moyenne.
Exemple C.7. La mediane Q2 des N = 8 poids du tableau C.1 se calcule de la facon suivante. Le detail
du calcul est le suivant :
les donnees dans lordre croissant sont : 50, 53, 57, 66, 75, 77, 78, 80 ;
le nombre de donnees est pair.
on calcule donc la moyenne des deux valeurs centrales : 66 et de 75.
la mediane vaut donc 70.5.
Exemple C.8. Si on avait voulu calculer la mediane des N 1 = 7 premiers poids du tableau C.1, on
aurait procede ainsi. Le detail du calcul est le suivant :
les donnees dans lordre croissant sont : 50, 57, 66, 75, 77, 78, 80 ;
le nombre de donnees est impair.
on prend la valeur centrale 75.
la mediane vaut donc 75.
3. qui provient du latin medianus, qui signie du milieu [11]
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
C.4. ETUDE
DE DONNEES
QUANTITATIVES
73
(m n1 ) + (m n2 ) + . . . + (m nN )
On divise cela par N pour donner autant dimportance a` chaque terme. On obtient donc la variance
1
2
2
2
(m n1 ) + (m n2 ) + . . . + (m nN )
N
Pour obtenir une quantite homog`ene a` chacune des donnees, on prend la racine carree de la variance. On obtient
donc lecart-type :
1
2
2
2
(m n1 ) + (m n2 ) + . . . + (m nN )
N
D
efinition C.9. La variance, notee 2 , des N nombres (ni )1iN est denie par
1
1
2
2
2
2
(m n1 ) + (m n2 ) + . . . + (m nN ) =
(m ni )
N
N i=1
N
2 =
D
efinition C.10. Lecart-type, note , des N nombres (ni )1iN est deni par
N
1
1
2
2
2
2
(m n1 ) + (m n2 ) + . . . + (m nN ) =
=
(m ni )
N
N i=1
(C.2)
(C.3)
determine la
Exemple C.12. La variance 2 des N = 8 poids du tableau C.1 se calcule de la facon suivante. Le detail
du calcul est le suivant :
2 =
N
1
2
(m ni ) ,
N i=1
1
(13)2 + (8)2 + 12 + (11)2 + (10)2 + 102 + 172 + 142 ,
8
1
= (169 + 64 + 1 + 121 + 100 + 100 + 289 + 196) ,
8
1040
,
=
8
= 130
=
74
Exemple C.13. Lecart-type des N = 8 poids du tableau C.1 se calcule de la facon suivante. Le detail
du calcul est le suivant :
N
1
2
=
(m ni ) ,
N i=1
1
=
((13)2 + (8)2 + 12 + (11)2 + (10)2 + 102 + 172 + 142 ),
8
1
(169 + 64 + 1 + 121 + 100 + 100 + 289 + 196),
=
8
1040
=
,
8
= 130,
= 11.401754
La notion de quartile permet de mesurer la dissymetrie et dapprehender de facon dierente la question
de la dispersion.
D
efinition C.14. De la meme facon que la mediane partageait le jeu de donnees en deux groupes de
meme eectif, les quartiles vont le partager en quatre groupes deectifs egaux. Ainsi 25% des donnees seront
inferieures au premier quartile (Q1 ), 50% au deuxi`eme quartile qui nest autre que la mediane (Q2 ) et 75% au
troisi`eme quartile (Q3 ).
Autrement dit,
25% des donnees sont inferieures `a Q1 ,
25% des donnees sont comprises entre Q1 et Q2 ,
25% des donnees sont comprises entre Q2 et Q3 ,
25% des donnees sont superieures `a Q3 .
Parfois le minimum est note Q0 et le maximum note Q4 .
Les autres quartiles Q1 et Q3 sont donc denis comme la mediane de lensemble des valeurs inferieures `a
la mediane et la mediane de lensemble des valeurs superieures `a la mediane.
Cette d
enition nest pas tout a
` fait celle utilis
ee par
Exemple C.15. Pour calculer, les trois quartiles des N = 8 poids du tableau C.1 :
On calcule la mediane comme dans lexample C.7 page 72 : Q2 = 70.5.
On calcule ensuite Q1 , comme la mediane des valeurs inferieures ou egales a` Q2 = 70.5 : Le detail du
calcul est le suivant :
les donnees dans lordre croissant sont : 50, 53, 57, 66 ;
le nombre de donnees est pair.
on calcule donc la moyenne des deux valeurs centrales : 53 et de 57.
la mediane vaut donc 55.
On calcule ensuite Q3 , comme la mediane des valeurs superieures ou egales a` Q2 = 70.5 : Le detail du
calcul est le suivant :
les donnees dans lordre croissant sont : 75, 77, 78, 80 ;
le nombre de donnees est pair.
on calcule donc la moyenne des deux valeurs centrales : 77 et de 78.
la mediane vaut donc 77.5.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
C.4. ETUDE
DE DONNEES
QUANTITATIVES
75
Q1 = 56,
Q2 = 70.5,
Q3 = 77.25.
m ,
intervalle qui contient la plupart des donnees (en un sens a` preciser ...).
Si ces deux nombres ont autant dimportance, cest parce que, dans un grand nombre de cas, les donnees
etudiees suivent une loi ideale, dite en cloche ou normale. Cette loi a` la forme dune cloche et est decrite par
deux param`etres, notes moyenne et ecart-type. Ces deux nombres sont proches de la moyenne et de lecart-type
des donnees considerees. Autrement dit, si les donnees suivent bien la loi normale, les deux nombres en question
reetent totalement les donnees consideres et les caracterisent donc.
Remarque C.16. En anticipant sur le chapitre 4, on peut monter que si les donnees suivent une loi
normale, alors lintervalle [m , m + ] contient 68.268949% des donnees.
76
2
0
Frequency
50
55
60
65
70
75
80
50
55
Poids
60
65
70
75
80
Poids
65
50
55
60
Poids
70
75
80
Voir les trois graphiques ci-dessus pour la variable poids. Le nombre de donnees etant faible (8), lhistogramme et la botes a` moustache ne sont pas tr`es pertinents ici.
Ces trois graphiques ne sont pas toujours pertinents.
Exercice C.17. Determiner les statistiques et faire les graphiques `a main levee de la variable taille. Pour
lhistogramme, on prendra des classes de largeur 10 `a partir de 150.
Voir elements de correction page 77.
C.5. Elements
de correction
El
ements de correction de lexercice C.1
Les eectifs et les pourcentages determines par
F
H
eectifs
4
4
pourcentages
50.000
50.000
El
ements de correction de lexercice C.2
(1)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
C.5. ELEMENTS
DE CORRECTION
77
H
Sexe
El
ements de correction de lexercice C.17
Les dierents resultats determines par
sont donnes dans le tableau suivant
noms
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
175.125
11.063938
169.75
175.5
182.25
158
192
8
78
2.0
1.0
0.0
Frequency
3.0
150
160
170
180
190
taille
200
160
170
180
190
taille
160
170
taille
180
190
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE D
Donn
ees cat
egorielles
Cette annexe sinspire fortement du chapitre 3 de [5].
Cette annexe sera traitee rapidement comme revision.
Ceux qui nauront jamais fait de statistiques pourront lire les sections C.1, C.2 et C.3 de lannexe C, qui
ne sera pas traitee en cours.
Ceux qui se sentent peu habitues aux operations de telechargement de chiers, de demarrage de logiciels
et pourront lire lannexe B en premi`ere seance.
D. DONNEES
CATEGORIELLES
80
Cours de Statistiques
J
er
ome BASTIEN
D.4. LES GRAPHIQUES POUR LES CATEGORIES
81
o`
u [Link] est le nom du chier xls.
Attention, la commande library(xlsReadWrite) charge le package xlsReadWrite. Si celui-ci nest pas
installe :
si vous etes sur votre propre ordinateur, aller dans le menu deroulant de Rgui package, puis installer
les packages et choisir le package xlsReadWrite. Cela necessite une connexion internet Voir aussi la
remarque A.2 page 65)
si vous etes en salle de TP `a Lyon 1, deconnectez-vous de votre session et demandez-moi de linstaller :
le CRI a protege le repertoire de C:\R `a lecriture mais jai les droit necessaires.
D.3. D
enombrer les cat
egories
L eectif dune categorie est le nombre de reponses obtenues correspondant a` cette categorie. On appellera
cette operation un denombrement. On note generalement n leectif total.
Avec Rcmdr :
An de calculer les eectifs de chaque categorie, il faut aller dans le menu deroulant Statistiques
du Rcommander et choisir les options Resumes et Distributions de frequences. On obtient dans la
fenetre de sortie le resultat ci-dessous :
Non Oui
12 26
Sans Rcmdr :
summary(diar$PbDigest)
ce qui ache
Non Oui
12 26
Ainsi, sur 38 femmes, 26 ont declare avoir des probl`emes digestifs de type diarrhees, ce qui semble enorme.
On peut aussi determiner les pourcentage en divisant les eectifs par leectif total et en multiplant par
100.
Remarque D.4. Pour ceux qui nutilisent pas Rcmdr, on pourra saranchir de taper le nom de la variable
contenant les donnees (ici diar) en utilisant un attachement
attach(diar)
Au lieu de taper
summary(diar$PbDigest)
ou se contentera de
summary(diar)
ce qui ache aussi
Non Oui
12 26
Ne pas oublier de detacher en n de travail :
detach(diar)
D. DONNEES
CATEGORIELLES
82
Reponse
Non
Oui
15
10
0
Frequency
20
25
(a) : camembert
Non
Oui
Reponse
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
` LETUDE
D.5. EXTENSION A
DE PLUS DE DEUX CATEGORIES
83
Dans le camembert, chaque categorie est representee par un secteur sur un disque de facon proportionnelle
a son eectif.
`
Avec Rcmdr :
Pour realiser un camembert, aller dans le menu deroulant Graphes du RCommander et choisir
loption Graphe en camembert. Le graphique est presente dans la gure du haut de la gure D.1 page precedente.
Dans le graphique en barres, la hauteur de chaque barre montre leectif correspondant a` la categorie indiquee `
a la base de la barre. Pour le realiser, aller dans le menu deroulant Graphes du
RCommander et choisir loption Graphe en barres. Le graphique est presente dans gure du bas de
la gure D.1 page ci-contre.
Sans Rcmdr :
On tapera :
pie(table(diar$PbDigest))
barplot(table(diar$PbDigest))
D.5. Extension `
a l
etude de plus de deux cat
egories
Nous avons jusqu`a present etudie des cas ou seules deux categories existaient. Le chier [Link]
contient la nature du handicap des licencies (1991) de la Federation Francaise Handisport. Nous allons voir
que lanalyse se generalise sans changement `a plus de deux categories.
Exercice D.5. Utiliser les methodes precedentes pour decrire la repartition des licencies dans ces categories. Que signie la categorie Autres? Ny a-t-il pas une categorie dont la presence est surprenante ? Quel
peut etre linteret de connatre egalement la frequence de ces dierents handicaps dans la population francaise ?
Voyons a` present dans le cadre dune etude des pratiques sportives des camerounais (de 15 `a 75 ans) la
generalisation `a un nombre plus important de categories : le sport pratique par les sondes. Le jeu de donnees
[Link] comprend les resultats dun sondage eectue sur 395 individus.
Exercice D.6. Analyser la variable APS qui decrit lactivite sportive declaree par le sonde. En particulier
realiser le graphe en barres et le graphe en camembert. Quel est le nouveau probl`eme qui se pose ici ?
Dans cet exercice, le grand nombre de categories rend dicile lanalyse. Les solutions qui sorent a` nous
sont soit de regrouper les categories en sous-ensemble qui ont du sens (sport de combat, sport collectif. . .)
soit de creer une categorie Autre qui regroupe les categories ayant les plus petits eectifs. An de visualiser
lensemble, on peut aussi utiliser un graphe particulier, le graphe en points, qui nest malheureusement ps
disponible dans la version interactive de R.
Remarque D.7. (Remarque inutile pour les non-neophytes) Il est possible demployer R dans une version
langage de commandes qui est beaucoup plus puissante. On tape alors des commandes dans la fenetre de script
puis on clique sur le bouton Soumettre. On peut aussi taper des commandes dans la console (fenetre Rgui)
et appuyer sur la touche Enter.
Le resultat sache soit dans la fenetre de sortie soit dans une fenetre graphique.
Exercice D.8. Bien relire la remarque D.2 page 80, puis soumettez successivement les 4 ordres suivants
(attention, ici cameroun1 est eventuellement a` remplacer par le nom de la variable que vous avez choisi lors de
limportation des donnees, Dataset par defaut)
(1)
cameroun1$APS
(2)
table(cameroun1$APS)
(3)
dotchart(table(cameroun1$APS))
(4)
dotchart(sort(table(cameroun1$APS)))
D. DONNEES
CATEGORIELLES
84
Que font ces lignes de commandes ? Quelles sont les categories les plus importantes ? Quelles categories suggerezvous de regrouper dans une categorie Autres?
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
D.6. LES DONNEES
ORDINALES
85
Trs_souhaite
Souhaite
Pas_souhaite
Pas_du_tout_souhaite
Indiffrent
100
200
Trs souhaite
Souhaite
Indiffrent
Pas souhaite
Pas du tout souhaite
50
150
ANNEXE E
Donn
ees num
eriques
Cette annexe sinspire fortement du chapitre 4 de [5].
Cette annexe sera traitee rapidement comme revision.
Ceux qui nauront jamais fait de statistiques pourront lire les sections C.1, C.2 et C.4 de lannexe C, qui
ne sera pas traitee en cours.
15
10
0
Frequency
20
25
Histogram of studenth$Taille
150
160
170
180
190
200
studenth$Taille
Figure E.1. Lhistogramme de la variable taille chez les etudiants (donnees [Link])
87
E. DONNEES
NUMERIQUES
88
(1) Etudier
graphiquement cette derni`ere mesure. Quel peut etre le probl`eme concernant cet histogramme ?
(2) Nous allons realiser une ligne de points. Cest un graphique qui na malheureusement pas disponible
directement dans le Rcmdr. Taper dans la fenetre de script la commande :
stripchart(NO$Publicit
e, method = "stack")
Voir la ligne de points en gure E.2 page ci-contre.
(3) Calculer une nouvelle variable qui donne le pourcentage de pages de publicite
Avec Rcmdr :
il faut utiliser le menu deroulant Donnees, puis Gerer les variables dans le jeu de donnees
actifs puis Calculer une nouvelle variable.
Sans Rcmdr :
taper
pourcentage <- NO$Publicit
e/NO$Pages * 100
Analyser cette nouvelle variable.
E.3.1.1. La moyenne.
1. une option le permet en partie dans la procedure, il faut indiquer le nombre de classes que lon souhaite employer.
2. Il ny a pas de num
eros d
et
e dans ces exemplaires car ils sont assez di
erents et contiennent moins de pages. Seuls les
exemplaires dau moins 100 pages ont
et
e retenus.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
10
30
50
89
70
E.3.1.2. La mediane.
D
efinition E.4. La mediane est une valeur choisie pour que la moitie des donnees lui soit inferieure et
lautre moitie superieure. On la notera Q2 .
E. DONNEES
NUMERIQUES
90
Cours de Statistiques
J
er
ome BASTIEN
91
E.3.2.2. Lecart-type.
En fait, la statistique la plus utilisee pour decrire la dispersion est lecart-type. Lecart-type vise a` mesurer
une sorte decart moyen entre les valeurs du jeu de donnees et leur moyenne. Il mesure donc la facon typique
dont lechantillon secarte de lunite typique.
D
efinition E.7. Lecart entre les donnees et la moyenne, une fois mis au carre, constitue une valeur
positive quon peut considerer comme une distance. La moyenne de ces distances constitue la variance, quon
notera V ar.
Lecart-type, qui est la racine carree de la variance, permet de retrouver les unites originales de mesure.
On le notera SD.
D
efinition E.8. Si les valeurs observees sont notees : y1 , , yN et si la moyenne est notee y la formule
employee pour lecart-type est soit :
=
N
1
1
2
2
2
(y1 y) + . . . + (yN y) =
(yi y) ,
N
N i=1
1
N 1
2
2
(y1 y) + . . . + (yN y) =
1
2
(yi y)
N 1 i=1
N
En ce qui concerne le jeu de donnees des ages des etudiants, lecart-type est SD = 6.069863. Pour les
tailles, il est de SD = 8.380252. Tr`es souvent, pour resumer un jeu de donnees, on donnera sa moyenne et son
ecart-type sous la forme y SD. On veut dire par l`a que les donnees les plus classiques sont dans cet intervalle.
Si lecart-type ore generalement un resume tr`es ecace de lheterogeneite dun jeu de donnees, il nest
valide qu`a deux conditions : (1) quil ny ait pas de donnees extremes car lecart-type est, encore plus que
la moyenne, sensible `a de tels elements et (2) que les valeurs soient plus ou moins symetriques autour de la
moyenne.
Nous pouvons observer que, dans lhistogramme des tailles (gure E.1 page 87), ces deux conditions etaient
ici relativement bien respectees. Dans ce cas, le resume est donc satisfaisant. En revanche, cela nest pas valable
pour lhistogramme des ages (gure E.3 page suivante). Puisque les deux conditions ci-dessus ne sont pas
respectees.
Etudions
la variable ES (estime de soi) du chier [Link].
E. DONNEES
NUMERIQUES
92
40
0
20
Frequency
60
80
Histogram of studenth$Age
20
30
40
50
60
70
studenth$Age
Figure E.3. Lhistogramme de la variable ages chez les etudiants (donnees [Link]).
On a
Q1 = 26,
Q2 = 29,
Q3 = 32,
Q3 Q2 = 3,
Q2 Q1 = 3
La distribution ici est symetrique car la distance de Q1 `a Q2 (3) est egale a` celle de Q2 `a Q3 (3).
Dans cet exemple, on peut mesurer la dispersion avec une seule statistique, lecart-type, qui est un compromis entre les ecarts au centre sur la gauche et ceux sur la droite car ils sont comparables. Dans dautres
cas, lorsquil y a forte dissymetrie, ce nest pas possible. Les quartiles, au prix dun peu plus de complexite,
re`etent alors mieux la situation.
En revanche, pour la distribution des ages du chier STUDENT_H.txt, on a
Q1 = 172.8,
Q2 = 180,
Q3 = 185,
Q3 Q2 = 5,
Q2 Q1 = 7.2
La distribution ici nest pas symetrique car la distance de Q1 `a Q2 (5) est dierente de celle de Q2 `a Q3 (7.2).
Cours de Statistiques
J
er
ome BASTIEN
93
D
efinition E.10. Il existe un graphique tr`es interessant pour apprehender visuellement ce probl`eme de
symetrie : la bote de dispersion. Le principe en est simple, la mediane est indiquee par un trait central gras, les
deux quartiles forment les extremites de la bote et, sortant de la bote, deux moustaches essaient de rejoindre
les valeurs minimum et maximum. Si ces deux valeurs sont trop eloignees 4, elles apparaissent comme des points
que les moustaches ne rejoignent pas.
20
25
ES
30
35
E. DONNEES
NUMERIQUES
40
20
30
Age
50
60
70
94
=
Q3 Q1
.
1.369
En revanche, cet ecart-type, meme modie, ne saurait reeter la dissymetrie ; seule la donnee des deux
quartiles le permet. Il est dans lexemple de lestime de soi egal a`
=
32 26
Q3 Q1
=
= 4.382761
1.369
1.369
Cours de Statistiques
J
er
ome BASTIEN
95
E.3.2.6. la multi-modalite.
Exercice E.14. Le chier [Link] contient le prix de rollers (en Francs 2000) pour 224 pratiquants
de la region lyonnaise.
Realiser un histogramme de ces donnees.
Recommencer en choisissant comme nombre de classes : 15
Analyser la forme de cet histogramme. Que constatez-vous ?
Que pensez-vous de la notion de valeur typique dans ce contexte ?
Il arrive que les donnees ne soient pas regroupees autour dune unique valeur centrale mais quil existe
plusieurs groupes. On parle alors de multimodalite. Dans ce cas, chaque groupe devrait faire lobjet dune
description quantiee, mais cette analyse (dite analyse de melange) est complexe et ne sera pas envisagee. On
se contentera de descriptions verbales.
E. DONNEES
NUMERIQUES
20
25
alimentation$ES
30
35
96
norm quantiles
Cours de Statistiques
J
er
ome BASTIEN
sd <- cos
cos(c(1, 2))
[1]
0.5403023 -0.4161468
sd(c(1, 2))
[1]
0.5403023 -0.4161468
sd(1)
[1] 0.5403023
rm(sd)
sd(c(1, 2))
[1] 0.7071068
97
ANNEXE F
F.1. Introduction
Etudier
une variable a` la fois nest generalement quun debut lors de lanalyse dun probl`eme reel. Il va
de soi que les travaux les plus interessants consistent `a relier plusieurs variables an de comprendre les liaisons
quelles entretiennent ou, pour le dire autrement, si lon peut en expliquer certaines par dautres 1 Ainsi, meme
la description dun phenom`ene aussi simple que la taille dun individu serait bien limitee si lon ne prenait
pas en compte son age et son sexe. Nous allons donc voir `a present des methodes qui permettent de croiser
` nouveau, ces methodes statistiques di`erent selon la nature des variables. Suivant quelles
deux informations. A
sont numerique ou categorielle, on sorientera soit vers la regression (deux variables numeriques, ce chapitre),
vers lanalyse de tableau croisee (deux variables categorielles, voir chapitre G page 117) ou vers lanalyse de
variance (une numerique et une categorielle, voir chapitre H page 127).
La situation statistique visee est extremement courante : il sagit du cas o`
u deux mesures numeriques sont
prises sur un meme echantillon dunites statistiques. On peut ainsi etudier sil existe une relation entre la taille
et le poids dun groupe dhommes, entre le prix au m`etre carre et les imp
ots locaux pour des logements ...
On pourra consulter la che tr`es compl`ete [12].
F.2. Principe th
eorique
` chaque individu i pour 1 i n sont donc
On sinteresse donc `a deux variables quantitatives X et Y . A
associees deux valeurs xi et yi . Si une relation existe mathematique existe entre X et Y , il existe donc une
fonction f telle que en theorie
Y = f (X)
(F.1)
yi f (xi ).
(F.2)
(F.3)
o`
u on rappelle que a est la pente et b lordonnee `a lorigine de la droite associee. De facon generale, on cherche a`
resoudre (F.2) au sens des moindres carres, cest-`a-dire trouver une fonction f parmi un ensemble de fonctions
1. Restons toutefois prudent, le probl`
eme de la causalit
e est extr
emement d
elicat en statistique.
99
100
(f (xi ) yi )2 .
(F.4)
i=1
Plus petite sera cette quantite, meilleure sera lapproximation (F.2). Dans le cas de ce chapitre, on est dans
lhypoth`ese (F.3) ; les coordonnees (xi , yi )1in sont connues (de facon experimentale par mesure) et on cherche
donc a` resoudre le probl`eme suivant :
trouver (a, b) qui minimise S =
(axi + b yi ) .
(F.5)
i=1
La quantite S est appele lecart entre les donnees et la droite dequation Y = aX + b. Ce probl`eme secrit
aussi : trouver le couple (a0 , b0 ) tel que
(a, b) R2 ,
(a0 xi + b0 yi )
i=1
(axi + b yi )
(F.6)
i=1
y
y = ax + b
axi + b
axi + b yi
yi
xi
Cours de Statistiques
J
er
ome BASTIEN
PRATIQUE DE LA LIAISON
F.3. LA SIGNIFICATIVITE
Le nuage
101
Le critere dajustement
40
40
35
35
30
30
25
25
20
20
15
15
Donnees
10
20
30
40
50
60
Ecart = 79.85
10
70
80
20
30
Le critere dajustement
40
50
60
70
80
La meilleure droite
40
40
35
35
30
30
25
25
20
20
15
15
Ecart = 30.85
10
20
30
40
50
60
70
Ecart = 19.58
10
80
20
30
40
50
60
70
80
F.3. La signicativit
e pratique de la liaison
Exemple F.1. Avant de commencer a` quantifer, il faut dabord comprendre dans quelles situations on
consid`ere quune liaison est intense, cest-`a-dire que les points sont bien alignes. Le graphique F.3 montre
quatre situations possibles avec deux groupes representees par des collections de lignes de points empiles.
On peut observer que les points sont de moins en moins bien alignes sur ces quatre graphiques.
D
efinition F.2. On denit le coecient de correlation lineaire 2 comme une mesure de la liaison lineaire,
cest-`a-dire de la capacite de predire une variable X par une autre Y `a laide dune equation lineaire du type
(F.1)-(F.3).
Nous ne donnons pas lexpression de ce coecient, note r (on pourra consulter lURL de wikipedia donnee
precedemment par exemple).
Notons que r est toujours compris entre -1 et 1. Il du signe de la pente a de la droite. Plus la valeur absolue
|r| de ce nombre est proche de 1, plus les points sont alignes. Dans ce cas lapproximation (F.2) sera dautant
meilleure. Autrement dit, plus |r| est proche de 1, plus lecart S deni par (F.5) est proche de 0. Si |r| = 1,
alors S = 0 et le points sont alignes.
Cohen dans [13] a introduit les seuils r1 = 0.1, r2 = 0.3 et r3 = 0.5 permettant de quantier la signicativite
pratique de la liaison
< r1 ,
la signicativite pratique de la liaison lineaire est faible,
> r3 ,
la signicativite pratique de la liaison lineaire est tr`es forte
2. il sera plus exacte de dire ane.
102
Y en fonction de X
Y en fonction de X
15
15
10
10
5
0
10
Y en fonction de X
Y en fonction de X
20
10
4
3
10
Y
2
0
1
0
10
1
2
20
5
10
10
F.4. La signicativit
e statistique de la liaison
Une autre approche est de considerer la signicativite statistique : on essaie de voir si un resultat tel que
celui quon a obtenu aurait pu se produire par hasard ? Plus precisement, si des groupes (de meme taille, avec
les memes donnees numeriques) avaient ete formes compl`etement au hasard, quelle serait la valeur du rapport
de correlation ?
On peut calculer une proportion de fois, o`
u un coecient de correlation lineaire simule au hasard depasse
celui reellement observe sur lechantillon. On appelle cette quantite probabilite critique ou p value 3.
Plus pr
ecis
ement, d
ecrivons cela : Imaginons (sans le faire ...) quinformatiquement, nous puissions simuler au hasard des
donn
ees de m
emes taille et issues dune meme population. On obtiendrait alors une autre valeur de la cor
elation lin
eaire. Si on
3. En r
ealit
e la construction th
eorique est un peu di
erente, bas
ee sur la th
eorie des probabilit
e plut
ot que sur des simulations
informatiques, mais on montre que les deux m
ethodes, simulation informatique et th
eorie probabiliste, convergent vers le m
eme
r
esultat.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
F.5. AVEC
103
faisait un grand nombre de fois cette simulation, on pourrait calculer le nombre de fois o`
u la cor
elation observ
ee est sup
erieure `
a
celle obtenue sur nos donn
ees. On en d
eduit alors une proportion not
ee pc . Sur un grand nombre de telles simulations, on va voir
si la situation observ
ee dans le jeu de donn
ees est exceptionnelle - et dans ce cas, il y a une relation statistiquement signicative
et pc est petit- ou bien si la situation aurait pu se produire par hasard - et la relation nest donc pas statistiquement signicative
et dans ce cas pc est grand.
La formulation compl`
ete de cette facon de proc
eder fait partie de la th
eorie des tests dhypoth`
eses. Un certain nombre
dhypoth`
eses (notamment la normalit
e des donn
ees) devraient
etre v
eri
ees, en toute rigueur, avant de conclure.
Ce nombre pc est probabilit
e critique ou p value en anglais.
D
efinition F.4. La probabilite critique pc est comprise entre 0 et 1. Proche de zero (inferieure ou egale a`
0.05 = 5%, valeur traditionnellement choisie) elle indique une relation statistiquement signicative, cest-`a-dire
qui a peu de chance detre due au hasard. En revanche, strictement superieure a` 0.05, elle indique que la relation
nest pas statistiquement signicative donc quelle peut-etre due au hasard.
Nous indiquerons son calcul sous R en section F.5.
F.5. Avec
Lexemple F.5 et lexercice F.12 de la cette section sont issus de [4].
Exemple F.5.
Le jeu de donnees [Link] disponible `a lURL habituelle contient pour 13 coureurs de niveau
moyen leur age et leur frequence cardiaque maximum. Ces deux mesures sont bien entendu numeriques.
Que la frequence cardiaque maximum (fcm) soit reliee `a lage est un resultat classique de la litterature
scientique sportive qui a meme ete vulgarise dans les ouvrages dentranement sous la forme dune equation
(appele formule dAstrand) :
fcm = 220 age.
(F.8)
Nous allons tenter de le conrmer sur notre (tr`es) petit echantillon de sujets.
Remarque F.6. Pour toute la suite de ce cours, nous allons utiliser des fonctions. Lire (ou relire) pour
cela lannexe L page 177.
(1) La description dune liaison entre deux variables numeriques commence par la representation du
nuage de points (xi , yi )1in . Il ny a quune diculte, comment choisir la variable qui sera presentee
sur laxe des X ? Lorsque lune des deux variables doit servir `a expliquer lautre, cest la variable
explicative qui est placee en X et la variable `a expliquer en Y. Ici, on a decide detudier levolution
de la frequence cardiaque en fonction de lage, X sera donc lage et Y la frequence cardiaque. Si on
souhaite simplement etudier si les deux variables sont reliees, de facon reellement symetrique , peu
importe alors le choix de X et de Y. Autrement dit, les valeurs de a et de b dependent de lordre (X,Y)
ou (Y,X) ; en revanche, les valeurs de r et de pc nen dependent pas.
Avec Rcmdr :
Il faut utiliser le menu deroulant Graphes du Rcmdr, puis loption Nuage de points. X
sera ici la variable age alors que Y sera la variable fcm. On obtiendra la gure du haut de la
gure F.4 page suivante.
Sans Rcmdr :
La commande
plot(coureurs$age, coureurs$fcm)
donnera une gure ressemblant `a celle de la gure du bas de F.4 page suivante. On peut preciser
la valeur de certains param`etres facultatifs qui jouent sur laspect du graphique : la commande
plot(coureurs$age, coureurs$fcm, pch = 15, las = 1, main = "fcm en fonction de l'age")
donnera la gure du bas de F.4 page suivante.
Si on veut obtenir la gure du haut, il faudra charger le package car en tapant par exemple
190
180
185
fcm
195
200
104
25
30
35
40
45
50
55
age
(a)
fcm
195
190
185
180
25
30
35
40
45
50
55
age
(b)
Figure F.4. Nuages de points (xi , yi )1in pour les donnees [Link]
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
F.5. AVEC
105
library(car)
puis
scatterplot(coureurs$age, coureurs$fcm)
Ou plus simplement, on tracera la droite de regression lineaire seule et le nuage de point en
tapant
lmd <- lm(fcm ~ age, data = coureurs)
plot(coureurs$age, coureurs$fcm, pch = 15, las = 1, main = "fcm en fonction de l'age")
abline(lmd, col = "red")
(2) Il faut maintenant determiner les coecients a et b de la droite, le coecient de correlation lineaire
r et la probabilite critique pc .
Avec Rcmdr :
On utilise le menu deroulant Statistiques, et les options Ajustement de mod`eles et Regression lineaire. Comme variable de reponse, on choisit la variable Y, ici fcm, et comme variable
explicative la variable X, ici age. On obtient :
Call:
lm(formula = coureurs$fcm ~ coureurs$age)
Residuals:
Min
1Q Median
-5.756 -2.756 1.190
3Q
1.715
Max
5.251
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 211.35371
4.25279 49.698 2.69e-14 ***
coureurs$age -0.50191
0.09394 -5.343 0.000236 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.266 on 11 degrees of freedom
Multiple R-squared: 0.7218,
Adjusted R-squared: 0.6965
F-statistic: 28.54 on 1 and 11 DF, p-value: 0.0002365
La pente a se lit en face de age et lordonnee `a lorigine b se lit en face de (Intercept). On a
donc ici
a = 0.5019,
(F.9a)
b = 211.3537.
(F.9b)
Sans Rcmdr :
On tape
coefficients(lm(coureurs$fcm ~ coureurs$age))
et on voit apparatre
(Intercept)
age
211.3537051 -0.5019099
Remarque F.7. On peut aussi taper la commande equivalente
coefficients(lm(fcm ~ age, data = coureurs))
106
(F.10a)
b = 211.3537.
(F.10b)
(F.11)
Sans Rcmdr :
Pour obtenir pc , on tape
summary(lm(coureurs$fcm ~ coureurs$age))
On obtient :
Call:
lm(formula = coureurs$fcm ~ coureurs$age)
Residuals:
Min
1Q Median
-5.756 -2.756 1.190
3Q
1.715
Max
5.251
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 211.35371
4.25279 49.698 2.69e-14 ***
coureurs$age -0.50191
0.09394 -5.343 0.000236 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.266 on 11 degrees of freedom
Multiple R-squared: 0.7218,
Adjusted R-squared: 0.6965
F-statistic: 28.54 on 1 and 11 DF, p-value: 0.0002365
La probabilite critique se lit en face de p-value ; on a donc
pc = 0.000236
(F.12)
Avec Rcmdr :
Pour le calcul de r, on a deux solutions
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
F.5. AVEC
107
Pour determiner r, il faut se rappeler que r2 = |r| et que le signe de r est egal a` celui de a,
soit
r = signe(a) r2 .
Ici, on a donc
r = r2 = 0.8496
On a donc nalement
r = 0.8496
(F.14)
(F.15)
Ici, au vu des seuils de Cohen, on a une tr`es forte liaison pratique et la liaison est satistiquement
signicative.
On peut utiliser la fonction [Link] (voir annexe L page 177) disponible sur le
site et qui fournit directement les valeurs de a, b, r et pc : en tapant (ici, on a indique X puis Y)
[Link](coureurs$age, coureurs$fcm)
ce qui donne les 4 valeurs (naturellement identiques a` celle de (F.9), (F.11),(F.14) )sous la forme dune
liste (ce qui permet davoir plusieurs arguments de sortie)
108
$a
[1] -0.5019099
$b
[1] 211.3537
$r
[1] -0.8496042
$pc
[1] 0.0002364563
On pourra pour comprendre comment fonctionne une liste en tapant par exemple
res <- [Link](coureurs$age, coureurs$fcm)
class(res)
[1] "list"
names(res)
[1] "a" "b"
res$a
"r"
"pc"
[1] -0.5019099
res$pc
[1] 0.0002364563
On pourra aussi tracer le graphique de la droite de regression en utilisant les arguments optionnels
de cette fonction qui sont echo et fig. Si echo est vrai, les resultats sont donnees et si fig est
vrai la gure est creee. Comparer ce que donne
[Link](coureurs$age, coureurs$fcm)
[Link](coureurs$age, coureurs$fcm, fig = T)
[Link](coureurs$age, coureurs$fcm, fig = T, echo = F)
res <- [Link](coureurs$age, coureurs$fcm, echo = T)
res
Pour obtenir une gure analogue `a celle de la gure F.5, il sut de taper directement
[Link](coureurs$age, coureurs$fcm, fig = T, echo = F)
On pourra aussi preciser les labels X et Y des axes (choisis par defaut egaux a` X et Y) en
tapant
[Link](coureurs$age, coureurs$fcm, fig = T, echo = F,
labelX = "^
age", labelY = "fcm")
Remarque F.10. Constater en tapant
[Link](coureurs$fcm, coureurs$age)
que lordre de x ou y a une inuence sur les valeurs de a et de b mais pas de r et de pc .
Remarque F.11. En accord avec la remarque F.10, si on tape
lmd <- lm(fcm ~ age, data = coureurs)
lmdinv <- lm(age ~ fcm, data = coureurs)
par(mfrow = c(2, 1))
plot(coureurs$age, coureurs$fcm, pch = 15, las = 1, main = "fcm en fonction de l'age")
abline(lmd, col = "red")
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
F.5. AVEC
109
fcm en fonction de ge
200
fcm
195
190
185
180
25
30
35
40
45
50
55
ge
Figure F.5. Le nuage de point et la droite de regression pour les donnees [Link]
plot(coureurs$fcm, coureurs$age, pch = 15, las = 1, main = "Age en fonction de la fcm")
abline(lmdinv, col = "blue")
on constate que lordre des variables compte pour la droite de regression. Voir gures F.6 et F.7.
(3) On peut utiliser la droite de regression determinee pour determiner sa fcm en tapant dans la fenetre
de Rgui :
res <- [Link](coureurs$age, coureurs$fcm)
monage <- 24
mafcm <- res$a * monage + res$b
On peut rajouter ce point sur le graphique dej`
a trace en tapant par exemple
plot(coureurs$age, coureurs$fcm, pch = 15, las = 1, main = "fcm en fonction de l'age")
abline(lmd, col = "red")
points(monage, mafcm, pch = 19, col = "blue")
Voir gure F.8.
(4) Enn, on peut rajouter la droite dastran en tapant
plot(coureurs$age, coureurs$fcm, pch = 15, las = 1, main = "fcm en fonction de l'age")
abline(lmd, col = "red")
abline(220, -1, col = "green")
points(monage, mafcm, pch = 19, col = "blue")
Voir gure F.8.
(5) On peut aussi rajouter la fcm predite par la regression lineaire en tapant par exemple
lmd <- lm(fcm ~ age, data = coureurs)
fcmtheo <- predict(lmd)
110
200
coureurs$fcm
195
190
185
180
25
30
35
40
45
50
55
coureurs$age
coureurs$age
50
45
40
35
30
25
180
185
190
195
200
coureurs$fcm
Figure F.6. Le nuage de point et les deux droites de regression pour les donnees [Link]
Cours de Statistiques
J
er
ome BASTIEN
F.5. AVEC
111
200
coureurs$fcm
150
100
50
50
100
150
200
coureurs$age
Figure F.7. Le nuage de point et les deux droites de regression sur le meme graphe pour les
donnees [Link]
points(age, fcmtheo, pch = 20, col = "blue")
segments(age, fcmtheo, age, fcm)
Voir gure F.9.
Exercice F.12. Charger le chier [Link] `a lURL habituelle.
(1) Denissez une nouvelle variable egale a` lIMC : Indice de masse Corporelle, dont on rappelle la
denition
poids
IMC =
,
(F.16)
taille2
o`
u la taille est en m`etre et le poids en kg.
112
200
coureurs$fcm
195
190
185
180
25
30
35
40
45
50
55
coureurs$age
ements de correction
F.7. El
El
ements de correction de lexercice F.12
On prendra garde au fait que la taille du chier de donnee est en cm. On utilisera donc la formule suivante
de lIMC :
poids
IMC =
,
(F.17)
(taille/100)2
(1) Etude
de la relation (poids,taille)
On etudie le croisement de la variable quantitative (ou numerique) poids et de la variable
quantitative (ou numerique) taille.
Voir la gure F.10 page 114. Sur cette gure, les points semblent assez bien alignes.
Conrmons cela grace `
a .
Les resultats donnes par
sont les suivants :
UCBL/UFRSTAPS
Valeurs
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilite critique pc
0.832284
118.708569
0.891533
6.50023e-21
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
F.7. EL
DE CORRECTION
113
200
coureurs$fcm
195
190
185
180
25
30
35
40
45
50
55
coureurs$age
Figure F.9. Le nuage de point, la droite de regression et les fmc predites pour les donnees [Link]
On peut donc armer il existe une relation entre les variables poids et taille.
(2) Etude
de la relation (poids,IMC)
On etudie le croisement de la variable quantitative (ou numerique) poids et de la variable
quantitative (ou numerique) IMC.
Voir la gure F.11 page suivante. Sur cette gure, les points semblent tr`es bien alignes.
Conrmons cela grace `a .
Les resultats donnes par
sont les suivants :
Noms des indicateurs
Valeurs
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilite critique pc
0.121453
13.751405
0.742738
2.47844e-11
114
taille
180
175
170
165
160
50
60
70
80
90
poids
IMC
23
22
21
20
19
18
50
60
70
80
90
poids
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
F.7. EL
DE CORRECTION
115
signicativite pratique
tr`
es forte
signicativite statistique oui
On peut donc armer il existe une relation entre les variables poids et IMC.
IMC
23
22
21
20
19
18
160
165
170
175
180
185
190
195
taille
.
sont les suivants :
Noms des indicateurs
Valeurs
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilite critique pc
0.063981
10.465404
0.365269
0.00481162
forte
oui
116
On peut donc armer il existe une relation entre les variables taille et IMC.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE G
G.1. Introduction
Il est possible de comparer deux groupes de mesures, mais que la mesure en question soit categorielle
(qualitative). On presente alors generalement les donnees sous une forme particuli`ere dite du tableau de contin` nouveau, on commencera par decrire numeriquement et graphiquement la liaison, puis on calculera
gence. A
un indicateur de liaison lie `
a un mod`ele statistique (celui dindependance) dont on denira la signicativite
pratique et statistique.
G.2. Principe th
eorique
Soient A et B, deux variables qualitatives ayant respectivement p et q modalites. Soit n le nombre dindividus sur lesquels A et B ont ete observees. La table de contingence observee est un tableau croise o`
u les
colonnes correspondent aux q modalites de la variable B et les lignes aux p modalites de la variable A. On note
nij le nombre dindividus possedant a` la fois la modalite i de la variable A et la modalite j de la variable B.
A1
..
.
Ai
..
.
Ap
B1
n11
..
.
ni1
..
.
np1
. . . Bj
. . . n1j
..
..
.
.
. . . nij
..
..
.
.
. . . npj
. . . Bq
. . . n1q
..
..
.
.
. . . niq
..
..
.
.
. . . npq
total
n.1
...
...
n.j
n.q
total
n1.
..
.
ni.
..
.
np.
n
On obtient le tableau de contingence G.1. Ici, ni. est la somme des elements de la i-i`eme ligne, n.j est
la somme des elements de la j-i`eme colonne et n est la somme de tous les elements du tableau (cest aussi la
somme des ni. ou des n.j , cest aussi le nombre dindividus). Les dierents coecients ni. et n.j sont appeles
les marges.
Prenons par exemple les deux variables sexe (M, F) et examen (R reussi et E echoue), observe sur 20
etudiants :
117
118
F
M
E
4
6
R
6
4
total 10 10
total
10
10
20
Il y a donc
4 femmes qui echouent,
6 femmes qui reussissent,
6 hommes qui echouent,
4 homme qui reussissent,
au total (partiel) 10 femmes,
au total (partiel) 10 hommes,
au total (partiel) 10 reussites,
au total (partiel) 10 echecs.
au total 20 individus interroges.
On introduit alors la table de contingence theorique : repartition des 20 etudiants entre les dierentes cases
de la table sil ny a aucun lien entre les deux variables sexe et examen ; on ne tient compte que des marges qui
indiquent ici que chacun des quatre categaries presentes doivent contenir un quart de la population totale, ce
qui donne ici :
F
M
E
5
5
R
5
5
total 10 10
total
10
10
20
D
efinition G.1. De facon plus generale, on construit la table de contingence theorique sous lhypoth`ese
de lindependances des deux variables de facon que les marges soient egales. On traduit cette independance de
la facon suivante :
pour tout i {1, . . . , q}, la ligne Li est proportionnelle `a la ligne des marges (n.1 , . . . , n.j , . . . , n.p ).
pour tout j {1, . . . , p}, la colonne Cj est proportionnelle `a la colonne des marges (n1. , . . . , ni. , . . . , nq. ).
On obtient la table de contingence theorique G.2 o`
u
n
!ij =
ni. n.j
n
(G.1)
Remarquons a posteriori que les marges de la table des contingence theorique (G.1) sont bien celle de la
table experimentale : On a en eet les sommes en lignes
i
n
! ij =
ni. n.j
,
n
n.j
=
ni. ,
n i
i
= n.j
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
G.2. PRINCIPE THEORIQUE
119
n
! ij =
ni. n.j
,
n
ni.
=
n.j ,
n j
= ni.
Preuve facultative. la premi`ere hypoth`ese se traduit par lexistence dun nombre i (qui ne depend
que la ligne i) tel que
(i, j),
n
!ij = i n.j
(G.2)
et donc
i =
ni.
.
n
n
! ij =
A1
..
.
Ai
..
.
Ap
B1
n
!11
..
.
n
!i1
..
.
n
!p1
. . . Bj
... n
!1j
..
..
.
.
... n
!ij
..
..
.
.
... n
!pj
. . . Bq
... n
!1q
..
..
.
.
... n
!iq
..
..
.
.
... n
!pq
total
n.1
...
...
n.j
n.q
total
n1.
..
.
ni.
..
.
np.
n
D
efinition G.2. On introduit enn le 2 qui mesure lecart entre la table theorique et la table observee
deni par
(!
nij nij )2
2 =
(G.3)
n
!ij
ij
Si 2 = 0, les eectifs observes sont identiques aux eectifs theoriques et il y a independance entre les deux
variables. Si 2 est petit, les eectifs observes sont presque identiques aux eectifs theoriques. Les deux variables
sont peu liees entre elles. Si 2 est grand, les eectifs observes sont dierents des eectifs theoriques. Les deux
variables sont liees entre elles.
120
G.3. La signicativit
e pratique de la liaison
D
efinition G.3. An devaluer le degre de relation entre les deux variables qualitatives, divers indices
ont ete proposes. On rappelle que
n est le nombre total dindividu ;
p est le nombre de lignes du tableau de contingence (le nombre de modalites de la premi`ere variable) ;
q est le nombre de colonnes du tableau de contingence (le nombre de modalites de la seconde variable).
Nous avons en avons retenu deux indices :
(1) Lindice de Cramer deni par
"
V =
2
.
n min(p 1, q 1)
(G.4)
Il varie entre 0 et 1. Si le coecient est proche de 0, les variables ne sont pas liees. Si le coecient est
proche de 1, les variables sont liees.
(2) La taille deet w introduite par Cohen [13] denie par
2
w=
.
n
avec les seuils correspondant w1 = 0.1, w2 = 0.3 et w3 = 0.5
la signicativite pratique de la
< w1 ,
[w , w [ , la signicativite pratique de la
1
2
si w
[w
,
w
e pratique de la
2
3 [ , la signicativit
> w3 ,
la signicativite pratique de la
(G.5)
tels que
liaison est faible,
liaison est moyenne,
liaison est forte,
(G.6)
G.4. La signicativit
e statistique de la liaison
Comme dans la section F.4, on introduit une probabilite critique pc , comprise entre 0 et 1. Proche de zero
(inferieure ou egale a` 0.05 = 5%, valeur traditionnellement choisie) elle indique une relation statistiquement
signicative, cest-`
a-dire qui a peu de chance detre due au hasard. En revanche, strictement superieure a` 0.05,
elle indique que la relation nest pas statistiquement signicative donc quelle peut-etre due au hasard.
Nous indiquerons son calcul sous R en section G.5.
G.5. Avec
Nous allons travailler sur le chier [Link] disponible a` lURL habituelle. Les resultats des
questionnaires sont rentres sous la forme dun tableau contenant en lignes les enquetes et en colonnes leurs
reponses aux dierentes questions. Nous avons conserve dans un tableau les resultats aux deux questions : classe
dage (attention, la variable age est quantitative, mais mise sous forme de classes, elle devient qualitative) et
et type dhebergement pendant les vacances.
Il comprend 591 lignes et 2 colonnes. On va donc croiser les deux variables qualitatives age et logement.
(1) Construction de la table de contingence
Avec Rcmdr :
On utilise le menu deroulant Statistiques avec les options Tables de contingence et Tableau
a double entree. Il faut indiquer la variable dont les categories constitueront les lignes (ici age)
`
et celles qui seront les colonnes (ici logement).
Sans Rcmdr :
Il faut taper la commande suivante :
table(hebergement$age, hebergement$logement)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
G.5. AVEC
121
ou
xtabs(~hebergement$age + hebergement$logement)
16-19
20-24
25-29
30-39
40-49
50-54
55-59
60-65
plus de 65
Table G.3. table de contingence du
122
(G.7)
Cours de Statistiques
J
er
ome BASTIEN
G.5. AVEC
123
Bref, on obtient
n = 591,
p = 9,
q=2
"
et on a alors
V =
32.510687
.
591 min(9 1, 2 1)
(G.8)
(G.9)
Ici, w = V ! Pourquoi ?
Le V est proche de zero donc les deux variables ne sont pas liees. Les seuils de Cohen donnees
par (G.6) nous indique que la la signicativite pratique de la liaison est moyenne.
(6) La probabilite critique ici se lit ici en face de p-value. On obtient ici
pc = 7.5e 05
(G.10)
Elle est inferieur au seuil de 5 % et donc on observe une signicativite statistique de la liaison, donc
non due au hasard.
(7) Creation dun graphique
Par la suite, nous nutiliserons gu`ere ce graphique mais nous citons tout de meme son interpretation et sa creation avec .
Il faut dabord charger le package ade4, puis utiliser la fonction [Link] en tapant :
tab <- table(hebergement$age, hebergement$logement)
[Link](tab)
Sur ce graphique, apparaissent `a la place de chaque nombre de la table de contigence, un carre
dont la surface lui est proportionnel.
Voir la gure G.1 page suivante.
Des arguments optionnels csize et [Link] permettent de donner un echelle pour la taille
des carres et un label pour les noms de colonne. Par exemple le graphique de la gure G.1 a ete cree
en tapant
tab <- table(hebergement$age, hebergement$logement)
[Link](tab, csize = 2, [Link] = colnames(tab))
(8) Calcul des indicateurs statistiques en une seule etape.
On peut utiliser la fonction [Link] (voir annexe L) disponible sur le site et qui
fournit directement les valeurs de 2 , V , w et pc :
124
plus_de_65
6065
5559
5054
4049
3039
2529
2024
1619
non_camping
camping
Figure G.1. Le graphique illustrant la table de contingence des donnees du chier [Link].
[Link](hebergement$age, hebergement$logement)
$chi2
[1] 32.51069
$V
[1] 0.2345413
$w
[1] 0.2345413
$pc
[1] 7.54284e-05
renvoie bien les valeurs indiquees par (G.7), (G.8), (G.9) et (G.10).
Notez que cette fonction a un argument facultatif tabcontingence, egal a` faux par defaut. Sil
est vrai, cette fonction renvoie en outre la table de contingence :
[Link](hebergement$age, hebergement$logement, tabcontingence = T)
$[Link]
y
x
16-19
20-24
25-29
30-39
UCBL/UFRSTAPS
camping non_camping
7
4
43
21
37
37
99
78
2014-2015 Automne M2IGAPAS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
G.6. EL
DE CORRECTION
40-49
50-54
55-59
60-65
plus_de_65
79
19
15
9
2
125
62
25
15
15
24
$chi2
[1] 32.51069
$V
[1] 0.2345413
$w
[1] 0.2345413
$pc
[1] 7.54284e-05
Exercice G.5. Considerons le jeu de donnees portant sur 592 etudiants (extrait de [14]) Pour chaque
etudiant on a observe 3 variables qualitatives : la couleur des cheveux, la couleur des yeux et le sexe. Les
donnees se trouvent dans le chier [Link] que vous pouvez telecharger `a lURL habituelle.
Calculer la taille deet, le coecient de Cramer et la probalite critique entre les deux variables la couleur
des cheveux et la couleur des yeux. Conclure
Voir elements de correction page 125
ements de correction
G.6. El
El
ements de correction de lexercice G.5
La table de contingence donne
x
y
Bleu Marron Noisette Vert
Blond
94
7
10
16
Marron
84
119
54
29
Noir
20
68
15
5
Roux
17
26
14
14
Bleu Marron Noisette Vert
Blond
94
7
10
16
Marron
84
119
54
29
Noir
20
68
15
5
Roux
17
26
14
14
Table G.5. Table de contigence des couleurs de cheveux en fonction de celle des yeux
Ces resultats sont presentes dans le tableau G.5. Avec les notations precedentes, on a
p = 4,
q = 4,
n = 592
126
On obtient gr
ace `
a
,
2 = 138.289842,
pc = 2.32529e 25.
2
,
n
= 0.483319
w=
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE H
H.1. Introduction
La situation statistique visee est extremement courante : il sagit du cas o`
u deux mesures sont prises
sur un meme echantillon dunites statistiques, lune etant numerique et lautre categorielle. On peut ainsi
comparer la taille dans des groupes dhommes et de femmes. On peut comparer des performances de vitesse
selon dierentes methodes dentranement. On peut comparer des chires de vente selon les vendeurs, ou les
journees de la semaine.
Nous allons pour commencer prendre une situation simple : le chier [Link] contient les notes
detudiants repartis dans trois groupes de TD.
On souhaite donc sur cet exemple comparer les 15 groupes detudiants sur la base de leur note. En
particulier, on va se demander si les notes dependent du groupe. Le meme probl`eme peut se poser en termes de
liaison et non pas de comparaison : Est-ce que la note de statistique est reliee au groupe ? Cest cette deuxi`eme
formulation qui va expliquer lorganisation informatique des donnees.
H.2. Avec R
Nous avons deux mesures pour chaque unite statistique, ce qui signie que le tableau de donnees va avoir
15 lignes (les 15 etudiants) et 2 colonnes (les 2 variables mesurees). On peut voir cette organisation en allant
chercher le chier [Link] et en limportant sous le nom notes3TDbis.
On verie que la variable notes est bien une variable numerique et la variable groupes est bien une
variable categorielle 1.
128
10
5
notes
15
boxplot(notes~groupes,data=notes3TDbis)
ou
boxplot(notes~groupes,xlab="groupes",ylab="notes",data=notes3TDbis)
On peut aussi utiliser une autre syntaxe equivalente (plus universelle) :
boxplot(notes3TDbis$notes~notes3TDbis$groupes)
G1
G2
G3
groupes
Figure H.1. La collection de boites de dispersion des notes par groupe (donnees [Link])
Que voit-on sur le graphique H.1 ? Commencons par decrire la centralite : les trois medianes semblent etre
assez dierentes (11, 5 et 16)
En ce qui concerne la dispersion, les trois groupes sont dierentes. Enn, il ne semble pas y avoir de valeurs
extremes (il est vrai quavec des notes de 0 a` 20, cest peu probable).
Comme il y a tr`es peu de donnees par groupe, on peut egalement envisager la creation dune collection de
ligne de points (cf. gure H.2 page suivante) Pour obtenir ce dessin, il faut taper dans la fenetre Rgui
stripchart(notes3TDbis$notes~notes3TDbis$groupes,xlab="notes",ylab="groupes",method="stack")
Cours de Statistiques
J
er
ome BASTIEN
129
G2
G1
groupes
G3
H.2. AVEC R
10
15
notes
Figure H.2. La collection de lignes de points des notes par groupes (donnees [Link])
G2 5.428571 2.299068 2 4.0
5 7.5
G3 15.400000 1.516575 13 15.0 16 16.0
Sans Rcmdr :
Plusieurs solutions dierentes :
8 7
17 5
(1) Il faut calculer les statistiques, groupes par groupes, en tapant par exemple
summary(notes3TDbis$notes[notes3TDbis$groupes=="G1"])
ce qui donne
Min. 1st Qu.
10.00
10.50
Median
11.00
Max.
13.00
puis
mean(notes3TDbis$notes[notes3TDbis$groupes=="G1"])
ce qui donne
[1] 11.33333
et enn
sd(notes3TDbis$notes[notes3TDbis$groupes=="G1"])
ce qui donne
[1] 1.527525
Et ainsi de suite pour les autres groupes ce qui donnerait
Min. 1st Qu.
2.000
4.000
Median
5.000
Max.
8.000
130
[1] 5.428571
[1] 2.299068
puis
Min. 1st Qu.
13.0
15.0
Median
16.0
Max.
17.0
[1] 15.4
[1] 1.516575
(2) On peut automatiser cela en utilisant une boucle sur les niveaux de la variable Cheveux
ni <- levels(notes3TDbis$groupes)
for (i in 1:length(ni)) {
print(ni[i])
print(summary(notes3TDbis$notes[notes3TDbis$groupes == ni[i]]))
print(sd(notes3TDbis$notes[notes3TDbis$groupes == ni[i]]))
}
(3) On pourra aussi utiliser la fonction [Link], disponible a` lURL habituelle et taper
(pour comprendre la synthaxe utilisee, voir lannexe L page 177)
[Link](notes3TDbis$notes,notes3TDbis$groupes)
ou encore
res<-[Link](notes3TDbis$notes,notes3TDbis$groupes)
res$[Link]
ou ce qui est equivalent
[Link](notes3TDbis$notes,notes3TDbis$groupes)$[Link]
Vous devriez obtenir le resultat de sortie
mean
sd 0% 25% 50% 75% 100% n
G1 11.333333 1.527525 10 10.5 11 12.0
13 3
G2 5.428571 2.299068 2 4.0
5 7.5
8 7
G3 15.400000 1.516575 13 15.0 16 16.0
17 5
Ici, on indique dabord la donnee quantitative (ou numerique) puis la qualitative (ou categorielle).
On constate que les trois groupes sont assez heterog`enes.
Cours de Statistiques
J
er
ome BASTIEN
G2
131
G1
G1
G2
H.2. AVEC R
20 10
10
20
30
40
20 10
10
20
30
40
20
30
40
G1
G1
G2
Y2
G2
Y1
20 10
10
Y3
20
30
40
20 10
10
Y4
Figure H.3. Quatre situations concernant deux groupes avec 5 mesures numeriques pour chacun
Dans la deuxi`eme situation, les elements dun groupe nont pas tous la meme valeur, mais on voit que ces
groupes sont relativement homog`enes (leur ecart-type est petit) et quon peut assez bien dierencier un
groupe de lautre (leurs moyennes sont dierentes). La relation est forte. Pour reprendre la formulation
precedente, la variabilite que lon observe entre les valeurs provient largement de la dierence entre les
moyennes des groupes et dans une moindre mesure de la variabilite interne aux groupes.
Dans la troisi`eme situation, les elements dun groupe ont des valeurs assez dierentes, en tout cas, on a
plus de mal `a distinguer les dierences entre les groupes. La relation est faible. La variabilite entre les
valeurs provient largement de la variabilite interne aux groupes.
Dans la derni`ere situation, les elements dun groupe ont des valeurs dierentes, mais surtout les moyennes
des groupes ne permettent plus de les distinguer. La relation est nulle. La variabilite entre les valeurs
est enti`erement causee par la variabilite interne aux groupes et plus du tout par les dierences entre les
moyennes des groupes.
An de bien visualiser la relation entre une variable quantitative et une variable qualitative, nous avons
construit la representation suivante des notes issues du chier [Link] en gure H.4 page suivante
avec
Les groupes sont representes en vertical, la variable quantitative en horizontal
Un carre blanc represente un individu
Les points rouges representent les moyennes dans chaque groupe
La ligne en pointille represente la moyenne de lensemble des individus
Les traits bleus representent les ecarts entre les moyennes des groupes et la moyenne de lensemble.
Ainsi, pour chaque note, on sinteresse a` determiner si sa part dans la variabilite generale provenait plus
des dierences entre les groupes ou bien de la dierence `a linterieur du groupe auquel elle appartient.
Sur le graphique H.4 page suivante, on voit pour une donnee que sa part dans la variabilite generale est
mesurable par sa distance a` la moyenne generale (en bleu) dite distance totale. Cette distance est elle-meme
G1
G2
G3
132
10
15
Figure H.4. La collection de lignes de points des notes par groupes (donnees
[Link]) et les moyennes des groupes.
decomposable en deux parties, une premi`ere partie qui mesure la dierence de son groupe par rapport `a
lensemble et qui est la distance entre la moyenne du groupe et la moyenne generale, et une seconde partie qui
est la distance entre la valeur et la moyenne de son groupe. En dautres termes, pour chaque valeur yij qui
appartient au j `eme groupe, on se demande si sa distance `a la moyenne generale M soit yij M provient plus
de la distance interne a` son groupe, cest-`a-dire a` la moyenne Mj de son groupe, soit yij Mj , ou bien de la
distance de la moyenne de son groupe a` la moyenne generale soit Mj M . On peut ecrire
yij M = (yij Mj ) + (Mj M ).
Or, cette relation reste vraie lorsque ses elements sont mis au carre et ajoutes (cest une forme du theor`eme de
Pythagore). Cest ce quon appelle la decomposition de la somme des carres
SCTotale = SCInter-Groupes + SCIntra-Groupes ,
o`
u SCTotale est la somme totale des carres, SCInter-Groupes est la variation inter-groupes et SCIntra-Groupes est
la variation intra-groupes. Si on fait le lien avec ce qui a ete dit precedemment, on peut alors quantier la
force de la relation suivant limportance que prend la somme des carres inter-groupes par rapport `a la somme
des carres totale. Plus sa part est grande, plus les deux variables sont reliees, car la plus grande partie de la
variabilite vient des dierences entre les groupes et non pas des dierences internes aux groupes.
On a en fait avec n unit
es statistiques au total et nj unit
es dans le groupe j (j = 1, , G) :
nj
G
j=1 i=1
(yij M )2 =
SCTotale
G
j=1
nj (Mj M )2 +
SCInter-Groupes
nj
G
j=1 i=1
(yij Mj )2 .
SCIntra-Groupes
(H.1)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
H.2. AVEC R
133
D
efinition H.2. Le rapport de correlation donne la somme des carres (de la variable numerique) qui
est expliquee par la prise en compte de la variable categorielle, cest-`
a-dire le rapport de la somme des carres
inter-groupes sur la somme des carres totale :
RC =
SCInter-Groupes
SCTotale
(H.2)
Il est toujours compris entre 0 et 1. Proche de zero, les deux variables sont peu reliees, proche de 1 elles le sont
fortement.
Exemple H.3. Donnons les dierentes valeurs des RC pour lexemple H.1 page 130 qui sont dans lordre
des graphiques de la gure H.3 page 131
RC1 = 1,
RC2 = 0.847458,
RC3 = 0.118357,
RC4 = 0.
Ainsi, les quatre graphiques montrent lexemple de variables allant successivement dune situation tr`es fortement
liee `a une situation non liee.
En fait, gr
ace `
a (H.1), on a lexpression exacte du RC :
G
RC =
nj (Mj M )2
j=1
nj
G
(H.3)
(yij M )2
j=1 i=1
3Q
1.5857
Max
2.5714
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
11.333
1.125 10.072 3.31e-07 ***
notes[, [Link][2]]G2 -5.905
1.345 -4.390 0.00088 ***
notes[, [Link][2]]G3
4.067
1.423
2.857 0.01443 *
2. Il est possible de le faire en cliquant le nom de ces variables dans la liste au dessus. Toutefois, Attention, pour les versions
de R ant
erieures `
a 7.2, lorsque la variable categorielle est choisie pour la cellule de droite, elle est accompagn
e entre crochets de
lexpression factor. Il faut absolument
eliminer cette mention sinon il y a un bug !. Ce bug a
et
e corrig
e dans les versions suivantes
de R.
134
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
3Q
1.5857
Max
2.5714
Coefficients:
Estimate Std. Error
(Intercept)
11.333
1.125
notes[, [Link][2]]G2 -5.905
1.345
notes[, [Link][2]]G3
4.067
1.423
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05
t value Pr(>|t|)
10.072 3.31e-07 ***
-4.390 0.00088 ***
2.857 0.01443 *
'.' 0.1 ' ' 1
Cours de Statistiques
J
er
ome BASTIEN
< RC1 ,
la signicativite pratique
> RC3 ,
la signicativite pratique
135
(H.4)
(H.5)
10
5
notes
15
136
G1
G2
G3
G2
G1
groupes
G3
groupes
10
15
notes
Figure H.5. Les collections de boites de dispersion et des lignes de points des notes par
couleurs de cheveux (donnees [Link])
renvoie bien les valeurs indiquees precedemment. On pourra aussi obtenir directement les collections de botes
`a moustaches et de lignes de points en tapant
[Link](notes3TDbis$notes,notes3TDbis$groupes,fig=T)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
H.5. EL
DE CORRECTION
137
ou encore
[Link](notes3TDbis$notes,notes3TDbis$groupes,fig=T,labelX="notes",labelgpe="groupes")
ce qui donne la gure H.5 page ci-contre.
brune
1
4
2
4
3
17.5
4
12.5
5
7.5
6
8
7
13
8
12
Table H.1. Notes de statistique selon la couleur de cheveux des etudiantes
` loccasion dune surveillance dexamen, un enseignant a decide de relever la couleur des cheveux des
A
etudiantes en L3 Management des Organisations Sportives et, un peu plus tard, en corrigeant leurs copies de
statistique a` laveugle, a conserve leurs notes, ce qui donne le tableau suivant H.1.
Voir le chier [Link].
Est-ce que la note de statistique est reliee a` la couleur des cheveux ?
Voir elements de correction page 137
Exercice H.5 (facultatif). Le chier [Link] contient exactement les memes donnees que son
homologue [Link], excepte les fait que les groupes sont appeles 1, 2 et 3, au lieu de G1, G2
et G3 !
Decrire graphiquement et numeriquement les groupes de ce chier.
Voir elements de correction page 139
Exercice H.6 (facultatif). Lentranement intensif conduit a` des perturbations physiologiques chez les
sportifs de haut niveau. Cela est bien connu chez les femmes avec des dysfonctionnements de leur cycle menstruel. Peut-on egalement constater un impact de lentranement sur les fonctions hormonales et reproductives
des hommes ?
Apr`es prel`evement de sang veineux, Ayers et al. evaluent la testosterone totale pour vingt coureurs a` pieds,
parcourant au moins 45 kilom`etres par semaine, et un groupe de contr
ole de dix individus, dages similaires,
en bonne sante
Les donnees sont reunies dans le chier [Link], la variable Taux correspond a` la mesure de
testosterone et la variable Sujets| permet de distinguer les deux groupes. Decrire graphiquement et numeriquement les deux groupes. Quen pensez-vous ?
Voir elements de correction page 141
ements de correction
H.5. El
El
ements de correction de lexercice H.4
On etudie le croisement de la variable quantitative (ou numerique) Notes et de la variable qualitative
(ou categorielle) Cheveux.
138
12
10
4
Notes
14
16
18
blonde
brune
brune
blonde
Cheveux
Cheveux
10
12
14
16
18
Notes
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
H.5. EL
DE CORRECTION
blonde
brune
le
le
le
le
nombre
nombre
nombre
nombre
note
note
note
note
moyenne
11.00
9.81
ecart-type
3.19
4.74
0%
6.50
4.00
25%
8.75
6.62
50%
11.00
10.00
139
75%
13.75
12.62
100%
14.50
17.50
n
7
8
Commencons par decrire la centralite : dans chaque groupe, il semble que le centre soit proche de 10,
il y a peu de dierences. En ce qui concerne la dispersion, le groupe des jeunes femmes brunes parat avoir
plus dheterogeneite. Enn, il ne semble pas y avoir de valeurs extremes (il est vrai quavec des notes
de 0 a` 20, cest peu probable). On constate, gr
ace aux statistiques par groupes que les moyennes (et les
medianes) sont proches et quelles sont plut
ot plus elevees chez les etudiantes blondes. Les statistiques
de dispersion montrent que les etudiantes brunes sont un peu plus heterog`enes.
Conrmons cela grace `
a .
sont les suivants :
Les autres resultats donnes par
Noms des indicateurs
Valeurs
On peut donc armer quil existe peu de relation entre les variables Notes et Cheveux.
El
ements de correction de lexercice H.5
Avec Rcmdr :
En faisant la manipulation decrite precedemment, on obtient
Call:
lm(formula = notes[, [Link][1]] ~ notes[, [Link][2]])
Residuals:
Min
1Q
-7.5345 -3.5345
Median
0.4741
3Q
3.4741
Max
6.4569
Coefficients:
Estimate Std. Error t
(Intercept)
3.552
3.714
notes[, [Link][2]]
2.991
1.650
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05
value Pr(>|t|)
0.956
0.356
1.813
0.093 .
'.' 0.1 ' ' 1
140
3Q
1.5857
Max
2.5714
Coefficients:
Estimate Std. Error
(Intercept)
11.333
1.125
[Link](notes[, [Link][2]])2 -5.905
1.345
[Link](notes[, [Link][2]])3
4.067
1.423
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
t value Pr(>|t|)
10.072 3.31e-07 ***
-4.390 0.00088 ***
2.857 0.01443 *
1
(H.6)
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
H.5. EL
DE CORRECTION
141
El
ements de correction de lexercice H.6
Comme decrit precedemment, on peut tracer pour les donnees [Link] une collection de ligne
de points et une collection de bote de dispersion (voir gure H.6).
Les statistiques par groupes fournissent :
mean
sd 0%
25% 50%
75% 100% n
athl`
ete 4.20 2.110375 0.9 2.775 3.9 5.700 9.0 20
contr^
ole 6.94 1.075174 5.4 6.175 6.9 7.375 8.9 10
A priori, au vu des graphiques H.6 et des resultats precedent, il y a une forte dependance de la note par
rapport au groupe : deux moyennes tr`es dierentes selon les groupes et des ecart-types dierents.
Calculons maitenant le rapport de correlation et la probabilite critique en tapant
[Link](TESTOSTERONE$Taux,TESTOSTERONE$Statut)
$RC
[1] 0.3449994
$pc
[1] 0.0006437071
$[Link]
mean
sd 0%
25% 50%
75% 100% n
athl`
ete 4.20 2.110375 0.9 2.775 3.9 5.700 9.0 20
contr^
ole 6.94 1.075174 5.4 6.175 6.9 7.375 8.9 10
On obtient donc
RC = 0.344999,
pc = 0.000643707.
Ainsi, les variables tr`es sont fortement liees, ce qui conrme notre observation faite a priori. La probabilite
critique nous indique que la liaison est statistiquement signicative.
athlte
contrle
Statut
142
Taux
Taux
athlte
contrle
Statut
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE I
R
ecapitulatif des notions et commandes essentielles (statistiques
descriptives)
Vous trouverez dans ce chapitre les notions et commandes essentielles `a retenir.
Compte tenu des modications mineures faites en cours de semestre, les numeros de pages indiquees
peuvent avoir change par rapport `
a la version papier distribuee : il faut donc se referer au dernier document
electronique de ce cours en pdf, disponible sur le web et sur le reseau de luniversite.
Vous trouverez `
a partir de la section I.1.1 page suivante les manipulations avec Rcmdr et `a partir de la
section I.3.1 page 146 les manipulations directement avec Rgui.
143
144
I. RECAPITULATIF
DES NOTIONS ET COMMANDES ESSENTIELLES (STATISTIQUES DESCRIPTIVES)
(1) Dans le menu deroulant Donnees de Rcmdr, choisir loption Importer des donnees puis Depuis un
chier texte ou le presse-papier.... Dans la fenetre de dialogue qui souvre, donner un nom au jeu de
donnees (`a la place de Dataset, choisi par defaut), le nom du chier texte sans extension, cest-`a-dire :
nom. Laisser les autres champs avec les valeurs choisies par defaut.
(2) Employer la fenetre qui souvre alors pour retrouver le chier a` importer ([Link]).
(3) Cliquer alors eventuellement sur le bouton Visualiser.
I.1.3.1. Indicateurs.
Pour acher les dierentes frequences et les pourcentages, il faut aller dans le menu deroulant Statistiques
du Rcommander et choisir les options Resumes et Distributions de frequences.
I.1.3.2. Graphiques.
(1) Peu de donnees :
Camembert (tourte) :
Aller dans le menu deroulant Graphes de Rcmdr et choisir loption Graphe en camembert.
Diagramme en barre
Aller dans le menu deroulant Graphes de Rcmdr et choisir loption Graphe en barres.
(2) Beaucoup de donnees :
Diagramme de Cleveland : il faut taper dans la fenetre de Rgui
dotchart(table(nom$variableY))
Diagramme de Cleveland (classe) : il faut taper dans la fenetre de Rgui
dotchart(sort(table(nom$variableY)))
I.1.4.1. Indicateurs.
On utilise le menu deroulant Statistiques, puis les options Resumes et Statistiques descriptives.
I.1.4.2. Graphiques.
(1) Peu de donnees :
Ligne de point (avec empilement) : il faut taper dans la fenetre de Rgui
stripchart(nom$variableY, method = "stack")
(2) Beaucoup de donnees :
Histogramme : Il faut utiliser le menu deroulant Graphes et loption Histogramme.
Bote de dispersion : Il faut utiliser le menu deroulant Graphes, puis Bote de dispersion.
Cours de Statistiques
J
er
ome BASTIEN
(AVEC RCMDR)
I.2. ANALYSE BIVARIEE
145
146
I. RECAPITULATIF
DES NOTIONS ET COMMANDES ESSENTIELLES (STATISTIQUES DESCRIPTIVES)
I.3.2.1. Indicateurs.
Acher les dierentes frequences de la variable variableY :
table(nom$variableY)
Acher les dierentes frequences de la variable variableY en les triant :
sort(table(nom$variableY))
Acher les dierents pourcentages de la variable variableY :
u <- table(nom$variableY)
100 * u/sum(u)
Acher les dierents pourcentages de la variable variableY en les triant :
u <- sort(table(nom$variableY))
100 * u/sum(u)
I.3.2.2. Graphiques.
(1) Peu de donnees :
Camembert (tourte)
pie(table(nom$variableY))
Diagramme en barre
barplot(table(nom$variableY))
Diagramme en barre (classe)
barplot(sort(table(nom$variableY)))
(2) Beaucoup de donnees :
Diagramme de Cleveland
dotchart(table(nom$variableY))
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
I.4. ANALYSE BIVARIEE
147
I.3.3.1. Indicateurs.
Acher les dierentes statistiques de la variable variableY (sauf ecart-type) :
summary(nom$variableY)
Acher lecart-type de la variable variableY :
sd(nom$variableY)
I.3.3.2. Graphiques.
(1) Peu de donnees :
Ligne de point (avec empilement)
stripchart(nom$variableY, method = "stack")
(2) Beaucoup de donnees :
Histogramme
hist(nom$variableY)
Bote de dispersion
boxplot(nom$variableY)
148
I. RECAPITULATIF
DES NOTIONS ET COMMANDES ESSENTIELLES (STATISTIQUES DESCRIPTIVES)
On compare
(1) V `
a 0 et 1 ; sil est proche de 0, les variables ne sont pas liees ; sil est est proche de 1, les variables
sont liees.
(2) w aux seuils de Cohen (0.1, 0.3, 0.5) (voir equation (G.5) page 120) ;
(3) pc `
a la valeur seuil de 0.05 (voir denition F.4 page 103).
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE J
Projet
Ce projet ne sera plus traite en cours, contrairement aux annees precedentes, mais pourra tenir lieu de
revisions `a faire chez vous !
J.1. Quelques d
enitions
J.1.1. OVE : oeuvre des villages denfants
Voir par exemple [Link]
Voir aussi le polycopie de cours [15].
150
J. PROJET
n 89-17 du 30 octobre 1989. Ils regroupent les anciens IMP et IMPro. Les IME ont souvent ete au depart
des fondations caritatives, generalement `a linitiative de familles bourgeoises touchees par le handicap mental.
Meme sils sont desormais `a nancement quasi exclusivement public, apr`es agrement par les DDASS, la grande
majorite des IME restent a` gestion associative. Ils sont dierencies par degres de gravite de la decience du
public accueilli. La plupart disposent dun internat, mais laccueil en demi-pension est de plus en plus souvent
pratique.
J.2. Travail `
a fournir
J.2.1. Importation des donnees
Toutes les donnees se trouvent a` lURL habituelle.
(1) Consulter le chier dexemple BiviersSessad_brutes.pdf (il contient les donnees du SESSAD OVE
a Biviers) et verier quil contient bien les indicateurs (denis dans la section J.1.7) a` identier :
`
UCBL/UFRSTAPS
A11-A115 : age
A1/A2/A : sexe
C1/C2 : duree du sejour
D1-D8 : temps actif mobilisable
ES11-ES99 : repartition de la population suivant leurs deciences, hors ITEP
G11-G22 idem mais pour les ITEP
E1/E2 : heures de formation
F1/F2 : nombre de travailleurs handicapes
W : capacite autorisee
H1-H6 : qualication
2014-2015 Automne M2IGAPAS
Cours de Statistiques
J
er
ome BASTIEN
` FOURNIR
J.2. TRAVAIL A
151
152
J. PROJET
J.3. Quelques
el
ements de correction
J.3.1. Analyses univariees
(1) (a) On etudie la variable quantitative (ou numerique) W. Pour les manipulations avec , on
renvoie donc aux sections E.2 et E.3 et aux sections recapitulatives I.1.1 et I.1.4 du document
de cours.
Les dierents resultats determines par
sont donnes dans le tableau suivant
noms
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
35.347826
27.64484
11.5
28
45
10
105
29
Ligne pour W
6
4
0
Frequency
10
Histogramme pour W
20
40
60
80
100
120
20
40
60
80
100
60
20
40
80
100
Bote pour W
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
153
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
65.551724
63.294429
28
40
83
8
254
29
Ligne pour A
10
0
Frequency
15
Histogramme pour A
50
100
150
200
250
300
150
0
50
100
200
250
Bote pour A
50
100
150
A
200
250
154
J. PROJET
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
9.896552
6.914503
5
10
13
0
26
29
Ligne pour C1
6
4
0
Frequency
Histogramme pour C1
10
15
20
25
30
10
C1
15
20
25
C1
15
0
10
C1
20
25
Bote pour C1
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
155
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
13104.962963
13743.668032
2464
6910
19151.5
0
44311
29
Ligne pour C2
10
5
0
Frequency
15
Histogramme pour C2
10000
30000
50000
C2
10000
C2
30000
Bote pour C2
156
J. PROJET
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
376.479091
332.225059
102.75
293
593.5
14
910.02
29
Ligne pour E1
2
0
Frequency
Histogramme pour E1
200
400
600
800
1000
200
400
E1
600
800
E1
E1
200
400
600
800
Bote pour E1
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
157
38
42
69
73
74
eectifs
5
7
11
2
4
pourcentages
17.241
24.138
37.931
6.897
13.793
74
73
69
42
38
10
38
42
69
73
departement
74
69
73
74
158
J. PROJET
eectifs
1
1
1
11
1
1
1
12
CHRS
DDASS
I M E IR
I.M.E.
ITEP
SAISP
Service de Suite
SESSAD
pourcentages
3.448
3.448
3.448
37.931
3.448
3.448
3.448
41.379
10
SESSAD
Service de Suite
SAISP
ITEP
I.M.E.
I M E IR
DDASS
CHRS
2
10 12
CHRS I M E IR
ITEP
SESSAD
categorie
ITEP
SAISP
Service de Suite
I M E IR
DDASS
CHRS
SESSAD
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
159
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
1027.768537
622.012872
550.24359
891.128571
1490.063187
63.333333
2477.7
29
6
4
0
Frequency
500
1000
1500
2000
2500
500
C2/C1
1500
0
500
C2/C1
2500
1000
1500
C2/C1
2000
2500
160
J. PROJET
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
53.467095
22.28414
35.526316
50
74.468085
21.875
100
29
6
4
0
Frequency
20
40
60
80
100*A1/A
100
20
40
60
80
100
100*A1/A
60
20
40
100*A1/A
80
100
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
161
valeurs
moyenne
ecart-type
Q1 (quartile a` 25 %)
mediane
Q3 (quartile a` 75 %)
minimum
maximum
nombre
48.572844
32.920522
29.954027
48.4375
70.659341
0
100
29
4
0
Frequency
20
40
60
80
100
100*(A11+...+A15)/A
20
40
60
80
100
100*(A11+...+A15)/A
80
60
40
20
0
100*(A11+...+A15)/A
100
162
J. PROJET
500
1000
C2/C1
1500
2000
2500
(1)
20
40
60
80
100
100*(A11+...+A15)/A
Sans Rcmdr :
C2/C1
2000
1500
1000
500
0
0
20
40
60
80
100
100*(A11+...+A15)/A
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
EMENTS
J.3. QUELQUES EL
DE CORRECTION
163
.
sont les suivants :
Noms des indicateurs
Valeurs
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilite critique pc
1.668168
929.753528
0.087175
0.678617
faible
non
On peut donc armer il existe une relation faible entre les variables 100*(A11+...+A15)/A
et C2/C1.
164
J. PROJET
(2)
38
42
69
73
74
CHRS
0
0
1
0
0
DDASS
0
0
1
0
0
I M E IR
0
0
1
0
0
I.M.E.
1
4
4
0
2
ITEP
1
0
0
0
0
SAISP
1
0
0
0
0
SESSAD
2
3
3
2
2
Service de Suite
0
0
1
0
0
coecient de Cramer V
taille deet w
probabilite critique pc
Valeurs
20.437525
0.419745
0.839489
0.847997
On compare la taille deet w=0.839489 aux seuils de Cohen (0.1,0.3,0.5) (voir [13]) et la
probabilite critique pc =0.847997 `a la valeur seuil de la probabilite critique 0.05 et on deduit les
resultats suivants sur la signicativite de la liaison :
signicativite pratique
tr`
es forte
signicativite statistique non
On peut donc armer quil existe une relation entre les variables departement et categorie, cepandant labsence de signicativite statistique (probabelement due aux faibles nombres
detablissement nous invite `a nous meer de cette relation.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE K
Un exemple p
edagogique sur les danger de la r
egression lin
eaire
(sous forme dexercice corrig
e)
Cet exercice a dej`
a ete donne en examen de M1IGAPAS (CCF2 Automne 2009).
Enonc
e
Exercice K.1.
On etudie le chier de donnees [Link].
(1) Etudier
successivement et de facon graphique les relations lineaires entre les variables :
X et Y1 ;
X et Y2 ;
X et Y3 ;
Xp et Yp.
(2) Pour chacune de ces relations lineaires, determiner les coecients de correlations lineaires et les
probabilites critiques.
(3) Conclure.
Corrig
e
El
ements de correction de lexercice K.1
Cet exemple pedagogique a ete mis au point par Anscombe [16] et provient de louvrage [4].
(1) On etudie le croisement de la variable quantitative (ou numerique) X et de la variable quantitative
(ou numerique) Y1. Pour les manipulations avec , on renvoie donc a` la section F.5 du document
de cours.
On a indique en gures K.1 page 168 et K.2 page 169, les quatres nuages de points et les droites
de regression lineaire (obtenues avec Rcmdr). On a indique en gure K.3 page 170 et K.4 page 171,
les quatres nuages de points et les droites de regression lineaire.
Le premier presente un nuages de points qui semblent etre a` peu pr`es alignes, pour lequel la
regression lineaire a lair pertinente.
Le deuxi`eme graphique nous indique un nuage de point en forme de parabole tournee vers le
bas ; la regression lineaire nest donc pas pertinente.
Sur le troisi`eme graphique, on peut constater, quhormis le dernier point, les points ont lair
detre alignes. Cependant, ce dernier point, mesure extreme, a tendance a` attirer la droite et la
modie par rapport au nuage de point sans cette donnee extreme ; la regression lineaire nest
donc pas pertinente.
Enn, sur le quatri`eme graphique, on constate que tous les points sauf un, on la meme abscisse.
Il nexiste donc pas de droite de regression pour les premiers points. Le dernier point modie
sensiblement la droite de regression ; la regression lineaire nest donc pas pertinente.
K. UN EXEMPLE PEDAGOGIQUE
SUR LES DANGER DE LA REGRESSION
LINEAIRE
166
Valeurs
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilite critique pc
0.812452
0.451378
0.786901
0.000298198
On compare la valeur absolue de la correlation lineaire r =0.786901 aux seuils de Cohen (0.1,0.3,0.5)
(voir [13]) et la probabilite critique pc =0.000298198 `a la valeur seuil de la probabilite critique 0.05 et
on deduit les resultats suivants sur la signicativite de la liaison lineaire :
signicativite pratique
signicativite statistique
Croisement
X,Y1
X,Y2
X,Y3
Xp,Yp
tr`
es forte
oui
pente a
ordonnee `a lorigine b
correlation lineaire r
probabilites critique pc
0.81245168
0.80852812
0.80619049
0.78255247
0.45137803
0.52367369
0.55752951
1.30087118
0.78690107
0.78539584
0.78427149
0.78384874
0.0002982
0.00031191
0.00032249
0.00032654
Dans le tableau ci-dessous, on a indique les quatre pentes et ordonnees a` lorigine, ainsi que les
quatre coecients de correlation lineaire et les quatre probabilites critiques obtenues. Les trois premi`eres pentes et ordonnees lorigine sont `a peu pr`es egales ! Ainsi, les quatre nuages de points donnent
memes correlations lineaires et memes probabilites critiques ! Cependant, dapr`es nos observations
graphiques precedentes, seule la premi`ere regression lineaires est pertinente.
(3) La morale de lhistoire, cest quil convient donc toujours de commencer par une visualisation des
donnees avant de continuer les calculs de correlation lineaire et de probabilite critique !
Remarque K.2. Les donnees etudiees ici, creees de facon pedagogiques par Anscombe, sont en fait dej`a
! Il sut de taper dans
:
presentes dans
data(anscombe)
anscombe
Les variables du data frame anscombe sont : x1, x2, x3, x4, y1, y2, y3 et y4.
On obtient des nuages de points un peu dierents que ceux crees par le chier de donnees, mais leurs
proprietes sont les memes !
Croisement
x1,y1
x2,y2
x3,y3
x4,y4
UCBL/UFRSTAPS
pente a
ordonnee a` lorigine b
correlation lineaire r
probabilites critique pc
0.50009091
0.5
0.49972727
0.49990909
3.00009091
3.00090909
3.00245455
3.00172727
0.81642052
0.81623651
0.81628674
0.81652144
0.00216963
0.00217882
0.00217631
0.0021646
Cours de Statistiques
J
er
ome BASTIEN
CORRIGE
167
Dans le tableau ci-dessous, on a indique les quatre pentes et ordonnees `a lorigine, ainsi que les quatre
coecients de correlation lineaire et les quatre probabilites critiques obtenues pour les donnees anscombe.
On a indique en gures K.5 page 172 et K.6 page 173, les quatres nuages de points et les droites de
regression lineaire (obtenues avec Rcmdr). On a indique en gure K.7 page 174 et K.8 page 175, les quatres
nuages de points et les droites de regression lineaire.
On pourra aussi consulter la rubrique de Wikipedia sur le quartet danscombe :
[Link]
K. UN EXEMPLE PEDAGOGIQUE
SUR LES DANGER DE LA REGRESSION
LINEAIRE
10
Y1
15
20
168
10
15
20
10
0
Y2
15
10
15
20
Figure K.1. Les deux premiers nuages de points et les droites de regression lineaire (avec Rcmdr).
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CORRIGE
20
10
15
Y3
25
30
169
10
15
20
15
5
10
Yp
20
25
15
20
25
30
Xp
Figure K.2. Les deux derniers nuages de points et les droites de regression lineaire (avec Rcmdr).
K. UN EXEMPLE PEDAGOGIQUE
SUR LES DANGER DE LA REGRESSION
LINEAIRE
170
Y1 en fonction de X
20
Y1
15
10
5
10
15
20
Y2 en fonction de X
Y2
15
10
5
0
10
15
20
Figure K.3. Les deux premiers nuages de points et les droites de regression lineaire.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CORRIGE
171
Y3 en fonction de X
30
Y3
25
20
15
10
10
15
20
Yp en fonction de Xp
25
Yp
20
15
10
5
15
20
25
30
Xp
Figure K.4. Les deux derniers nuages de points et les droites de regression lineaire.
K. UN EXEMPLE PEDAGOGIQUE
SUR LES DANGER DE LA REGRESSION
LINEAIRE
y1
10
11
172
10
12
14
10
12
14
6
3
y2
x1
8
x2
Figure K.5. Les deux premiers nuages de points et les droites de regression lineaire (avec
Rcmdr) pour les donnees anscombe.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CORRIGE
y3
10
12
173
10
12
14
y4
10
12
x3
10
12
14
16
18
x4
Figure K.6. Les deux derniers nuages de points et les droites de regression lineaire (avec
Rcmdr) pour les donnees anscombe.
K. UN EXEMPLE PEDAGOGIQUE
SUR LES DANGER DE LA REGRESSION
LINEAIRE
174
y1 en fonction de x1
11
10
y1
9
8
7
6
5
4
4
10
12
14
x1
y2 en fonction de x2
9
8
y2
7
6
5
4
3
4
10
12
14
x2
Figure K.7. Les deux premiers nuages de points et les droites de regression lineaire pour les
donnees anscombe.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
CORRIGE
175
y3 en fonction de x3
12
y3
10
8
6
4
10
12
14
x3
y4 en fonction de x4
12
y4
10
8
6
10
12
14
16
18
x4
Figure K.8. Les deux derniers nuages de points et les droites de regression lineaire pour les
donnees anscombe.
ANNEXE L
178
Cours de Statistiques
J
er
ome BASTIEN
179
names(res)
[1] "s" "r"
res$s
[1] 5
res$r
[1] 0.6666667
On peut aussi denir les valeurs des arguments dans le desordre `a condition de specier quel argument
est x et quel argument est y. Comparez ce que donne
somme_rapport(2, 3)
$s
[1] 5
$r
[1] 0.6666667
somme_rapport(3, 2)
$s
[1] 5
$r
[1] 1.5
somme_rapport(x = 2, y = 3)
$s
[1] 5
$r
[1] 0.6666667
somme_rapport(y = 3, x = 2)
$s
[1] 5
$r
[1] 0.6666667
Une fonction peut aussi avoir un argument optionnel. Quand il nest pas indique, il prend la valeur imposee
par defaut par la fonction. Par exemple, si y nest pas indique, il vaut 1. Comparez ce que donne
somme_rapport(2, 1)
$s
[1] 3
$r
[1] 2
somme_rapport(y = 1, x = 2)
180
$s
[1] 3
$r
[1] 2
somme_rapport(2)
$s
[1] 3
$r
[1] 2
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE M
V
erification exp
erimentale de la loi des grands nombres et
statistique inf
erentielle
M.1. La loi des grands nombres
La loi des grands nombres est un resultat tr`es connu en probabilite et statistique et peut prendre beaucoup
de formes dierentes, selon le niveau theorique avec lequel on les etudie !
Cette loi des grands nombres a ete utilisee en fait, au cours du chapitre 3, pour la denition 3.4 page 6
des probabilites. On pourra par exemple consulter le chapitre 3 de [7] ou la page 174 de [9].
Dautres denitions peuvent etre donnees : sur Wikipedia, a` lurl :
[Link] on peut lire par exemple : En statistiques, la
loi des grands nombres indique que lorsque lon fait un tirage aleatoire dans une serie de grande taille, plus
on augmente la taille de lechantillon, plus les caracteristiques statistiques de lechantillon se rapprochent des
caracteristiques statistiques de la population.
Les implication de cette loi peuvent sexprimer de deux facon selon que la variable aleatoire etudiee est
discr`ete ou continue : on suppose que lon realise un grand echantillon a` partir de la variable aleatoire X.
Si la variable aleatoire X est discr`ete, chaque probabilite P (X = x) doit se rapprocher de la frequence
(ou de la proportion de fois) o`
u les valeurs de lechantillon sont egales a` x.
Si la variable aleatoire est continue, lhistogramme en frequence de cet echantillon variable doit se
rapprocher de la densite de probabilite de la loi initiale, pourvu que chacune des classes soit assez petite.
Pseudo-preuve. On peut montrer, sans rigueur mathematique, le second point.
On renvoie a
` la gure M.1 page suivante. On suppose que les classes de lhistogramme sont :
[x1 , x2 [
[x2 , x3 [
...
[xi , xi+1 [
...
[xn , xn+1 ]
et quelles sont toutes de largeur dl, petite.
ee de lhistogramme est q(xi ). On suppose que p(xi ) est la valeur de la densit
e
Dautres part, pour la classe [xi , xi+1 ], lordonn
de probabilit
e au point xi . Il sagit de montrer que
p(xi ) q(xi ).
(M.1)
Par d
enition, la probabilit
e que X appartiennent a
` lintervalle [xi , xi+1 ] est :
xi+1
P (xi X xi+1 ) =
p(x)dx.
xi
Puisque dl est petit, on peut supposer que p ne varie pas sur cet intervalle et quil y vaut p(xi ) ; on a donc
P (xi X xi+1 ) p(xi )(xi+1 xi ) = p(xi )dl.
(M.2)
M. LOI DES GRANDS NOMBRES ET STATISTIQUE INFERENTIELLE
182
p(xi )
Loi de densit
ep
q(xi )
xi+1
xi
xi 1
xn
xn+1
dl
q(xi )dl =
i=1
n
N (xi )dl = dl
i=1
n
N (xi ).
i=1
N (xi )
N dl
(M.4)
egale a
` la proportion de fois o`
u la valeur de l
echantillon est dans
Enn, la probabilit
e P (xi X xi+1 ) est approximativement
lintervalle [xi , xi+1 [ :
N (xi )
P (xi X xi+1 ) =
N
et donc (M.4) fournit
1
q(xi ) = P (xi X xi+1 ).
dl
Enn, on deduit alors de (M.2) :
p(xi )dl P (xi X xi+1 ) = q(xi )dl.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
M.2. SIMULATION
183
M.2. Simulation
Reprenons les trois lois vues au cours du chapitre 3
loi uniforme discr`ete, denition 3.7 page 7,
loi binomiale, denition 3.15 page 13 ;
loi normale, denition 3.34 page 17.
Nous proposons de faire des simulations de ces trois lois qui corroborent experimentalement les consequences de la loi des grands nombres.
En fait, ce nest pas exactement cela que lon teste ; on verie tout simplement que les echantillons produits al
eatoirement
par
2
3
4
log10(|proportion1/6|)
log10(n)
M. LOI DES GRANDS NOMBRES ET STATISTIQUE INFERENTIELLE
184
0.30
0.15
0.00
Probability Mass
Number of Successes
0.30
0.15
0.00
probalit exprimentale
Number of Successes
Cours de Statistiques
J
er
ome BASTIEN
M.2. SIMULATION
185
0.08
0.06
0.00
0.02
0.04
Density
0.10
0.12
0.14
On realise un echantillon de taille n, issu dune loi normale de moyenne et decart-type , on trace un
histogramme en densite avec q classe et on constate que cet histogramme est proche de la densite de probabilite
de la loi normale de moyenne m et decart-type .
10
15
20
25
M. LOI DES GRANDS NOMBRES ET STATISTIQUE INFERENTIELLE
186
Loi theorique
Param`etre (theorique)
probabilite
statistique inferentielle
echantillon
statistique (experimentale)
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
ANNEXE N
ce qui est exactement la valeur de lesperance E(X). On ferait de meme pour lecart-type.
187
ANNEXE O
n
k=0
n
kP (X = k)
k k
kCn
p (1 p)nk
k=0
n
k k
Cn
X (1 p)nk .
(O.1)
k=0
D
erivons ces egalit
es termes a
` termes (par rapport `
a X)
n
k k
Cn
X (1 p)nk
k=0
et donc
n1
n(X + 1 p)
n
k k
Cn
X (1
nk
p)
k=0
soit encore
0
n(X + 1 p)n1 = Cn
(1 p)n +
n
k k
Cn
X (1 p)nk
k=1
n
k
Cn
kX k1 (1 p)nk .
k=1
et donc
nX(X + 1 p)n1 = X
n
k
Cn
kX k1 (1 p)nk
k=0
n
k=1
n
k
Cn
kX k (1 p)nk
k
Cn
kX k (1 p)nk
k=0
n
k k
kCn
p (1 p)nk
k=0
= np(p + 1 p)n1
= np
ce qui est bien la formule annoncee.
Pour calculer l
ecart-type et la variance, on ferait de m
eme.
189
ANNEXE P
On dit que lon obtient la loi binomiale normalisee (desperance nulle et decart-type egal a` 1).
Sur le graphique P.1 page suivante, on a indique le trace de la loi binomiale normalisee sur lintervalle
[3, 3] p = 0.3 et n {5, 20, 150, 200, 1000, 10000, 1e + 06}, ainsi que (pour la derni`ere courbe) la loi normale
de moyenne = 0 et decart-type = 1, qui est la courbe en cloche ideale et qui sera denie dans la section
3.4.3.
Sur la gure suivante P.2 page 193, on a trace les memes elements en normant les probablilites de telle
sorte que la valeur maximale atteinte soit egale a` la valeur maximale de la courbe en cloche ideale (en 0 :
Il y a dans un intervalle, de plus en plus devenements mais la somme de leur probabilite tend vers une
quantitee xee
P ( X ) = Aire sous la cloche ideale entre les abscisses et
(P.2)
La forme de la distribution se stabilise. Pour rendre compte de ce phenom`ene il faut utiliser la fonction de
repartition, cest-`
a-dire les probabilites cumulees de la loi binomiale (voir section 3.3.4 page 15).
En procedant comme dans lexercice 3.32 page 16, on peut tracer le graphique des probabilites cumulees
de la loi binomiale ou ceux de la loi binomiale normalisee. Voir graphique P.3 page 194. La derni`ere courbe est
celle de la loi normale : elle represente laire sous la cloche idealeentre et x.
On appelle ce phenom`ene la convergence en loi de la loi binomiale normalisee vers la loi normale (loi de
la cloche ideale) quand n tend vers linni (avec p constant). La fonction qui est representee sur le dernier
graphe de la gure P.3 est la fonction de repartition de la loi normale.
191
DISCRETE
`
` UNE LOI DE PROBABILITE
CONTINUE
P. PASSAGE DUNE LOI DE PROBABILITE
A
0.10
Proba
0.00
0.15
0.00
Proba
0.30
192
Proba
2
Proba
0.03
0.00
3
Binomiale n = 20
0.06
Binomiale n = 5
Binomiale n = 200
Proba
0.000
0.004
0.015
0.000
Proba
0.008
Binomiale n = 150
Binomiale n = 1000
Binomiale n = 10000
0.0
0.2
Density
4e04
0e+00
Proba
8e04
0.4
Binomiale n = 1e+06
Figure P.1. Les 7 graphes correspondant aux graphes de la loi binomiale normalisee avec
p = 0.3 et n {5, 20, 150, 200, 1000, 10000, 1e + 06}, ainsi que (pour la derni`ere courbe) la loi
normale de moyenne = 0 et decart-type = 1.
P (X = xj )
j:nj ni
remplacee par cette meme somme multipliee par un coecient petitet qui represente une aire approchee
(formule des rectangles) qui est laire sous la courbe pour x X, soit encore, on connat
x
P (X x) =
p(y)dy
(P.3)
p(y)dy
p(y)dy =
p(y)dy
(P.4)
Cours de Statistiques
J
er
ome BASTIEN
0.0
0.2
Proba
0.4
0.2
Proba
0.0
3
0.4
0.2
Proba
0.0
0.2
0.0
Proba
Binomiale n = 20
0.4
Binomiale n = 5
0.2
0.0
0.0
0.2
Proba
0.4
Binomiale n = 200
0.4
Binomiale n = 150
Proba
193
0.4
Binomiale n = 1000
Binomiale n = 10000
0.0
0.2
Density
0.2
0.0
Proba
0.4
0.4
Binomiale n = 1e+06
Figure P.2. Les 7 graphes correspondant aux graphes de la loi binomiale normalisee avec
p = 0.3 et n {5, 20, 150, 200, 1000, 10000, 1e + 06}, ainsi que (pour la derni`ere courbe) la loi
normale de moyenne = 0 et decart-type = 1 avec une valeur maximale imposee.
Si a = x et b = x + dx, o`
u dx est une petite variation,
b
P (x X x + dx) =
x + dxp(y)dy p(x)dx
(P.5)
p(x)dx
(P.6)
o`
u p est la densite de la cloche ideale. Elle sera denie dans la section 3.4.3.
Enn, les notions desperance et decart-type des variables discr`ete passent `a la limite, en remplacant
les sommes par des integrales :
E(X) =
xp(x)dx,
(P.7a)
"
(x E(X)) p(x)dx.
(P.7b)
0.4
0.0
0.0
0.4
0.8
DISCRETE
`
` UNE LOI DE PROBABILITE
CONTINUE
P. PASSAGE DUNE LOI DE PROBABILITE
A
0.8
194
0.4
0.0
0.0
0.4
0.8
Bin Nor n = 20
0.8
Bin Nor n = 5
0.4
0.0
0.0
0.4
0.8
0.8
0.8
0.4
0.0
0.0
0.4
0.8
Cumulative Probability
Normal Distribution: = 0, = 1
Figure P.3. Les 7 graphes correspondant aux graphes des probabilites cumulees de la loi
binomiale normalisee avec p = 0.3 et n {5, 20, 150, 200, 1000, 10000, 1e + 06}, ainsi que (pour
la derni`ere courbe) laire de la cloche ideale.
ements de correction
P.3. El
El
ements de correction de lexercice P.1
Voir en gure P.4 les 6 loi de probabilite obtenues, qui ont lair de se rapprocher dune courbe continue
quand n augmente.
UCBL/UFRSTAPS
Cours de Statistiques
J
er
ome BASTIEN
195
0.00
0.00
0.05
0.10
0.10
0.20
0.15
0.30
EMENTS
P.3. EL
DE CORRECTION
20
40
60
80
100
10
15
20
0.00
0
50
100
150
0.00
0.01
0.02
0.03
0.04
0.00
0.02
0.02
0.04
0.04
0.06
0.06
0.08
50
100
150
200
100
200
300
400
Figure P.4. Les 6 graphes correspondant aux graphes de la loi binomiale avec p = 0.3 et
n {5, 20, 100, 150, 200, 400}.
Bibliographie
[1] AB Dufour and M Royer. Fiche de td 206 : Croisement de deux variables quantitatives.
[Link] 2007.
Disponible sur
Disponible
de
deux
variables
qualitatives.
sur
[3] AB Dufour and M Royer. Fiche de td 208 : Croisement dune variable qualitative et dune variable quantitative. Disponible
sur [Link] 2007.
[4] St
ephane Champely. Statistique vraiment appliqu
ee au sport. de Boeck, 2004. disponible a
` la BU de Lyon I sous la cote 519.5
CHA.
[5] St
ephane CHAMPELY. Introduction `
a la statistique descriptive (sous R). Note de cours de lUE de statistique L3MOS,
disponible sous spiral, 2007.
[6] St
ephane CHAMPELY. Inf
erence statistique, application `
a lentranement sportif. Note de cours de lUE de statistique
M1PPMR, disponible sous spiral, 2007.
[7] Jean-Claude Porlier and Gabriel Langouet. Mesure et statistique en milieu
educatif. Science de l
education. ESF, Paris, 1998.
r
e
edition de l
edition de 1981.
[8] A.B
Dufour
and
T.
Jombart.
Fiche
de
td
[Link] 2007.
27
Intervalles
de
conance.
Disponible
sur
[15] Eric
Marie. Initiation `
a la d
emarche qualit
e appliqu
ee au champ m
edico-
educatif. Note de cours, 2007.
[16] F.J. Anscombe. Graphs in statistical analysis. The American Statistician, 27 :1721, 1964.
[17] Emmanuel
Paradis. R pour les d
ebutants. disponible sur internet : [Link] puis rubrique
Manuals, puis contributed documentation, puis Non-English Documents, puis French, puis R pour les d
ebutants by Emmanuel Paradis, the French version of R for Beginners (PDF), ou alors directement sur
[Link] 2005.
[18] AB Dufour and D. Chessel. Fiche de cours bs1 (cours de biostatistique, illustrations dans r) : Vraisemblance dune hypoth`
ese.
Disponible sur [Link] rubrique cours, puis test dhypoth`
ese, 2008.
197