Cours ATS AD2 2016-2017
Cours ATS AD2 2016-2017
Support de cours
Deuxième année, Cycle des Adjoints Techniques de la Statistique (AD2)
W. Tidiane OUEDRAOGO
[Link]@[Link]
Avril 2017
Table des matières
1 Introduction 3
1
4.1.3 Notion de variance intra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Etude de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.2 Liaison fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.3 Mesure de la liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.4 Test d’analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2
Chapitre 1
Introduction
Après avoir collecté des donnees puis traitées, l’une des principales questions que se pose le statisticien
est de savoir quelles relations peuvent exister entre les différentes variables collectées. Par exemple, nous
collectons des données sur le niveau d’éducation, le sexe, l’âge des individus d’une société ainsi que leur
productivité. Nous nous interrogerons sur la relation entre ces variables et la productivité des travailleurs.
La statistique bivariée nous permet d’étudier la relation entre 2 variables. Le présent cours expose les
méthodes statistiques qui permettent de juger de la relation entre deux variables X et Y . Ces méthodes
d’analyse d’une dépendance entre deux variables varient selon la nature respective des variables. Le
tableau ci dessous présente les analyses possibles suivant le type des variables :
Ces différents concepts feront l’objet de ce cours. L’étudiant devra donc à l’issue de ce cours etre à
mesure de déterminer la nature et l’intensité de la relation entre deux variables suivant leur relation.
Nous introduirons aussi les tests de comparaison de moyenne et de proportion.
On s’intéresse à deux variables X et Y . Ces deux variables sont mesurés sur les n unités d’observation.
Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples
des valeurs prises par les deux variables sur chaque individu :
3
Chapitre 2
Nous défissons une population P où chaque individu est repéré par un couple de variables aléatoires
qualitatives X et Y ayant respectivement k et l modalités. On tire un n-échantillon issu de la population
P et nous observons alors la série bivariée. Cette série est une suite de couples de variables :
ni. = lj=1 nij : le nombre d’individus possédant la modalité Xi de X. La série {(Xi ; ni. ); i = 1; ...; k}
P
Pk Pl Pk n.j Pl ni.
i=1 j=1 fij = 1; i=1 fij = f.j = n ; j=1 fij = fi. = n
Le tableau de contingence est un tableau croisé dans lequel sont répertoriées les différents attributs de
la population ou de l’échantillon observé. Il permet de synthétiser les informations relatives à 2 variables
qualitatives observées sur l’échantillon.
4
Y1 ... Yj ... Yl total
X1 n11 ... n1j ... n1l n1.
.. .. .. ..
. . . .
Xi ni1 ... nij ... nil ni.
.. .. .. ..
. . . .
Xk nk1 ... nkj ... nkl nk.
total n.1 ... n.j ... n.l n
Exemple : On s’intéresse à une éventuelle relation entre le sexe de 120 personnes et leur catégorie
socio-professionnelle au sein d’une société.
Le tableau de contingence permet de résumer la distribution conjointe de deux variables dans l’échantillon,
mais permet aussi d’exhiber les distributions marginales de chacune des variables. En effet, elles sont dis-
ponibles à travers les totaux en lignes et en colonnes.
Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’échantillon :
nij
fij = , i = 1, ..., k; j = 1, ..., l
n
ni. n.j
fi. = n ,i = 1, ..., k f.j = n ,j = 1, ..., l.
On en déduit le tableau des fréquences
Exemple : Le tableau suivant reprend les fréquences calculées à partir du tableau de l’exemple
précédant
5
2.1.3 Profil et distribution conditionnelle
Les ni. individus présentant la modalité Xi définissent une sous population dans laquelle on peut
observer la distribution de Y. On parle alors de distribution conditionnelle de Y sachant X = Xi . On a
dans ce cas la fréquence conditionnelle de la modalité Yj de Y qui s’écrit :
nij
fj/i = fji =
ni.
Le calcul des fréquences conditionnelles permet de réaliser la representation selon les profils. On dis-
tingue deux types de profils : les profils lignes (fji ) et les profils colonnes (fij ).
nij
Tableau des profils lignes fj/i = fji = ni.
nij
Tableau des profils colonnes fi/j = fij = n.j
Exemple : Le tableau qui suit représente les profils lignes calculés à partir du tableau de l’exemple
précédant :
Tableau des profils lignes
6
2.1.4 Représentation graphique
Les données synthétisées dans les différents tableaux précédents peuvent être plus lisibles si elles sont
représentées graphiquement. Plusieurs types de graphiques existent. Cependant de manière courante,
on utilise le diagramme en bandes. On peut representer soit les fréquences absolues soit les fréquences
relatives.
La constitution des profils est fondamentale dans l’étude de la liaison entre deux variables qualitatives.
on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables X et Y si
et seulement si tous les profils colonnes sont identiques au profil marginal colonne c’est-à-dire pour tous
i = 1, ..., k et pour tous i = 1, ..., l,
nij ni.
fi/j = fi. ⇔ =
n.j n
De même, on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables
X et Y si et seulement si tous les profils lignes sont identiques au profil marginal ligne c’est-à-dire pour
tous i = 1, ..., k et pour tous i = 1, ..., l,
nij n.j
fj/i = f.j ⇔
=
ni. n
Cette relation traduit la condition d’indépendance. On appelle effectif théorique la quantitée notée
n.i n.j
n∗ij =
n
Ainsi, il vient qu’il y a indépendance si nij = n∗ij
Dans la pratique, on observe très rarement l’égalité des fréquences conditionnelles. Il apparait donc
nécessaire de trouver un moyen d’apprécier la proximité de la distibution observée et celle d’une distri-
bution indépendante.
7
des tableaux nij .
A la seconde étape, on construit le tableau des effectifs théoriques sensé assurer l’indépendance. Il s’agit
des tableaux n∗ij .
La troisième étape nous permet d’apprécier la différence entre les deux tableaux à l’aide d’une distri-
bution particulière appelée khi-deux. On obtient ainsi une mesure de la proximité entre la distribution
observée et la distribution indépendante.
La distance du khi deux est donnée par la relation suivante :
k X
l k X
l
X (nij − n∗ij )2 X e2ij
χ2obs = =
n∗ij n∗ij
i=1 j=1 i=1 j=1
H0 : Indépendancedesdistributions
La statistique de test sous H0 est celle calculée précédamment. On montre que sous H0 la statistique
est distribuée selon un khi-deux à (k − 1)(l − 1) degré de liberté.
8
Tableau de laison
Exemple : On mene une étude sur la pratique sportive afin de savoir si le choix de la pratique sportive
est en relation avec la catégorie socio professionnelle du père. Les résultats sont les suivants :
Déterminer s’il existe un lien entre le choix de la pratique sportive et la catégorie socio professionnelle
du père.
On peut en guise d’approfondissement rechercher les associations signifficatives entre les modalités
des deux variables. Cela revient à rechercher les cases dont les couples de modalités ont influencée la
liaison par le calcul des contributions au khi-deux données par la relation suivante :
(nij −n∗ij )2
n∗ij
cij =
χ2obs
Le signe de la différence nij − n∗ij indique s’il y a une association positive ou négative.
Remarque
— On calcule le khi deux avec les effectifs et non avec les pourcentages
— Les effectifs influencent la valeur de khi-deux. Lorsque les effectifs doublent la valeur du khi-deux
double
9
Chapitre 3
On considère dans ce qui suit deux variables quantitatives X et Y observés sur un échantillon de n
individus. Dans ce cas, chaque couple est composé de deux valeurs numériques.
Un couple de nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan.
Ainsi, la liaison entre 2 variables quantitatives peut être graphiquement représenter par un nuage de
point dont les coordonnées sont données par les couples (X; Y ). Il est en générale possible à partir de
cette representation de conjecturer la nature de la liaison.
Les variables X et Y peuvent être analysés séparément. On peut calculer tous les paramètres dont
les moyennes et les variances :
n n
1X 1X
x̄ = xi ; s2x = (xi − x̄)2
n n
i=1 i=1
n n
1 X 1X
ȳ = yi ; s2y = (yi − ȳ)2
n n
i=1 i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales,
écarts-types marginaux, quantiles marginaux, etc...
10
3.1.3 Covariance
Démonstration : exercice
3.1.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux :
sxy
ρxy =
sx sy
La droite de régression est la droite d’équation y = a + bx qui ajuste au mieux un nuage de points au
sens des moindres carrées. Dans ce cas, on considère que la variable X est explicative et que la variable
11
Y est dépendante. Le problème consiste à identifier une droite qui ajuste bien le nuage de points. Si les
coefficients a et b étaient connus, on pourrait calculer les résidus de la régression définie par :
ei = yi − a − bxi .
Le résidu ei est l’erreur que l’on commet en utilisant la droite de régression pour prédire yi à partir de
xi . Les résidus peuvent être positifs ou négatifs.
Pour déterminer la valeur des coeffcients a et b, on utilise le principe des moindres carrées ordinaire qui
consiste à chercher la droite qui minimise la somme des carrées des résidus :
n
X n
X
F (a, b) = e2i = (yi − a − bxi )2 .
i=1 i=1
On montre que les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
sxy
b̂ =
s2x
â = ȳ − bx̄
Démonstration : exercice.
ŷi = â + b̂xi
Les valeurs ajustées sont les ’prédictions’ des yi réalisées au moyen de la variable x et de la droite de
régression de y en x.
Remarque : La moyenne des valeurs ajustées est égale à la moyenne des valeurs observées ȳ. Les
résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante :
êi = yi − ŷi .
12
3.2.3 Sommes de carrés et variances
Définition : On appelle somme des carrés des résidus (ou résiduelle) la quantité
n
X
SCR = eˆi 2
i=1
s2ŷ = s2y r2
s2ê = s2y (1 − r2 )
13
3.2.5 Liaisons non-linéaires
Les liaisons non linéaires se déclinent sous forme autre que les formes affines. On peut distinguer entre
autres les cas suivants :
— y = bxa Liaison puissance
On peut le ramener au cas linéaire par la log transformation de Y . Log(y) = Log(b) + aLog(x).
Ce Ce type de modélisation est adéquat lorsqu’on étudie l’élasticité de Y par rapport à X (a =
coefficient d’élasticité)
— y = alogx + b. Ce type de modélisation correspond à la modélisation de la courbe de Philips.
— y = beax . On peut faire une transformation log.
a 1
— y= x + b. On pose z = x
— y = b + a1 X + a2 X 2 + ... + an X n . Liaison polynomiale
Les liaisons précedentes peuvent etre estimées par la méthode des moindres carrées ordinaires. En
générale, dans les liaisons plus complexes, on utilise les méthodes suivantes :
— la méthode du maximum de vraisemblance ;
— la méthode des moments.
L’existence d’une forte corrélation entre 2 variables ne prouve en aucun cas l’existence d’une causalité.
On doit faire attention compte tenu de des deux risques suivants : Risque 1 : Etablissement de causalité
falacieuse à partir de la corrélation ;
Risque 2 : Etablissement de causalité dans le mauvais sens.
L’utilisation de la regression linéaire pour l’information ou la confirmation d’une théorie, d’une idée
communément acceptée doit se faire avec beaucoup de prudence à raison de la difficile réalisation de la
clause - toute chose égale par ailleurs- en science sociale et en économie en particulier.
14
Chapitre 4
Dans toute la suite, X désigne une variable quanlitative à k modalités et Y une variable continue.
nj
1 X
ȳj = yij
nj
i=1
nj
1 X
Vj (Y ) = (yij − ȳj )2
nj
i=1
15
4.1.3 Notion de variance intra
k
1X
Vintra = nj Vj (Y )
n
j=1
Il s’agit de la moyenne des variances à l’intérieur des groupes. D’une manière générale,
V (Y ) = Vinter + Vintra
Y sera dit fonctionnellement liée à X si et seulement si les individus d’une même sous population
prennent des valeurs identiques de Y . En d’autres termes, la donnée de la catégorie dans laquelle
se trouve un individu permet de connaı̂tre parfaitement la valeur de Y qui lui est affectée. Ainsi, les
variances conditionnelles de Y sont nulles.
Les cas extrêmes présentées plus haut se reproduisent rarement. En pratique, on doit se donner un
moyen d’appréciation des données fournies par la population étudiée afin de juger si l’on se trouve plus
près de la situation d’indépendance ou celle de la liaison fonctionnelle. L’on peut se retrouver dans deux
types de situation :
— Variance interclass très forte
— Variance interclass très faible
Dans le cas de la liaison, la variance inter est forte et la variance intra faible. On est dans le cas
d’indépendance au cas contraire. On définit le rapport de corrélation par la relation :
r
Vinter
ηy/x =
Vintra
Lorsque ηy/x tend vers 1, il y a liaison et lorque ηy/x tend vers 0, il y a indépendance.
16
4.2.4 Test d’analyse de la variance
Ce test a pour but de trancher sur l’effet d’une variable qualitative sur une variable qualitative. Il
s’apparente à un test d’agalité de k moyennes et est fondé sur les hypothèses fortes suivantes :
— Indépendance des échantillons
— Egalité des variances
— Normalité de la distribution contionnelle
L’hypothèse nulle du test est :
H0 : la variable qualitative n’influence pas la variable quantitive ou le caractère qualitatif n’influence pas
les valeurs prises par la variable quantitative.
La statistique de test est donnée par :
Vinter
k−1
F = Vintra
n−k
Cette statistique, sous l’hypothèse nulle, suit une loi de Fisher à (k − 1; n − k) degrés de liberté. La
zone de rejet est donnée par :
W = Fc > F (k − 1; n − k)
17
Chapitre 5
σ2 ,σ12
On montre que X̄1 − X̄2 suit une loi normale de paramètre (µ1 − µ2 , n11 + n2 )
Sous H0,
X̄1 − X̄2
Z=q 2 ,→ N (0; 1)
σ1 σ12
n1 + n2
La zone de rejet est donnée par :
W = |Z| > z1−α/2
où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite.
Deuxième Cas : σ12 et σ22 sont inconnus
18
Sous H0 , on montre que la statistique de test
X̄1 − X̄2
Z= q
S n11 + n12
W = |Z| > t1−α/2
qui suit une loi de student à l degré de liberté où l est l’entier le plus proche possible du résultat
de la formule de Aspin-Welch :
2 2
1 1 V (X̄1 ) 1 V (X̄2 )
= +
l n1 − 1 V (X̄1 ) + V (X̄2 ) n2 − 1 V (X̄1 ) + V (X̄2 )
19