0% ont trouvé ce document utile (0 vote)
24 vues20 pages

Cours ATS AD2 2016-2017

Ce document est un support de cours sur l'analyse des tableaux statistiques en statistique bivariée, destiné aux étudiants de deuxième année en techniques statistiques. Il couvre les méthodes d'analyse des relations entre deux variables qualitatives et quantitatives, y compris les tableaux de contingence, les tests d'indépendance, et les analyses de variance. L'objectif est de permettre aux étudiants de déterminer la nature et l'intensité des relations entre différentes variables à l'aide de méthodes statistiques appropriées.

Transféré par

ouedalpha55
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues20 pages

Cours ATS AD2 2016-2017

Ce document est un support de cours sur l'analyse des tableaux statistiques en statistique bivariée, destiné aux étudiants de deuxième année en techniques statistiques. Il couvre les méthodes d'analyse des relations entre deux variables qualitatives et quantitatives, y compris les tableaux de contingence, les tests d'indépendance, et les analyses de variance. L'objectif est de permettre aux étudiants de déterminer la nature et l'intensité des relations entre différentes variables à l'aide de méthodes statistiques appropriées.

Transféré par

ouedalpha55
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des Tableaux Statistiques (Statistique Bivariée)

Support de cours
Deuxième année, Cycle des Adjoints Techniques de la Statistique (AD2)

W. Tidiane OUEDRAOGO
[Link]@[Link]

Avril 2017
Table des matières

1 Introduction 3

2 Etude conjointe de deux variables qualitatives 4


2.1 Tableaux statistiques à double entrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Tableau de contingence et distribution jointe . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 Profil et distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Etude de la liaison de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 L’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Mesure de l’intensité de la liaison entre 2 variables qualitives . . . . . . . . . . . . 8
2.2.3 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.4 Indicateur de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Etude conjointe de deux variables quantitatives 10


3.1 Représentation graphique et Indicateurs de liaison . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Analyse des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.4 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Ajustement analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1 Droite de regression et méthode des moindres carrées ordinaires (MCO) . . . . . . 11
3.2.2 Résidus et valeurs ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.3 Sommes de carrés et variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.4 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.5 Liaisons non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.6 Liaison et causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Etude conjointe d’une variable quantitative et d’une variable qualitative 15


4.1 Définition et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1.1 Notion de variance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1.2 Notion de variance inter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1
4.1.3 Notion de variance intra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Etude de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.2 Liaison fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.3 Mesure de la liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.4 Test d’analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Test de comparaison de moyenne et de proportion 18


5.1 Test de comparaison de moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Test de comparaison de proportition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2
Chapitre 1

Introduction

Après avoir collecté des donnees puis traitées, l’une des principales questions que se pose le statisticien
est de savoir quelles relations peuvent exister entre les différentes variables collectées. Par exemple, nous
collectons des données sur le niveau d’éducation, le sexe, l’âge des individus d’une société ainsi que leur
productivité. Nous nous interrogerons sur la relation entre ces variables et la productivité des travailleurs.
La statistique bivariée nous permet d’étudier la relation entre 2 variables. Le présent cours expose les
méthodes statistiques qui permettent de juger de la relation entre deux variables X et Y . Ces méthodes
d’analyse d’une dépendance entre deux variables varient selon la nature respective des variables. Le
tableau ci dessous présente les analyses possibles suivant le type des variables :

Type de variables Analyse possible


variables X et Y qualitatives Tableau de contingence Test du khi deux
variable X qualitative variable Y quantitative Rapport de corrélation Analyse de la variance
variables X et Y quantitatives Corrélation linéaire ; Régression linéaire

Ces différents concepts feront l’objet de ce cours. L’étudiant devra donc à l’issue de ce cours etre à
mesure de déterminer la nature et l’intensité de la relation entre deux variables suivant leur relation.
Nous introduirons aussi les tests de comparaison de moyenne et de proportion.
On s’intéresse à deux variables X et Y . Ces deux variables sont mesurés sur les n unités d’observation.
Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples
des valeurs prises par les deux variables sur chaque individu :

(x1 ; y1 ), ..., (xi ; yj ), ..., (xn ; yn )

3
Chapitre 2

Etude conjointe de deux variables


qualitatives

Nous défissons une population P où chaque individu est repéré par un couple de variables aléatoires
qualitatives X et Y ayant respectivement k et l modalités. On tire un n-échantillon issu de la population
P et nous observons alors la série bivariée. Cette série est une suite de couples de variables :

(x1 ; y1 )...(xi ; yj )...(xn ; yn )

2.1 Tableaux statistiques à double entrée


2.1.1 Notation

Xi représente la modalité i (i = 1, ..., k) de la variable X.


Yj représente la modalité j (j = 1, ..., l) de la variable Y .
nij : nombre d’individu de l’échantillon ayant simultanéement la modalité Xi de X et Yj de Y .
On a ki=1 lj=1 nij = n.
P P

ni. = lj=1 nij : le nombre d’individus possédant la modalité Xi de X. La série {(Xi ; ni. ); i = 1; ...; k}
P

donne la distribution de la variable X.


n.j = ki=1 nij : le nombre d’individus possédant la modalité Yi de Y . La série {(Yj ; n.j ); i = 1; ...; k}
P

donne la distribution de la variable X.


Ces deux séries sont appelées distributions marginales.
nij
fij = n fréquence des individus possedant les modalités Xi et Yj

Pk Pl Pk n.j Pl ni.
i=1 j=1 fij = 1; i=1 fij = f.j = n ; j=1 fij = fi. = n

2.1.2 Tableau de contingence et distribution jointe

Le tableau de contingence est un tableau croisé dans lequel sont répertoriées les différents attributs de
la population ou de l’échantillon observé. Il permet de synthétiser les informations relatives à 2 variables
qualitatives observées sur l’échantillon.

4
Y1 ... Yj ... Yl total
X1 n11 ... n1j ... n1l n1.
.. .. .. ..
. . . .
Xi ni1 ... nij ... nil ni.
.. .. .. ..
. . . .
Xk nk1 ... nkj ... nkl nk.
total n.1 ... n.j ... n.l n

Exemple : On s’intéresse à une éventuelle relation entre le sexe de 120 personnes et leur catégorie
socio-professionnelle au sein d’une société.

cadre cadre moyen ouvrier total


Homme 20 25 35 80
Femme 5 20 15 40
total 25 45 50 120

Le tableau de contingence permet de résumer la distribution conjointe de deux variables dans l’échantillon,
mais permet aussi d’exhiber les distributions marginales de chacune des variables. En effet, elles sont dis-
ponibles à travers les totaux en lignes et en colonnes.
Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’échantillon :

nij
fij = , i = 1, ..., k; j = 1, ..., l
n
ni. n.j
fi. = n ,i = 1, ..., k f.j = n ,j = 1, ..., l.
On en déduit le tableau des fréquences

Y1 ... Yj ... Yl total


X1 f11 ... f1j ... f1l f1.
.. .. .. ..
. . . .
Xi fi1 ... fij ... fil fi.
.. .. .. ..
. . . .
Xk fk1 ... fkj ... fkl fk.
total f.1 ... f.j ... f.l 1

Exemple : Le tableau suivant reprend les fréquences calculées à partir du tableau de l’exemple
précédant

cadre cadre moyen ouvrier total


Homme 0,17 0,21 0,29 0,67
Femme 0,04 0,17 0,13 0,33
total 0,21 0,38 0,42 1,00

5
2.1.3 Profil et distribution conditionnelle

Les ni. individus présentant la modalité Xi définissent une sous population dans laquelle on peut
observer la distribution de Y. On parle alors de distribution conditionnelle de Y sachant X = Xi . On a
dans ce cas la fréquence conditionnelle de la modalité Yj de Y qui s’écrit :
nij
fj/i = fji =
ni.
Le calcul des fréquences conditionnelles permet de réaliser la representation selon les profils. On dis-
tingue deux types de profils : les profils lignes (fji ) et les profils colonnes (fij ).

nij
Tableau des profils lignes fj/i = fji = ni.

Y1 ... Yj ... Yl total


X1 f11 ... fj1 ... fl1 1
.. .. .. ..
. . . .
Xi f1i ... fji ... fli 1
.. .. .. ..
. . . .
Xk f1k ... fjk ... flk 1
Distribution marginale de Y f.1 ... f.j ... f.l 1

nij
Tableau des profils colonnes fi/j = fij = n.j

Y1 ... Yj ... Yl Distribution marginale de X


X1 f11 ... f1j ... f1l f1.
.. .. .. ..
. . . .
Xi fi1 ... fij ... fil fi.
.. .. .. ..
. . . .
Xk fk1 ... fkj ... fkl fk.
total 1 ... 1 ... 1 1

Exemple : Le tableau qui suit représente les profils lignes calculés à partir du tableau de l’exemple
précédant :
Tableau des profils lignes

cadre cadre moyen ouvrier total


Homme 0,25 0,31 0,44 1,00
Femme 0,13 0,50 0,38 1,00
total 0,21 0,38 0,42 1,00

6
2.1.4 Représentation graphique

Les données synthétisées dans les différents tableaux précédents peuvent être plus lisibles si elles sont
représentées graphiquement. Plusieurs types de graphiques existent. Cependant de manière courante,
on utilise le diagramme en bandes. On peut representer soit les fréquences absolues soit les fréquences
relatives.

2.2 Etude de la liaison de deux variables qualitatives


2.2.1 L’indépendance

La constitution des profils est fondamentale dans l’étude de la liaison entre deux variables qualitatives.
on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables X et Y si
et seulement si tous les profils colonnes sont identiques au profil marginal colonne c’est-à-dire pour tous
i = 1, ..., k et pour tous i = 1, ..., l,

nij ni.
fi/j = fi. ⇔ =
n.j n
De même, on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables
X et Y si et seulement si tous les profils lignes sont identiques au profil marginal ligne c’est-à-dire pour
tous i = 1, ..., k et pour tous i = 1, ..., l,

nij n.j
fj/i = f.j ⇔
=
ni. n
Cette relation traduit la condition d’indépendance. On appelle effectif théorique la quantitée notée
n.i n.j
n∗ij =
n
Ainsi, il vient qu’il y a indépendance si nij = n∗ij
Dans la pratique, on observe très rarement l’égalité des fréquences conditionnelles. Il apparait donc
nécessaire de trouver un moyen d’apprécier la proximité de la distibution observée et celle d’une distri-
bution indépendante.

2.2.2 Mesure de l’intensité de la liaison entre 2 variables qualitives

Elle se mesure avec la distance du khi deux et se passe en trois étapes.


La première consiste à construire le tableau de contingence en exhibant la distribution conjointe. Il s’agit

7
des tableaux nij .
A la seconde étape, on construit le tableau des effectifs théoriques sensé assurer l’indépendance. Il s’agit
des tableaux n∗ij .
La troisième étape nous permet d’apprécier la différence entre les deux tableaux à l’aide d’une distri-
bution particulière appelée khi-deux. On obtient ainsi une mesure de la proximité entre la distribution
observée et la distribution indépendante.
La distance du khi deux est donnée par la relation suivante :

k X
l k X
l
X (nij − n∗ij )2 X e2ij
χ2obs = =
n∗ij n∗ij
i=1 j=1 i=1 j=1

où eij = nij − n∗ij .


On montre que cette quantité est la variable calculée de la statistique de khi-deux sous l’hypothèse
nulle d’indépendance. D’où l’appelation test de khi-deux.

2.2.3 Test d’indépendance du khi-deux

L’hypothèse nulle du test est :

H0 : Indépendancedesdistributions

La statistique de test sous H0 est celle calculée précédamment. On montre que sous H0 la statistique
est distribuée selon un khi-deux à (k − 1)(l − 1) degré de liberté.

Pour un seuil α fixé, on a


— χ2obs > χ2α =⇒ H0 est rejeté
— χ2obs < χ2α =⇒ H0 est accepté
où χ2α (k − 1)(l − 1) est le quantile d’ordre 1 − α de la loi du khi-deux à (k − 1)(l − 1) degré de liberté.
La zone de rejet au seuil α est donné par :

W = χ2obs > χ2α (k − 1)(l − 1)




Mise en œuvre du test :


Etape 1 : Fixer le seuil de confiance α
Etape 2 : Calculer la distance de khi-deux
Etape 3 : Comparer cette distance avec la valeur critique correspondante. Si la distance calculée est
supérieure à la valeur critique, on rejette l’hypothèse nulle d’indépendance. Dans le cas contraire, on
accepte H0 .

2.2.4 Indicateur de liaison

Si la distance χ2obs = 0 alors X et Y sont indépendant Si χ2obs 6= 0 alors on calcule le coefficient de


Cramer pour mesurer le degré de liaison entre les variables :
s
χ2obs
C=
nmin(k − 1, l − 1)

8
Tableau de laison

C 0 0; 0.2 0.2; 0.4 0.4; 0.7 0.7; 1 [ 1


liaison nulle faible moyenne forte très forte parfaite

Exemple : On mene une étude sur la pratique sportive afin de savoir si le choix de la pratique sportive
est en relation avec la catégorie socio professionnelle du père. Les résultats sont les suivants :

Athlétisme Handball Natation


Fils d’ouvriers 18 35 17
Fils de cadre 12 15 23

Déterminer s’il existe un lien entre le choix de la pratique sportive et la catégorie socio professionnelle
du père.

On peut en guise d’approfondissement rechercher les associations signifficatives entre les modalités
des deux variables. Cela revient à rechercher les cases dont les couples de modalités ont influencée la
liaison par le calcul des contributions au khi-deux données par la relation suivante :
(nij −n∗ij )2
n∗ij
cij =
χ2obs

Le signe de la différence nij − n∗ij indique s’il y a une association positive ou négative.
Remarque
— On calcule le khi deux avec les effectifs et non avec les pourcentages
— Les effectifs influencent la valeur de khi-deux. Lorsque les effectifs doublent la valeur du khi-deux
double

9
Chapitre 3

Etude conjointe de deux variables


quantitatives

On considère dans ce qui suit deux variables quantitatives X et Y observés sur un échantillon de n
individus. Dans ce cas, chaque couple est composé de deux valeurs numériques.

3.1 Représentation graphique et Indicateurs de liaison


3.1.1 Représentation graphique

Un couple de nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan.
Ainsi, la liaison entre 2 variables quantitatives peut être graphiquement représenter par un nuage de
point dont les coordonnées sont données par les couples (X; Y ). Il est en générale possible à partir de
cette representation de conjecturer la nature de la liaison.

3.1.2 Analyse des variables

Les variables X et Y peuvent être analysés séparément. On peut calculer tous les paramètres dont
les moyennes et les variances :
n n
1X 1X
x̄ = xi ; s2x = (xi − x̄)2
n n
i=1 i=1
n n
1 X 1X
ȳ = yi ; s2y = (yi − ȳ)2
n n
i=1 i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales,
écarts-types marginaux, quantiles marginaux, etc...

10
3.1.3 Covariance

La covariance est donnée par :


n
1X
sxy = (xi − x̄)(yi − ȳ).
n
i=1

— La covariance peut prendre des valeurs positives, nǵatives ou nulles.


— Elle généralise la notion de variance. Quand xi = yi ; pour tout i = 1; :::; n ; la covariance est égale
à la variance.
La covariance peut également s’écrire
n
1X
sxy = xi yi − x̄ȳ.
n
i=1

Démonstration : exercice

3.1.4 Corrélation

Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux :
sxy
ρxy =
sx sy

Il s’agit de l’indicateur usuel de la liaison entre deux variables quantitatives.


Remarque
— Le coefficient de corrélation mesure la dépendance linéaire entre deux variables quantitatives
— −1 ≤ ρxy ≤ 1
— Si le coefficient de corrélation est positif, les points sont alignées le long d’une droite croissante.
— Si le coefficient de corrélation est négatif, les points sont alignées le long d’une droite décroissante.
— Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance linéaire. On
peut cependant avoir une dépendance non-linéaire avec un coeffcient de corrélation nul.
Le coefficient de détermination est la carré du coefficient de corrélation
s2xy
r2 = ρ2xy =
s2x s2y

3.2 Ajustement analytique


Il consiste à rechercher la relation fonctionnelle entre X et Y soit sous la forme Y = g(X) soit sous la
forme X = g(Y ). On appelle courbe de regression de Y en X, la courbe qui retranscrit le mieux le nuage
de points. Nous nous intéressons au cas d’une droite de regression.

3.2.1 Droite de regression et méthode des moindres carrées ordinaires (MCO)

La droite de régression est la droite d’équation y = a + bx qui ajuste au mieux un nuage de points au
sens des moindres carrées. Dans ce cas, on considère que la variable X est explicative et que la variable

11
Y est dépendante. Le problème consiste à identifier une droite qui ajuste bien le nuage de points. Si les
coefficients a et b étaient connus, on pourrait calculer les résidus de la régression définie par :

ei = yi − a − bxi .

Le résidu ei est l’erreur que l’on commet en utilisant la droite de régression pour prédire yi à partir de
xi . Les résidus peuvent être positifs ou négatifs.
Pour déterminer la valeur des coeffcients a et b, on utilise le principe des moindres carrées ordinaire qui
consiste à chercher la droite qui minimise la somme des carrées des résidus :

n
X n
X
F (a, b) = e2i = (yi − a − bxi )2 .
i=1 i=1

On montre que les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
sxy
b̂ =
s2x

â = ȳ − bx̄

Démonstration : exercice.

La droite de régression est donc :


sxy sxy
ŷ = â + b̂x = ȳ − 2
x̄ + 2 x
sx sx

Ce qui peut s’écrire


sxy
ŷ − ȳ = (x − x̄).
s2x

3.2.2 Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues au moyen de la droite de régression :

ŷi = â + b̂xi

Les valeurs ajustées sont les ’prédictions’ des yi réalisées au moyen de la variable x et de la droite de
régression de y en x.
Remarque : La moyenne des valeurs ajustées est égale à la moyenne des valeurs observées ȳ. Les
résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante :

êi = yi − ŷi .

Les résidus représentent la partie inexpliquée des yi par la droite de régression.

12
3.2.3 Sommes de carrés et variances

Définition : On appelle somme des carrés totale la quantité :


n
X
SCT = (yi − ȳ)2
i=1

La variance marginale peut alors être définie par :


n
SCT 1X
s2y = = (yi − ȳ)2
n n
i=1

Définition : On appelle somme des carrés de la regression la quantité :


n
X
SCE = (yˆi − ȳ)2
i=1

La variance de la regression est la variance des valeurs ajustées.


n
1X
s2ŷ = (yˆi − ȳ)2
n
i=1

Définition : On appelle somme des carrés des résidus (ou résiduelle) la quantité
n
X
SCR = eˆi 2
i=1

La variance résiduelle est la variance des résidus.


n
1X 2
sê = eˆi
n
i=1

Théorème : Formule d’analyse de la variance

SCT = SCE + SCR

3.2.4 Décomposition de la variance

La variance de régression peut également s’écrire :

s2ŷ = s2y r2

où r2 est le coefficient de détermination.


La variance résiduelle peut également s’écrire

s2ê = s2y (1 − r2 )

La variance marginale est la somme de la variance de régression et de la variance résiduelle

s2y = s2ŷ + s2ê

13
3.2.5 Liaisons non-linéaires

Les liaisons non linéaires se déclinent sous forme autre que les formes affines. On peut distinguer entre
autres les cas suivants :
— y = bxa Liaison puissance
On peut le ramener au cas linéaire par la log transformation de Y . Log(y) = Log(b) + aLog(x).
Ce Ce type de modélisation est adéquat lorsqu’on étudie l’élasticité de Y par rapport à X (a =
coefficient d’élasticité)
— y = alogx + b. Ce type de modélisation correspond à la modélisation de la courbe de Philips.
— y = beax . On peut faire une transformation log.
a 1
— y= x + b. On pose z = x
— y = b + a1 X + a2 X 2 + ... + an X n . Liaison polynomiale
Les liaisons précedentes peuvent etre estimées par la méthode des moindres carrées ordinaires. En
générale, dans les liaisons plus complexes, on utilise les méthodes suivantes :
— la méthode du maximum de vraisemblance ;
— la méthode des moments.

3.2.6 Liaison et causalité

L’existence d’une forte corrélation entre 2 variables ne prouve en aucun cas l’existence d’une causalité.
On doit faire attention compte tenu de des deux risques suivants : Risque 1 : Etablissement de causalité
falacieuse à partir de la corrélation ;
Risque 2 : Etablissement de causalité dans le mauvais sens.
L’utilisation de la regression linéaire pour l’information ou la confirmation d’une théorie, d’une idée
communément acceptée doit se faire avec beaucoup de prudence à raison de la difficile réalisation de la
clause - toute chose égale par ailleurs- en science sociale et en économie en particulier.

14
Chapitre 4

Etude conjointe d’une variable


quantitative et d’une variable qualitative

Dans toute la suite, X désigne une variable quanlitative à k modalités et Y une variable continue.

4.1 Définition et notation


4.1.1 Notion de variance totale

Il s’agit de la variance de la variable continue quantitative Y observé sur l’ensemble de l’échantillon.


On note :
— n : taille de l’échantillon
— nj : taille de l’échantillon ayant ou présentant la modalité xj
— yij : valeur de l’observation i dans le sous échantillon présentant la modalité xj
On définit la moyenne et la variance de Y dans le sous échantillon j encore appelées respectivement
moyenne conditionnelle et variance conditionnelle à la sous population i :

nj
1 X
ȳj = yij
nj
i=1
nj
1 X
Vj (Y ) = (yij − ȳj )2
nj
i=1

4.1.2 Notion de variance inter

La variance inter classe ou inter group est donnée par :


k
1X
Vinter = nj (ȳj − ȳj )2
n
j=1

Il s’agit de la dispersion moyenne de la moyenne des groupes.

15
4.1.3 Notion de variance intra

La variance intra classe ou intra group est donnée par :

k
1X
Vintra = nj Vj (Y )
n
j=1

Il s’agit de la moyenne des variances à l’intérieur des groupes. D’une manière générale,

V (Y ) = Vinter + Vintra

4.1.4 Représentation graphique

4.2 Etude de liaison


4.2.1 Principe

La distribution de Y est indépendante de celle de X si et seulement si, on observe la même distri-


bution de Y à l’intérieur et au dehors des sous populations défini par les modalités de X, c’est-à-dire
l’égalité des variances conditionnelles et des moyennes conditionnelles. En d’autres termes, pour tout i,
on a Yi = Ȳ et Vj (Y ) = V (Y ) Ainsi, pour que deux variables quantitatives soient indépendantes d’une
variable qualitative, on calcule les moyennes conditionnelles que l’on compare entre elles ou à la moyenne
marginale. Si elles sont les mêmes, on conclut à l’indépendance des deux caractères sinon à une liaison.

4.2.2 Liaison fonctionnelle

Y sera dit fonctionnellement liée à X si et seulement si les individus d’une même sous population
prennent des valeurs identiques de Y . En d’autres termes, la donnée de la catégorie dans laquelle
se trouve un individu permet de connaı̂tre parfaitement la valeur de Y qui lui est affectée. Ainsi, les
variances conditionnelles de Y sont nulles.

4.2.3 Mesure de la liaison

Les cas extrêmes présentées plus haut se reproduisent rarement. En pratique, on doit se donner un
moyen d’appréciation des données fournies par la population étudiée afin de juger si l’on se trouve plus
près de la situation d’indépendance ou celle de la liaison fonctionnelle. L’on peut se retrouver dans deux
types de situation :
— Variance interclass très forte
— Variance interclass très faible
Dans le cas de la liaison, la variance inter est forte et la variance intra faible. On est dans le cas
d’indépendance au cas contraire. On définit le rapport de corrélation par la relation :
r
Vinter
ηy/x =
Vintra
Lorsque ηy/x tend vers 1, il y a liaison et lorque ηy/x tend vers 0, il y a indépendance.

16
4.2.4 Test d’analyse de la variance

Ce test a pour but de trancher sur l’effet d’une variable qualitative sur une variable qualitative. Il
s’apparente à un test d’agalité de k moyennes et est fondé sur les hypothèses fortes suivantes :
— Indépendance des échantillons
— Egalité des variances
— Normalité de la distribution contionnelle
L’hypothèse nulle du test est :
H0 : la variable qualitative n’influence pas la variable quantitive ou le caractère qualitatif n’influence pas
les valeurs prises par la variable quantitative.
La statistique de test est donnée par :

Vinter
k−1
F = Vintra
n−k

Cette statistique, sous l’hypothèse nulle, suit une loi de Fisher à (k − 1; n − k) degrés de liberté. La
zone de rejet est donnée par :

W = Fc > F (k − 1; n − k)

Etape de mise en œuvre du test


— On se fixe un seuil α
— On identifie le seuil critique F1−α (k − 1; n − k)
— On calcule la statistique Fc et on effectue la comparaison
— Si Fc > F1−α (k − 1; n − k) alors le caractère qualitatif a une influence sur les valeurs de la variable
quantitative

17
Chapitre 5

Test de comparaison de moyenne et de


proportion

5.1 Test de comparaison de moyenne


On considère dans ce qui suit deux échantillons X 1 et X 2 de taille de taille n1 et n2 issus de loi normale
N (µ1 , σ12 ) et N (µ2 , σ22 ). On se propose de trancher sur l’égalité ou non des 2 moyennes. L’hypothèse nulle
qu’on se fixe est H0 : µ1 = µ2

Premier Cas : σ12 et σ22 sont connus

σ2 ,σ12
On montre que X̄1 − X̄2 suit une loi normale de paramètre (µ1 − µ2 , n11 + n2 )
Sous H0,
X̄1 − X̄2
Z=q 2 ,→ N (0; 1)
σ1 σ12
n1 + n2
La zone de rejet est donnée par :

W = |Z| > z1−α/2
où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite.
Deuxième Cas : σ12 et σ22 sont inconnus

Il faut tenir compte de la taille de l’échantillon


1. Si n1 et n2 sont supérieurs à 30
1 Pn1 1 Pn2
On estime σ12 et σ22 respectivement par S12 = n1 −1
2
i=1 (Xi − X̄1 )
2 et S22 = n2 −1
2
i=1 (Xi − X̄2 )
2

La statistique de test reste la même avec


X̄1 − X̄2
Z=q 2 ,→ N (0; 1)
S1 S22
n1 + n2

2. Si n1 ou n2 inférieur à 30 et σ12 = σ22


(n1 −1)S12 +(n2 −1)S22
On calcule S 2 = n1 +n2 −2 et on montre que S 2 suit une loi du khi-deux à degré de liberté.

18
Sous H0 , on montre que la statistique de test

X̄1 − X̄2
Z= q
S n11 + n12

suit une loi de student à (n1 + n2 − 2) degré de liberté.


La zone de rejet est alors donnée par :


W = |Z| > t1−α/2

où z1−α/2 est le quantile d’ordre 1 − α/2 de Student.


3. Si n1 ou n2 inférieur à 30 et σ12 6=σ22
On utilise la statistique
X̄1 − X̄2
Z=q 2
S1 S22
n1 + n2

qui suit une loi de student à l degré de liberté où l est l’entier le plus proche possible du résultat
de la formule de Aspin-Welch :

 2  2
1 1 V (X̄1 ) 1 V (X̄2 )
= +
l n1 − 1 V (X̄1 ) + V (X̄2 ) n2 − 1 V (X̄1 ) + V (X̄2 )

5.2 Test de comparaison de proportition


On suppose que l’on veuille comparer deux proportions p1 et p2 . L’hypothèse nulle est donnée par
H0 : p1 = p2 on suppose que l’on a une estimation pˆ1 de p1 et pˆ2 de p2 . Pour n assez grand, pˆ1 − pˆ2
suit une loi normale de paramètre (p1 − p2 ; V ) . Sous l’hypothèse nulle, pˆ1 − pˆ2 suit une loi normale de
n1 pˆ1 +n2 pˆ2
paramètre (0; V ). On estime V par V̂ = p̂(1 − p̂)( n11 + 1
n2 ) où p̂ = n1 +n2
La zone de rejet est donnée par
( )
pˆ1 − pˆˆ2
W = > z1−α/2

19

Vous aimerez peut-être aussi