0% ont trouvé ce document utile (0 vote)

24 vues20 pages

Cours ATS AD2 2016-2017

Ce document est un support de cours sur l'analyse des tableaux statistiques en statistique bivariée, destiné aux étudiants de deuxième année en techniques statistiques. Il couvre les méthodes d'analyse des relations entre deux variables qualitatives et quantitatives, y compris les tableaux de contingence, les tests d'indépendance, et les analyses de variance. L'objectif est de permettre aux étudiants de déterminer la nature et l'intensité des relations entre différentes variables à l'aide de méthodes statistiques appropriées.

Transféré par

ouedalpha55

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

24 vues20 pages

Cours ATS AD2 2016-2017

Transféré par

ouedalpha55

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des Tableaux Statistiques (Statistique Bivariée)

Support de cours
Deuxième année, Cycle des Adjoints Techniques de la Statistique (AD2)

W. Tidiane OUEDRAOGO
[Link]@[Link]

Avril 2017
Table des matières

1 Introduction 3

2 Etude conjointe de deux variables qualitatives 4

2.1 Tableaux statistiques à double entrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Tableau de contingence et distribution jointe . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 Profil et distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Etude de la liaison de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 L’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Mesure de l’intensité de la liaison entre 2 variables qualitives . . . . . . . . . . . . 8
2.2.3 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.4 Indicateur de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Etude conjointe de deux variables quantitatives 10

3.1 Représentation graphique et Indicateurs de liaison . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Analyse des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.4 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Ajustement analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1 Droite de regression et méthode des moindres carrées ordinaires (MCO) . . . . . . 11
3.2.2 Résidus et valeurs ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.3 Sommes de carrés et variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.4 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.5 Liaisons non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.6 Liaison et causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Etude conjointe d’une variable quantitative et d’une variable qualitative 15

4.1 Définition et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1.1 Notion de variance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1.2 Notion de variance inter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1
4.1.3 Notion de variance intra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Etude de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.2 Liaison fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.3 Mesure de la liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.4 Test d’analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Test de comparaison de moyenne et de proportion 18

5.1 Test de comparaison de moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Test de comparaison de proportition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2
Chapitre 1

Introduction

Après avoir collecté des donnees puis traitées, l’une des principales questions que se pose le statisticien
est de savoir quelles relations peuvent exister entre les différentes variables collectées. Par exemple, nous
collectons des données sur le niveau d’éducation, le sexe, l’âge des individus d’une société ainsi que leur
productivité. Nous nous interrogerons sur la relation entre ces variables et la productivité des travailleurs.
La statistique bivariée nous permet d’étudier la relation entre 2 variables. Le présent cours expose les
méthodes statistiques qui permettent de juger de la relation entre deux variables X et Y . Ces méthodes
d’analyse d’une dépendance entre deux variables varient selon la nature respective des variables. Le
tableau ci dessous présente les analyses possibles suivant le type des variables :

Type de variables Analyse possible

variables X et Y qualitatives Tableau de contingence Test du khi deux
variable X qualitative variable Y quantitative Rapport de corrélation Analyse de la variance
variables X et Y quantitatives Corrélation linéaire ; Régression linéaire

Ces différents concepts feront l’objet de ce cours. L’étudiant devra donc à l’issue de ce cours etre à
mesure de déterminer la nature et l’intensité de la relation entre deux variables suivant leur relation.
Nous introduirons aussi les tests de comparaison de moyenne et de proportion.
On s’intéresse à deux variables X et Y . Ces deux variables sont mesurés sur les n unités d’observation.
Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples
des valeurs prises par les deux variables sur chaque individu :

(x1 ; y1 ), ..., (xi ; yj ), ..., (xn ; yn )

3
Chapitre 2

Etude conjointe de deux variables

qualitatives

Nous défissons une population P où chaque individu est repéré par un couple de variables aléatoires
qualitatives X et Y ayant respectivement k et l modalités. On tire un n-échantillon issu de la population
P et nous observons alors la série bivariée. Cette série est une suite de couples de variables :

(x1 ; y1 )...(xi ; yj )...(xn ; yn )

2.1 Tableaux statistiques à double entrée

2.1.1 Notation

Xi représente la modalité i (i = 1, ..., k) de la variable X.

Yj représente la modalité j (j = 1, ..., l) de la variable Y .
nij : nombre d’individu de l’échantillon ayant simultanéement la modalité Xi de X et Yj de Y .
On a ki=1 lj=1 nij = n.
P P

ni. = lj=1 nij : le nombre d’individus possédant la modalité Xi de X. La série {(Xi ; ni. ); i = 1; ...; k}
P

donne la distribution de la variable X.

n.j = ki=1 nij : le nombre d’individus possédant la modalité Yi de Y . La série {(Yj ; n.j ); i = 1; ...; k}
P

donne la distribution de la variable X.

Ces deux séries sont appelées distributions marginales.
nij
fij = n fréquence des individus possedant les modalités Xi et Yj

Pk Pl Pk n.j Pl ni.
i=1 j=1 fij = 1; i=1 fij = f.j = n ; j=1 fij = fi. = n

2.1.2 Tableau de contingence et distribution jointe

Le tableau de contingence est un tableau croisé dans lequel sont répertoriées les différents attributs de
la population ou de l’échantillon observé. Il permet de synthétiser les informations relatives à 2 variables
qualitatives observées sur l’échantillon.

4
Y1 ... Yj ... Yl total
X1 n11 ... n1j ... n1l n1.
.. .. .. ..
. . . .
Xi ni1 ... nij ... nil ni.
.. .. .. ..
. . . .
Xk nk1 ... nkj ... nkl nk.
total n.1 ... n.j ... n.l n

Exemple : On s’intéresse à une éventuelle relation entre le sexe de 120 personnes et leur catégorie
socio-professionnelle au sein d’une société.

cadre cadre moyen ouvrier total

Homme 20 25 35 80
Femme 5 20 15 40
total 25 45 50 120

Le tableau de contingence permet de résumer la distribution conjointe de deux variables dans l’échantillon,
mais permet aussi d’exhiber les distributions marginales de chacune des variables. En effet, elles sont dis-
ponibles à travers les totaux en lignes et en colonnes.
Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’échantillon :

nij
fij = , i = 1, ..., k; j = 1, ..., l
n
ni. n.j
fi. = n ,i = 1, ..., k f.j = n ,j = 1, ..., l.
On en déduit le tableau des fréquences

Y1 ... Yj ... Yl total

X1 f11 ... f1j ... f1l f1.
.. .. .. ..
. . . .
Xi fi1 ... fij ... fil fi.
.. .. .. ..
. . . .
Xk fk1 ... fkj ... fkl fk.
total f.1 ... f.j ... f.l 1

Exemple : Le tableau suivant reprend les fréquences calculées à partir du tableau de l’exemple
précédant

cadre cadre moyen ouvrier total

Homme 0,17 0,21 0,29 0,67
Femme 0,04 0,17 0,13 0,33
total 0,21 0,38 0,42 1,00

5
2.1.3 Profil et distribution conditionnelle

Les ni. individus présentant la modalité Xi définissent une sous population dans laquelle on peut
observer la distribution de Y. On parle alors de distribution conditionnelle de Y sachant X = Xi . On a
dans ce cas la fréquence conditionnelle de la modalité Yj de Y qui s’écrit :
nij
fj/i = fji =
ni.
Le calcul des fréquences conditionnelles permet de réaliser la representation selon les profils. On dis-
tingue deux types de profils : les profils lignes (fji ) et les profils colonnes (fij ).

nij
Tableau des profils lignes fj/i = fji = ni.

Y1 ... Yj ... Yl total

X1 f11 ... fj1 ... fl1 1
.. .. .. ..
. . . .
Xi f1i ... fji ... fli 1
.. .. .. ..
. . . .
Xk f1k ... fjk ... flk 1
Distribution marginale de Y f.1 ... f.j ... f.l 1

nij
Tableau des profils colonnes fi/j = fij = n.j

Y1 ... Yj ... Yl Distribution marginale de X

X1 f11 ... f1j ... f1l f1.
.. .. .. ..
. . . .
Xi fi1 ... fij ... fil fi.
.. .. .. ..
. . . .
Xk fk1 ... fkj ... fkl fk.
total 1 ... 1 ... 1 1

Exemple : Le tableau qui suit représente les profils lignes calculés à partir du tableau de l’exemple
précédant :
Tableau des profils lignes

cadre cadre moyen ouvrier total

Homme 0,25 0,31 0,44 1,00
Femme 0,13 0,50 0,38 1,00
total 0,21 0,38 0,42 1,00

6
2.1.4 Représentation graphique

Les données synthétisées dans les différents tableaux précédents peuvent être plus lisibles si elles sont
représentées graphiquement. Plusieurs types de graphiques existent. Cependant de manière courante,
on utilise le diagramme en bandes. On peut representer soit les fréquences absolues soit les fréquences
relatives.

2.2 Etude de la liaison de deux variables qualitatives

2.2.1 L’indépendance

La constitution des profils est fondamentale dans l’étude de la liaison entre deux variables qualitatives.
on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables X et Y si
et seulement si tous les profils colonnes sont identiques au profil marginal colonne c’est-à-dire pour tous
i = 1, ..., k et pour tous i = 1, ..., l,

nij ni.
fi/j = fi. ⇔ =
n.j n
De même, on dit que X et Y sont indépendantes ou qu’il y a pas de liaison entre les variables
X et Y si et seulement si tous les profils lignes sont identiques au profil marginal ligne c’est-à-dire pour
tous i = 1, ..., k et pour tous i = 1, ..., l,

nij n.j
fj/i = f.j ⇔
=
ni. n
Cette relation traduit la condition d’indépendance. On appelle effectif théorique la quantitée notée
n.i n.j
n∗ij =
n
Ainsi, il vient qu’il y a indépendance si nij = n∗ij
Dans la pratique, on observe très rarement l’égalité des fréquences conditionnelles. Il apparait donc
nécessaire de trouver un moyen d’apprécier la proximité de la distibution observée et celle d’une distri-
bution indépendante.

2.2.2 Mesure de l’intensité de la liaison entre 2 variables qualitives

Elle se mesure avec la distance du khi deux et se passe en trois étapes.

La première consiste à construire le tableau de contingence en exhibant la distribution conjointe. Il s’agit

7
des tableaux nij .
A la seconde étape, on construit le tableau des effectifs théoriques sensé assurer l’indépendance. Il s’agit
des tableaux n∗ij .
La troisième étape nous permet d’apprécier la différence entre les deux tableaux à l’aide d’une distri-
bution particulière appelée khi-deux. On obtient ainsi une mesure de la proximité entre la distribution
observée et la distribution indépendante.
La distance du khi deux est donnée par la relation suivante :

k X
l k X
l
X (nij − n∗ij )2 X e2ij
χ2obs = =
n∗ij n∗ij
i=1 j=1 i=1 j=1

où eij = nij − n∗ij .

On montre que cette quantité est la variable calculée de la statistique de khi-deux sous l’hypothèse
nulle d’indépendance. D’où l’appelation test de khi-deux.

2.2.3 Test d’indépendance du khi-deux

L’hypothèse nulle du test est :

H0 : Indépendancedesdistributions

La statistique de test sous H0 est celle calculée précédamment. On montre que sous H0 la statistique
est distribuée selon un khi-deux à (k − 1)(l − 1) degré de liberté.

Pour un seuil α fixé, on a

— χ2obs > χ2α =⇒ H0 est rejeté
— χ2obs < χ2α =⇒ H0 est accepté
où χ2α (k − 1)(l − 1) est le quantile d’ordre 1 − α de la loi du khi-deux à (k − 1)(l − 1) degré de liberté.
La zone de rejet au seuil α est donné par :

W = χ2obs > χ2α (k − 1)(l − 1)

Mise en œuvre du test :

Etape 1 : Fixer le seuil de confiance α
Etape 2 : Calculer la distance de khi-deux
Etape 3 : Comparer cette distance avec la valeur critique correspondante. Si la distance calculée est
supérieure à la valeur critique, on rejette l’hypothèse nulle d’indépendance. Dans le cas contraire, on
accepte H0 .

2.2.4 Indicateur de liaison

Si la distance χ2obs = 0 alors X et Y sont indépendant Si χ2obs 6= 0 alors on calcule le coefficient de

Cramer pour mesurer le degré de liaison entre les variables :
s
χ2obs
C=
nmin(k − 1, l − 1)

8
Tableau de laison

C 0 0; 0.2 0.2; 0.4 0.4; 0.7 0.7; 1 [ 1

liaison nulle faible moyenne forte très forte parfaite

Exemple : On mene une étude sur la pratique sportive afin de savoir si le choix de la pratique sportive
est en relation avec la catégorie socio professionnelle du père. Les résultats sont les suivants :

Athlétisme Handball Natation

Fils d’ouvriers 18 35 17
Fils de cadre 12 15 23

Déterminer s’il existe un lien entre le choix de la pratique sportive et la catégorie socio professionnelle
du père.

On peut en guise d’approfondissement rechercher les associations signifficatives entre les modalités
des deux variables. Cela revient à rechercher les cases dont les couples de modalités ont influencée la
liaison par le calcul des contributions au khi-deux données par la relation suivante :
(nij −n∗ij )2
n∗ij
cij =
χ2obs

Le signe de la différence nij − n∗ij indique s’il y a une association positive ou négative.
Remarque
— On calcule le khi deux avec les effectifs et non avec les pourcentages
— Les effectifs influencent la valeur de khi-deux. Lorsque les effectifs doublent la valeur du khi-deux
double

9
Chapitre 3

Etude conjointe de deux variables

quantitatives

On considère dans ce qui suit deux variables quantitatives X et Y observés sur un échantillon de n
individus. Dans ce cas, chaque couple est composé de deux valeurs numériques.

3.1 Représentation graphique et Indicateurs de liaison

3.1.1 Représentation graphique

Un couple de nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan.
Ainsi, la liaison entre 2 variables quantitatives peut être graphiquement représenter par un nuage de
point dont les coordonnées sont données par les couples (X; Y ). Il est en générale possible à partir de
cette representation de conjecturer la nature de la liaison.

3.1.2 Analyse des variables

Les variables X et Y peuvent être analysés séparément. On peut calculer tous les paramètres dont
les moyennes et les variances :
n n
1X 1X
x̄ = xi ; s2x = (xi − x̄)2
n n
i=1 i=1
n n
1 X 1X
ȳ = yi ; s2y = (yi − ȳ)2
n n
i=1 i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales,
écarts-types marginaux, quantiles marginaux, etc...

10
3.1.3 Covariance

La covariance est donnée par :

n
1X
sxy = (xi − x̄)(yi − ȳ).
n
i=1

— La covariance peut prendre des valeurs positives, nǵatives ou nulles.

— Elle généralise la notion de variance. Quand xi = yi ; pour tout i = 1; :::; n ; la covariance est égale
à la variance.
La covariance peut également s’écrire
n
1X
sxy = xi yi − x̄ȳ.
n
i=1

Démonstration : exercice

3.1.4 Corrélation

Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux :
sxy
ρxy =
sx sy

Il s’agit de l’indicateur usuel de la liaison entre deux variables quantitatives.

Remarque
— Le coefficient de corrélation mesure la dépendance linéaire entre deux variables quantitatives
— −1 ≤ ρxy ≤ 1
— Si le coefficient de corrélation est positif, les points sont alignées le long d’une droite croissante.
— Si le coefficient de corrélation est négatif, les points sont alignées le long d’une droite décroissante.
— Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance linéaire. On
peut cependant avoir une dépendance non-linéaire avec un coeffcient de corrélation nul.
Le coefficient de détermination est la carré du coefficient de corrélation
s2xy
r2 = ρ2xy =
s2x s2y

3.2 Ajustement analytique

Il consiste à rechercher la relation fonctionnelle entre X et Y soit sous la forme Y = g(X) soit sous la
forme X = g(Y ). On appelle courbe de regression de Y en X, la courbe qui retranscrit le mieux le nuage
de points. Nous nous intéressons au cas d’une droite de regression.

3.2.1 Droite de regression et méthode des moindres carrées ordinaires (MCO)

La droite de régression est la droite d’équation y = a + bx qui ajuste au mieux un nuage de points au
sens des moindres carrées. Dans ce cas, on considère que la variable X est explicative et que la variable

11
Y est dépendante. Le problème consiste à identifier une droite qui ajuste bien le nuage de points. Si les
coefficients a et b étaient connus, on pourrait calculer les résidus de la régression définie par :

ei = yi − a − bxi .

Le résidu ei est l’erreur que l’on commet en utilisant la droite de régression pour prédire yi à partir de
xi . Les résidus peuvent être positifs ou négatifs.
Pour déterminer la valeur des coeffcients a et b, on utilise le principe des moindres carrées ordinaire qui
consiste à chercher la droite qui minimise la somme des carrées des résidus :

n
X n
X
F (a, b) = e2i = (yi − a − bxi )2 .
i=1 i=1

On montre que les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
sxy
b̂ =
s2x

â = ȳ − bx̄

Démonstration : exercice.

La droite de régression est donc :

sxy sxy
ŷ = â + b̂x = ȳ − 2
x̄ + 2 x
sx sx

Ce qui peut s’écrire

sxy
ŷ − ȳ = (x − x̄).
s2x

3.2.2 Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues au moyen de la droite de régression :

ŷi = â + b̂xi

Les valeurs ajustées sont les ’prédictions’ des yi réalisées au moyen de la variable x et de la droite de
régression de y en x.
Remarque : La moyenne des valeurs ajustées est égale à la moyenne des valeurs observées ȳ. Les
résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante :

êi = yi − ŷi .

Les résidus représentent la partie inexpliquée des yi par la droite de régression.

12
3.2.3 Sommes de carrés et variances

Définition : On appelle somme des carrés totale la quantité :

n
X
SCT = (yi − ȳ)2
i=1

La variance marginale peut alors être définie par :

n
SCT 1X
s2y = = (yi − ȳ)2
n n
i=1

Définition : On appelle somme des carrés de la regression la quantité :

n
X
SCE = (yˆi − ȳ)2
i=1

La variance de la regression est la variance des valeurs ajustées.

n
1X
s2ŷ = (yˆi − ȳ)2
n
i=1

Définition : On appelle somme des carrés des résidus (ou résiduelle) la quantité
n
X
SCR = eˆi 2
i=1

La variance résiduelle est la variance des résidus.

n
1X 2
sê = eˆi
n
i=1

Théorème : Formule d’analyse de la variance

SCT = SCE + SCR

3.2.4 Décomposition de la variance

La variance de régression peut également s’écrire :

s2ŷ = s2y r2

où r2 est le coefficient de détermination.

La variance résiduelle peut également s’écrire

s2ê = s2y (1 − r2 )

La variance marginale est la somme de la variance de régression et de la variance résiduelle

s2y = s2ŷ + s2ê

13
3.2.5 Liaisons non-linéaires

Les liaisons non linéaires se déclinent sous forme autre que les formes affines. On peut distinguer entre
autres les cas suivants :
— y = bxa Liaison puissance
On peut le ramener au cas linéaire par la log transformation de Y . Log(y) = Log(b) + aLog(x).
Ce Ce type de modélisation est adéquat lorsqu’on étudie l’élasticité de Y par rapport à X (a =
coefficient d’élasticité)
— y = alogx + b. Ce type de modélisation correspond à la modélisation de la courbe de Philips.
— y = beax . On peut faire une transformation log.
a 1
— y= x + b. On pose z = x
— y = b + a1 X + a2 X 2 + ... + an X n . Liaison polynomiale
Les liaisons précedentes peuvent etre estimées par la méthode des moindres carrées ordinaires. En
générale, dans les liaisons plus complexes, on utilise les méthodes suivantes :
— la méthode du maximum de vraisemblance ;
— la méthode des moments.

3.2.6 Liaison et causalité

L’existence d’une forte corrélation entre 2 variables ne prouve en aucun cas l’existence d’une causalité.
On doit faire attention compte tenu de des deux risques suivants : Risque 1 : Etablissement de causalité
falacieuse à partir de la corrélation ;
Risque 2 : Etablissement de causalité dans le mauvais sens.
L’utilisation de la regression linéaire pour l’information ou la confirmation d’une théorie, d’une idée
communément acceptée doit se faire avec beaucoup de prudence à raison de la difficile réalisation de la
clause - toute chose égale par ailleurs- en science sociale et en économie en particulier.

14
Chapitre 4

Etude conjointe d’une variable

quantitative et d’une variable qualitative

Dans toute la suite, X désigne une variable quanlitative à k modalités et Y une variable continue.

4.1 Définition et notation

4.1.1 Notion de variance totale

Il s’agit de la variance de la variable continue quantitative Y observé sur l’ensemble de l’échantillon.

On note :
— n : taille de l’échantillon
— nj : taille de l’échantillon ayant ou présentant la modalité xj
— yij : valeur de l’observation i dans le sous échantillon présentant la modalité xj
On définit la moyenne et la variance de Y dans le sous échantillon j encore appelées respectivement
moyenne conditionnelle et variance conditionnelle à la sous population i :

nj
1 X
ȳj = yij
nj
i=1
nj
1 X
Vj (Y ) = (yij − ȳj )2
nj
i=1

4.1.2 Notion de variance inter

La variance inter classe ou inter group est donnée par :

k
1X
Vinter = nj (ȳj − ȳj )2
n
j=1

Il s’agit de la dispersion moyenne de la moyenne des groupes.

15
4.1.3 Notion de variance intra

La variance intra classe ou intra group est donnée par :

k
1X
Vintra = nj Vj (Y )
n
j=1

Il s’agit de la moyenne des variances à l’intérieur des groupes. D’une manière générale,

V (Y ) = Vinter + Vintra

4.1.4 Représentation graphique

4.2 Etude de liaison

4.2.1 Principe

La distribution de Y est indépendante de celle de X si et seulement si, on observe la même distri-

bution de Y à l’intérieur et au dehors des sous populations défini par les modalités de X, c’est-à-dire
l’égalité des variances conditionnelles et des moyennes conditionnelles. En d’autres termes, pour tout i,
on a Yi = Ȳ et Vj (Y ) = V (Y ) Ainsi, pour que deux variables quantitatives soient indépendantes d’une
variable qualitative, on calcule les moyennes conditionnelles que l’on compare entre elles ou à la moyenne
marginale. Si elles sont les mêmes, on conclut à l’indépendance des deux caractères sinon à une liaison.

4.2.2 Liaison fonctionnelle

Y sera dit fonctionnellement liée à X si et seulement si les individus d’une même sous population
prennent des valeurs identiques de Y . En d’autres termes, la donnée de la catégorie dans laquelle
se trouve un individu permet de connaı̂tre parfaitement la valeur de Y qui lui est affectée. Ainsi, les
variances conditionnelles de Y sont nulles.

4.2.3 Mesure de la liaison

Les cas extrêmes présentées plus haut se reproduisent rarement. En pratique, on doit se donner un
moyen d’appréciation des données fournies par la population étudiée afin de juger si l’on se trouve plus
près de la situation d’indépendance ou celle de la liaison fonctionnelle. L’on peut se retrouver dans deux
types de situation :
— Variance interclass très forte
— Variance interclass très faible
Dans le cas de la liaison, la variance inter est forte et la variance intra faible. On est dans le cas
d’indépendance au cas contraire. On définit le rapport de corrélation par la relation :
r
Vinter
ηy/x =
Vintra
Lorsque ηy/x tend vers 1, il y a liaison et lorque ηy/x tend vers 0, il y a indépendance.

16
4.2.4 Test d’analyse de la variance

Ce test a pour but de trancher sur l’effet d’une variable qualitative sur une variable qualitative. Il
s’apparente à un test d’agalité de k moyennes et est fondé sur les hypothèses fortes suivantes :
— Indépendance des échantillons
— Egalité des variances
— Normalité de la distribution contionnelle
L’hypothèse nulle du test est :
H0 : la variable qualitative n’influence pas la variable quantitive ou le caractère qualitatif n’influence pas
les valeurs prises par la variable quantitative.
La statistique de test est donnée par :

Vinter
k−1
F = Vintra
n−k

Cette statistique, sous l’hypothèse nulle, suit une loi de Fisher à (k − 1; n − k) degrés de liberté. La
zone de rejet est donnée par :

W = Fc > F (k − 1; n − k)

Etape de mise en œuvre du test

— On se fixe un seuil α
— On identifie le seuil critique F1−α (k − 1; n − k)
— On calcule la statistique Fc et on effectue la comparaison
— Si Fc > F1−α (k − 1; n − k) alors le caractère qualitatif a une influence sur les valeurs de la variable
quantitative

17
Chapitre 5

Test de comparaison de moyenne et de

proportion

5.1 Test de comparaison de moyenne

On considère dans ce qui suit deux échantillons X 1 et X 2 de taille de taille n1 et n2 issus de loi normale
N (µ1 , σ12 ) et N (µ2 , σ22 ). On se propose de trancher sur l’égalité ou non des 2 moyennes. L’hypothèse nulle
qu’on se fixe est H0 : µ1 = µ2

Premier Cas : σ12 et σ22 sont connus

σ2 ,σ12
On montre que X̄1 − X̄2 suit une loi normale de paramètre (µ1 − µ2 , n11 + n2 )
Sous H0,
X̄1 − X̄2
Z=q 2 ,→ N (0; 1)
σ1 σ12
n1 + n2
La zone de rejet est donnée par :

W = |Z| > z1−α/2
où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite.
Deuxième Cas : σ12 et σ22 sont inconnus

Il faut tenir compte de la taille de l’échantillon

1. Si n1 et n2 sont supérieurs à 30
1 Pn1 1 Pn2
On estime σ12 et σ22 respectivement par S12 = n1 −1
2
i=1 (Xi − X̄1 )
2 et S22 = n2 −1
2
i=1 (Xi − X̄2 )
2

La statistique de test reste la même avec

X̄1 − X̄2
Z=q 2 ,→ N (0; 1)
S1 S22
n1 + n2

2. Si n1 ou n2 inférieur à 30 et σ12 = σ22

(n1 −1)S12 +(n2 −1)S22
On calcule S 2 = n1 +n2 −2 et on montre que S 2 suit une loi du khi-deux à degré de liberté.

18
Sous H0 , on montre que la statistique de test

X̄1 − X̄2
Z= q
S n11 + n12

suit une loi de student à (n1 + n2 − 2) degré de liberté.

La zone de rejet est alors donnée par :

W = |Z| > t1−α/2

où z1−α/2 est le quantile d’ordre 1 − α/2 de Student.

3. Si n1 ou n2 inférieur à 30 et σ12 6=σ22
On utilise la statistique
X̄1 − X̄2
Z=q 2
S1 S22
n1 + n2

qui suit une loi de student à l degré de liberté où l est l’entier le plus proche possible du résultat
de la formule de Aspin-Welch :

2 2
1 1 V (X̄1 ) 1 V (X̄2 )
= +
l n1 − 1 V (X̄1 ) + V (X̄2 ) n2 − 1 V (X̄1 ) + V (X̄2 )

5.2 Test de comparaison de proportition

On suppose que l’on veuille comparer deux proportions p1 et p2 . L’hypothèse nulle est donnée par
H0 : p1 = p2 on suppose que l’on a une estimation pˆ1 de p1 et pˆ2 de p2 . Pour n assez grand, pˆ1 − pˆ2
suit une loi normale de paramètre (p1 − p2 ; V ) . Sous l’hypothèse nulle, pˆ1 − pˆ2 suit une loi normale de
n1 pˆ1 +n2 pˆ2
paramètre (0; V ). On estime V par V̂ = p̂(1 − p̂)( n11 + 1
n2 ) où p̂ = n1 +n2
La zone de rejet est donnée par
( )
pˆ1 − pˆˆ2
W = > z1−α/2
V̂

Vous aimerez peut-être aussi

Statistiques Bivariées : Concepts Clés
Pas encore d'évaluation
Statistiques Bivariées : Concepts Clés
38 pages
Addcours 2025couleur - 241126 - 103229
Pas encore d'évaluation
Addcours 2025couleur - 241126 - 103229
57 pages
Chapitre II
Pas encore d'évaluation
Chapitre II
8 pages
COURS Biostatistique
Pas encore d'évaluation
COURS Biostatistique
5 pages
Cours 1 de Statistique
Pas encore d'évaluation
Cours 1 de Statistique
68 pages
Stat 324
Pas encore d'évaluation
Stat 324
24 pages
Introduction aux données statistiques
Pas encore d'évaluation
Introduction aux données statistiques
36 pages
Méthodologie et analyses de données
Pas encore d'évaluation
Méthodologie et analyses de données
30 pages
L1 SD Poly
Pas encore d'évaluation
L1 SD Poly
45 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
16 pages
Statistiques : Concepts et Méthodes
Pas encore d'évaluation
Statistiques : Concepts et Méthodes
27 pages
Statistique TH Eorique Et Appliqu EE: Tome 2 Inf Erence Statistique 'A Une Et 'A Deux Dimensions Pierre Dagnelie
0% (1)
Statistique TH Eorique Et Appliqu EE: Tome 2 Inf Erence Statistique 'A Une Et 'A Deux Dimensions Pierre Dagnelie
7 pages
Analyse Des Données Statistiques Pour L'ingénieur
Pas encore d'évaluation
Analyse Des Données Statistiques Pour L'ingénieur
49 pages
Guide pratique de R pour statistiques
Pas encore d'évaluation
Guide pratique de R pour statistiques
46 pages
Cours-Stat DMPA1 N
Pas encore d'évaluation
Cours-Stat DMPA1 N
51 pages
Analyse des Tableaux de Fréquences
Pas encore d'évaluation
Analyse des Tableaux de Fréquences
282 pages
Ch4 - Les Statistiques À Deux Variables
Pas encore d'évaluation
Ch4 - Les Statistiques À Deux Variables
51 pages
Analyser Des Données Avec R
Pas encore d'évaluation
Analyser Des Données Avec R
146 pages
ADD Partie 2
Pas encore d'évaluation
ADD Partie 2
13 pages
Analyse Statistique Bivariée et Corrélation
Pas encore d'évaluation
Analyse Statistique Bivariée et Corrélation
55 pages
Cours de Statistique Descriptive STID Grenoble
Pas encore d'évaluation
Cours de Statistique Descriptive STID Grenoble
146 pages
Stat 2025
Pas encore d'évaluation
Stat 2025
49 pages
Shared Files 1
Pas encore d'évaluation
Shared Files 1
41 pages
Statistique descriptive et probabilités
Pas encore d'évaluation
Statistique descriptive et probabilités
45 pages
Cours Statistique Descriptive L1SA
Pas encore d'évaluation
Cours Statistique Descriptive L1SA
73 pages
Cours Stat 3ème Biologie ANOVA + Regression PDF
100% (1)
Cours Stat 3ème Biologie ANOVA + Regression PDF
36 pages
Introduction à la Statistique et Vocabulaire
Pas encore d'évaluation
Introduction à la Statistique et Vocabulaire
76 pages
Statistiques inférentielles : Cours complet
Pas encore d'évaluation
Statistiques inférentielles : Cours complet
55 pages
Biostatistiques : Cours et Exercices TD
Pas encore d'évaluation
Biostatistiques : Cours et Exercices TD
94 pages
Probabailité
Pas encore d'évaluation
Probabailité
49 pages
Régression Linéaire et Statistiques Bivariées
Pas encore d'évaluation
Régression Linéaire et Statistiques Bivariées
15 pages
Statistiques pour Sciences Humaines
Pas encore d'évaluation
Statistiques pour Sciences Humaines
133 pages
Aboud Soumia
Pas encore d'évaluation
Aboud Soumia
80 pages
ANALYSE DES DONNEES Chap 3
Pas encore d'évaluation
ANALYSE DES DONNEES Chap 3
6 pages
Statistique Descriptive pour Sciences Humaines
Pas encore d'évaluation
Statistique Descriptive pour Sciences Humaines
174 pages
GR 47
Pas encore d'évaluation
GR 47
119 pages
Statistique Bivariée et Corrélation
Pas encore d'évaluation
Statistique Bivariée et Corrélation
10 pages
119 Biostatistique Et Analyse Informatique Des Donnees de R TDM
100% (1)
119 Biostatistique Et Analyse Informatique Des Donnees de R TDM
4 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
150 pages
Poly Biostat Sept20
Pas encore d'évaluation
Poly Biostat Sept20
94 pages
Cours de Statistiques et Probabilités
Pas encore d'évaluation
Cours de Statistiques et Probabilités
60 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
60 pages
Poly M1
Pas encore d'évaluation
Poly M1
96 pages
Introduction aux Biostatistiques
Pas encore d'évaluation
Introduction aux Biostatistiques
19 pages
POLY2-StatDesc 2023
Pas encore d'évaluation
POLY2-StatDesc 2023
61 pages
Introduction A La Statistique Descriptive
Pas encore d'évaluation
Introduction A La Statistique Descriptive
40 pages
Polycopie ZEROUTI Statistique Et Analyse de Donnees
Pas encore d'évaluation
Polycopie ZEROUTI Statistique Et Analyse de Donnees
110 pages
Introduction à la Statistique MIASHS
Pas encore d'évaluation
Introduction à la Statistique MIASHS
32 pages
Statistiques à Deux Variables: Concepts Clés
Pas encore d'évaluation
Statistiques à Deux Variables: Concepts Clés
36 pages
Cours Stat 1LNSG 2020
Pas encore d'évaluation
Cours Stat 1LNSG 2020
57 pages
Analyse de la Moyenne et Histogramme
Pas encore d'évaluation
Analyse de la Moyenne et Histogramme
14 pages
Cours de Statistique-Descriptive-ESI-1
Pas encore d'évaluation
Cours de Statistique-Descriptive-ESI-1
33 pages
1-Statistique Descriptive Univariée
Pas encore d'évaluation
1-Statistique Descriptive Univariée
45 pages
Analyse Univariée et Bivariée Statistique
Pas encore d'évaluation
Analyse Univariée et Bivariée Statistique
12 pages
Statistiques Inférentielles et Estimation
Pas encore d'évaluation
Statistiques Inférentielles et Estimation
95 pages
Cours de Statistique Inférentielle
100% (1)
Cours de Statistique Inférentielle
131 pages
Analyse Des Données 2025 COULEUR
Pas encore d'évaluation
Analyse Des Données 2025 COULEUR
32 pages
ONEF - Rapport Detude - RASAMT 2023 Du 02 - 12 - 2024 VF
Pas encore d'évaluation
ONEF - Rapport Detude - RASAMT 2023 Du 02 - 12 - 2024 VF
87 pages
FR Syllabus+PBNC 17102025.pdf+
Pas encore d'évaluation
FR Syllabus+PBNC 17102025.pdf+
25 pages
Plan Apprentissage Mandarin 1h Jour
Pas encore d'évaluation
Plan Apprentissage Mandarin 1h Jour
1 page
Enquête 2021 sur les conditions de vie au Burkina
Pas encore d'évaluation
Enquête 2021 sur les conditions de vie au Burkina
208 pages
Bulletin Statistique T3 - Compil - VP
Pas encore d'évaluation
Bulletin Statistique T3 - Compil - VP
31 pages
Diagnostic de la pauvreté 2021 au Burkina
Pas encore d'évaluation
Diagnostic de la pauvreté 2021 au Burkina
84 pages
Stratégie Burkinabè pour Pôles de Croissance
Pas encore d'évaluation
Stratégie Burkinabè pour Pôles de Croissance
55 pages
Module Cours Aepprn - 2022-2023-1
Pas encore d'évaluation
Module Cours Aepprn - 2022-2023-1
61 pages
Ayoub Sammoud 2024
Pas encore d'évaluation
Ayoub Sammoud 2024
1 page
Estimation par maximum de vraisemblance
Pas encore d'évaluation
Estimation par maximum de vraisemblance
5 pages
Statistiques Univariées et Probabilité
Pas encore d'évaluation
Statistiques Univariées et Probabilité
98 pages
Stratégies de communication REDD+ Isangi
Pas encore d'évaluation
Stratégies de communication REDD+ Isangi
100 pages
Section 03 - Gestion de Conflits en Milieu Scolaire
Pas encore d'évaluation
Section 03 - Gestion de Conflits en Milieu Scolaire
16 pages
Pourquoi Les Canards Sont Insensibles A Lecho de Leur Coin Coin
Pas encore d'évaluation
Pourquoi Les Canards Sont Insensibles A Lecho de Leur Coin Coin
10 pages
Limites du Modèle de Stress de Karasek
Pas encore d'évaluation
Limites du Modèle de Stress de Karasek
15 pages
Support de Cours MP 17-03-2025
Pas encore d'évaluation
Support de Cours MP 17-03-2025
78 pages
Introduction Sur L'analyse de L'apport de L'audit Interne Dans La Performance D'une Entreprise
Pas encore d'évaluation
Introduction Sur L'analyse de L'apport de L'audit Interne Dans La Performance D'une Entreprise
5 pages
Programmes Acc Final
100% (1)
Programmes Acc Final
80 pages
How To Lie With Statistics (1993)
Pas encore d'évaluation
How To Lie With Statistics (1993)
117 pages
Statistiques Descriptives et Applications
100% (1)
Statistiques Descriptives et Applications
51 pages
Typologie des Espaces Ruraux en France
Pas encore d'évaluation
Typologie des Espaces Ruraux en France
17 pages
Formulaire Demande Analyses Excell
Pas encore d'évaluation
Formulaire Demande Analyses Excell
1 page
Questionnaire PHD
Pas encore d'évaluation
Questionnaire PHD
8 pages
Exemples et Guide pour le TIPE
Pas encore d'évaluation
Exemples et Guide pour le TIPE
25 pages
Lettre de Motivation Et CV Chez Onip PDF
Pas encore d'évaluation
Lettre de Motivation Et CV Chez Onip PDF
7 pages
Les Étapes de La Recherche en SIC - COURS
Pas encore d'évaluation
Les Étapes de La Recherche en SIC - COURS
41 pages
VILAS 2018 Archivage
Pas encore d'évaluation
VILAS 2018 Archivage
266 pages
Maximum Vraisemblance
Pas encore d'évaluation
Maximum Vraisemblance
18 pages
Estimation du risque quadratique
Pas encore d'évaluation
Estimation du risque quadratique
6 pages
Objectifs Système Respiratoire Et Circulatoire
Pas encore d'évaluation
Objectifs Système Respiratoire Et Circulatoire
1 page
Comment Rediger Un Rapport Scientifique 2
Pas encore d'évaluation
Comment Rediger Un Rapport Scientifique 2
22 pages
Le Cycle de Projet BM
Pas encore d'évaluation
Le Cycle de Projet BM
6 pages
Conception de Questionnaire
100% (1)
Conception de Questionnaire
3 pages
Gestion économique d'un projet d'investissement
Pas encore d'évaluation
Gestion économique d'un projet d'investissement
81 pages
Exercices de Statistiques: Diagrammes et Calculs
Pas encore d'évaluation
Exercices de Statistiques: Diagrammes et Calculs
6 pages
Applications de la méthode TRIZ
Pas encore d'évaluation
Applications de la méthode TRIZ
3 pages
Etude de Cas
Pas encore d'évaluation
Etude de Cas
19 pages
Exercices d'Optimisation Mathématique
Pas encore d'évaluation
Exercices d'Optimisation Mathématique
14 pages