Chapitre
1
Présentation et traitement des
données
1
Statistiques bivariées 2 M. ALEIYOUKA
Chapitre
2
Étude de la liaison entre deux
variables
Table des matières
1 Présentation et traitement des données 1
2 Étude de la liaison entre deux variables 3
1 Dépendance et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Liaison entre deux variables quantitatives . . . . . . . . . . . . . . . . . . . 4
2.1 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . 5
2
3.1 χ (khi-deux) et Coefficient de Cramer . . . . . . . . . . . . . . . . 5
3.2 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . 6
3
Dépendance et indépendance
1. Dépendance et indépendance
1.1. Définition
On dit que la variable X est indépendante de la variable Y si
fi/j = fi. pour tout 1 ≤ i ≤ k, 1 ≤ j ≤ l.
En reportant dans l’égalité précédente, il vient que
ni. × n.j
fij = fi. × f.j ⇔ nij = .
n
Ainsi, Y est aussi indépendante de X ; et on dit que X et Y sont indépendantes.
1.2. Exemple
On considère le tableau associé à deux variables indépendantes suivant :
X\Y y1 y2 y3 y4 Total
x1 2 1 4 6 13
x2 4 2 8 12 26
x3 6 3 12 18 39
Total 12 6 24 36 78
Les variables X et Y sont indépendantes, car :
n3. × n.4 39 × 36
= = 18 = n34 .
N 78
Lorsque deux variables dépendent l’une de l’autre, on cherche à évaluer l’intensité
de leur liaison et dans le cas de deux variables quantitatives, on examine si on peut les
considérer liées par une relation linéaire.
2. Liaison entre deux variables quantitatives
2.1. Coefficient de corrélation
Le coefficient de corrélation permet de donner une mesure synthétique de l’intensité et
du sens de la relation linéaire entre deux variables quantitatives.
Statistiques bivariées 4 M. ALEIYOUKA
TABLE DES MATIÈRES
Pour calculer ce coefficient, il faut tout d’abord calculer la covariance. La covariance
est la moyenne du produit des écarts à la moyenne.
n n
1X 1X
Cov(X, Y ) = (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ.
n i=1 n i=1
Dans le cas des données groupées dans un tableau de contingence, en termes d’effectifs
(ou fréquences) on peut écrire :
k X l k X l
1X 1X
Cov(X, Y ) = nij (xi − x̄)(yj − ȳ) = nij xi yj − x̄ȳ.
n i=1 j=1 n i=1 j=1
Le coefficient de corrélation linéaire de deux caractères X et Y est égal à la covariance
de X et Y divisée par le produit des écarts-types de X et Y :
Cov(X, Y )
r(X, Y ) = .
σ(X)σ(Y )
2.2. Interprétation
• Si r(X, Y ) = 1, les points du nuage sont alignés, c’est-à-dire qu’il y a une corrélation
linéaire parfaite entre X et Y .
• Si r(X, Y ) est proche de 1 ou -1, on dit que X et Y sont fortement corrélés.
• Si r(X, Y ) > 0, les points du nuage sont alignés le long d’une droite ascendante.
• Si r(X, Y ) < 0, les points du nuage sont alignés le long d’une droite descendante.
• Si r(X, Y ) = 0, il n’y a pas de liaison linéaire.
3. Liaison entre deux variables qualitatives
3.1. χ2 (khi-deux) et Coefficient de Cramer
3.1.1. Définition
Le χ2 est un nombre mesurant l’écart entre la situation observée et la situation si les
variables avaient été théoriquement indépendantes.
Statistiques bivariées 5 M. ALEIYOUKA
Liaison entre deux variables qualitatives
3.1.2. Méthodologie
Construction du tableau de contingence sous hypothèse d’indépendance :
ni. × n.j
n′ij = .
n
On calcule ensuite
k X
l
(nij − n′ij )2
χ2 =
X
.
i=1 j=1 n′ij
3.1.3. Coefficient de Cramer
Le coefficient du χ2 indique l’existence d’une relation de dépendance entre 2 variables
qualitatives, mais :
• Il ne constitue pas un indicateur de l’intensité de cette dépendance.
• Il ne donne aucune information sur le sens de la dépendance.
Le coefficient de Cramer C ∈ [0, 1] est défini par
v
χ2
u
u
C= t
2
Xmax
avec
2
Xmax = n × min(k − 1, l − 1).
3.1.4. Interprétation
• Si C est proche de 0, alors les variables X et Y sont presque indépendantes.
• Si C est proche de 1, alors les variables X et Y sont fortement liées.
3.2. Test d’indépendance du khi-deux
Le test d’indépendance du χ2 permet de déterminer si deux variables qualitatives sont
indépendantes ou non. Pour cela, nous testons les deux hypothèses suivantes :
•H 0 : Les deux variables sont indépendantes.
•H 1 : Les deux variables sont dépendantes.
Statistiques bivariées 6 M. ALEIYOUKA
TABLE DES MATIÈRES
3.2.1. Déroulement du test d’indépendance du χ2
Le but du test est de déterminer si la valeur observée du χ2 correspond à un événement
fréquent (auquel cas on ne peut rejeter l’hypothèse d’indépendance) ou à un événement
rare (auquel cas on peut rejeter l’hypothèse d’indépendance). Le déroulement du test est
le suivant :
1. On pose l’hypothèse H0 : "Il n’y a pas de relation entre les caractères X et Y ".
2. On détermine la valeur χ2obs du tableau étudié.
3. On détermine le nombre de degrés de liberté z du tableau étudié.
4. On fixe le risque d’erreur α de rejeter H0 à tort (exemple : α = 5%).
5. On détermine la valeur χ2 (z, α) qui est la valeur de χ2 d’un tableau de contingence
à z degrés de liberté qui ne serait dépassé que dans α% des cas si les variables X et
Y étaient indépendantes. Cette valeur est lue dans une table du test du χ2 .
6. On procède au test :
H0 est vraie si : χ2obs ≤ χ2 (z, α).
7. Suivant le résultat du test, on accepte H0 ou bien l’on rejette H0 et l’on accepte
l’hypothèse inverse H1 (“il y a une relation de dépendance entre X et Y ”) avec un
risque d’erreur de α%.
Exercice 1
On interroge 1 000 personnes au sujet de deux caractères, la couleur des yeux et la
couleur des cheveux. Les résultats obtenus sont indiqués dans le tableau ci-dessous :
Couleur des yeux \Couleur des cheveux Blond Brun Châtain Roux Total
Bleu 100 50 140 30 320
Marron 70 90 170 40 370
Noisette 30 40 80 20 170
Vert 40 40 50 10 140
Total 240 220 440 100 1000
Voici le tableau des effectifs théoriques (valeurs arrondies au dixième) :
Statistiques bivariées 7 M. ALEIYOUKA
Liaison entre deux variables qualitatives
Couleur des yeux \Couleur des cheveux Blond Brun Châtain Roux Total
Bleu 76.8 70.4 140.8 32.0 320
Marron 88.8 81.4 162.8 37.0 370
Noisette 40.8 37.4 74.8 17.0 170
Vert 33.6 30.8 61.6 14.0 140
Total 240 220 440 100 1000
On calcule
(nij − n′ij )2
χ2obs
X
= .
i,j n′ij
Pour rejeter ou pas l’hypothèse d’indépendance, on compare la valeur calculée du test
à la valeur tabulée avec un seuil α.
3.2.2. Détermination du nombre de degrés de liberté
ddl = (k − 1)(l − 1).
Si la valeur calculée par le test est supérieure à la valeur tabulée, on rejette l’hypothèse
d’indépendance H0 au profit de celle de dépendance H1 . Dans le cas contraire, on ne rejette
pas H0 .
Pour un seuil α de 5% : χ2 (0.95; 9) = 16.919.
Dans la mesure où χ2obs > χ2 (0.95; 9), on rejette et on conclut qu’il existe un lien de
dépendance entre la couleur des cheveux et la couleur des yeux.
Exercice 2
Une entreprise de logistique souhaite analyser si le type de transport utilisé influence
la ponctualité des livraisons. Pour cela, elle étudie 300 livraisons réparties selon le tableau
suivant :
Type de transport Livraison à l’heure Retard de livraison Total
Camion 90 60 150
Train 70 30 100
Avion 40 10 50
Total 200 100 300
Les deux variables sont-elles indépendantes ?
Statistiques bivariées 8 M. ALEIYOUKA