L1-BA Séquence 3 : Statistiques à deux variables Mohalilou ALEIYOUKA
Décomposition de la variance
La mise en œuvre d’un modèle linéaire a pour objectif d’expliquer la variabilité d’une variable y par d’autres variables.
Nous allons décomposer la variance totale en deux parties: une variance due aux différences à l'intérieur de chaque groupe
(variance INTRA-GROUPE) et une variance due aux différences entre les moyennes de tous les groupes (variance INTER-
GROUPE).
𝑛 𝑛 𝑛
2 )2
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦𝑖 − 𝑦̅𝑖 + ∑(𝑦̅𝑖 − 𝑦̅)2
𝑖=1 𝑖=1 𝑖=1
SCT = SCR + SCF
SCT = Variance totale (somme des carrés sur le total des données)
SCR = Variance résiduelle (variance des résidus)
SCF = Variance factorielle : la variabilité de y expliquée par le modèle, c’est-à-dire par les prédicteurs.
La variance intra, moyenne des variances (conditionnelles), quantifie la part de la variabilité intrinsèque de Y, et la variance
inter, variance des moyennes (conditionnelles), mesure l’hétérogénéité des sous-populations.
La décomposition de la variance se résume schématiquement de la manière suivante :
Variance totale
Variance inter-groupe Variance intra-groupe
+
Variance Moyenne
des des
moyennes variances
Etude de la liaison entre deux variables
I. Dépendance et indépendance
On dit que la variable X est indépendante de la variable Y si
𝑓𝑖/𝑗 = 𝑓𝑖∙ pour tout 1 ≤ 𝑖 ≤ 𝑘, 1 ≤ 𝑗 ≤ 𝑙 :
En reportant dans l’égalité précédente, il vient que
𝑛𝑖∙ ×𝑛∙𝑗
𝑓𝑖/𝑗 = 𝑓𝑖∙ et 𝑓𝑖𝑗 = 𝑓𝑖∙ × 𝑓∙𝑗 𝑛𝑖𝑗 = 𝑁
Ainsi, Y est aussi indépendante de X; et on dit que X et Y sont indépendantes.
Exemple : On considère le tableau associé à deux variables indépendantes suivant :
1
Y
y1 y2 y3 y4 Total
X
x1 2 1 4 6 13
x2 4 2 8 12 26
x3 6 3 12 18 39
Total 12 6 24 36 78
𝑛3∙ ×𝑛∙4 39×36
Les variables X et Y sont indépendantes, car : 𝑁
= 78
= 18 = 𝑛34
Lorsque deux variables dépendent l’une de l’autre, on cherche à évaluer l’intensité de leur liaison et dans le cas de deux
variables quantitatives, on examine si on peut les considérer liées par une relation linéaire.
II. Régression linéaire
II-1. Ajustement affine par la méthode des moindres carrés
Au vu du nuage de points, nous allons chercher une relation affine entre les variables 𝑥𝑖 et les variables yi .
Nous aimerions donc trouver une droite D vérifiant les équations :
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏, pour tout 𝑖 = 1, … , 𝑝.
Pour trouver des coefficients a et b convenables, nous allons chercher à minimiser la distance (impliquant donc des carrés)
entre la droite est les points 𝑑(𝑥𝑖 , 𝑦𝑖 ). C’est pour cette raison que nous utilisons l’appellation « méthode des moindres carrés
». Graphiquement, nous avons l’impression d’avoir autant de points au-dessus et en dessous de la droite D (cf. figure ci-
dessous).
Cette droite s’appelle la droite de régression de 𝑦 en 𝑥 car nous avons voulu expliquer la variable y en fonction de la variable
x.
Droite de régression de 𝐲 en 𝐱 par la méthode des moindres carrés :
C’est la droite d’équation 𝒚 = 𝒂𝒙 + 𝒃 avec :
𝑪𝒐𝒗(𝑿, 𝒀)
𝒂= ̅ − 𝒂𝒙
et 𝒃 = 𝒚 ̅
𝑽(𝑿)
Droite de régression de x en y (peu utilisé) par la méthode des moindres carrés :
C’est la droite d’équation 𝒙 = 𝒂′𝒚 + 𝒃′ avec :
𝑪𝒐𝒗(𝑿, 𝒀)
𝒂′ = ̅ − 𝒂′𝒚
et 𝒃′ = 𝒙 ̅
𝑽(𝒀)
2
Exercice 1.
On désigne par X la variable associée à la proportion d’actifs occupé dans le secteur primaire (donnée en pourcentage) et Y
la variable associée à la part du secteur primaire dans le PIB (donnée en pourcentage).
Mauritanie Espagne Sénégal France Congo Italie
x 2.60 11.8 24.5 6 3.40 15
y 1.90 5 15 4.20 2 10
1- Représenter cette série statistique par un nuage de points.
2- En utilisant la méthode des moindres carrés, déterminer l’équation de la droite représentant Y en X.
3- Calculer le coefficient de corrélation linéaire. Interpréter ?
III. Liaison entre deux variables quantitatives
III.1. Coefficient de corrélation
Le coefficient de corrélation permet de donner une mesure synthétique de l'intensité et du sens de la relation linéaire entre
deux variables quantitatives.
Pour calculer ce coefficient il faut tout d'abord calculer la covariance. La covariance est la moyenne du produit des écarts à
la moyenne.
𝑛 𝑛
1 1
𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑁 𝑁
𝑖=1 𝑖=1
Dans le cas des données groupées dans un tableau de contingence, en termes d’effectifs (ou fréquences) on peut écrire :
𝑘 𝑙 𝑘 𝑙
1 1
𝐶𝑜𝑣(𝑋, 𝑌) = ∑ ∑ 𝑛𝑖𝑗 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ ∑ 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Le coefficient de corrélation linéaire de deux caractères X et Y est égal à la covariance de X et Y divisée par le produit des
écarts-types de X et Y :
𝐶𝑜𝑣(𝑋, 𝑌)
𝑟(𝑋, 𝑌) =
𝜎(𝑋)𝜎(𝑌)
III.1.1. Interprétation
Si 𝑟(𝑋, 𝑌) = 1; les points du nuage sont alignées, c’est à dire, il y a une corrélation linéaire parfaite entre X et Y
Si 𝑟(𝑋, 𝑌) est proche de 1 ou -1, on dit que X et Y sont fortement corrélés.
Si 𝑟(𝑋, 𝑌) > 0; les points du nuage sont alignés le long d’une droite ascendante.
Si 𝑟(𝑋, 𝑌) > 0; les points du nuage sont alignés le long d’une droite descendante.
Si 𝑟(𝑋, 𝑌) = 0; il n’y a pas de liaison linéaire.
3
Exemples :
Corrélation positive parfaite entre Corrélation positive faible entre Absence totale de corrélation, les
les deux variables (r = 1). les deux variables (r = 0.5). deux variables sont linéairement
indépendantes (r = 0).
Corrélation négative faible entre Corrélation négative parfaite entre
les deux variables (r = -0,5). les deux variables (r = -1).
.
IV. Liaison entre deux variables qualitatives
IV.1. 𝝌² (𝒌𝒉𝒊 − 𝒅𝒆𝒖𝒙) et Coefficient de Cramer
Définition
Le 𝜒² est un nombre mesurant l’écart entre la situation observée et la situation si les variables avaient été théoriquement
indépendantes.
4
Méthodologie :
Construction du tableau de contingence sous hypothèse d’indépendance :
𝑛𝑖∙ × 𝑛∙𝑗
𝑛′𝑖𝑗 =
𝑁
On calcule ensuite
𝑘 𝑙
(𝑛𝑖𝑗 − 𝑛′𝑖𝑗 )²
𝜒² = ∑ ∑
𝑛′𝑖𝑗
𝑖=1 𝑗=1
Coefficient de Cramer
Le coefficient du 𝜒² indique l’existence d’une relation de dépendance entre 2 variables qualitatives, mais :
- Il ne constitue pas un indicateur de l’intensité de cette dépendance.
- Il ne donne aucune information sur le sens de la dépendance.
Le coefficient de Cramer C ∈ [0, 1] est défini par
𝜒²
𝐶=√ 2
𝜒𝑚𝑎𝑥
Avec
2
𝜒𝑚𝑎𝑥 = n × min(k − 1, l − 1).
Interprétation :
Si 𝐶 est proche de 0, alors les variables 𝑋 et 𝑌 sont presque indépendantes.
Si 𝐶 est proche de 1, alors les variables 𝑋 et 𝑌 sont fortement liées.
Le taux de liaison d’un couple de modalités (𝑚𝑖 , 𝑚′𝑗 ) mesure l’écart (relatif) entre l’effectif observé et l’effectif qu’on
devrait observer sous hypothèse d’indépendance (l’effectif théorique)
Sa valeur est :
𝑛𝑖𝑗 − 𝑛′𝑖𝑗
𝑡𝑖𝑗 =
√𝑛′𝑖𝑗
V. Test d'indépendance du khi‐deux
Le test d’indépendance du 𝜒² permet de déterminer si deux variables qualitatives sont indépendantes ou non. Pour cela, nous
testons les deux hypothèses suivantes :
5
H0 : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes
V.1. Déroulement du test d'indépendance du 𝝌²
Le but du test est de déterminer si la valeur observée du 𝜒²correspond à un événement fréquent (en quel cas on ne peut
rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Le
déroulement du test est le suivant :
1. On pose l'hypothèse H0 : "Il n'y a pas de relation entre les caractères X et Y".
2
2. On détermine la valeur 𝜒𝐎𝐛𝐬 du tableau étudié.
3. On détermine le nombre de degrés de liberté z du tableau étudié.
4. On fixe le risque d'erreur α de rejeter H0 à tort (exemple. α =10%).
2
5. On détermine la valeur 𝜒(𝐳,𝛂) qui est la valeur de 𝜒² d'un tableau de contingence à z degrés de liberté qui ne
serait dépassé que dans α% des cas si les variables X et Y étaient indépendantes. Cette valeur est lue dans une
table du test du 𝜒².
6. On procède au test :
2 2
H0 est vraie si : 𝜒𝐎𝐛𝐬 est inférieur ou égal à 𝜒(𝐳,𝛂)
7. Suivant le résultat du test, on accepte H0 ou bien l'on rejette H0 et l'on accepte l'hypothèse inverse H1 ("il y a
une relation de dépendance entre X et Y") avec un risque d'erreur de α%.
Exercice 1.
On interroge 1 000 personnes au sujet de deux caractères, la couleur des yeux et la couleur des cheveux. Les résultats
obtenus sont indiqués dans le tableau ci‐dessous :
Couleur des Blond Brun Châtain Roux Total
yeux
Couleur des cheveux
Bleu 100 50 140 30 320
Marron 70 90 170 40 370
Noisette 30 40 80 20 170
Vert 40 40 50 10 140
Total 240 220 440 100 1000
Détermination du Chi-2 observé et du nombre de degrés de liberté
Voici le tableau des effectifs théoriques (valeurs arrondies au dixième) :
Couleur des Blond Brun Châtain Roux Total
yeux
Couleur des cheveux
Bleu 76.8 70.4 140.8 32.0 320
Marron 88.8 81.4 162.8 37.0 370
Noisette 40.8 37.4 74.8 17.0 170
Vert 33.6 30.8 61.6 14.0 140
Total 240 220 440 100 1000
6
Vous noterez que, compte tenu de la construction, les totaux sont les mêmes dans le tableau des effectifs observés et dans
celui des effectifs théoriques.
On calcule
2
𝜒𝐎𝐛𝐬 = −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Pour rejeter ou pas l’hypothèse d'indépendance, on compare la valeur calculée du test à la valeur tabulée avec un seuil α.
Détermination du nombre de degrés de liberté :
𝑑𝑑𝑙 = (𝑘 − 1)(𝑙 − 1)
ddl = ------------------------------------------
Si la valeur calculée par le test est supérieure à la valeur tabulée, on rejette l’hypothèse d’indépendance H0 au profit de celle
de dépendance H1. Dans le cas contraire, on ne rejette H0 pas.
2
Pour un seuil α de 5% : 𝜒(𝟎,𝟗𝟓 ; ) = 16.919
2 2
Dans la mesure où 𝜒𝐎𝐛𝐬 > 𝜒(𝟎,𝟗𝟓 ; 𝟗)
, on rejette et on conclut qu’il existe un lien de dépendance entre la couleur des cheveux
et la couleur des yeux.
Exercice 2.
Une flotte d’autobus est équipée de 4 types de pneus (A, B, C, D). On mesure le kilométrage parcouru avant usure du pneu.
On a obtenu les résultats suivants :
Observé A B C D Total
[0;20[ 26 23 15 32 96
[20;30[ 118 93 116 121 448
[30; 40] 56 84 69 47 256
Total 200 200 200 200 800
Les deux variables sont-elles indépendantes ?