0% ont trouvé ce document utile (0 vote)
20 vues7 pages

Livres

Le document traite de la décomposition de la variance dans un modèle linéaire, distinguant la variance intra-groupe et inter-groupe. Il aborde également l'étude de la dépendance entre deux variables, la régression linéaire par la méthode des moindres carrés, et le calcul du coefficient de corrélation. Enfin, il présente des méthodes pour analyser la liaison entre des variables qualitatives, y compris le test d'indépendance du khi-deux.

Transféré par

hmmd3313
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues7 pages

Livres

Le document traite de la décomposition de la variance dans un modèle linéaire, distinguant la variance intra-groupe et inter-groupe. Il aborde également l'étude de la dépendance entre deux variables, la régression linéaire par la méthode des moindres carrés, et le calcul du coefficient de corrélation. Enfin, il présente des méthodes pour analyser la liaison entre des variables qualitatives, y compris le test d'indépendance du khi-deux.

Transféré par

hmmd3313
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L1-BA Séquence 3 : Statistiques à deux variables Mohalilou ALEIYOUKA

Décomposition de la variance

La mise en œuvre d’un modèle linéaire a pour objectif d’expliquer la variabilité d’une variable y par d’autres variables.
Nous allons décomposer la variance totale en deux parties: une variance due aux différences à l'intérieur de chaque groupe
(variance INTRA-GROUPE) et une variance due aux différences entre les moyennes de tous les groupes (variance INTER-
GROUPE).
𝑛 𝑛 𝑛
2 )2
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦𝑖 − 𝑦̅𝑖 + ∑(𝑦̅𝑖 − 𝑦̅)2
𝑖=1 𝑖=1 𝑖=1

SCT = SCR + SCF

 SCT = Variance totale (somme des carrés sur le total des données)
 SCR = Variance résiduelle (variance des résidus)
 SCF = Variance factorielle : la variabilité de y expliquée par le modèle, c’est-à-dire par les prédicteurs.

La variance intra, moyenne des variances (conditionnelles), quantifie la part de la variabilité intrinsèque de Y, et la variance
inter, variance des moyennes (conditionnelles), mesure l’hétérogénéité des sous-populations.

La décomposition de la variance se résume schématiquement de la manière suivante :

Variance totale

Variance inter-groupe Variance intra-groupe

+
Variance Moyenne
des des
moyennes variances

Etude de la liaison entre deux variables

I. Dépendance et indépendance
On dit que la variable X est indépendante de la variable Y si
𝑓𝑖/𝑗 = 𝑓𝑖∙ pour tout 1 ≤ 𝑖 ≤ 𝑘, 1 ≤ 𝑗 ≤ 𝑙 :
En reportant dans l’égalité précédente, il vient que
𝑛𝑖∙ ×𝑛∙𝑗
𝑓𝑖/𝑗 = 𝑓𝑖∙ et 𝑓𝑖𝑗 = 𝑓𝑖∙ × 𝑓∙𝑗 𝑛𝑖𝑗 = 𝑁

Ainsi, Y est aussi indépendante de X; et on dit que X et Y sont indépendantes.

Exemple : On considère le tableau associé à deux variables indépendantes suivant :

1
Y
y1 y2 y3 y4 Total
X
x1 2 1 4 6 13
x2 4 2 8 12 26
x3 6 3 12 18 39
Total 12 6 24 36 78

𝑛3∙ ×𝑛∙4 39×36


Les variables X et Y sont indépendantes, car : 𝑁
= 78
= 18 = 𝑛34

Lorsque deux variables dépendent l’une de l’autre, on cherche à évaluer l’intensité de leur liaison et dans le cas de deux
variables quantitatives, on examine si on peut les considérer liées par une relation linéaire.

II. Régression linéaire

II-1. Ajustement affine par la méthode des moindres carrés

Au vu du nuage de points, nous allons chercher une relation affine entre les variables 𝑥𝑖 et les variables yi .
Nous aimerions donc trouver une droite D vérifiant les équations :
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏, pour tout 𝑖 = 1, … , 𝑝.
Pour trouver des coefficients a et b convenables, nous allons chercher à minimiser la distance (impliquant donc des carrés)
entre la droite est les points 𝑑(𝑥𝑖 , 𝑦𝑖 ). C’est pour cette raison que nous utilisons l’appellation « méthode des moindres carrés
». Graphiquement, nous avons l’impression d’avoir autant de points au-dessus et en dessous de la droite D (cf. figure ci-
dessous).

Cette droite s’appelle la droite de régression de 𝑦 en 𝑥 car nous avons voulu expliquer la variable y en fonction de la variable
x.

 Droite de régression de 𝐲 en 𝐱 par la méthode des moindres carrés :


C’est la droite d’équation 𝒚 = 𝒂𝒙 + 𝒃 avec :
𝑪𝒐𝒗(𝑿, 𝒀)
𝒂= ̅ − 𝒂𝒙
et 𝒃 = 𝒚 ̅
𝑽(𝑿)
 Droite de régression de x en y (peu utilisé) par la méthode des moindres carrés :
C’est la droite d’équation 𝒙 = 𝒂′𝒚 + 𝒃′ avec :
𝑪𝒐𝒗(𝑿, 𝒀)
𝒂′ = ̅ − 𝒂′𝒚
et 𝒃′ = 𝒙 ̅
𝑽(𝒀)

2
Exercice 1.

On désigne par X la variable associée à la proportion d’actifs occupé dans le secteur primaire (donnée en pourcentage) et Y
la variable associée à la part du secteur primaire dans le PIB (donnée en pourcentage).

Mauritanie Espagne Sénégal France Congo Italie


x 2.60 11.8 24.5 6 3.40 15
y 1.90 5 15 4.20 2 10

1- Représenter cette série statistique par un nuage de points.


2- En utilisant la méthode des moindres carrés, déterminer l’équation de la droite représentant Y en X.
3- Calculer le coefficient de corrélation linéaire. Interpréter ?

III. Liaison entre deux variables quantitatives

III.1. Coefficient de corrélation


Le coefficient de corrélation permet de donner une mesure synthétique de l'intensité et du sens de la relation linéaire entre
deux variables quantitatives.
Pour calculer ce coefficient il faut tout d'abord calculer la covariance. La covariance est la moyenne du produit des écarts à
la moyenne.
𝑛 𝑛
1 1
𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑁 𝑁
𝑖=1 𝑖=1

Dans le cas des données groupées dans un tableau de contingence, en termes d’effectifs (ou fréquences) on peut écrire :
𝑘 𝑙 𝑘 𝑙
1 1
𝐶𝑜𝑣(𝑋, 𝑌) = ∑ ∑ 𝑛𝑖𝑗 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ ∑ 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑁 𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1

Le coefficient de corrélation linéaire de deux caractères X et Y est égal à la covariance de X et Y divisée par le produit des
écarts-types de X et Y :

𝐶𝑜𝑣(𝑋, 𝑌)
𝑟(𝑋, 𝑌) =
𝜎(𝑋)𝜎(𝑌)

III.1.1. Interprétation

 Si 𝑟(𝑋, 𝑌) = 1; les points du nuage sont alignées, c’est à dire, il y a une corrélation linéaire parfaite entre X et Y
 Si 𝑟(𝑋, 𝑌) est proche de 1 ou -1, on dit que X et Y sont fortement corrélés.
 Si 𝑟(𝑋, 𝑌) > 0; les points du nuage sont alignés le long d’une droite ascendante.
 Si 𝑟(𝑋, 𝑌) > 0; les points du nuage sont alignés le long d’une droite descendante.
 Si 𝑟(𝑋, 𝑌) = 0; il n’y a pas de liaison linéaire.

3
Exemples :

Corrélation positive parfaite entre Corrélation positive faible entre Absence totale de corrélation, les
les deux variables (r = 1). les deux variables (r = 0.5). deux variables sont linéairement
indépendantes (r = 0).

Corrélation négative faible entre Corrélation négative parfaite entre


les deux variables (r = -0,5). les deux variables (r = -1).

.
IV. Liaison entre deux variables qualitatives

IV.1. 𝝌² (𝒌𝒉𝒊 − 𝒅𝒆𝒖𝒙) et Coefficient de Cramer

Définition

Le 𝜒² est un nombre mesurant l’écart entre la situation observée et la situation si les variables avaient été théoriquement
indépendantes.

4
Méthodologie :

Construction du tableau de contingence sous hypothèse d’indépendance :

𝑛𝑖∙ × 𝑛∙𝑗
𝑛′𝑖𝑗 =
𝑁

On calcule ensuite

𝑘 𝑙
(𝑛𝑖𝑗 − 𝑛′𝑖𝑗 )²
𝜒² = ∑ ∑
𝑛′𝑖𝑗
𝑖=1 𝑗=1

Coefficient de Cramer

Le coefficient du 𝜒² indique l’existence d’une relation de dépendance entre 2 variables qualitatives, mais :

- Il ne constitue pas un indicateur de l’intensité de cette dépendance.


- Il ne donne aucune information sur le sens de la dépendance.

Le coefficient de Cramer C ∈ [0, 1] est défini par

𝜒²
𝐶=√ 2
𝜒𝑚𝑎𝑥

Avec

2
𝜒𝑚𝑎𝑥 = n × min(k − 1, l − 1).

Interprétation :

 Si 𝐶 est proche de 0, alors les variables 𝑋 et 𝑌 sont presque indépendantes.


 Si 𝐶 est proche de 1, alors les variables 𝑋 et 𝑌 sont fortement liées.

Le taux de liaison d’un couple de modalités (𝑚𝑖 , 𝑚′𝑗 ) mesure l’écart (relatif) entre l’effectif observé et l’effectif qu’on
devrait observer sous hypothèse d’indépendance (l’effectif théorique)

Sa valeur est :

𝑛𝑖𝑗 − 𝑛′𝑖𝑗
𝑡𝑖𝑗 =
√𝑛′𝑖𝑗

V. Test d'indépendance du khi‐deux

Le test d’indépendance du 𝜒² permet de déterminer si deux variables qualitatives sont indépendantes ou non. Pour cela, nous
testons les deux hypothèses suivantes :

5
H0 : Les deux variables sont indépendantes

H1 : Les deux variables sont dépendantes

V.1. Déroulement du test d'indépendance du 𝝌²

Le but du test est de déterminer si la valeur observée du 𝜒²correspond à un événement fréquent (en quel cas on ne peut
rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Le
déroulement du test est le suivant :

1. On pose l'hypothèse H0 : "Il n'y a pas de relation entre les caractères X et Y".
2
2. On détermine la valeur 𝜒𝐎𝐛𝐬 du tableau étudié.

3. On détermine le nombre de degrés de liberté z du tableau étudié.


4. On fixe le risque d'erreur α de rejeter H0 à tort (exemple. α =10%).
2
5. On détermine la valeur 𝜒(𝐳,𝛂) qui est la valeur de 𝜒² d'un tableau de contingence à z degrés de liberté qui ne

serait dépassé que dans α% des cas si les variables X et Y étaient indépendantes. Cette valeur est lue dans une
table du test du 𝜒².
6. On procède au test :
2 2
H0 est vraie si : 𝜒𝐎𝐛𝐬 est inférieur ou égal à 𝜒(𝐳,𝛂)

7. Suivant le résultat du test, on accepte H0 ou bien l'on rejette H0 et l'on accepte l'hypothèse inverse H1 ("il y a
une relation de dépendance entre X et Y") avec un risque d'erreur de α%.

Exercice 1.

On interroge 1 000 personnes au sujet de deux caractères, la couleur des yeux et la couleur des cheveux. Les résultats
obtenus sont indiqués dans le tableau ci‐dessous :

Couleur des Blond Brun Châtain Roux Total


yeux
Couleur des cheveux
Bleu 100 50 140 30 320
Marron 70 90 170 40 370
Noisette 30 40 80 20 170
Vert 40 40 50 10 140
Total 240 220 440 100 1000

Détermination du Chi-2 observé et du nombre de degrés de liberté

Voici le tableau des effectifs théoriques (valeurs arrondies au dixième) :

Couleur des Blond Brun Châtain Roux Total


yeux
Couleur des cheveux
Bleu 76.8 70.4 140.8 32.0 320
Marron 88.8 81.4 162.8 37.0 370
Noisette 40.8 37.4 74.8 17.0 170
Vert 33.6 30.8 61.6 14.0 140
Total 240 220 440 100 1000

6
Vous noterez que, compte tenu de la construction, les totaux sont les mêmes dans le tableau des effectifs observés et dans
celui des effectifs théoriques.

On calcule
2
𝜒𝐎𝐛𝐬 = −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

Pour rejeter ou pas l’hypothèse d'indépendance, on compare la valeur calculée du test à la valeur tabulée avec un seuil α.

Détermination du nombre de degrés de liberté :

𝑑𝑑𝑙 = (𝑘 − 1)(𝑙 − 1)

ddl = ------------------------------------------

Si la valeur calculée par le test est supérieure à la valeur tabulée, on rejette l’hypothèse d’indépendance H0 au profit de celle
de dépendance H1. Dans le cas contraire, on ne rejette H0 pas.
2
Pour un seuil α de 5% : 𝜒(𝟎,𝟗𝟓 ; ) = 16.919
2 2
Dans la mesure où 𝜒𝐎𝐛𝐬 > 𝜒(𝟎,𝟗𝟓 ; 𝟗)
, on rejette et on conclut qu’il existe un lien de dépendance entre la couleur des cheveux
et la couleur des yeux.

Exercice 2.

Une flotte d’autobus est équipée de 4 types de pneus (A, B, C, D). On mesure le kilométrage parcouru avant usure du pneu.
On a obtenu les résultats suivants :

Observé A B C D Total
[0;20[ 26 23 15 32 96
[20;30[ 118 93 116 121 448
[30; 40] 56 84 69 47 256
Total 200 200 200 200 800

Les deux variables sont-elles indépendantes ?

Vous aimerez peut-être aussi