Cours Statistique L3-EMpdf
Cours Statistique L3-EMpdf
Section 1 : Organisation des données et caractéristiques des séries statistiques doubles --- 3
I. Tableaux de contingence ----------------------------------------------------------------------------------------- 3
1. Distribution conjointe ----------------------------------------------------------------------------------------------------------------------------- 5
2. Distribution marginale ---------------------------------------------------------------------------------------------------------------------------- 6
3. Distribution conditionnelle ----------------------------------------------------------------------------------------------------------------------- 8
I. Tableaux de contingence
Un tableau de contingence est un tableau statistique permettent de présenter deux séries statistiques
simultanément et de manière croisée.
Soient deux variables observées sur une population de taille N, la variable X comportant p
modalités (𝑥1 , 𝑥2 , …, 𝑥𝑖 , …, 𝑥𝑝 ) et la variable Y comportant q modalités (𝑦1 , 𝑦2 , …, 𝑦𝑗 , …, 𝑦𝑞 ).
Le tableau de contingence se présente comme suit
Effectifs partiels
ou effectifs
Nombre d’individus
Modalités caractérisés par la
modalité 𝑥𝑖 de X et la
de Y
modalité 𝑦𝑗 de Y
Y y1 … yj … yq (ni•)
X Total
x1 n11 … n1j … n1q n1•
Modalités Effectifs
…
de X marginaux
xi ni1 … nij … niq ni• de X
…
3
Exemple 1
Dans une entreprise de 200 salariés, on étudie les variables X = âge et Y = salaires.
Salaires [800; 1000[ [1000; 1200[
Age (j = 1) (j = 2) ni•
[20; 22[ (i = 1) 14 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
✓ X et Y sont des variables continues (regroupées en classes).
✓ Le nombre de modalités de X est p (p = 3) et le nombre de modalités de Y est q (q = 2).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
Ainsi x1 correspond à la classe [20; 22[, x2 correspond à la classe [22; 24[ et x3 correspond à
la classe [24; 26[
y1 correspond à la classe [800; 1000[ et y2 correspond à la classe [1000; 1200[
Exemple 2
Le tableau suivant résume les réponses à la question « Regardez-vous les matches de football à
la télévision ? » suivant le sexe
Réponses
Sexe Oui non ni•
Masculin 20 4 24
Feminin 10 6 16
n•j 30 10 40
✓ X et Y sont des variables qualitatives.
✓ Le nombre de modalités de X est p (p = 2) et le nombre de modalités de Y est q (q = 2).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
x1 correspond à la modalité « Masculin » et x2 correspond à la modalité « Féminin »
y1 correspond à la modalité « oui » et y2 correspond à la modalité « non »
Exemple 3 :
Le tableau suivant résume la distribution des notes de 100 étudiants à une épreuve d’un
concours selon leur filière d’origine
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]
Filières d’origine X (j = 1) (j = 2) (j = 3) (j = 4)
ni•
Filière A (i = 1) 26 6 4 1 37
Filière B (i = 2) 12 9 3 1 25
Filière C (i = 3) 1 4 5 6 16
Filière D (i = 4) 10 8 3 1 22
n•j 49 27 15 9 100
✓ X est une variable qualitative et Y est une variable quantitative.
✓ Le nombre de modalités de X est p (p = 4) et le nombre de modalités de Y est q (q = 4).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
Donc x1 correspond à la modalité « Filière A » et y2 correspond la classe [6 ; 10[
4
1. Distribution conjointe
On appelle distribution conjointe des effectifs de X et Y l’ensemble des informations (𝒙𝒊 , 𝒚𝒋 , 𝒏𝒊𝒋 )
pour i = 1, . . . , p et j = 1, . . . , q.
Les effectifs conjoints ou effectifs partiels nij désignent le nombre d’individus caractérisés
par la modalité xi de X et la modalité yj de Y
Dans l’exemple 1
Salaires [800; 1000[ [1000; 1200[
(j = 2)
ni•
Age (j = 1)
[20; 22[ (i = 1) 14 n12 = 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
n12 est le nombre de salariés caractérisés simultanément par la modalité x1 et la modalité y2
n12 = 6 soit 6 salariés sont âgés entre 20 et 22 ans et ont un salaire compris entre 1000 et 1200
Dans l’exemple 2
Réponses
Sexe Oui non ni•
Masculin 20 4 24
Feminin 10 6 16
n•j 30 10 40
n11 = 20 est le nombre d’hommes qui regardent les matches de football à la télévision et n12 = 6
est le nombre de femmes qui regardent les matches de football à la télévision
Dans l’exemple 3
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]
ni•
Filières d’origine X (j = 1) (j = 2) (j = 3) (j = 4)
Filière A (i = 1) 26 6 4 1 37
Filière B (i = 2) 12 9 3 1 25
Filière C (i = 3) 1 4 5 6 16
Filière D (i = 4) 10 8 3 1 22
n•j 49 27 15 9 100
n41 = 10 est le nombre d’étudiants de la filière D qui ont une note comprise entre 0 et 6
n23 = 3 est le nombre d’étudiants de la filière B qui ont une note comprise entre 10 et 14
5
2. Distribution marginale
La distribution marginale est la distribution statistique de l’une des variables indépendamment
de l’autre. Elle est lue sur l’une ou l’autre des marges du tableau, d’où son nom.
𝒏𝟐• désigne le nombre de salariés caractérisés par la modalité 2 de la variable X (âge) quelle que
soit la valeur de la variable Y (salaires).
𝒏𝟐• = 𝒏𝟐𝟏 + 𝒏𝟐𝟐
𝒏𝟐• = 𝟐𝟖 + 𝟒𝟔 = 𝟕𝟒
Soit, 74 salariés sont âgés entre 22 et 24 ans
La distribution marginale de la variable X est lue sur la première et la dernière colonne du tableau
de contingence
Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•
…
La somme des effectifs marginaux de X est égale à l’effectif total ∑𝑝𝑖=1 𝒏𝒊• = 𝐍
Soit 𝒏𝟏• + 𝒏𝟐• + 𝒏𝟑• + ⋯ + 𝒏𝒊• + ⋯ + 𝒏𝒑• = 𝐍
6
Exemple :
La distribution marginale de la variable X = âge de l’exemple 1 est
Age ni•
[20; 22[ (i = 1) 20
[22; 24[ (i = 2) 74
[24; 26[ (i = 3) 106
Total 200
𝒏•𝟒 désigne le nombre de salariés caractérisés par la modalité 4 de la variable Y (notes) quelle que
soit la valeur de la variable X (filières).
𝒏•𝟒 = 𝒏𝟏𝟒 + 𝒏𝟐𝟒 + 𝒏𝟑𝟒 + 𝒏𝟒𝟒
𝒏•𝟒 = 𝟏 + 𝟏 + 𝟔 + 𝟏 = 𝟗
Soit, 9 étudiants ont une note comprise entre 14 et 20
La distribution marginale de la variable Y est lue sur la première et la dernière ligne du tableau de
contingence
Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•
…
7
La somme des effectifs marginaux de Y est égale à l’effectif total ∑𝑞𝑗=1 𝒏•𝒋 = 𝐍
Ainsi l’effectif total
𝑝 𝑞
Exemple :
La distribution marginale de la variable Y = notes de l’exemple 3 est
3. Distribution conditionnelle
La distribution conditionnelle est la distribution statistique de l’une des variables lorsque l’autre
prend une valeur donnée.
8
3-1- Distribution de Y sachant 𝑿 = 𝒙𝒊
…
xi ni1 … nij … niq ni•
…
…
xp np1 … npj … npq np•
n•j n•1 n•j n•q N = n••
Exemple
Dans l’exemple 3, la distribution conditionnelle de Y sachant que 𝑋 = 𝑥4 , notée 𝑌|𝑋=𝑥4 est
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total
(j = 1) (j = 2) (j = 3) (j = 4)
Filière D (i = 4) 10 8 3 1 22
Parmi les 22 étudiants qui suivent la filière D, 10 ont obtenu une note comprise entre 0 et 6, 8 ont
obtenu une note comprise entre 6 et 10, 3 ont obtenu une note comprise entre 10 et 14 et 1 a obtenu
une note comprise entre 14 et 20.
Remarque :
Il y a autant de distributions conditionnelles de X qu’il y a de modalités de Y
De même, Il y a autant de distributions conditionnelles de Y qu’il y a de modalités de X
Exemple :
Dans l’exemple 1
Salaires [800; 1000[ [1000; 1200[
ni•
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
Il y a deux distributions conditionnelles de X par rapport à Y car Y a deux modalités (j = 2).
• la distribution de X sachant Y ∈ [800; 1000[.
• la distribution de X sachant Y ∈ [1000; 1200[.
Il y a trois distributions conditionnelles de Y par rapport à X car X a trois modalités (i = 3)
• la distribution de Y sachant X ∈ [20; 22[.
• la distribution de Y sachant X ∈ [22; 24[.
• la distribution de Y sachant X ∈ [24; 26[.
9
II. Fréquences conjointes, marginales et conditionnelles
1. Fréquences conjointes
Les fréquences conjointes 𝒇𝒊𝒋 sont le rapport entre les effectifs conjoints 𝒏𝒊𝒋 et l’effectif total 𝑵.
𝒏𝒊𝒋
𝒇𝒊𝒋 = × 𝟏𝟎𝟎
𝑵
Les fréquences conjointes peuvent également être représentées dans un tableau de
contingence
Y y1 … yj … yq fi•
X
x1 f11 … f1j … f1q f1•
…
…
xi fi1 … fij … fiq fi•
…
…
xp fp1 … fpj … fpq fp•
f•j f•1 f•j f•q 1
𝑛11 14
✓ 𝑓11 = × 100 = 200 × 100 = 7% ;
𝑁
7% des salariés sont âgés de 20 à 22 ans et perçoivent un salaire compris entre 800 et 1000
𝑛32 86
✓ 𝑓32 = × 100 = 200 × 100 = 43%
𝑁
43% des salariés sont âgés de 24 à 26 ans et perçoivent un salaire compris entre 1000 et 1200
2. Fréquences marginales
Les fréquences marginales sont le rapport entre les effectifs marginaux et l’effectif total
𝒇𝒊• = ∑ 𝒇𝒊𝒋 , 𝑖 = 1, … , 𝑝
𝑗=1
10
Dans l’exemple 1, les fréquences marginales de X sont notées en gras dans la colonne fi•
Salaires [800; 1000[ [1000; 1200[
(j = 1) (j = 2)
ni• (fi•)
Age
[20; 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%) 𝑓1•
[22; 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%) 𝑓2•
[24; 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%) 𝑓3•
n•j (f•j) 62 (31%) 138 (69%) 200 (100%)
𝑛1• 20
𝑓1• = × 100 = × 100 = 10%
𝑁 200
2
𝒇•𝒋 = ∑ 𝒇𝒊𝒋 , 𝑗 = 1, … , 𝑞
𝑖=1
Dans l’exemple 1, les fréquences marginales de Y sont notées entre parenthèses en gras dans la
ligne f•j
Salaires [800; 1000[ [1000; 1200[
Total
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%)
[22; 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%)
[24; 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%)
n•j (f•j) 62 (31%) 𝒇•𝟏 138 (69%) 𝒇•𝟐 200 (100%)
𝑛•2 138
𝑓•2 = × 100 = × 100 = 69%
𝑁 200
3
3. Fréquences conditionnelles
11
L’ensemble des fréquences conditionnelles de 𝐗|𝐘=𝐲𝐣 est présenté dans le tableau des
fréquences en colonne
Le tableau des fréquences en colonne de l’exemple 1 est le suivant
Salaires [800; 1000[ [1000; 1200[
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 (22,6%) 6 (4,3%)
[22; 24[ (i = 2) 28 (45,2%) 46 (33,3%)
[24; 26[ (i = 3) 20 (32,2%) 86 (62,4%)
Total 62 (100%) 138 (100%)
𝑛11 14
✓ 𝑓1/y1 = × 100 = 62 × 100 = 22,6%
𝑛•1
La fréquence des personnes âgées de 20 à 22 ans parmi les personnes percevant un salaire
compris entre 800 et 1000 est de 22,6%
Ou encore 22,6% des personnes percevant un salaire compris entre 800 et 1000, sont âgées de
20 à 22 ans
𝑛21 28
✓ 𝑓2/y1 = × 100 = 62 × 100 = 45,2%
𝑛•1
𝑛31 20
✓ 𝑓3/y1 = × 100 = 62 × 100 = 32,2%
𝑛•1
12
Lien entre les fréquences
𝒇𝒊𝒋 = 𝒇𝒊/𝐲𝐣 × 𝒇•𝒋 = 𝒇𝒋/𝒙𝒊 × 𝒇𝒊• ou encore
𝒇𝒊𝒋 𝒇𝒊𝒋
𝒇𝒊/𝐲𝐣 = Et 𝒇𝒋/𝒙𝒊 =
𝒇•𝒋 𝒇𝒊•
III. Moyennes et variances des séries statistiques doubles
1. Moyennes et variances marginales
Comme pour les séries statistiques à une variable, il est possible de déterminer pour les séries
statistiques à deux variables, tous les paramètres de position et de dispersion de chaque variable
prise séparément. Il suffit pour cela de déterminer les distributions marginales des variables X
et Y.
Nous nous intéressons ici à la moyenne marginale, à la variance marginale et à l’écart-type
marginal.
13
𝑝 𝑞
✓ A partir des fréquences marginales
𝑥̅ = ∑ 𝑓𝑖• 𝑐𝑖 𝑦̅ = ∑ 𝑓•𝑗 𝑐𝑗
𝑖=1 𝑗=1
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2
Remarque :
Lorsque les fréquences sont exprimées en pourcentages alors
𝒑 𝒒
𝟏 𝟏
̅=
𝒙 ∑ 𝒇𝒊• 𝒄𝒊 ̅=
𝒚 ∑ 𝒇•𝒋 𝒄𝒋
𝟏𝟎𝟎 𝟏𝟎𝟎
𝒊=𝟏 𝒋=𝟏
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2
14
1-2- Variances marginales
𝒄𝒊 représentant les centres des classes 𝒄𝒋 représentant les centres des classes
Ecart-type marginal de X Ecart-type marginal de Y
𝝈𝑿 = √𝑽(𝑿) 𝝈𝒀 = √𝑽(𝒀)
𝑝 𝑞
1 1
✓ A partir des effectifs marginaux : 𝑉(𝑋) = ∑ 𝑛𝑖• (𝑐𝑖 − 𝑥̅ )2 𝑉(𝑌) = ∑ 𝑛•𝑗 (𝑐𝑗 − 𝑦̅)2
𝑁 𝑁
𝑖=1 𝑗=1
4772 207600
𝑥̅ = = 23,86 𝑦̅ = = 1038
200 200
356,08 1711200
𝑉(𝑋) = 𝑉(𝑌) =
200 200
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556
𝜎𝑋 = √𝑉(𝑋) 𝜎𝑌 = √𝑉(𝑌)
𝜎𝑋 = √1,7804 𝜎𝑌 = √8556
𝜎𝑋 = 1,3343 𝜎𝑌 = 92,4986
15
Utilisation de la Formule développée de la variance avec les effectifs marginaux
𝑝 𝑞
1 1
𝑉(𝑋) = ∑ 𝑛𝑖• (𝑐𝑖2 ) − (𝑥̅ )2 ; 𝑉(𝑌) = ∑ 𝑛•𝑗 (𝑦𝑗2 ) − (𝑦)2 ;
𝑁 𝑁
𝑖=1 𝑗=1
4772 207600
𝑥̅ = = 23,86 𝑦̅ = = 1038
200 200
114216 4772 217200000 207600
𝑉(𝑋) = 200 − ( 200 )2 𝑉(𝑌) = 200 − ( 200 )2
𝑉(𝑋) = 571,08 − (23.86)2 𝑉(𝑌) = 1086000 − (1038)2
𝑉(𝑋) = 571,08 − 569,2296 𝑉(𝑌) = 1086000 − 1077444
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556
𝑝 𝑞
✓ A partir des fréquences marginales :
𝑉(𝑋) = ∑ 𝑓𝑖• (𝑐𝑖 − 𝑥̅ ) 2 𝑉(𝑌) = ∑ 𝑓•𝑗 (𝑐𝑗 − 𝑦̅)2
𝑗=1
𝑖=1
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2
Salaires
[800; 1000[ [1000; 1200[ Total 𝑐𝑖 𝑓𝑖• 𝑓𝑖• 𝑐𝑖 ci − 𝑥̅ (ci − 𝑥̅ )2 𝑓i• (ci − 𝑥̅ )2
Age
[20; 22[ 14 6 20 21 0,1 2,1 -2,86 8,1796 0,81796
[22; 24[ 28 46 74 23 0,37 8,51 -0,86 0,7396 0,273652
[24; 26[ 20 86 106 25 0,53 13,25 1,14 1,2996 0,688788
Total 62 138 200 ///// 1 23,86 ///// ///// 1,7804
𝑐𝑗 900 1100 ///// ///// ///// ///// ///// ///// /////
𝑓•𝑗 0,31 0,69 1 ///// ///// ///// ///// ///// /////
𝑓•𝑗 𝑐𝑗 279 759 1038 ///// ///// ///// ///// ///// /////
c𝑗 − 𝑦̅ -138 62 ///// ///// ///// ///// ///// ///// /////
(c𝑗 − 𝑦̅)2 19044 3844 ///// ///// ///// ///// ///// ///// /////
𝑓•j (c𝑗 − 𝑦̅)2 5903,64 2652,36 8556 ///// ///// ///// ///// ///// /////
𝑉(𝑋) = 1,7804
𝑉(𝑌) = 8556
16
Utilisation de la formule développée de la variance avec les fréquences marginales
𝑝 𝑞
𝑥̅ = 23,86 𝑦̅ = 1038
𝑉(𝑋) = 571,08 − (23,86)2 𝑉(𝑌) = 1086000 − (1038)2
𝑉(𝑋) = 571,08 − 569,2296 𝑉(𝑌) = 1086000 − 1077444
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556
Lorsque les données sont organisées en classes, les 𝒙𝒊 sont remplacés par les centres des classes
𝒄𝒊
17
Exemple : Calcul de la moyenne conditionnelle de X sachant Y = y2 dans l’exemple 1
𝒑 𝟏
✓ A partir des effectifs conditionnels 𝒙
̅𝒚𝒋 = ∑𝒊=𝟏 𝒏𝒊𝒋 𝒄𝒊
𝒏 •𝒋
𝒑
✓ A partir des fréquences conditionnelles 𝒙
̅𝒚𝒋 = ∑𝒊=𝟏 𝒇𝒊/𝐲𝐣 𝒄𝒊
̅ = ∑ 𝒇•𝒋 𝒙
𝒙 ̅𝒚𝒋 Et ̅ = ∑ 𝒇𝒊• ̅𝒚𝒙
𝒚
𝒊
𝒋=𝟏 𝒊=𝟏
18
Vérification :
Dans l’exemple 1, 𝒙
̅ = 23,86 et 𝑥̅𝑦2 = 24,1594. Calculons 𝑥̅ 𝑦1
̅ = ∑𝟐𝒋=𝟏 𝒇•𝒋 𝒙
𝒙 ̅𝒚 = 𝒇•𝟏 𝒙
𝒋
̅𝒚 + 𝒇•𝟐 𝒙
𝟏
̅𝒚
𝟐
Salaires [800; 1000[ [1000; 1200[ Total 𝑐𝑖 𝒏𝒊𝟐 𝒄𝒊 𝑐𝑖2 𝒏𝒊𝟐 (𝒄𝒊 )²
Age (j = 2)
[20; 22[ 14 6 (𝒏𝟏𝟐 ) 20 21 126 441 2646
[22; 24[ 28 46 (𝒏𝟐𝟐 ) 74 23 1058 529 24334
[24; 26[ 20 86 (𝒏𝟑𝟐 ) 106 25 2150 625 53750
Total 62 138 (𝒏•𝟐 ) 200 ///// 3334 ///// 80730
𝟑
𝟏 𝟐
𝑽 (𝐗𝐲𝟐 ) = ̅𝒚𝟐 ) 𝒐𝒓 𝑥̅𝑦2 = 24,1594
∑ 𝒏𝒊𝟐 (𝒄𝒊 )² − (𝒙
𝒏•𝟐
𝒊=𝟏
80730
𝑉 (Xy2 ) = − (24,1594)2
138
19
𝑉 (Xy2 ) = 1,3224
2
1 2
𝑉(𝑌𝑥3 ) = ∑ 𝑛3𝑗 ( 𝑐𝑗 )² − (𝑦̅𝑥3 ) 𝑜𝑟 𝑦̅ 𝑥3 = 1062,26
𝑛3•
𝑗=1
120260000
𝑉(𝑌𝑥3 ) = − (1062,26)²
106
𝑉(𝑌𝑥3 ) = 6123,18
𝝈𝑌𝑥 = 78,25
3
20
Section 2 : Analyse de la liaison entre deux variables statistiques
La liaison entre deux variables exprime l’information que donne la connaissance de l’une pour
la connaissance de l’autre. Il existe trois types de liaison :
• L’indépendance statistique
• La dépendance totale ou liaison fonctionnelle
• La dépendance partielle
La mesure de la liaison entre deux variables dépend de leur nature. Trois cas seront étudiés : le
cas de deux variables qualitatives, le cas d’une variable quantitative et d’une variable qualitative
et le cas de deux variables quantitatives.
Ces propriétés permettent, à partir d’une lecture rapide des tableaux de contingence ou des
tableaux de fréquences conditionnelles, d’avoir une idée approximative de la dépendance ou de
l’indépendance entre deux variables.
Ainsi dans un tableau de contingence associé à deux variables indépendantes, les lignes
(respectivement les colonnes) sont proportionnelles entre elles.
𝒚𝟏 𝒚𝟐 𝒚𝟑 Total
𝒙𝟏 6 12 24 42
𝒙𝟐 3 6 12 21
Total 9 18 36 63
21
2. Dépendance totale ou liaison fonctionnelle entre deux variables
La situation opposée à l’indépendance statistique est celle de la liaison fonctionnelle ou
dépendance totale.
La variable Y est liée fonctionnellement à la variable X si, à chaque modalité 𝒙𝒊 de X correspond
une et une seule modalité 𝒚𝒋 de Y.
La liaison fonctionnelle n’est pas toujours réciproque, c’est-à-dire que si Y est liée
fonctionnellement à X, il n’est pas certain que X soit liée fonctionnellement à Y.
Dans cet exemple la variable X (sexe du chef de ménage) est totalement dépendante de la
variable Y (situation matrimoniale du chef de ménage). Le fait de connaître la situation
matrimoniale du chef de ménage détermine sans ambiguïté s’il est de sexe masculin ou féminin.
Dès que l’on sait qu’un chef de ménage est marié, on peut automatiquement dire qu’il est de
sexe masculin.
Mais la réciproque n’est pas vraie.
La variable Y n’est pas totalement dépendante de la variable X. Le fait qu’un chef de ménage
soit de sexe masculin ne permet pas de prédire de façon certaine sa situation matrimoniale.
22
Les liens entre deux variables se situe le plus souvent entre les deux situations extrêmes étudiée
ci-dessus, l’indépendance totale d’un côté, la dépendance totale de l’autre. Il s’agit alors de
liaison partielle et la question qui se pose est comment mesurer l’intensité de la liaison entre les
deux variables ?
La réponse à cette question dépend de la nature des variables étudiées
Dans le cas de deux variables qualitatives la liaison est analysée en comparant les effectifs
conjoints observés 𝐧𝐢𝐣 et les effectifs théoriques sous hypothèse d’indépendance 𝐧∗𝐢𝐣 . Plus
précisément l’écart entre ces effectifs observés et théoriques est calculé grâce à des indicateurs
tels que le Khi-deux ou Khi carré, le coefficient de contingence, le Phi-deux, le coefficient T
de Tchuprow et le coefficient V de cramer
Les effectifs théoriques 𝐧∗𝐢𝐣 désignent les effectifs qu’on aurait observé si les variables X et Y
étaient indépendantes.
𝒏𝒊• × 𝒏•𝒋
𝒏∗ 𝒊𝒋 =
𝑵
𝒑 𝒒 𝒑 𝒒
𝟐
(𝒏𝒊𝒋 − 𝒏∗𝒊𝒋 )𝟐 (𝒇𝒊𝒋 − 𝒇∗𝒊𝒋 )𝟐
𝝌 = ∑∑ = 𝑵∑∑
𝒏∗𝒊𝒋 𝒇∗𝒊𝒋
𝒊=𝟏 𝒋=𝟏 𝒊=𝟏 𝒋=𝟏
𝒑 𝒒
𝟐
𝒏𝒊𝒋 𝟐
𝝌 = 𝑵 [(∑ ∑ ) − 𝟏]
𝒏𝒊• × 𝒏•𝒋
𝒊=𝟏 𝒋=𝟏
23
Réponses
Sexe Oui non Total
Masculin 20 4 24
Feminin 10 6 16
Total 30 10 40
Les termes de ce dernier tableau sont divisés par les termes du tableau des effectifs théoriques
puis on calcule les totaux pour obtenir le tableau des écarts à l'indépendance
Réponses
Sexe Oui non Total
Masculin 4 4 0,8889
= 𝟎, 𝟐𝟐𝟐𝟐 = 𝟎, 𝟔𝟔𝟔𝟕
18 6
Feminin 4 4 1,333
= 𝟎, 𝟑𝟑𝟑𝟑 =𝟏
12 4
Total 0,5556 1,6667 2,2222
𝝌𝟐 = 𝟐, 𝟐𝟐 𝝌𝟐 𝒎𝒂𝒙 = 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏) = 𝟒𝟎 × (𝟐 − 𝟏) = 𝟒𝟎
Le 𝝌𝟐 est faible et proche de 0 (en comparaison à sa valeur maximale) on peut donc conclure à
une indépendance des deux variables : dans cette population, le fait de regarder des matches de
football à la télévision ne dépend pas du sexe.
24
2. Le Phi-deux et le coefficient de contingence
Le Phi-deux est défini par :
𝟐
𝝌𝟐
𝝓 =
𝑵
𝟐 𝟐 𝟐
𝟎 ≤ 𝝓 ≤ 𝝓 𝒎𝒂𝒙 ; 𝝓 𝒎𝒂𝒙 = 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)
𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)
𝟎 ≤ 𝑪𝑪 ≤ 𝑪𝑪𝒎𝒂𝒙 ; 𝑪𝑪𝒎𝒂𝒙 = √
𝐦𝐢𝐧(𝒑 , 𝒒)
Ces deux indices s’interprètent de la même manière que le khi-deux
Plus ils sont proches de leurs valeurs maximales plus la liaison entre les deux variables étudiées
est forte, plus ils sont proches de 0 plus la liaison entre les variables est faible.
𝝓𝟐 𝒐𝒖 𝑪𝑪 = 𝟎 ⇒ 𝒊𝒏𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆
25
III. Cas d’une variable qualitative et d’une variable quantitative
L’analyse de la liaison entre une variable quantitative et une variable qualitative passe par la
décomposition de la variance de la variable quantitative en variance inter-population et en
variance intra-population puis par le calcul du rapport de corrélation.
1. La décomposition de la variance
Soit Y une variable quantitative de moyenne 𝒚 ̅ et de variance V(Y) et X une variable qualitative
ayant p modalités (𝑥1 , 𝑥2 , …, 𝑥𝑖 , …, 𝑥𝑝 ) . On peut répartir l'ensemble des individus observés
en p sous-populations, chaque sous-population comprenant des individus caractérisés par une
et une seule modalité 𝑥𝑖 . On peut alors définir la moyenne conditionnelle 𝒚 ̅𝒙𝒊 et la variance
conditionnelles 𝑽(𝒀𝒙𝒊 ) de la variable quantitative Y au sein de chaque classe sous-population.
𝟏
Le premier terme ∑𝒑𝒊=𝟏 𝒏𝒊• 𝑽(𝒀𝒙𝒊 ), désigne la variance intra-population ou variance
𝑵
résiduelle et représente la variabilité de la variable Y à l’intérieur de chacune des sous-
populations
𝟏
Le deuxième terme ∑𝒑𝒊=𝟏 𝒏𝒊• (𝒚 ̅)𝟐 , désigne la variance inter-population ou variance
̅ 𝒙𝒊 − 𝒚
𝑵
expliquée (par la variable X) et représente la variabilité de la variable Y entre les différentes
sous-populations
Lorsque les données de Y sont organisées en classes, les 𝒚𝒋 sont remplacés par les centres de classes
𝒄𝒋
26
2. Le rapport de corrélation
𝟐 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒊𝒏𝒕𝒆𝒓
Le rapport de corrélation de Y en X se définit par 𝜼𝒀/𝑿 =
𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆
𝟐
∑𝒑𝒊=𝟏 𝒇𝒊• (𝒚
̅ 𝒙𝒊 − 𝒚
̅)
𝜼𝟐𝒀 = 𝟐
; 𝟎 ≤ 𝜼𝟐𝒀/𝑿 ≤ 𝟏
𝑿 ∑𝒒𝒋=𝟏 𝒇•𝒋 (𝒚𝒋 ̅)
−𝒚
Le rapport de corrélation est toujours positif et inférieur ou égal à 1.
Plus 𝜼𝟐𝒀/𝑿 est proche de 1, plus la liaison entre Y et X est forte
̅ = 𝟔, 𝟗𝟔
𝒚
V(Y) = 69,3 − (6,96)2 = 20,8584
27
Calculons la variance inter-population
𝑝 4 𝑞
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑒𝑟 = ∑ 𝑓𝑖• (𝑦̅𝑥𝑖 − 𝑦̅)2 = ∑ 𝑓𝑖• (𝑦̅𝑥𝑖 2 ) − (𝑦̅)2 ; 𝑦̅𝑥𝑖 = ∑ 𝑓𝑗/𝑥𝑖 𝑐𝑗
𝑖=1 𝑖=1 𝑗=1
𝒏𝒊𝒋
On part du tableau des fréquences en ligne 𝒇𝒋/𝒙𝒊 =
𝒏𝒊•
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total
𝒇𝒋/𝒙𝟏 0,7027 0,1622 0,1081 0,0270 1
𝒇𝒋/𝒙𝟐 0,48 0,36 0,12 0,04 1
𝒇𝒋/𝒙𝟑 0,0625 0,25 0,3125 0,375 1
𝒇𝒋/𝒙𝟒 0,4545 0,3636 0,1364 0,0455 1
𝒄𝒋 3 8 12 17 ̅ 𝒙𝒊
𝒚 ̅ 𝒙𝒊 𝟐 )
(𝒚 𝒇𝒊• ̅ 𝒙𝒊 𝟐 )
𝒇𝒊• (𝒚
𝒇𝒋/𝒙𝟏 𝒄𝟏 2,1081 1,2973 1,2973 0,4595 5,1622 26,6479 0,37 9,8597
𝒇𝒋/𝒙𝟐 𝒄𝟐 1,44 2,88 1,44 0,68 6,44 41,4736 0,25 10,3684
𝒇𝒋/𝒙𝟑 𝒄𝟑 0,1875 2 3,75 6,375 12,3125 151,5977 0,16 24,2556
𝒇𝒋/𝒙𝟒 𝒄𝟒 1,3636 2,9091 1,6364 0,7727 6,6818 44,6467 0,22 9,8223
Total /////// /////// /////// /////// /////// /////// 1 54,3060
(𝒄𝒋 ) 𝟐
9 64 144 289 ∑ 𝒇𝒋/𝒙𝒊 (𝒄𝒋 )² ̅ 𝒙𝒊 𝟐 )
(𝒚 𝑽(𝒀𝒙𝒊 ) 𝒇𝒊• 𝒇𝒊• 𝑽(𝒀𝒙𝒊 )
𝒋=𝟏
𝒇𝒋/𝒙𝟏 (𝒄𝟏 )𝟐 6,3243 10,3784 15,5676 7,8108 40,0811 26,6479 13,4332 0,37 4,9703
𝒇𝒋/𝒙𝟐 (𝒄𝟐 )𝟐 4,32 23,04 17,28 11,56 56,2 41,4736 14,7264 0,25 3,6816
𝒇𝒋/𝒙𝟑 (𝒄𝟑 )𝟐 0,5625 16 45 108,375 169,9375 151,5977 18,3398 0,16 2,9344
𝒇𝒋/𝒙𝟒 (𝒄𝟒 )𝟐 4,0909 23,2727 19,6364 13,1364 60,1364 44,6467 15,4897 0,22 3,4077
Total /////// /////// /////// /////// /////// /////// /////// 1 14,9940
28
Calcul du rapport de corrélation
𝟐
∑𝒑𝒊=𝟏 𝒇𝒊• (𝒚 ̅ )𝟐
̅ 𝒙𝒊 − 𝒚 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒊𝒏𝒕𝒆𝒓
𝜼𝒀/𝑿 = 𝒒 =
∑𝒋=𝟏 𝒇•𝒋 (𝒚𝒋 − 𝒚 ̅ )𝟐 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆
5,8644
𝜼𝟐𝒀/𝑿 =
20,8584
𝟐
𝜼𝒀/𝑿 ≈ 𝟎, 𝟐𝟖
Il y’a une faible liaison entre les deux variables, seul 28% des variations de Y sont expliquées
par X
L’analyse de la liaison entre deux variables quantitatives passe d’abord par une représentation
graphique du type « nuage de points » afin de visualiser d’éventuels effets entre les variables.
Puis le calcul des indicateurs permet de quantifier plus précisément ce lien
1. Le Nuage de points
Il s'agit d'un graphique qui représente simultanément les observations de deux variables
quantitatives. Il consiste à considérer deux axes perpendiculaires, l'axe horizontal représentant
la variable X et l'axe vertical la variable Y, puis à représenter chaque individu observé par le
point d'abscisse 𝒙𝒊 et d'ordonnée 𝒚𝒋 . Cela suppose évidemment que l’on dispose des données
brutes et non seulement du tableau de contingence.
L'ensemble des points (𝒙𝒊 , 𝒚𝒋 ) est appelé nuage de points et sa forme donne en général une
idée assez bonne de l’intensité, de la forme et du sens de la relation entre les deux variables
• Apparence du nuage de points selon l’intensité de la relation :
Lorsque la relation entre les variables est forte, le nuage de point prend alors la forme d'une
ligne ou d'une courbe dont les points s'écartent peu.
Lorsque la relation est faible, le nuage de point n'a pas la forme d'une ligne ou d'une courbe,
ou seulement de façon très grossière.
Lorsqu’il n’y pas de relation entre les variables, le nuage de point n’a pas de véritables
lignes directrices et a la forme d'un carré ou d'un cercle
• Apparence du nuage de points selon la forme de la relation :
Si le nuage de point peut s'ajuster correctement à une droite, alors il existe une relation
linéaire entre les variables de la forme Y = a X + b
Si le nuage de point présente une forme complexe avec des courbures alors la relation entre
les deux variables est non-linéaire et peut se présenter sous forme de parabole, d’hyperbole
etc.
• Apparence du nuage de points selon le sens de la relation
Si le nuage de point a une forme ascendante alors la relation entre les deux variables est positive,
ce qui signifie que les variables varient dans le même sens.
Si le nuage de point a une forme descendante alors la relation entre les deux variables est
négative, ce qui signifie que les variables varient en sens contraires.
29
Exemples de nuages de points
Liaison linéaire positive forte Pas de liaison Liaison linéaire négative moyenne
̅ ̅𝒚
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 = ∑ ∑ 𝒇𝒊𝒋 𝒙𝒊 𝒚𝒋 − 𝒙
𝒊=𝟏 𝒋=𝟏
Lorsque les données sont organisées en classes, les 𝒙𝒊 sont remplacés par les centres des classes
𝒄𝒊 et les 𝒚𝒋 par les centres de classes 𝒄𝒋
30
Exemple : Calcul de la covariance de X et Y dans l’exemple 1
𝒑 𝒒
𝟏
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 ̅ ̅𝒚
= ∑ ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋 − 𝒙
𝑵
𝒊=𝟏 𝒋=𝟏
𝒒
𝒄𝒊 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟏 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟐
[800; 1000[ [1000; 1200[ Total ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋
𝒋=𝟏
[20; 22[ 14 6 20 21 264600 138600 403200
[22; 24[ 28 46 74 23 579600 1163800 1743400
[24; 26[ 20 86 106 25 450000 2365000 2815000
𝒑 𝒒
///
∑ ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋
Total 62 138 200 1294200 3667400
𝒊=𝟏 𝒋=𝟏
=4961600
𝒄𝒋 900 1100 ///
𝑥̅ = 23,86 et ̅ = 1038
𝒚
4961600
𝐶𝑜𝑣(𝑋, 𝑌) = − (23,86 × 1038)
200
𝐶𝑜𝑣(𝑋, 𝑌) = 41,32
Propriétés de la covariance :
✓ 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋)
✓ 𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉(𝑋)
✓ 𝑉(𝑋 + 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) + 2 𝐶𝑜𝑣(𝑋, 𝑌)
✓ 𝐶𝑜𝑣(𝑎𝑋 + 𝑏 , 𝑐𝑌 + 𝑑) = 𝑎𝑐. 𝐶𝑜𝑣(𝑋, 𝑌) ; a,b,c,d étant des nombres réels
Cependant la covariance peut prendre toute valeur réelle (négative, nulle ou positive ; « petite »
ou « grande » en valeur absolue), ce qui la rend difficilement interprétable. Aussi calcule-t-on
le coefficient de corrélation linéaire
31
2-2- Le coefficient de corrélation linéaire
Le coefficient de corrélation linéaire se définit par
𝑪𝒐𝒗(𝑿, 𝒀)
𝒓𝑿𝒀 =
𝝈𝑿 𝝈𝒀
Le coefficient de corrélation linéaire est symétrique ce qui veut dire que 𝒓𝑿𝒀 = 𝒓𝒀𝑿
Par ailleurs −𝟏 ≤ 𝒓𝑿𝒀 ≤ 𝟏
32
3. La régression linéaire
Il est possible de déterminer la fonction mathématique qui précise la relation entre deux
variables quantitatives. On procède alors à une régression
Dans le cadre de ce cours nous nous intéressons à la régression linéaire qui cherche à établir
une liaison linéaire entre les variables et précisément à l’ajustement affine qui permet de
déterminer l’équation de la droite qui résume au mieux le nuage de points
̅ et 𝒚
Soient X et Y, deux variables quantitatives de moyennes respectives 𝒙 ̅ et de variances
respectives V(X) et V(Y). Soit 𝑪𝒐𝒗(𝑿, 𝒀) la covariance de X et de Y. La méthode des
moindres carrés ordinaires permet de définir :
𝑪𝒐𝒗(𝑿, 𝒀)
𝒂′ =
𝑽(𝒀)
̅ − 𝒂′𝒚
𝒃′ = 𝒙 ̅
Ces équations permettent de dire dans quelles proportions l’une des variables varie lorsque
l’autre varie d’une unité.
Ainsi si X varie d’une unité alors Y varie de 𝒂 unités. Inversement, si Y varie d’une unité
alors X varie de 𝒂′ unités
33