0% ont trouvé ce document utile (0 vote)
24 vues32 pages

Cours Statistique L3-EMpdf

Le document traite de l'organisation des données et des caractéristiques des séries statistiques doubles, en mettant l'accent sur les tableaux de contingence et les distributions conjointe, marginale et conditionnelle. Il aborde également l'analyse de la liaison entre deux variables statistiques, qu'elles soient qualitatives ou quantitatives, en expliquant des concepts tels que l'indépendance statistique, la covariance et la régression linéaire. Des exemples illustrent les différentes méthodes d'analyse et de représentation des données.

Transféré par

Oumy khairy Diaw
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues32 pages

Cours Statistique L3-EMpdf

Le document traite de l'organisation des données et des caractéristiques des séries statistiques doubles, en mettant l'accent sur les tableaux de contingence et les distributions conjointe, marginale et conditionnelle. Il aborde également l'analyse de la liaison entre deux variables statistiques, qu'elles soient qualitatives ou quantitatives, en expliquant des concepts tels que l'indépendance statistique, la covariance et la régression linéaire. Des exemples illustrent les différentes méthodes d'analyse et de représentation des données.

Transféré par

Oumy khairy Diaw
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TABLE DES MATIERES

Section 1 : Organisation des données et caractéristiques des séries statistiques doubles --- 3
I. Tableaux de contingence ----------------------------------------------------------------------------------------- 3
1. Distribution conjointe ----------------------------------------------------------------------------------------------------------------------------- 5
2. Distribution marginale ---------------------------------------------------------------------------------------------------------------------------- 6
3. Distribution conditionnelle ----------------------------------------------------------------------------------------------------------------------- 8

II. Fréquences conjointes, marginales et conditionnelles ----------------------------------------------------10


1. Fréquences conjointes --------------------------------------------------------------------------------------------------------------------------- 10
2. Fréquences marginales -------------------------------------------------------------------------------------------------------------------------- 10
3. Fréquences conditionnelles -------------------------------------------------------------------------------------------------------------------- 11

III. Moyennes et variances des séries statistiques doubles ----------------------------------------------------13


1. Moyennes et variances marginales ---------------------------------------------------------------------------------------------------------- 13
2. Moyennes et variances conditionnelles ---------------------------------------------------------------------------------------------------- 17

Section 2 : Analyse de la liaison entre deux variables statistiques ---------------------------- 21


I. Notion d’indépendance et de liaison statistique ------------------------------------------------------------21
1. Indépendance statistique entre deux variables ------------------------------------------------------------------------------------------ 21
2. Dépendance totale ou liaison fonctionnelle entre deux variables ----------------------------------------------------------------- 22

II. Cas de deux variables qualitatives ----------------------------------------------------------------------------23


1. Le Khi- deux ou khi-carré 𝝌𝟐----------------------------------------------------------------------------------------------------------------- 23
2. Le Phi-deux et le coefficient de contingence---------------------------------------------------------------------------------------------- 25
3. Les coefficients T de Tchuprow et V de Cramer --------------------------------------------------------------------------------------- 25

III. Cas d’une variable qualitative et d’une variable quantitative ------------------------------------------26


1. La décomposition de la variance ------------------------------------------------------------------------------------------------------------- 26
2. Le rapport de corrélation ---------------------------------------------------------------------------------------------------------------------- 27

IV. Cas de deux variables quantitatives --------------------------------------------------------------------------29


1. Le Nuage de points-------------------------------------------------------------------------------------------------------------------------------- 29
2. La covariance et le coefficient de corrélation linéaire -------------------------------------------------------------------------------- 30
3. La régression linéaire ---------------------------------------------------------------------------------------------------------------------------- 33
Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre en compte
une seule variable ; il faut alors en considérer deux ou plus.
Nous nous intéresserons ici aux séries statistiques doubles (ou séries statistiques à deux
variables) où deux variables sont étudiées simultanément, avec pour objectif essentiel de mettre
en évidence une éventuelle liaison entre elles. Les variables analysées peuvent être qualitatives
ou quantitatives et peuvent ne pas être de même nature.
Les distributions de telles séries sont présentées dans des tableaux à double entrée ou tableaux
de contingence.

Section 1 : Organisation des données et caractéristiques des séries


statistiques doubles

I. Tableaux de contingence
Un tableau de contingence est un tableau statistique permettent de présenter deux séries statistiques
simultanément et de manière croisée.
Soient deux variables observées sur une population de taille N, la variable X comportant p
modalités (𝑥1 , 𝑥2 , …, 𝑥𝑖 , …, 𝑥𝑝 ) et la variable Y comportant q modalités (𝑦1 , 𝑦2 , …, 𝑦𝑗 , …, 𝑦𝑞 ).
Le tableau de contingence se présente comme suit

Effectifs partiels
ou effectifs
Nombre d’individus
Modalités caractérisés par la
modalité 𝑥𝑖 de X et la
de Y
modalité 𝑦𝑗 de Y

Y y1 … yj … yq (ni•)
X Total
x1 n11 … n1j … n1q n1•
Modalités Effectifs

de X marginaux
xi ni1 … nij … niq ni• de X

xp np1 … npj … npq np•


(n•j) n•1 n•j n•q
N = n••
Total
Effectif
Effectifs total
marginaux
de Y

La ligne et la colonne « Total » sont appelées marges du tableau.

3
Exemple 1
Dans une entreprise de 200 salariés, on étudie les variables X = âge et Y = salaires.
Salaires [800; 1000[ [1000; 1200[
Age (j = 1) (j = 2) ni•
[20; 22[ (i = 1) 14 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
✓ X et Y sont des variables continues (regroupées en classes).
✓ Le nombre de modalités de X est p (p = 3) et le nombre de modalités de Y est q (q = 2).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
Ainsi x1 correspond à la classe [20; 22[, x2 correspond à la classe [22; 24[ et x3 correspond à
la classe [24; 26[
y1 correspond à la classe [800; 1000[ et y2 correspond à la classe [1000; 1200[

Exemple 2
Le tableau suivant résume les réponses à la question « Regardez-vous les matches de football à
la télévision ? » suivant le sexe
Réponses
Sexe Oui non ni•
Masculin 20 4 24
Feminin 10 6 16
n•j 30 10 40
✓ X et Y sont des variables qualitatives.
✓ Le nombre de modalités de X est p (p = 2) et le nombre de modalités de Y est q (q = 2).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
x1 correspond à la modalité « Masculin » et x2 correspond à la modalité « Féminin »
y1 correspond à la modalité « oui » et y2 correspond à la modalité « non »

Exemple 3 :
Le tableau suivant résume la distribution des notes de 100 étudiants à une épreuve d’un
concours selon leur filière d’origine
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]
Filières d’origine X (j = 1) (j = 2) (j = 3) (j = 4)
ni•
Filière A (i = 1) 26 6 4 1 37
Filière B (i = 2) 12 9 3 1 25
Filière C (i = 3) 1 4 5 6 16
Filière D (i = 4) 10 8 3 1 22
n•j 49 27 15 9 100
✓ X est une variable qualitative et Y est une variable quantitative.
✓ Le nombre de modalités de X est p (p = 4) et le nombre de modalités de Y est q (q = 4).
✓ i désigne l'indice d'une ligne (ou encore le rang d’une modalité de X) et j désigne l'indice
d'une colonne (ou encore le rang d’une modalité de Y)
Donc x1 correspond à la modalité « Filière A » et y2 correspond la classe [6 ; 10[

4
1. Distribution conjointe

On appelle distribution conjointe des effectifs de X et Y l’ensemble des informations (𝒙𝒊 , 𝒚𝒋 , 𝒏𝒊𝒋 )
pour i = 1, . . . , p et j = 1, . . . , q.

Les effectifs conjoints ou effectifs partiels nij désignent le nombre d’individus caractérisés
par la modalité xi de X et la modalité yj de Y

Dans l’exemple 1
Salaires [800; 1000[ [1000; 1200[
(j = 2)
ni•
Age (j = 1)
[20; 22[ (i = 1) 14 n12 = 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
n12 est le nombre de salariés caractérisés simultanément par la modalité x1 et la modalité y2
n12 = 6 soit 6 salariés sont âgés entre 20 et 22 ans et ont un salaire compris entre 1000 et 1200

n31 est le nombre de salariés caractérisés simultanément par la modalité x3 et la modalité y1


n31 = 20 soit 20 salariés sont âgés entre 24 et 26 ans et ont un salaire compris entre 800 et 1000

Dans l’exemple 2
Réponses
Sexe Oui non ni•
Masculin 20 4 24
Feminin 10 6 16
n•j 30 10 40
n11 = 20 est le nombre d’hommes qui regardent les matches de football à la télévision et n12 = 6
est le nombre de femmes qui regardent les matches de football à la télévision

Dans l’exemple 3
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]
ni•
Filières d’origine X (j = 1) (j = 2) (j = 3) (j = 4)
Filière A (i = 1) 26 6 4 1 37
Filière B (i = 2) 12 9 3 1 25
Filière C (i = 3) 1 4 5 6 16
Filière D (i = 4) 10 8 3 1 22
n•j 49 27 15 9 100
n41 = 10 est le nombre d’étudiants de la filière D qui ont une note comprise entre 0 et 6

n23 = 3 est le nombre d’étudiants de la filière B qui ont une note comprise entre 10 et 14

5
2. Distribution marginale
La distribution marginale est la distribution statistique de l’une des variables indépendamment
de l’autre. Elle est lue sur l’une ou l’autre des marges du tableau, d’où son nom.

2-1- Distribution marginale de X


Les p couples (𝒙𝒊 , 𝒏𝒊• ) forment la distribution marginale de la variable X.

L’effectif marginal 𝒏𝒊• désigne le nombre d’individus possédant la modalité i de la variable


X quelle que soit la distribution de la variable Y.
𝑞

𝒏𝒊• = ∑ 𝒏𝒊𝒋 , 𝑝𝑜𝑢𝑟 𝑖 = 1, … , 𝑝


𝑗=1
𝒏𝒊• = 𝒏𝒊𝟏 + 𝒏𝒊𝟐 + ⋯ + 𝒏𝒊𝒋 + ⋯ + 𝒏𝒊𝒒
𝒏𝟏• = 𝒏𝟏𝟏 + 𝒏𝟏𝟐 + ⋯ + 𝒏𝟏𝒋 + ⋯ + 𝒏𝟏𝒒
Ainsi, dans l’exemple 1,
Salaires [800; 1000[ [1000; 1200[
ni•
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20
[22; 24[ (i = 2) 28 46 74 (𝒏𝟐• )
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200

𝒏𝟐• désigne le nombre de salariés caractérisés par la modalité 2 de la variable X (âge) quelle que
soit la valeur de la variable Y (salaires).
𝒏𝟐• = 𝒏𝟐𝟏 + 𝒏𝟐𝟐
𝒏𝟐• = 𝟐𝟖 + 𝟒𝟔 = 𝟕𝟒
Soit, 74 salariés sont âgés entre 22 et 24 ans

La distribution marginale de la variable X est lue sur la première et la dernière colonne du tableau
de contingence
Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•

xi ni1 … nij … niq ni•


xp np1 … npj … npq


np•
n•j n•1 n•j n•q
N = n••

La somme des effectifs marginaux de X est égale à l’effectif total ∑𝑝𝑖=1 𝒏𝒊• = 𝐍
Soit 𝒏𝟏• + 𝒏𝟐• + 𝒏𝟑• + ⋯ + 𝒏𝒊• + ⋯ + 𝒏𝒑• = 𝐍

6
Exemple :
La distribution marginale de la variable X = âge de l’exemple 1 est
Age ni•
[20; 22[ (i = 1) 20
[22; 24[ (i = 2) 74
[24; 26[ (i = 3) 106
Total 200

2-2- Distribution marginale de Y


Les q couples (𝒚𝒊 , 𝒏•𝒋 ) forment la distribution marginale de la variable Y.

L’effectif marginal 𝒏•𝒋 désigne le nombre d’individus possédant la modalité j de la variable


Y quelle que soit la distribution de la variable X
𝑝

𝒏•𝒋 = ∑ 𝒏𝒊𝒋 , 𝑝𝑜𝑢𝑟 𝑗 = 1, … , 𝑞


𝑖=1
𝒏•𝒋 = 𝒏𝟏𝒋 + 𝒏𝟐𝒋 + ⋯ + 𝒏𝒊𝒋 + ⋯ + 𝒏𝒑𝒋
𝒏•𝟑 = 𝒏𝟏𝟑 + 𝒏𝟑𝒋 + ⋯ + 𝒏𝒊𝟑 + ⋯ + 𝒏𝒑𝟑
Ainsi dans l’exemple 3
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]
ni•
Filières d’origine X (j = 1) (j = 2) (j = 3) (j = 4)
Filière A (i = 1) 26 6 4 1 37
Filière B (i = 2) 12 9 3 1 25
Filière C (i = 3) 1 4 5 6 16
Filière D (i = 4) 10 8 3 1 22
n•j 49 27 15 9 (𝒏•𝟒 ) 100

𝒏•𝟒 désigne le nombre de salariés caractérisés par la modalité 4 de la variable Y (notes) quelle que
soit la valeur de la variable X (filières).
𝒏•𝟒 = 𝒏𝟏𝟒 + 𝒏𝟐𝟒 + 𝒏𝟑𝟒 + 𝒏𝟒𝟒
𝒏•𝟒 = 𝟏 + 𝟏 + 𝟔 + 𝟏 = 𝟗
Soit, 9 étudiants ont une note comprise entre 14 et 20

La distribution marginale de la variable Y est lue sur la première et la dernière ligne du tableau de
contingence
Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•

xi ni1 … nij … niq ni•


xp np1 … npj … npq np•


n•j n•1 n•j n•q
N = n••

7
La somme des effectifs marginaux de Y est égale à l’effectif total ∑𝑞𝑗=1 𝒏•𝒋 = 𝐍
Ainsi l’effectif total
𝑝 𝑞

𝑵 = 𝒏•• = ∑ 𝒏𝒊• = ∑ 𝒏•𝒋


𝑖=1 𝑗=1

Exemple :
La distribution marginale de la variable Y = notes de l’exemple 3 est

[0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20]


Y (notes) (j = 1) Total
(j = 2) (j = 3) (j = 4)
n•j 49 27 15 9 100

3. Distribution conditionnelle

La distribution conditionnelle est la distribution statistique de l’une des variables lorsque l’autre
prend une valeur donnée.

3-1- Distribution de X sachant 𝐘 = 𝐲𝐣

La distribution conditionnelle de X sachant Y = yj , notée 𝐗|𝐘=𝐲𝐣 , est la distribution des


observations suivant les modalités de la variable X lorsque la variable Y prend la modalité yj .

𝐗|𝐘=𝐲𝐣 se lit à la colonne j du tableau de contingence


Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•

xi ni1 … nij … niq ni•


xp np1 … npj … npq


np•
n•j n•1 n•j n•q N = n••
Exemple
Dans l’exemple 1, la distribution conditionnelle de X sachant Y=y2, notée X|Y=y2 ou encore
X|Y∈[1000; 1200] est
Y(Salaires) [1000; 1200[
X (Age) (j = 2) Parmi les 138 salariés qui perçoivent un salaire
[20; 22[ (i = 1) 6 compris entre 1000 et 1200, 6 sont âgés de 20 à
[22; 24[ (i = 2) 46 22 ans, 46 sont âgés de 22 à 24 ans et 86 sont âgés
[24; 26[ (i = 3) 86 de 24 à 26 ans.
Total 138

8
3-1- Distribution de Y sachant 𝑿 = 𝒙𝒊

La distribution conditionnelle de Y sachant 𝑋 = 𝑥𝑖 , notée 𝒀|𝑿=𝒙𝒊 , est la distribution des


observations suivant les modalités de la variable Y lorsque la variable X prend la modalité 𝑥𝑖 .

𝒀|𝑿=𝒙𝒊 se lit à la ligne i du tableau de contingence


Y y1 … yj … yq ni•
X
x1 n11 … n1j … n1q n1•


xi ni1 … nij … niq ni•


xp np1 … npj … npq np•
n•j n•1 n•j n•q N = n••

Exemple
Dans l’exemple 3, la distribution conditionnelle de Y sachant que 𝑋 = 𝑥4 , notée 𝑌|𝑋=𝑥4 est
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total
(j = 1) (j = 2) (j = 3) (j = 4)
Filière D (i = 4) 10 8 3 1 22
Parmi les 22 étudiants qui suivent la filière D, 10 ont obtenu une note comprise entre 0 et 6, 8 ont
obtenu une note comprise entre 6 et 10, 3 ont obtenu une note comprise entre 10 et 14 et 1 a obtenu
une note comprise entre 14 et 20.

Remarque :
Il y a autant de distributions conditionnelles de X qu’il y a de modalités de Y
De même, Il y a autant de distributions conditionnelles de Y qu’il y a de modalités de X

Exemple :
Dans l’exemple 1
Salaires [800; 1000[ [1000; 1200[
ni•
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20
[22; 24[ (i = 2) 28 46 74
[24; 26[ (i = 3) 20 86 106
n•j 62 138 200
Il y a deux distributions conditionnelles de X par rapport à Y car Y a deux modalités (j = 2).
• la distribution de X sachant Y ∈ [800; 1000[.
• la distribution de X sachant Y ∈ [1000; 1200[.
Il y a trois distributions conditionnelles de Y par rapport à X car X a trois modalités (i = 3)
• la distribution de Y sachant X ∈ [20; 22[.
• la distribution de Y sachant X ∈ [22; 24[.
• la distribution de Y sachant X ∈ [24; 26[.

9
II. Fréquences conjointes, marginales et conditionnelles

1. Fréquences conjointes
Les fréquences conjointes 𝒇𝒊𝒋 sont le rapport entre les effectifs conjoints 𝒏𝒊𝒋 et l’effectif total 𝑵.
𝒏𝒊𝒋
𝒇𝒊𝒋 = × 𝟏𝟎𝟎
𝑵
Les fréquences conjointes peuvent également être représentées dans un tableau de
contingence
Y y1 … yj … yq fi•
X
x1 f11 … f1j … f1q f1•


xi fi1 … fij … fiq fi•


xp fp1 … fpj … fpq fp•
f•j f•1 f•j f•q 1

Les fréquences conjointes de l’exemple 1, en pourcentage, sont notés entre parenthèses à


l’intérieur du tableau :
Salaires [800; 1000[ [1000; 1200[
(j = 1) (j = 2)
ni• (fi•)
Age
[20; 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%)
[22; 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%)
[24; 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%)
n•j (f•j) 62 (31%) 138 (69%) 200 (100%)

𝑛11 14
✓ 𝑓11 = × 100 = 200 × 100 = 7% ;
𝑁
7% des salariés sont âgés de 20 à 22 ans et perçoivent un salaire compris entre 800 et 1000

𝑛32 86
✓ 𝑓32 = × 100 = 200 × 100 = 43%
𝑁
43% des salariés sont âgés de 24 à 26 ans et perçoivent un salaire compris entre 1000 et 1200

2. Fréquences marginales
Les fréquences marginales sont le rapport entre les effectifs marginaux et l’effectif total

• Les fréquences marginales de X sont


𝒏 𝒊•
𝒇𝒊 • = × 𝟏𝟎𝟎
𝑵
𝑞

𝒇𝒊• = ∑ 𝒇𝒊𝒋 , 𝑖 = 1, … , 𝑝
𝑗=1

10
Dans l’exemple 1, les fréquences marginales de X sont notées en gras dans la colonne fi•
Salaires [800; 1000[ [1000; 1200[
(j = 1) (j = 2)
ni• (fi•)
Age
[20; 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%) 𝑓1•
[22; 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%) 𝑓2•
[24; 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%) 𝑓3•
n•j (f•j) 62 (31%) 138 (69%) 200 (100%)

𝑛1• 20
𝑓1• = × 100 = × 100 = 10%
𝑁 200
2

𝑓1• = ∑ 𝑓1𝑗 = 𝑓11 + 𝑓12 = 7% + 3% = 10%


𝑗=1
10% des salariés sont âgés de 20 à 22 ans

• Les fréquences marginales de Y sont


𝒏•𝒋
𝒇•𝒋 = × 𝟏𝟎𝟎
𝑵
𝑝

𝒇•𝒋 = ∑ 𝒇𝒊𝒋 , 𝑗 = 1, … , 𝑞
𝑖=1
Dans l’exemple 1, les fréquences marginales de Y sont notées entre parenthèses en gras dans la
ligne f•j
Salaires [800; 1000[ [1000; 1200[
Total
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 (7%) 6 (3%) 20 (10%)
[22; 24[ (i = 2) 28 (14%) 46 (23%) 74 (37%)
[24; 26[ (i = 3) 20 (10%) 86 (43%) 106 (53%)
n•j (f•j) 62 (31%) 𝒇•𝟏 138 (69%) 𝒇•𝟐 200 (100%)

𝑛•2 138
𝑓•2 = × 100 = × 100 = 69%
𝑁 200
3

𝑓•2 = ∑ 𝑓𝑖2 = 𝑓12 + 𝑓22 + 𝑓32 = 3% + 23% + 43% = 69%


𝑖=1
69% des salariés perçoivent un salaire compris entre 1000 et 1200.

3. Fréquences conditionnelles

• Fréquences conditionnelles de X sachant 𝐘 = 𝐲𝐣


Les fréquences conditionnelles de X sachant Y = yj , notée 𝒇𝒊/𝐲𝐣
𝒏𝒊𝒋
𝒇𝒊/𝐲𝐣 = × 𝟏𝟎𝟎
𝒏•𝒋

11
L’ensemble des fréquences conditionnelles de 𝐗|𝐘=𝐲𝐣 est présenté dans le tableau des
fréquences en colonne
Le tableau des fréquences en colonne de l’exemple 1 est le suivant
Salaires [800; 1000[ [1000; 1200[
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 (22,6%) 6 (4,3%)
[22; 24[ (i = 2) 28 (45,2%) 46 (33,3%)
[24; 26[ (i = 3) 20 (32,2%) 86 (62,4%)
Total 62 (100%) 138 (100%)
𝑛11 14
✓ 𝑓1/y1 = × 100 = 62 × 100 = 22,6%
𝑛•1
La fréquence des personnes âgées de 20 à 22 ans parmi les personnes percevant un salaire
compris entre 800 et 1000 est de 22,6%
Ou encore 22,6% des personnes percevant un salaire compris entre 800 et 1000, sont âgées de
20 à 22 ans
𝑛21 28
✓ 𝑓2/y1 = × 100 = 62 × 100 = 45,2%
𝑛•1
𝑛31 20
✓ 𝑓3/y1 = × 100 = 62 × 100 = 32,2%
𝑛•1

• Fréquences conditionnelles de Y sachant 𝐗 = 𝐱 𝐢


Les fréquences conditionnelles de Y sachant = 𝑥𝑖 , notée 𝒇𝒋/𝒊
𝒏𝒊𝒋
𝒇𝒋/𝒙𝒊 =
× 𝟏𝟎𝟎
𝒏𝒊•
L’ensemble des fréquences conditionnelles de 𝐘|𝐗=𝐱𝐢 est présenté dans le tableau des
fréquences en ligne

Le tableau des fréquences en ligne de l’exemple 1 est le suivant


Salaires [800; 1000[ [1000; 1200[
Total
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 (70%) 6 (30%) 20 (100%)
[22; 24[ (i = 2) 28 (37,8%) 46 (62,2%) 74 (100%)
[24; 26[ (i = 3) 20 (18,9%) 86 (81,1%) 106 (100%)
𝑛21 28
✓ 𝑓1/𝑥2 = × 100 = 74 × 100 = 37,8%
𝑛2•
La fréquence des personnes percevant un salaire compris entre 800 et 1000 parmi les personnes
âgées de 20 à 22 ans, est de 37,8%
Ou encore 37,8% des personnes âgées de 20 à 22 ans, perçoivent un salaire compris entre 800
et 1000
𝑛22 46
✓ 𝑓2/𝑥2 = × 100 = 74 × 100 = 62,2%
𝑛2•

12
Lien entre les fréquences
𝒇𝒊𝒋 = 𝒇𝒊/𝐲𝐣 × 𝒇•𝒋 = 𝒇𝒋/𝒙𝒊 × 𝒇𝒊• ou encore
𝒇𝒊𝒋 𝒇𝒊𝒋
𝒇𝒊/𝐲𝐣 = Et 𝒇𝒋/𝒙𝒊 =
𝒇•𝒋 𝒇𝒊•
III. Moyennes et variances des séries statistiques doubles
1. Moyennes et variances marginales
Comme pour les séries statistiques à une variable, il est possible de déterminer pour les séries
statistiques à deux variables, tous les paramètres de position et de dispersion de chaque variable
prise séparément. Il suffit pour cela de déterminer les distributions marginales des variables X
et Y.
Nous nous intéressons ici à la moyenne marginale, à la variance marginale et à l’écart-type
marginal.

1-1- Moyennes marginales


Moyenne marginale de X : Moyenne marginale de Y :
✓ Variable discrète ✓ Variable discrète
𝑝 𝑝 𝑞 𝑞
1 1
𝑥̅ = ∑ 𝑛𝑖• 𝑥𝑖 𝑥̅ = ∑ 𝑓𝑖• 𝑥𝑖 𝑦̅ = ∑ 𝑛•𝑗 𝑦𝑗 𝑦̅ = ∑ 𝑓•𝑗 𝑦𝑗
𝑁 𝑁
𝑖=1 𝑖=1 𝑗=1 𝑗=1
✓ Variable continue ✓ Variable continue
𝑝 𝑝 𝑞 𝑞
1 1
𝑥̅ = ∑ 𝑛𝑖• 𝑐𝑖 𝑥̅ = ∑ 𝑓𝑖• 𝑐𝑖 𝑦̅ = ∑ 𝑛•𝑗 𝑐𝑗 𝑦̅ = ∑ 𝑓•𝑗 𝑐𝑗
𝑁 𝑁
𝑖=1 𝑖=1 𝑗=1 𝑗=1
𝒄𝒊 représentant les centres des classes 𝒄𝒋 représentant les centres des classes

Calcul des moyennes marginales de X et de Y dans l’exemple 1


𝑝 𝑞
1 1
✓ A partir des effectifs marginaux : 𝑥̅ = ∑ 𝑛𝑖• 𝑐𝑖 𝑦̅ = ∑ 𝑛•𝑗 𝑐𝑗
𝑁 𝑁
𝑖=1 𝑗=1

𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.


avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


Total 𝑐𝑖 𝑛𝑖• 𝑐𝑖
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20 21 420
[22; 24[ (i = 2) 28 46 74 23 1702
[24; 26[ (i = 3) 20 86 106 25 2650
Total 62 138 200 ///// 4772
𝑐𝑗 900 1100 ///// ///// /////
𝑛•𝑗 𝑐𝑗 55800 151800 207600 ///// /////

𝒏𝟏• 𝒄𝟏 +𝒏𝟐• 𝒄𝟐 +𝒏𝟑• 𝒄𝟑 𝒏•𝟏 𝒄𝟏 +𝒏•𝟐 𝒄𝟐


̅=
𝒙 ̅=
𝒚
𝑵 𝑵
𝟐𝟎×𝟐𝟏+𝟕𝟒×𝟐𝟑+𝟏𝟎𝟔×𝟐𝟓 𝟒𝟕𝟕𝟐 𝟔𝟐×𝟗𝟎𝟎+𝟏𝟑𝟖×𝟏𝟏𝟎𝟎 𝟐𝟎𝟕𝟔𝟎𝟎
̅=
𝒙 = ̅=
𝒚 =
𝟐𝟎𝟎 𝟐𝟎𝟎 𝟐𝟎𝟎 𝟐𝟎𝟎
̅ = 𝟐𝟑, 𝟖𝟔
𝒙 ̅ = 𝟏𝟎𝟑𝟖
𝒚

13
𝑝 𝑞
✓ A partir des fréquences marginales
𝑥̅ = ∑ 𝑓𝑖• 𝑐𝑖 𝑦̅ = ∑ 𝑓•𝑗 𝑐𝑗
𝑖=1 𝑗=1
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


Total fi• 𝑐𝑖 𝑓𝑖• 𝑐𝑖
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20 0,1 21 2,1
[22; 24[ (i = 2) 28 46 74 0,37 23 8,51
[24; 26[ (i = 3) 20 86 106 0,53 25 13,25
Total 62 138 200 1 ///// 23,86
f•j 0,31 0,69 1 ///// ///// /////
𝑐𝑗 900 1100 ///// ///// ///// /////
𝑓•𝑗 𝑐𝑗 279 759 1038 ///// ///// /////

𝑥̅ = 𝑓1• 𝑐1 + 𝑓2• 𝑐2 + 𝑓3• 𝑐3 𝑦̅ = 𝑓•1 𝑐1 + 𝑓•2 𝑐2


𝑥̅ = 0,1 × 21 + 0,37 × 23 + 0,53 × 25 𝑦̅ = 0,31 × 900 + 0,69 × 1100
𝑥̅ = 2,1 + 8,51 + 13,25 𝑦̅ = 279 + 759
𝑥̅ = 23,86 𝑦̅ = 1038

Remarque :
Lorsque les fréquences sont exprimées en pourcentages alors
𝒑 𝒒
𝟏 𝟏
̅=
𝒙 ∑ 𝒇𝒊• 𝒄𝒊 ̅=
𝒚 ∑ 𝒇•𝒋 𝒄𝒋
𝟏𝟎𝟎 𝟏𝟎𝟎
𝒊=𝟏 𝒋=𝟏
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


Total fi• (%) 𝑐𝑖 𝑓𝑖• 𝑐𝑖
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20 10 21 210
[22; 24[ (i = 2) 28 46 74 37 23 851
[24; 26[ (i = 3) 20 86 106 53 25 1325
Total 62 138 200 100 ///// 2386
f•j (%) 31 69 100 ///// ///// /////
𝑐𝑗 900 1100 ///// ///// ///// /////
𝑓•𝑗 𝑐𝑗 27900 75900 103800 ///// ///// /////

𝑓1• 𝑐1 +𝑓2• 𝑐2 +𝑓3• 𝑐3 𝑓•1 𝑐1 +𝑓•2 𝑐2


𝑥̅ = 𝑦̅ =
100 100
10×21+37×23+53×25 31×900+69×1100
𝑥̅ = 𝑦̅ =
100 100
210+851+1325 2386 27900+75900 103800
𝑥̅ = = 𝑦̅ = =
100 100 100 100
𝑥̅ = 23,86 𝑦̅ = 1038

14
1-2- Variances marginales

Variance marginale de X Variance marginale de Y :


✓ Variable discrète
✓ Variable discrète
𝒑 𝒑 𝒒 𝒒
𝟏 𝟏
̅)𝟐 ;
𝑽(𝑿) = ∑ 𝒏𝒊• (𝒙𝒊 − 𝒙 𝑽(𝑿) = ∑ 𝒇𝒊• (𝒙𝒊 − ̅) 𝟐
𝒙 ̅)𝟐 ;
𝑽(𝒀) = ∑ 𝒏•𝒋 (𝒚𝒋 − 𝒚 𝑽(𝒀) = ∑ 𝒇•𝒋 (𝒚𝒋 − 𝒚)𝟐
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏 𝒋=𝟏 𝒋=𝟏
𝒑 𝒑 𝒒 𝒒
𝟏 𝟏
𝑽(𝑿) = ∑ 𝒏𝒊• (𝒙𝟐𝒊 ) − (𝒙
̅)𝟐 ; 𝑽(𝑿) = ∑ 𝒇𝒊• (𝒙𝟐𝒊 ) − (𝒙
̅)𝟐 𝑽(𝒀) = ∑ 𝒏•𝒋 (𝒚𝟐𝒋 ) − (𝒚)𝟐 ; 𝑽(𝒀) = ∑ 𝒇•𝒋 (𝒚𝟐𝒋 ) − (𝒚
̅)𝟐
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏 𝒋=𝟏 𝒋=𝟏

✓ Variable continue ✓ Variable continue


𝒑 𝒑 𝒒 𝒒
𝟏 𝟏
̅)𝟐 ;
𝑽(𝑿) = ∑ 𝒏𝒊• (𝒄𝒊 − 𝒙 ̅)
𝑽(𝑿) = ∑ 𝒇𝒊• (𝒄𝒊 − 𝒙 𝟐
̅)𝟐 ;
𝑽(𝒀) = ∑ 𝒏•𝒋 (𝒄𝒋 − 𝒚 ̅)𝟐
𝑽(𝒀) = ∑ 𝒇•𝒋 (𝒄𝒋 − 𝒚
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏 𝒋=𝟏 𝒋=𝟏
𝒑 𝒑 𝒒 𝒒
𝟏 𝟏
𝑽(𝑿) = ∑ 𝒏𝒊• (𝒄𝟐𝒊 ) − (𝒙
̅)𝟐 ; 𝑽(𝑿) = ∑ 𝒇𝒊•( 𝒄𝟐𝒊 ) − (𝒙
̅)𝟐 𝑽(𝒀) = ∑ 𝒏•𝒋 (𝒄𝟐𝒋 ) − (𝒚)𝟐 ; 𝑽(𝒀) = ∑ 𝒇•𝒋( 𝒄𝟐𝒋 ) − (𝒚
̅)𝟐
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏 𝒋=𝟏 𝒋=𝟏

𝒄𝒊 représentant les centres des classes 𝒄𝒋 représentant les centres des classes
Ecart-type marginal de X Ecart-type marginal de Y
𝝈𝑿 = √𝑽(𝑿) 𝝈𝒀 = √𝑽(𝒀)

Calcul de la variance marginale de X dans l’exemple 1

𝑝 𝑞
1 1
✓ A partir des effectifs marginaux : 𝑉(𝑋) = ∑ 𝑛𝑖• (𝑐𝑖 − 𝑥̅ )2 𝑉(𝑌) = ∑ 𝑛•𝑗 (𝑐𝑗 − 𝑦̅)2
𝑁 𝑁
𝑖=1 𝑗=1

𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.


avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


Total 𝑐𝑖 𝑛𝑖• 𝑐𝑖 ci − 𝑥̅ (ci − 𝑥̅ )2 ni• (ci − 𝑥̅ )2
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20 21 420 -2,86 8,1796 163,592
[22; 24[ (i = 2) 28 46 74 23 1702 -0,86 0,7396 54,7304
[24; 26[ (i = 3) 20 86 106 25 2650 1,14 1,2996 137,7576
Total 62 138 200 ///// 4772 ///// ///// 356,08
𝑐𝑗 900 1100 ///// ///// ///// ///// ///// /////
𝑛•𝑗 𝑐𝑗 55800 151800 207600 ///// ///// ///// ///// /////
c𝑗 − 𝑦̅ -138 62 ///// ///// ///// ///// ///// /////
2
(c𝑗 − 𝑦̅) 19044 3844 ///// ///// ///// ///// ///// /////
n•j (c𝑗 − 𝑦̅)2 1180728 530472 1711200 ///// ///// ///// ///// /////

4772 207600
𝑥̅ = = 23,86 𝑦̅ = = 1038
200 200
356,08 1711200
𝑉(𝑋) = 𝑉(𝑌) =
200 200
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556
𝜎𝑋 = √𝑉(𝑋) 𝜎𝑌 = √𝑉(𝑌)
𝜎𝑋 = √1,7804 𝜎𝑌 = √8556
𝜎𝑋 = 1,3343 𝜎𝑌 = 92,4986

15
Utilisation de la Formule développée de la variance avec les effectifs marginaux
𝑝 𝑞
1 1
𝑉(𝑋) = ∑ 𝑛𝑖• (𝑐𝑖2 ) − (𝑥̅ )2 ; 𝑉(𝑌) = ∑ 𝑛•𝑗 (𝑦𝑗2 ) − (𝑦)2 ;
𝑁 𝑁
𝑖=1 𝑗=1

𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.


avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


ni• 𝑐𝑖 𝑛𝑖• 𝑐𝑖 𝑛𝑖• (𝑐𝑖2 )
Age (j = 1) (j = 2)
[20; 22[ (i = 1) 14 6 20 21 420 8820
[22; 24[ (i = 2) 28 46 74 23 1702 39146
[24; 26[ (i = 3) 20 86 106 25 2650 66250
n•j 62 138 200 ///// 4772 114216
𝑐𝑗 900 1100 ///// ///// ///// /////
𝑛•𝑗 𝑐𝑗 55800 151800 207600 ///// ///// /////
𝑛•𝑗 (𝑐𝑗2 ) 50220000 166980000 217200000 ///// ///// /////

4772 207600
𝑥̅ = = 23,86 𝑦̅ = = 1038
200 200
114216 4772 217200000 207600
𝑉(𝑋) = 200 − ( 200 )2 𝑉(𝑌) = 200 − ( 200 )2
𝑉(𝑋) = 571,08 − (23.86)2 𝑉(𝑌) = 1086000 − (1038)2
𝑉(𝑋) = 571,08 − 569,2296 𝑉(𝑌) = 1086000 − 1077444
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556

𝑝 𝑞
✓ A partir des fréquences marginales :
𝑉(𝑋) = ∑ 𝑓𝑖• (𝑐𝑖 − 𝑥̅ ) 2 𝑉(𝑌) = ∑ 𝑓•𝑗 (𝑐𝑗 − 𝑦̅)2
𝑗=1
𝑖=1
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2

Salaires
[800; 1000[ [1000; 1200[ Total 𝑐𝑖 𝑓𝑖• 𝑓𝑖• 𝑐𝑖 ci − 𝑥̅ (ci − 𝑥̅ )2 𝑓i• (ci − 𝑥̅ )2
Age
[20; 22[ 14 6 20 21 0,1 2,1 -2,86 8,1796 0,81796
[22; 24[ 28 46 74 23 0,37 8,51 -0,86 0,7396 0,273652
[24; 26[ 20 86 106 25 0,53 13,25 1,14 1,2996 0,688788
Total 62 138 200 ///// 1 23,86 ///// ///// 1,7804
𝑐𝑗 900 1100 ///// ///// ///// ///// ///// ///// /////
𝑓•𝑗 0,31 0,69 1 ///// ///// ///// ///// ///// /////
𝑓•𝑗 𝑐𝑗 279 759 1038 ///// ///// ///// ///// ///// /////
c𝑗 − 𝑦̅ -138 62 ///// ///// ///// ///// ///// ///// /////
(c𝑗 − 𝑦̅)2 19044 3844 ///// ///// ///// ///// ///// ///// /////
𝑓•j (c𝑗 − 𝑦̅)2 5903,64 2652,36 8556 ///// ///// ///// ///// ///// /////

𝑉(𝑋) = 1,7804
𝑉(𝑌) = 8556

16
Utilisation de la formule développée de la variance avec les fréquences marginales
𝑝 𝑞

𝑉(𝑋) = ∑ 𝑓𝑖• (𝑐𝑖2 ) − (𝑥̅ )2 𝑉(𝑌) = ∑ 𝑓•𝑗 (𝑐𝑗2 ) − (𝑦̅)2


𝑖=1 𝑗=1
𝑏𝑜𝑟𝑛𝑒 𝑖𝑛𝑓.+𝑏𝑜𝑟𝑛𝑒 𝑠𝑢𝑝.
avec 𝑐=
2

Salaires [800; 1000[ [1000; 1200[


(j = 1) (j = 2)
ni• 𝑐𝑖 𝑓𝑖• 𝑓𝑖• 𝑐𝑖 𝑓𝑖• (𝑐𝑖2 )
Age
[20; 22[ (i = 1) 14 6 20 21 0,1 2,1 44,1
[22; 24[ (i = 2) 28 46 74 23 0,37 8,51 195,73
[24; 26[ (i = 3) 20 86 106 25 0,53 13,25 331,25
n•j 62 138 200 ///// 1 23,86 571,08
𝑐𝑗 900 1100 ///// ///// /////
𝑓•𝑗 0,31 0,69 1
𝑓•𝑗 𝑐𝑗 279 759 1038 ///// /////
2
𝑓•𝑗 (𝑐𝑗 ) 251100 834900 1086000

𝑥̅ = 23,86 𝑦̅ = 1038
𝑉(𝑋) = 571,08 − (23,86)2 𝑉(𝑌) = 1086000 − (1038)2
𝑉(𝑋) = 571,08 − 569,2296 𝑉(𝑌) = 1086000 − 1077444
𝑉(𝑋) = 1,7804 𝑉(𝑌) = 8556

NB : Lorsque les fréquences sont exprimées en pourcentages alors


𝑝
1
𝑉(𝑋) = ∑ 𝑓𝑖• (𝑐𝑖2 ) − (𝑥̅ )2
100
𝑖=1

2. Moyennes et variances conditionnelles


2-1- Moyennes conditionnelles
• Moyenne conditionnelle de X sachant 𝐘 = 𝐲𝐣
La moyenne conditionnelle de X sachant Y = yj est égale à :
𝒑 𝒑
𝟏
̅𝒚𝒋
𝒙 = ∑ 𝒏𝒊𝒋 𝒙𝒊 ; ̅𝒚𝒋 = ∑ 𝒇𝒊/𝐲𝐣 𝒙𝒊
𝒙
𝒏•𝒋
𝒊=𝟏 𝒊=𝟏

Lorsque les données sont organisées en classes, les 𝒙𝒊 sont remplacés par les centres des classes
𝒄𝒊

17
Exemple : Calcul de la moyenne conditionnelle de X sachant Y = y2 dans l’exemple 1
𝒑 𝟏
✓ A partir des effectifs conditionnels 𝒙
̅𝒚𝒋 = ∑𝒊=𝟏 𝒏𝒊𝒋 𝒄𝒊
𝒏 •𝒋

Salaires [800; 1000[ [1000; 1200[ 𝟑


Total 𝑐𝑖 𝒏𝒊𝟐 𝒄𝒊 𝟏
Age (j = 2) ̅𝒚𝟐
𝒙 = ∑ 𝒏𝒊𝟐 𝒄𝒊
𝒏•𝟐
[20; 22[ 14 6 (𝒏𝟏𝟐 ) 20 21 126 𝒊=𝟏
[22; 24[ 28 46 (𝒏𝟐𝟐 ) 74 23 1058
[24; 26[ 20 106 25 2150 3334
86 (𝒏𝟑𝟐 ) ̅𝒚𝟐 =
𝒙 = 24,1594
3334 138
Total 62 138 (𝒏•𝟐 ) 200 /////

𝒑
✓ A partir des fréquences conditionnelles 𝒙
̅𝒚𝒋 = ∑𝒊=𝟏 𝒇𝒊/𝐲𝐣 𝒄𝒊

Salaires [800; 1000[ [1000; 1200[ 𝟑


Total 𝑐𝑖 𝒇𝒊/𝐲𝟐 𝒇𝒊/𝐲𝟐 𝒄𝒊
Age (j = 2) ̅𝒚𝟐 = ∑ 𝒇𝒊/𝐲𝟐 𝒄𝒊
𝒙
[20; 22[ 14 6 (𝒏𝟏𝟐 ) 20 21 0,04348 0,9130 𝒊=𝟏
[22; 24[ 28 46 (𝒏𝟐𝟐 ) 74 23 0,33333 7,6667
[24; 26[ 20 86 (𝒏𝟑𝟐 ) 106 25 0,62319 15,5797 𝑥̅𝑦2 = 24,1594
Total 62 138 (𝒏•𝟐 ) 200 ///// 1 24,1594

• Moyenne conditionnelle de Y sachant 𝐗 = 𝐱 𝐢


La moyenne conditionnelle de Y sachant 𝑋 = 𝑥𝑖 est égale à :
𝒒 𝒒
𝟏
̅ 𝒙𝒊 =
𝒚 ∑ 𝒏𝒊𝒋 𝒚𝒋 ; ̅𝒙𝒊 = ∑ 𝒇𝒋/𝒙𝒊 𝒚𝒋
𝒚
𝒏𝒊•
𝒋=𝟏 𝒋=𝟏
Lorsque les données sont organisées en classes, les 𝒚𝒋 sont remplacés par les centres des classes
𝒄𝒋
Exemple : Calcul de la moyenne conditionnelle de Y sachant X= x3 dans l’exemple 1
Salaires [800; 1000[ [1000; 1200[
Total
Age 𝟐
𝟏
[20; 22[ 14 6 20 ̅ 𝒙𝟑 =
𝒚 ∑ 𝒏𝟑𝒋 𝒄𝒋
[22; 24[ 28 46 74 𝒏𝟑•
𝒋=𝟏
[24; 26[ (i=3) 20 (𝒏𝟑𝟏 ) 86 (𝒏𝟑𝟐 ) 106 (𝒏𝟑• ) 112600
̅ 𝒙𝟑 =
𝒚 = 1062,26
Total 62 138 200 106
𝒄𝒋 900 1100 /////
𝑛3𝑗 𝒄𝒋 18000 94600 112600

Relation entre moyenne conditionnelle et moyenne marginale :


𝒒 𝒑

̅ = ∑ 𝒇•𝒋 𝒙
𝒙 ̅𝒚𝒋 Et ̅ = ∑ 𝒇𝒊• ̅𝒚𝒙
𝒚
𝒊
𝒋=𝟏 𝒊=𝟏

18
Vérification :
Dans l’exemple 1, 𝒙
̅ = 23,86 et 𝑥̅𝑦2 = 24,1594. Calculons 𝑥̅ 𝑦1

X (Age) [800; 1000[ 𝑐𝑖 𝑛𝑖𝑗 𝒄𝒊 𝟑


𝟏
[20; 22[ 14 (𝒏𝟏𝟏 ) 21 294 ̅𝒚𝟏
𝒙 = ∑ 𝒏𝒊𝟏 𝒄𝒊
𝒏•𝟏
𝒊=𝟏
[22; 24[ 28 (𝒏𝟐𝟏 ) 23 644
[24; 26[ 20 (𝒏𝟑𝟏 ) 25 500 1438
𝑥̅𝑦1 = = 23,1935
Total 62 (𝒏•𝟏 ) ///// 1438 62

̅ = ∑𝟐𝒋=𝟏 𝒇•𝒋 𝒙
𝒙 ̅𝒚 = 𝒇•𝟏 𝒙
𝒋
̅𝒚 + 𝒇•𝟐 𝒙
𝟏
̅𝒚
𝟐

𝑥̅ = 0,31 × 23,1935 + 0,69 × 24,1594


̅ = 𝟐𝟑, 𝟖𝟔 cqfd
𝒙

2-2- Variances conditionnelles


• Variance conditionnelle de X sachant 𝐘 = 𝐲𝐣
La variance conditionnelle de X sachant Y = yj est égale à :
𝒑 𝒑
𝟏
𝑽 (𝐗𝐲𝐣 ) = ̅𝒚𝒋 )𝟐 ;
∑ 𝒏𝒊𝒋 (𝒙𝒊 − 𝒙 ̅𝒚𝒋 )𝟐 ;
𝑽 (𝐗𝐲𝐣 ) = ∑ 𝒇𝒊/𝐲𝐣 (𝒙𝒊 − 𝒙
𝒏•𝒋
𝒊=𝟏 𝒊=𝟏

Formule développée de la variance


𝒑 𝒑
𝟏
𝑽 (𝐗𝐲𝐣 ) = ̅𝒚𝒋 )²
∑ 𝒏𝒊𝒋 (𝒙𝒊 )² − (𝒙 𝑽 (𝐗𝐲𝐣 ) = ∑ 𝒇𝒊/𝐲𝐣 (𝒙𝒊 )² − (𝒙
̅𝒚𝒋 )²
𝒏•𝒋
𝒊=𝟏 𝒊=𝟏
Lorsque les données sont organisées en classes, les 𝒙𝒊 sont remplacés par les centres des classes
𝒄𝒊

Exemple : Calcul de la variance conditionnelle de X sachant Y = y2 dans l’exemple 1


𝒑
𝟏
𝑽 (𝐗𝐲𝐣 ) = ̅𝒚𝒋 )²
∑ 𝒏𝒊𝒋 (𝒄𝒊 )² − (𝒙
𝒏•𝒋
𝒊=𝟏

Salaires [800; 1000[ [1000; 1200[ Total 𝑐𝑖 𝒏𝒊𝟐 𝒄𝒊 𝑐𝑖2 𝒏𝒊𝟐 (𝒄𝒊 )²
Age (j = 2)
[20; 22[ 14 6 (𝒏𝟏𝟐 ) 20 21 126 441 2646
[22; 24[ 28 46 (𝒏𝟐𝟐 ) 74 23 1058 529 24334
[24; 26[ 20 86 (𝒏𝟑𝟐 ) 106 25 2150 625 53750
Total 62 138 (𝒏•𝟐 ) 200 ///// 3334 ///// 80730
𝟑
𝟏 𝟐
𝑽 (𝐗𝐲𝟐 ) = ̅𝒚𝟐 ) 𝒐𝒓 𝑥̅𝑦2 = 24,1594
∑ 𝒏𝒊𝟐 (𝒄𝒊 )² − (𝒙
𝒏•𝟐
𝒊=𝟏
80730
𝑉 (Xy2 ) = − (24,1594)2
138

19
𝑉 (Xy2 ) = 1,3224

𝝈Xy = √𝑉 (Xy2 ) = √1,3224


2
𝝈Xy = 1,15
2

• Variance conditionnelle de Y sachant 𝐗 = 𝐱 𝐢


La variance conditionnelle de Y sachant 𝑋 = 𝑥𝑖 est égale à :
𝒒 𝒒
𝟏
𝑽(𝒀𝒙𝒊 ) = ̅ 𝒙𝒊 ) 𝟐 ;
∑ 𝒏𝒊𝒋 ( 𝒚𝒋 − 𝒚 ̅ 𝒙𝒊 ) 𝟐
𝑽(𝒀𝒙𝒊 ) = ∑ 𝒇𝒋/𝒙𝒊 ( 𝒚𝒋 − 𝒚
𝒏𝒊•
𝒋=𝟏 𝒋=𝟏

Formule développée de la variance


𝒒 𝒒
𝟏
𝑽(𝒀𝒙𝒊 ) = ̅𝒙𝒊 )²
∑ 𝒏𝒊𝒋 ( 𝒚𝒋 )² − (𝒚 𝑽(𝒀𝒙𝒊 ) = ∑ 𝒇𝒋/𝒙𝒊 (𝒚𝒋 )² − (𝒚
̅𝒙𝒊 )²
𝒏𝒊•
𝒋=𝟏 𝒋=𝟏

Exemple : Calcul de la variance conditionnelle de Y sachant X= x3 dans l’exemple 1


𝒒
𝟏
𝑽(𝒀𝒙𝒊 ) = ̅𝒙𝒊 )²
∑ 𝒏𝒊𝒋 ( 𝒄𝒋 )² − (𝒚
𝒏𝒊•
𝒋=𝟏
Salaires [800; 1000[ [1000; 1200[
Total
Age
[20; 22[ 14 6 20
[22; 24[ 28 46 74
[24; 26[ (i=3) 20 (𝒏𝟑𝟏 ) 86 (𝒏𝟑𝟐 ) 106 (𝒏𝟑• )
Total 62 138 200
𝑐𝑗 900 1100 /////
𝑛3𝑗 𝑐𝑗 18000 94600 112600
𝑐𝑗 ² 810000 1210000 /////
𝑛3𝑗 (𝑐𝑗 )² 16200000 104060000 120260000

2
1 2
𝑉(𝑌𝑥3 ) = ∑ 𝑛3𝑗 ( 𝑐𝑗 )² − (𝑦̅𝑥3 ) 𝑜𝑟 𝑦̅ 𝑥3 = 1062,26
𝑛3•
𝑗=1
120260000
𝑉(𝑌𝑥3 ) = − (1062,26)²
106
𝑉(𝑌𝑥3 ) = 6123,18

𝝈𝑌𝑥 = √𝑉(𝑌𝑥3 ) = √6123,18


3

𝝈𝑌𝑥 = 78,25
3

20
Section 2 : Analyse de la liaison entre deux variables statistiques

La liaison entre deux variables exprime l’information que donne la connaissance de l’une pour
la connaissance de l’autre. Il existe trois types de liaison :
• L’indépendance statistique
• La dépendance totale ou liaison fonctionnelle
• La dépendance partielle
La mesure de la liaison entre deux variables dépend de leur nature. Trois cas seront étudiés : le
cas de deux variables qualitatives, le cas d’une variable quantitative et d’une variable qualitative
et le cas de deux variables quantitatives.

I. Notion d’indépendance et de liaison statistique


1. Indépendance statistique entre deux variables
Deux variables X et Y sont statistiquement indépendantes lorsque la distribution de la variable
X ne dépend pas de la variable Y. Autrement dit, la connaissance de X n’apporte aucune
information sur Y et vice versa

X et Y sont indépendantes si et seulement si :


𝒇𝒊/𝐲𝐣 = 𝒇𝒊•
𝒇𝒋/𝒙𝒊 = 𝒇•𝒋
𝒏𝒊• × 𝒏•𝒋
𝒇𝒊𝒋 = 𝒇𝒊• × 𝒇•𝒋 ⟺ 𝒏𝒊𝒋 =
𝑵

L’indépendance est réciproque c’est-à-dire que si X est indépendante de Y alors Y est


indépendante de X

Ces propriétés permettent, à partir d’une lecture rapide des tableaux de contingence ou des
tableaux de fréquences conditionnelles, d’avoir une idée approximative de la dépendance ou de
l’indépendance entre deux variables.
Ainsi dans un tableau de contingence associé à deux variables indépendantes, les lignes
(respectivement les colonnes) sont proportionnelles entre elles.

Exemple de tableau de contingence associé à deux variables indépendantes

𝒚𝟏 𝒚𝟐 𝒚𝟑 Total
𝒙𝟏 6 12 24 42
𝒙𝟐 3 6 12 21
Total 9 18 36 63

21
2. Dépendance totale ou liaison fonctionnelle entre deux variables
La situation opposée à l’indépendance statistique est celle de la liaison fonctionnelle ou
dépendance totale.
La variable Y est liée fonctionnellement à la variable X si, à chaque modalité 𝒙𝒊 de X correspond
une et une seule modalité 𝒚𝒋 de Y.
La liaison fonctionnelle n’est pas toujours réciproque, c’est-à-dire que si Y est liée
fonctionnellement à X, il n’est pas certain que X soit liée fonctionnellement à Y.

2-1- Liaison fonctionnelle réciproque


Une liaison fonctionnelle entre deux variables est réciproque si et seulement si
• Le tableau de contingence est carré : le nombre de lignes est égal au nombre de colonnes
(p = q)
• Chaque ligne et chaque colonne du tableau ne contient qu’un seul effectif (ou une seule
fréquence) non nul
Exemple de tableau de contingence associé à deux variables dont la liaison est
fonctionnelle réciproque
𝒚𝟏 𝒚𝟐 𝒚𝟑 𝒚𝟒 Total
𝒙𝟏 35 0 0 0 35
𝒙𝟐 0 0 59 0 59
𝒙𝟑 0 29 0 0 29
𝒙𝟒 0 0 0 35 35
Total 35 29 59 35 158

2-2- Liaison fonctionnelle non réciproque


Lorsque le nombre de lignes d’un tableau de contingence n’est pas égal au nombre de colonnes,
la liaison ne peut plus être réciproque. Seule une des variables détermine l’autre. Dans
l’exemple suivant X est liée fonctionnellement à Y mais Y n’est pas liée fonctionnellement à
X.
Exemple de tableau de contingence associé à deux variables dont la liaison est
fonctionnelle non réciproque
Sit. Matri. Marié Divorcé Veuf Célibataire Total
Sexe
Masculin 101 0 0 21 122
Féminin 0 14 22 0 36
Total 101 14 22 21 158

Dans cet exemple la variable X (sexe du chef de ménage) est totalement dépendante de la
variable Y (situation matrimoniale du chef de ménage). Le fait de connaître la situation
matrimoniale du chef de ménage détermine sans ambiguïté s’il est de sexe masculin ou féminin.
Dès que l’on sait qu’un chef de ménage est marié, on peut automatiquement dire qu’il est de
sexe masculin.
Mais la réciproque n’est pas vraie.
La variable Y n’est pas totalement dépendante de la variable X. Le fait qu’un chef de ménage
soit de sexe masculin ne permet pas de prédire de façon certaine sa situation matrimoniale.
22
Les liens entre deux variables se situe le plus souvent entre les deux situations extrêmes étudiée
ci-dessus, l’indépendance totale d’un côté, la dépendance totale de l’autre. Il s’agit alors de
liaison partielle et la question qui se pose est comment mesurer l’intensité de la liaison entre les
deux variables ?
La réponse à cette question dépend de la nature des variables étudiées

II. Cas de deux variables qualitatives

Dans le cas de deux variables qualitatives la liaison est analysée en comparant les effectifs
conjoints observés 𝐧𝐢𝐣 et les effectifs théoriques sous hypothèse d’indépendance 𝐧∗𝐢𝐣 . Plus
précisément l’écart entre ces effectifs observés et théoriques est calculé grâce à des indicateurs
tels que le Khi-deux ou Khi carré, le coefficient de contingence, le Phi-deux, le coefficient T
de Tchuprow et le coefficient V de cramer

Les effectifs théoriques 𝐧∗𝐢𝐣 désignent les effectifs qu’on aurait observé si les variables X et Y
étaient indépendantes.
𝒏𝒊• × 𝒏•𝒋
𝒏∗ 𝒊𝒋 =
𝑵

1. Le Khi- deux ou khi-carré 𝝌𝟐

𝒑 𝒒 𝒑 𝒒
𝟐
(𝒏𝒊𝒋 − 𝒏∗𝒊𝒋 )𝟐 (𝒇𝒊𝒋 − 𝒇∗𝒊𝒋 )𝟐
𝝌 = ∑∑ = 𝑵∑∑
𝒏∗𝒊𝒋 𝒇∗𝒊𝒋
𝒊=𝟏 𝒋=𝟏 𝒊=𝟏 𝒋=𝟏
𝒑 𝒒
𝟐
𝒏𝒊𝒋 𝟐
𝝌 = 𝑵 [(∑ ∑ ) − 𝟏]
𝒏𝒊• × 𝒏•𝒋
𝒊=𝟏 𝒋=𝟏

Le 𝝌𝟐 est un coefficient positif ou nul dont la valeur maximale est 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)


𝝌𝟐 = 𝟎 ⇒ indépendance totale de X et Y ;
𝝌𝟐 proche de 0 ⇒ liaison faible entre X et Y ;
𝝌𝟐 proche de 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏) ⇒ liaison forte entre X et Y ;
𝝌𝟐 = 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏) ⇒ dépendance totale de X et Y

Calcul du 𝜒 2 de la distribution de l’exemple 2


𝒑 𝒒
𝟐
(𝒏𝒊𝒋 − 𝒏∗𝒊𝒋 )𝟐
𝝌 = ∑∑
𝒏∗𝒊𝒋
𝒊=𝟏 𝒋=𝟏

Reprenons le tableau de contingence de l’exemple 2

23
Réponses
Sexe Oui non Total
Masculin 20 4 24
Feminin 10 6 16
Total 30 10 40

A partir de ce tableau construisons le tableau des effectifs théoriques


Réponses
Sexe Oui Non
Masculin 24 × 30 24 × 10
= 𝟏𝟖 =𝟔
40 40
Feminin 16 × 30 16 × 10
= 𝟏𝟐 =𝟒
40 40

Soustrayons les effectifs théoriques des effectifs observés


Réponses
Sexe Oui non
Masculin 20 – 18 = 2 4 – 6 = -2
Feminin 10 – 12 = -2 6–4=2

Le résultat est élevé au carré


Réponses
Sexe Oui non
Masculin 2² = 4 (-2)² = 4
Feminin (-2)² = 4 2² = 4

Les termes de ce dernier tableau sont divisés par les termes du tableau des effectifs théoriques
puis on calcule les totaux pour obtenir le tableau des écarts à l'indépendance
Réponses
Sexe Oui non Total
Masculin 4 4 0,8889
= 𝟎, 𝟐𝟐𝟐𝟐 = 𝟎, 𝟔𝟔𝟔𝟕
18 6
Feminin 4 4 1,333
= 𝟎, 𝟑𝟑𝟑𝟑 =𝟏
12 4
Total 0,5556 1,6667 2,2222

𝝌𝟐 = 𝟐, 𝟐𝟐 𝝌𝟐 𝒎𝒂𝒙 = 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏) = 𝟒𝟎 × (𝟐 − 𝟏) = 𝟒𝟎
Le 𝝌𝟐 est faible et proche de 0 (en comparaison à sa valeur maximale) on peut donc conclure à
une indépendance des deux variables : dans cette population, le fait de regarder des matches de
football à la télévision ne dépend pas du sexe.

Le 𝝌𝟐 est un coefficient qui dépend fortement de la taille N de l’échantillon, de p (nombre de


modalités de X) et de q (nombre de modalités de Y). Il n’est pas majoré et peut prendre de très
grandes valeurs ce qui rend son interprétation difficile. Aussi d’autres indices liés au khi-deux
sont définis pour corriger ces défauts

24
2. Le Phi-deux et le coefficient de contingence
Le Phi-deux est défini par :

𝟐
𝝌𝟐
𝝓 =
𝑵
𝟐 𝟐 𝟐
𝟎 ≤ 𝝓 ≤ 𝝓 𝒎𝒂𝒙 ; 𝝓 𝒎𝒂𝒙 = 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)

Le coefficient de contingence de Pearson est défini par :


𝝌𝟐
𝑪𝑪 = √
𝝌𝟐 + 𝑵

𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)
𝟎 ≤ 𝑪𝑪 ≤ 𝑪𝑪𝒎𝒂𝒙 ; 𝑪𝑪𝒎𝒂𝒙 = √
𝐦𝐢𝐧(𝒑 , 𝒒)
Ces deux indices s’interprètent de la même manière que le khi-deux
Plus ils sont proches de leurs valeurs maximales plus la liaison entre les deux variables étudiées
est forte, plus ils sont proches de 0 plus la liaison entre les variables est faible.
𝝓𝟐 𝒐𝒖 𝑪𝑪 = 𝟎 ⇒ 𝒊𝒏𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆

𝝓𝟐 , 𝑪𝑪 = 𝝓𝟐 𝒎𝒂𝒙 , 𝑪𝑪 respectivement ⇒ 𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆


𝒎𝒂𝒙

Le Phi-deux et le coefficient de contingence ne dépendent pas de la taille N de la population


mais dépendent de p et de q, défaut que le coefficient de Tchuprow et le coefficient de Cramer
permettent de corriger

3. Les coefficients T de Tchuprow et V de Cramer

Le coefficient T de Tchuprow est défini par


𝟐
𝝓 𝝌𝟐
𝚻=√ =√
√(𝒑 − 𝟏)(𝒒 − 𝟏) 𝑵 √(𝒑 − 𝟏)(𝒒 − 𝟏)

Le coefficient V de Cramer est défini par


𝟐
𝝓 𝝌𝟐
𝐕=√ =√
𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏) 𝐍 𝐦𝐢𝐧(𝒑 − 𝟏 , 𝒒 − 𝟏)
Le T de Tchuprow et le V de cramer sont compris entre 0 et 1 et sont d’autant plus proche de 1
que la liaison entre les variables considérées est forte
𝐓 𝐨𝐮 𝐕 = 𝟎 ⇒ indépendance totale des variables
𝐓 𝐨𝐮 𝐕 = 𝟏 ⇒ liaison fonctionnelle entre les variables

On vérifie par ailleurs que 0 ≤ T ≤ V ≤ 1

25
III. Cas d’une variable qualitative et d’une variable quantitative

L’analyse de la liaison entre une variable quantitative et une variable qualitative passe par la
décomposition de la variance de la variable quantitative en variance inter-population et en
variance intra-population puis par le calcul du rapport de corrélation.

1. La décomposition de la variance
Soit Y une variable quantitative de moyenne 𝒚 ̅ et de variance V(Y) et X une variable qualitative
ayant p modalités (𝑥1 , 𝑥2 , …, 𝑥𝑖 , …, 𝑥𝑝 ) . On peut répartir l'ensemble des individus observés
en p sous-populations, chaque sous-population comprenant des individus caractérisés par une
et une seule modalité 𝑥𝑖 . On peut alors définir la moyenne conditionnelle 𝒚 ̅𝒙𝒊 et la variance
conditionnelles 𝑽(𝒀𝒙𝒊 ) de la variable quantitative Y au sein de chaque classe sous-population.

On démontre que la variance totale de Y, 𝑽(𝒀), se décompose en deux termes.


𝒒
𝟏
̅ )𝟐
𝑽(𝒀) = ∑ 𝒏•𝒋 (𝒚𝒋 − 𝒚
𝑵
𝒋=𝟏
𝒑 𝒑
𝟏 𝟏
𝑽(𝒀) = ∑ 𝒏𝒊• 𝑽(𝒀𝒙𝒊 ) + ̅ )𝟐 ;
̅ 𝒙𝒊 − 𝒚
∑ 𝒏𝒊• (𝒚
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏
𝒑 𝒑

𝑽(𝒀) = ∑ 𝒇𝒊• 𝑽(𝒀𝒙𝒊 ) + ̅ )𝟐 ;


̅ 𝒙𝒊 − 𝒚
∑ 𝒇𝒊• (𝒚
𝒊=𝟏 𝒊=𝟏

Variance Total = moyenne des variances + variance des moyennes


conditionnelles conditionnelles

Variance Total = Variance intra-population + variance inter-population

𝟏
Le premier terme ∑𝒑𝒊=𝟏 𝒏𝒊• 𝑽(𝒀𝒙𝒊 ), désigne la variance intra-population ou variance
𝑵
résiduelle et représente la variabilité de la variable Y à l’intérieur de chacune des sous-
populations

𝟏
Le deuxième terme ∑𝒑𝒊=𝟏 𝒏𝒊• (𝒚 ̅)𝟐 , désigne la variance inter-population ou variance
̅ 𝒙𝒊 − 𝒚
𝑵
expliquée (par la variable X) et représente la variabilité de la variable Y entre les différentes
sous-populations

Lorsque les données de Y sont organisées en classes, les 𝒚𝒋 sont remplacés par les centres de classes
𝒄𝒋

26
2. Le rapport de corrélation
𝟐 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒊𝒏𝒕𝒆𝒓
Le rapport de corrélation de Y en X se définit par 𝜼𝒀/𝑿 =
𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆

𝟐
∑𝒑𝒊=𝟏 𝒇𝒊• (𝒚
̅ 𝒙𝒊 − 𝒚
̅)
𝜼𝟐𝒀 = 𝟐
; 𝟎 ≤ 𝜼𝟐𝒀/𝑿 ≤ 𝟏
𝑿 ∑𝒒𝒋=𝟏 𝒇•𝒋 (𝒚𝒋 ̅)
−𝒚
Le rapport de corrélation est toujours positif et inférieur ou égal à 1.
Plus 𝜼𝟐𝒀/𝑿 est proche de 1, plus la liaison entre Y et X est forte

Lorsque 𝜼𝟐𝒀/𝑿 = 1, la variable Y est liée fonctionnellement à la variable X ou encore Y dépend


totalement de X
Par contre lorsque 𝜼𝟐𝒀/𝑿 est proche ou égal à 0, cela ne signifie pas forcément que les deux
variables sont indépendantes

X et Y indépendantes 𝜼𝟐𝒀 = 𝟎
⇍ 𝑿
Reprenons l’exemple 3
[0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total 𝑓𝑖•
j=1 j=2 j=3 j=4 𝑛𝑖•
Filière A (i = 1) 26 6 4 1 37 0,37
Filière B (i = 2) 12 9 3 1 25 0,25
Filière C (i = 3) 1 4 5 6 16 0,16
Filière D (i = 4) 10 8 3 1 22 0,22
Total 𝑛•𝑗 49 27 15 9 100 1
𝑓•𝑗 0,49 0,27 0,15 0,09 1 /////

Calculons la variance totale V(Y)


𝒒 𝑞

𝑽(𝒀) = ∑ 𝒇•𝒋 (𝒄𝟐𝒋 ) − (𝒚


̅)𝟐 ; 𝑦̅ = ∑ 𝑓•𝑗 𝑐𝑗
𝒋=𝟏 𝑗=1
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total
𝒏•𝒋 49 27 15 9 100
𝒄𝒋 3 8 12 17 /////
𝒇•𝒋 0,49 0,27 0,15 0,09 1
𝒇•𝒋 𝒄𝒋 1,47 2,16 1,8 1,53 6,96
𝒄𝟐𝒋 9 64 144 289 /////
𝒇•𝒋 (𝒄𝟐𝒋 ) 4,41 17,28 21,6 26,01 69,3

̅ = 𝟔, 𝟗𝟔
𝒚
V(Y) = 69,3 − (6,96)2 = 20,8584

27
Calculons la variance inter-population
𝑝 4 𝑞

𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑒𝑟 = ∑ 𝑓𝑖• (𝑦̅𝑥𝑖 − 𝑦̅)2 = ∑ 𝑓𝑖• (𝑦̅𝑥𝑖 2 ) − (𝑦̅)2 ; 𝑦̅𝑥𝑖 = ∑ 𝑓𝑗/𝑥𝑖 𝑐𝑗
𝑖=1 𝑖=1 𝑗=1
𝒏𝒊𝒋
On part du tableau des fréquences en ligne 𝒇𝒋/𝒙𝒊 =
𝒏𝒊•
Notes Y [0 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 20] Total
𝒇𝒋/𝒙𝟏 0,7027 0,1622 0,1081 0,0270 1
𝒇𝒋/𝒙𝟐 0,48 0,36 0,12 0,04 1
𝒇𝒋/𝒙𝟑 0,0625 0,25 0,3125 0,375 1
𝒇𝒋/𝒙𝟒 0,4545 0,3636 0,1364 0,0455 1
𝒄𝒋 3 8 12 17 ̅ 𝒙𝒊
𝒚 ̅ 𝒙𝒊 𝟐 )
(𝒚 𝒇𝒊• ̅ 𝒙𝒊 𝟐 )
𝒇𝒊• (𝒚
𝒇𝒋/𝒙𝟏 𝒄𝟏 2,1081 1,2973 1,2973 0,4595 5,1622 26,6479 0,37 9,8597
𝒇𝒋/𝒙𝟐 𝒄𝟐 1,44 2,88 1,44 0,68 6,44 41,4736 0,25 10,3684
𝒇𝒋/𝒙𝟑 𝒄𝟑 0,1875 2 3,75 6,375 12,3125 151,5977 0,16 24,2556
𝒇𝒋/𝒙𝟒 𝒄𝟒 1,3636 2,9091 1,6364 0,7727 6,6818 44,6467 0,22 9,8223
Total /////// /////// /////// /////// /////// /////// 1 54,3060

𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑒𝑟 = 54,3060 − (6,96)2 = 5,8644

Calculons la Variance Intra-population


4

𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑟𝑎 = ∑ 𝑓𝑖• 𝑉(𝑌𝑥𝑖 ) ;


𝑖=1
4 𝑞

𝑉(𝑌𝑥𝑖 ) = ∑ 𝑓𝑖𝑗 (𝑐𝑗 − 𝑦̅𝑥𝑖 )2 = ∑ 𝑓𝑗/𝑥𝑖 (𝑐𝑗 )² − (𝑦̅𝑥𝑖 )²


𝑖=1 𝑗=1
Notes Y [10 ; [14 ;
[0 ; 6[ [6 ; 10[ Total
14[ 20]
𝒇𝒋/𝒙𝟏 0,7027 0,1622 0,1081 0,0270 1
𝒇𝒋/𝟐 0,48 0,36 0,12 0,04 1
𝒇𝒋/𝒙𝟑 0,0625 0,25 0,3125 0,375 1
𝒇𝒋/𝒙𝟒 0,4545 0,3636 0,1364 0,0455 1
𝒒

(𝒄𝒋 ) 𝟐
9 64 144 289 ∑ 𝒇𝒋/𝒙𝒊 (𝒄𝒋 )² ̅ 𝒙𝒊 𝟐 )
(𝒚 𝑽(𝒀𝒙𝒊 ) 𝒇𝒊• 𝒇𝒊• 𝑽(𝒀𝒙𝒊 )
𝒋=𝟏
𝒇𝒋/𝒙𝟏 (𝒄𝟏 )𝟐 6,3243 10,3784 15,5676 7,8108 40,0811 26,6479 13,4332 0,37 4,9703
𝒇𝒋/𝒙𝟐 (𝒄𝟐 )𝟐 4,32 23,04 17,28 11,56 56,2 41,4736 14,7264 0,25 3,6816
𝒇𝒋/𝒙𝟑 (𝒄𝟑 )𝟐 0,5625 16 45 108,375 169,9375 151,5977 18,3398 0,16 2,9344
𝒇𝒋/𝒙𝟒 (𝒄𝟒 )𝟐 4,0909 23,2727 19,6364 13,1364 60,1364 44,6467 15,4897 0,22 3,4077
Total /////// /////// /////// /////// /////// /////// /////// 1 14,9940

𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑟𝑎 = 14,9940


𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝐼𝑛𝑡𝑒𝑟 = 5,8644
Variance Totale = 20,8584

On trouve bien Variance Totale = Variance Intra + Variance Inter

28
Calcul du rapport de corrélation
𝟐
∑𝒑𝒊=𝟏 𝒇𝒊• (𝒚 ̅ )𝟐
̅ 𝒙𝒊 − 𝒚 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒊𝒏𝒕𝒆𝒓
𝜼𝒀/𝑿 = 𝒒 =
∑𝒋=𝟏 𝒇•𝒋 (𝒚𝒋 − 𝒚 ̅ )𝟐 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒕𝒐𝒕𝒂𝒍𝒆
5,8644
𝜼𝟐𝒀/𝑿 =
20,8584
𝟐
𝜼𝒀/𝑿 ≈ 𝟎, 𝟐𝟖
Il y’a une faible liaison entre les deux variables, seul 28% des variations de Y sont expliquées
par X

IV. Cas de deux variables quantitatives

L’analyse de la liaison entre deux variables quantitatives passe d’abord par une représentation
graphique du type « nuage de points » afin de visualiser d’éventuels effets entre les variables.
Puis le calcul des indicateurs permet de quantifier plus précisément ce lien

1. Le Nuage de points
Il s'agit d'un graphique qui représente simultanément les observations de deux variables
quantitatives. Il consiste à considérer deux axes perpendiculaires, l'axe horizontal représentant
la variable X et l'axe vertical la variable Y, puis à représenter chaque individu observé par le
point d'abscisse 𝒙𝒊 et d'ordonnée 𝒚𝒋 . Cela suppose évidemment que l’on dispose des données
brutes et non seulement du tableau de contingence.
L'ensemble des points (𝒙𝒊 , 𝒚𝒋 ) est appelé nuage de points et sa forme donne en général une
idée assez bonne de l’intensité, de la forme et du sens de la relation entre les deux variables
• Apparence du nuage de points selon l’intensité de la relation :
Lorsque la relation entre les variables est forte, le nuage de point prend alors la forme d'une
ligne ou d'une courbe dont les points s'écartent peu.
Lorsque la relation est faible, le nuage de point n'a pas la forme d'une ligne ou d'une courbe,
ou seulement de façon très grossière.
Lorsqu’il n’y pas de relation entre les variables, le nuage de point n’a pas de véritables
lignes directrices et a la forme d'un carré ou d'un cercle
• Apparence du nuage de points selon la forme de la relation :
Si le nuage de point peut s'ajuster correctement à une droite, alors il existe une relation
linéaire entre les variables de la forme Y = a X + b
Si le nuage de point présente une forme complexe avec des courbures alors la relation entre
les deux variables est non-linéaire et peut se présenter sous forme de parabole, d’hyperbole
etc.
• Apparence du nuage de points selon le sens de la relation
Si le nuage de point a une forme ascendante alors la relation entre les deux variables est positive,
ce qui signifie que les variables varient dans le même sens.
Si le nuage de point a une forme descendante alors la relation entre les deux variables est
négative, ce qui signifie que les variables varient en sens contraires.

29
Exemples de nuages de points

Liaison linéaire positive forte Pas de liaison Liaison linéaire négative moyenne

Liaison positive non linéaire Liaison négative non linéaire


Il existe des coefficients pour mesurer l’intensité et le sens de chacune des formes de liaison
entre deux variables quantitatives évoquées mais dans le cadre de ce cours nous ne nous
intéresserons qu’au coefficient de corrélation linéaire qui permet d'analyser les relations
linéaires. Il se calcule à partir de la covariance.

2. La covariance et le coefficient de corrélation linéaire


2-1- La covariance
La covariance peut être définie comme la variance conjointe de deux variables quantitatives.
𝒑 𝒒
𝟏
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 ̅)(𝒚𝒋 − 𝒚
= ∑ ∑ 𝒏𝒊𝒋 (𝒙𝒊 − 𝒙 ̅)
𝑵
𝒊=𝟏 𝒋=𝟏
𝒑 𝒒

𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 = ∑ ∑ 𝒇𝒊𝒋 (𝒙𝒊 − ̅ ̅)


𝒙)(𝒚𝒋 − 𝒚
𝒊=𝟏 𝒋=𝟏
Détermination pratique de la covariance
𝒑 𝒒
𝟏
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 ̅ ̅𝒚
= ∑ ∑ 𝒏𝒊𝒋 𝒙𝒊 𝒚𝒋 − 𝒙
𝑵
𝒊=𝟏 𝒋=𝟏
𝒑 𝒒

̅ ̅𝒚
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 = ∑ ∑ 𝒇𝒊𝒋 𝒙𝒊 𝒚𝒋 − 𝒙
𝒊=𝟏 𝒋=𝟏
Lorsque les données sont organisées en classes, les 𝒙𝒊 sont remplacés par les centres des classes
𝒄𝒊 et les 𝒚𝒋 par les centres de classes 𝒄𝒋

30
Exemple : Calcul de la covariance de X et Y dans l’exemple 1
𝒑 𝒒
𝟏
𝑪𝒐𝒗(𝑿, 𝒀) = 𝝈𝑿𝒀 ̅ ̅𝒚
= ∑ ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋 − 𝒙
𝑵
𝒊=𝟏 𝒋=𝟏

[800; 1000[ [1000; 1200[ Total 𝒄𝒊 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟏 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟐


[20; 22[ 14 6 20 21 14*21*900 6*21*1100
[22; 24[ 28 46 74 23 28*23*900 46*23*1100
[24; 26[ 20 86 106 25 20*25*900 86*25*1100
Total 62 138 200 ///
𝒄𝒋 900 1100 ///

𝒒
𝒄𝒊 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟏 𝒏𝒊𝒋 𝒄𝒊 𝒄𝟐
[800; 1000[ [1000; 1200[ Total ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋
𝒋=𝟏
[20; 22[ 14 6 20 21 264600 138600 403200
[22; 24[ 28 46 74 23 579600 1163800 1743400
[24; 26[ 20 86 106 25 450000 2365000 2815000
𝒑 𝒒
///
∑ ∑ 𝒏𝒊𝒋 𝒄𝒊 𝒄𝒋
Total 62 138 200 1294200 3667400
𝒊=𝟏 𝒋=𝟏
=4961600
𝒄𝒋 900 1100 ///
𝑥̅ = 23,86 et ̅ = 1038
𝒚
4961600
𝐶𝑜𝑣(𝑋, 𝑌) = − (23,86 × 1038)
200
𝐶𝑜𝑣(𝑋, 𝑌) = 41,32
Propriétés de la covariance :
✓ 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋)
✓ 𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉(𝑋)
✓ 𝑉(𝑋 + 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) + 2 𝐶𝑜𝑣(𝑋, 𝑌)
✓ 𝐶𝑜𝑣(𝑎𝑋 + 𝑏 , 𝑐𝑌 + 𝑑) = 𝑎𝑐. 𝐶𝑜𝑣(𝑋, 𝑌) ; a,b,c,d étant des nombres réels

𝐶𝑜𝑣(𝑋, 𝑌) ≥ 0 ⇒ les variables ont tendance à varier dans le même sens


𝐶𝑜𝑣(𝑋, 𝑌) ≤ 0 ⇒ les variables ont tendance à varier en sens contraires

Cependant la covariance peut prendre toute valeur réelle (négative, nulle ou positive ; « petite »
ou « grande » en valeur absolue), ce qui la rend difficilement interprétable. Aussi calcule-t-on
le coefficient de corrélation linéaire

31
2-2- Le coefficient de corrélation linéaire
Le coefficient de corrélation linéaire se définit par
𝑪𝒐𝒗(𝑿, 𝒀)
𝒓𝑿𝒀 =
𝝈𝑿 𝝈𝒀
Le coefficient de corrélation linéaire est symétrique ce qui veut dire que 𝒓𝑿𝒀 = 𝒓𝒀𝑿
Par ailleurs −𝟏 ≤ 𝒓𝑿𝒀 ≤ 𝟏

• Le signe du coefficient indique le sens de la liaison entre les deux variables.


Une valeur positive indique que les deux variables ont tendance à varier dans le même
sens : lorsque l’une augmente, l’autre aussi augmente
Une valeur négative indique que les deux variables ont tendance à varier en sens
opposés : lorsque l’une augmente, l’autre diminue
• La valeur absolue du coefficient indique l'intensité de la liaison.
Plus cette valeur absolue est proche de 1, plus la liaison est forte ; au contraire, plus elle
est proche de 0 et plus la liaison est faible. Ainsi, un coefficient de 0,9 indique une
liaison très forte tout comme un coefficient de -0,9 ; un coefficient de 0,5 indique une
liaison moyenne ; un coefficient de 0,1 indique une liaison très faible tout comme un
coefficient de -0,1.
• Les valeurs -1 et 1 correspondent à une liaison linéaire parfaite entre X et Y
• 𝒓𝑿𝒀 = 𝟎 signifie qu’il n’existe pas de relation linéaire entre les deux variables mais ne
signifie pas forcément que les deux variables sont indépendantes

Dans le cas de l’exemple 1


𝐶𝑜𝑣(𝑋, 𝑌) = 41,32 ; 𝑉(𝑋) = 1,7804 ⇒ 𝜎𝑋 = 1,3343 ; 𝑉(𝑌) = 8556 ⇒ 𝜎𝑌 = 92,4986
41,32
𝒓𝑿𝒀 =
1,3343 × 92,4986
𝒓𝑿𝒀 = 𝟎, 𝟑𝟒𝟐𝟖
La liaison entre les deux variables est positive et faible.

32
3. La régression linéaire
Il est possible de déterminer la fonction mathématique qui précise la relation entre deux
variables quantitatives. On procède alors à une régression
Dans le cadre de ce cours nous nous intéressons à la régression linéaire qui cherche à établir
une liaison linéaire entre les variables et précisément à l’ajustement affine qui permet de
déterminer l’équation de la droite qui résume au mieux le nuage de points

̅ et 𝒚
Soient X et Y, deux variables quantitatives de moyennes respectives 𝒙 ̅ et de variances
respectives V(X) et V(Y). Soit 𝑪𝒐𝒗(𝑿, 𝒀) la covariance de X et de Y. La méthode des
moindres carrés ordinaires permet de définir :

• La régression de Y en X par la droite Y = a X + b telle que :


𝑪𝒐𝒗(𝑿, 𝒀)
𝒂=
𝑽(𝑿)
𝒃=𝒚 ̅ − 𝒂𝒙
̅

• La régression de X en Y par la droite X = a’Y + b’ telle que

𝑪𝒐𝒗(𝑿, 𝒀)
𝒂′ =
𝑽(𝒀)
̅ − 𝒂′𝒚
𝒃′ = 𝒙 ̅

Ces équations permettent de dire dans quelles proportions l’une des variables varie lorsque
l’autre varie d’une unité.

Ainsi si X varie d’une unité alors Y varie de 𝒂 unités. Inversement, si Y varie d’une unité
alors X varie de 𝒂′ unités

33

Vous aimerez peut-être aussi