QUANTITATIVE METHODS
BBA 1 BUSINESS MANAGEMENT – FRENCH TRACK
Campus de Lille : Campus de Nice :
Eric-André BILINSKI Nicolas BERNARD
Agnès CARPENTIER Annabelle CAUMEL
Grégoire CAUCHIE Sabine SCHMID
Christophe CHEVAL
Grégory DE LOOZE
2024-2025
Coordinateur du cours : Grégoire CAUCHIE
LEÇON 3
DISTRIBUTION A DEUX VARIABLES
ET DÉPENDANCE STATISTIQUE
INTRODUCTION
Jusqu’à présent, nous n’avons traité que les informations relatives à 1 variable.
Exemple : distribution des stations de ski françaises selon le coût du séjour en euros (source : skidata.io).
Echantillon : un ensemble de stations de ski
Variable X : coût moyen d’un séjour (en euros) de 7 jours pour 2 adultes avec forfait, matériel et hébergement
*Ici, les classes n’ont pas été construites selon la règle 2k car cette variable est croisée avec une seconde variable dans le tableau
3
de contingence de la page suivante, afin d’éviter un nombre trop important d’effectifs théoriques inférieurs à 5 voire nuls (cf. p.12 puis leçon 4 ).
INTRODUCTION
Désormais, nous passons à l’analyse simultanée de 2 variables définies sur un même échantillon.
Objectif : croiser un couple de variables statistiques pour rechercher l’existence d’une relation (ou
association, lien).
Comment présenter cette distribution conjointe ?
tableau de contingence (ou tableau à double entrée)
Nouvelle variable : Y, désignant la région de la station
Tableau peu utile pour appréhender la
relation entre 2 variables !
4
LEÇON 3 : DISTRIBUTION A DEUX VARIABLES ET DÉPENDANCE
STATISTIQUE
PLAN
I. Les distributions conjointes
II. Les distributions à une variable extraite
III. Dépendance statistique
1. Entre deux variables qualitatives : le khi-deux et le coefficient de Cramer
2. Entre une variable quantitative et une variable qualitative : le rapport de corrélation
5
I. LES DISTRIBUTIONS CONJOINTES
Notations statistiques
𝒋
𝒊𝒋
𝒊 𝒊•
•𝒋
effectifs marginaux
ou marges
6
fréquences relatives :
I. LES DISTRIBUTIONS CONJOINTES 𝒏𝒊𝒋 𝒏𝒊• 𝒏•𝒋
𝒇𝒊𝒋 = ; 𝒇𝒊• = ; 𝒇•𝒋 =
Notations statistiques 𝑵 𝑵 𝑵
𝒋
𝒊𝒋
𝒊 𝒊•
Lecture : •𝒋
• Pour 29% des stations, le séjour moyen coûte moins de 750€ ; fréquences marginales
• 49% des stations sont situées dans les Alpes du Nord ; ou marges
• 8% des stations sont situées dans les Alpes du Nord et proposent le séjour moyen à moins de 750€.
7
II. LES DISTRIBUTIONS À UNE VARIABLE EXTRAITE
fréquences conditionnelles
Distributions marginales et distributions conditionnelles en colonnes
Tableau des profils : 𝒏𝒊𝒋
𝒇𝒙𝒊 ⁄𝒚𝒋 =
profils-colonnes : distribution des fréquences conditionnelles de X liées par 𝑦 𝒏•𝒋
profils-lignes : distribution des fréquences conditionnelles de Y liées par 𝑥
L’étude du tableau des profils nous informe sur la dépendance ou l‘indépendance entre les variables X et Y (cf. partie III).
Lecture :
• Pour 65% des stations des Alpes du Nord, le séjour moyen coûte 1000€ et plus.
8
II. LES DISTRIBUTIONS À UNE VARIABLE EXTRAITE
fréquences conditionnelles
Distributions marginales et distributions conditionnelles en lignes
Tableau des profils : 𝒏𝒊𝒋
𝒇𝒚𝒋 ⁄𝒙𝒊 =
profils-colonnes : distribution des fréquences conditionnelles de X liées par 𝑦 𝒏𝒊•
profils-lignes : distribution des fréquences conditionnelles de Y liées par 𝑥
L’étude du tableau des profils nous informe sur la dépendance ou l‘indépendance entre les variables X et Y (cf. partie III).
Lecture :
• Parmi les stations proposant des séjours à moins de 750€ en moyenne, 17% sont situées dans les Pyrénées.
9
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en comparant les fréquences conditionnelles
Question : existe-t-il une dépendance statistique entre le coût moyen du séjour et la région ?
étude du tableau des profils-lignes ou des profils-colonnes
Réponse : Non, si 𝑓 ⁄ = 𝑓 • ∀ 𝑖, 𝑗 ou 𝑓 ⁄ = 𝑓• ∀ 𝑖, 𝑗 Dans ce cas, on parle d’indépendance statistique
(absence totale de lien entre X et Y)
Ici, les profils sont différents selon les régions !
Par exemple : 𝒇𝒙𝟑 ⁄𝒚𝟏 ≠ 𝒇𝒙𝟑 ⁄𝒚𝟐
Donc le coût du séjour dépend de la région.
10
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
Question : existe-t-il une dépendance statistique entre le coût moyen du séjour et la région ?
calcul du khi-deux, noté 𝒄𝟐 (échantillon) et 𝝌𝟐 (population) avec 𝑐 ∈ 0 ; + ∞
Réponse : Non, si 𝒄𝟐 = 𝟎 Dans ce cas, on parle également d’indépendance statistique (rare, en pratique)
Méthode de calcul du 𝑐 :
1. Calculer les effectifs théoriques 𝒏∗𝒊𝒋 que l’on devrait observer en situation d’indépendance :
∗
𝑛 • × 𝑛•
𝑛 =
𝑁
2. Comparer ces effectifs théoriques 𝑛∗ avec les effectifs observés 𝑛 d’après la formule du 𝑐 :
𝑛 − 𝑛∗
𝑐 =
𝑛∗
SI INDEPENDANCE : 𝒄𝟐 =𝟎
SI DEPENDANCE : 𝒄𝟐 > 𝟎 Calcul du coefficient de Cramer, noté 𝑽 avec 𝑉 ∈ 0 ; 1 :
𝑐 𝑐
Comment déterminer l’intensité 𝑉= =
𝑐max 𝑁 × min 𝑘 − 1 ; 𝑝 − 1
de la dépendance entre X et Y ?
11
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
Tableau des effectifs observés 𝒏𝒊𝒋 Tableau des effectifs théoriques1 𝒏∗𝒊𝒋 (indépendance entre X et Y)
• Calcul du khi-deux :
𝑛 • × 𝑛• 113 × 66 𝑛 • × 𝑛• 39 × 73
𝑛∗ = = ≈ 32,3 𝑛∗ = = ≈ 12,3
𝑛 − 𝑛∗ 𝑁 231 𝑁 231
𝑐 =
𝑛∗
18 − 32,3 12 − 12,9 25 − 11,1 12 − 17,9 0 − 15,5 7 − 13,5
soit 𝑐 = + + +⋯+ + + ≈ 𝟕𝟑, 𝟏𝟒
32,3 12,9 11,1 17,9 15,5 13,5
1Attention: si plus de 20% des cellules présentent un effectif théorique inférieur à 5, alors il est nécessaire de regrouper
12
certaines modalités pour réaliser le test d’indépendance du 𝑐 (cf. leçon 4).
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
𝑐 = 𝟕𝟑, 𝟏𝟒 soit 𝑐 > 0
Quelle est l’intensité de la dépendance entre X et Y ?
Calcul du coefficient de Cramer :
𝑐 73,14
𝑉= = ≈ 𝟎, 𝟒𝟎
𝑁 × min 𝑘 − 1 ; 𝑝 − 1 231 × 2
Avec 𝑘 = 3, on observe 𝑉 ≥ 0,35 donc la dépendance entre X et Y est importante.
Interprétations :
Intensité de la dépendance Faible Modérée Importante
𝑉, avec 𝑘 = 2 0,10 − 0,30 0,30 − 0,50 0,50 − 1
𝑉, avec 𝑘 = 3 0,07 − 0,20 0,20 − 0,35 0,35 − 1
𝑉, avec 𝑘 = 4 0,06 − 0,17 0,17 − 0,29 0,29 − 1
𝑉, avec 𝑘 = 5 0,05 − 0,15 0,15 − 0,25 0,25 − 1
𝑉, avec 𝑘 = 6 0,04 − 0,13 0,13 − 0,22 0,22 − 1
Source : Cohen, J. (1988). Statistical power analysis for the behavioral sciences, 2nd edition. Routledge.
13
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
Exemple :
X : genre de l’individu (qualitative)
Y : salaire mensuel de l’individu (quantitative)
Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
3 cas possibles :
1. X et Y sont indépendantes
14
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
Exemple :
X : genre de l’individu (qualitative)
Y : salaire mensuel de l’individu (quantitative)
Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
3 cas possibles : 2. X et Y sont totalement
dépendantes Ce qui revient au
tableau ci-contre :
15
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
Exemple :
X : genre de l’individu (qualitative)
Y : salaire mensuel de l’individu (quantitative)
Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
3 cas possibles : 3. X et Y sont partiellement liées :
intensité de la dépendance ?
effet de cette
variable ?
… Calcul du rapport de corrélation 𝜼𝟐𝒀/𝑿
16
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
Au sein de chacun des deux groupes (hommes, femmes), les salaires diffèrent :
on parle de variance intragroupe
Entre le groupe des hommes et le groupe des femmes, la distribution des salaires n’est pas la même :
on parle de variance intergroupe
Variabilité globale = variance marginale de Y
Variance intergroupe =
Variance intragroupe =
Variance de Y expliquée
par X Variance de Y non expliquée par X
…
17
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
Variance marginale de Y =
Variance intergroupe =
Variance intragroupe =
Variance de Y expliquée
par X Variance de Y non expliquée par X
Variance des moyennes Moyenne des variances
conditionnelles de Y conditionnelles de Y
𝑽 𝒚𝒊 variance des moyennes conditionnelles de Y
rapport de corrélation : 𝜼𝟐𝒀/𝑿 = =
𝑽 𝒀 variance marginale de Y
Principe du calcul :
1. Calculer la moyenne globale de Y pour la population : moyenne marginale de Y notée 𝒚
2. Calculer la moyenne de Y pour chacun des groupes : moyennes conditionnelles de Y notées 𝒚𝒊
3. Calculer la variance globale de Y pour la population : variance marginale de Y notée 𝑽(𝒀)
4. Calculer la variance de Y entre les 2 groupes : variance des moyennes conditionnelles de Y notée 𝑽(𝒚𝒊 )
18
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /
215 × 1000 + 165 × 2000 + 140 × 3000 + 140 × 4000
𝑉 𝑌 = − 2310,61
660
𝑉 𝑌 = 𝟏𝟐𝟖𝟗𝟖𝟔𝟗, 𝟑𝟏
220 × 3022,73 + 440 × 1954,55
𝑉 𝑦 = − 2310,61 = 𝟐𝟓𝟑𝟓𝟓𝟕, 𝟒𝟓
660
𝑉 𝑦 variance des moyennes conditionnelles de Y
𝜼𝟐𝒀/𝑿 = =
𝑉 𝑌 variance marginale de Y 253557,45
𝜼𝟐𝒀/𝑿 = ≈ 𝟏𝟗, 𝟕%
1289869,31
• Calculs :
215 × 1000 + 165 × 2000 + 140 × 3000 + 140 × 4000
𝑦= = 𝟐𝟑𝟏𝟎, 𝟔𝟏 Quelle interprétation ?
660
Effet brut : il est donc indispensable de raisonner
25 × 1000 + 35 × 2000 + 70 × 3000 + 90 × 4000 « toutes choses égales par ailleurs » !
𝑦 = = 𝟑𝟎𝟐𝟐, 𝟕𝟑
220 (objet de la leçon 6)
190 × 1000 + 130 × 2000 + 70 × 3000 + 50 × 4000
𝑦 = = 𝟏𝟗𝟓𝟒, 𝟓𝟓
440
19
20
ANNEXE
Expressions mathématiques des indicateurs pour le calcul du rapport de corrélation
Moyenne marginale de Y :
1
𝑦= 𝑛• 𝑦
𝑁
Moyennes conditionnelles de Y :
1
𝑦 = 𝑛 𝑦
𝑛•
Variance marginale de Y :
1 1
𝟏. 𝑉 𝑌 = 𝑛• 𝑦 − 𝑦 𝑜𝑢 𝟐. 𝑉 𝑌 = 𝑛• 𝑦 − 𝑦
𝑁 𝑁
Variance des moyennes conditionnelles de Y (variance intergroupe) :
1 1
𝟏. 𝑉 𝑦 = 𝑛• 𝑦 −𝑦 𝑜𝑢 𝟐. 𝑉 𝑦 = 𝑛 •𝑦 − 𝑦
𝑁 𝑁
21