0% ont trouvé ce document utile (0 vote)
20 vues22 pages

QM - Leçon 3

Ce document aborde l'analyse statistique de deux variables, en se concentrant sur la dépendance statistique à travers des tableaux de contingence et des indicateurs tels que le khi-deux et le coefficient de Cramer. Il explique comment déterminer la relation entre deux variables qualitatives et entre une variable qualitative et une variable quantitative, en utilisant des méthodes de calcul spécifiques. L'objectif est de comprendre l'association entre les variables et d'évaluer l'intensité de cette dépendance.

Transféré par

zizizou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues22 pages

QM - Leçon 3

Ce document aborde l'analyse statistique de deux variables, en se concentrant sur la dépendance statistique à travers des tableaux de contingence et des indicateurs tels que le khi-deux et le coefficient de Cramer. Il explique comment déterminer la relation entre deux variables qualitatives et entre une variable qualitative et une variable quantitative, en utilisant des méthodes de calcul spécifiques. L'objectif est de comprendre l'association entre les variables et d'évaluer l'intensité de cette dépendance.

Transféré par

zizizou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

QUANTITATIVE METHODS

BBA 1 BUSINESS MANAGEMENT – FRENCH TRACK

Campus de Lille : Campus de Nice :


Eric-André BILINSKI Nicolas BERNARD
Agnès CARPENTIER Annabelle CAUMEL
Grégoire CAUCHIE Sabine SCHMID
Christophe CHEVAL
Grégory DE LOOZE
2024-2025
Coordinateur du cours : Grégoire CAUCHIE
LEÇON 3
DISTRIBUTION A DEUX VARIABLES
ET DÉPENDANCE STATISTIQUE
INTRODUCTION
 Jusqu’à présent, nous n’avons traité que les informations relatives à 1 variable.
 Exemple : distribution des stations de ski françaises selon le coût du séjour en euros (source : skidata.io).
 Echantillon : un ensemble de stations de ski
 Variable X : coût moyen d’un séjour (en euros) de 7 jours pour 2 adultes avec forfait, matériel et hébergement

*Ici, les classes n’ont pas été construites selon la règle 2k car cette variable est croisée avec une seconde variable dans le tableau
3
de contingence de la page suivante, afin d’éviter un nombre trop important d’effectifs théoriques inférieurs à 5 voire nuls (cf. p.12 puis leçon 4 ).
INTRODUCTION
 Désormais, nous passons à l’analyse simultanée de 2 variables définies sur un même échantillon.
 Objectif : croiser un couple de variables statistiques pour rechercher l’existence d’une relation (ou
association, lien).
 Comment présenter cette distribution conjointe ?
tableau de contingence (ou tableau à double entrée)
 Nouvelle variable : Y, désignant la région de la station

Tableau peu utile pour appréhender la


relation entre 2 variables !

4
LEÇON 3 : DISTRIBUTION A DEUX VARIABLES ET DÉPENDANCE
STATISTIQUE
PLAN

 I. Les distributions conjointes

 II. Les distributions à une variable extraite

 III. Dépendance statistique


 1. Entre deux variables qualitatives : le khi-deux et le coefficient de Cramer
 2. Entre une variable quantitative et une variable qualitative : le rapport de corrélation

5
I. LES DISTRIBUTIONS CONJOINTES
Notations statistiques
𝒋

𝒊𝒋

𝒊 𝒊•

•𝒋

effectifs marginaux
ou marges

6
fréquences relatives :
I. LES DISTRIBUTIONS CONJOINTES 𝒏𝒊𝒋 𝒏𝒊• 𝒏•𝒋
𝒇𝒊𝒋 = ; 𝒇𝒊• = ; 𝒇•𝒋 =
Notations statistiques 𝑵 𝑵 𝑵
𝒋

𝒊𝒋

𝒊 𝒊•

Lecture : •𝒋

• Pour 29% des stations, le séjour moyen coûte moins de 750€ ; fréquences marginales
• 49% des stations sont situées dans les Alpes du Nord ; ou marges
• 8% des stations sont situées dans les Alpes du Nord et proposent le séjour moyen à moins de 750€.

7
II. LES DISTRIBUTIONS À UNE VARIABLE EXTRAITE
fréquences conditionnelles
Distributions marginales et distributions conditionnelles en colonnes
 Tableau des profils : 𝒏𝒊𝒋
𝒇𝒙𝒊 ⁄𝒚𝒋 =
 profils-colonnes : distribution des fréquences conditionnelles de X liées par 𝑦 𝒏•𝒋
 profils-lignes : distribution des fréquences conditionnelles de Y liées par 𝑥
 L’étude du tableau des profils nous informe sur la dépendance ou l‘indépendance entre les variables X et Y (cf. partie III).

Lecture :
• Pour 65% des stations des Alpes du Nord, le séjour moyen coûte 1000€ et plus.

8
II. LES DISTRIBUTIONS À UNE VARIABLE EXTRAITE
fréquences conditionnelles
Distributions marginales et distributions conditionnelles en lignes
 Tableau des profils : 𝒏𝒊𝒋
𝒇𝒚𝒋 ⁄𝒙𝒊 =
 profils-colonnes : distribution des fréquences conditionnelles de X liées par 𝑦 𝒏𝒊•
 profils-lignes : distribution des fréquences conditionnelles de Y liées par 𝑥
 L’étude du tableau des profils nous informe sur la dépendance ou l‘indépendance entre les variables X et Y (cf. partie III).

Lecture :
• Parmi les stations proposant des séjours à moins de 750€ en moyenne, 17% sont situées dans les Pyrénées.

9
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en comparant les fréquences conditionnelles

 Question : existe-t-il une dépendance statistique entre le coût moyen du séjour et la région ?
étude du tableau des profils-lignes ou des profils-colonnes

 Réponse : Non, si 𝑓 ⁄ = 𝑓 • ∀ 𝑖, 𝑗 ou 𝑓 ⁄ = 𝑓• ∀ 𝑖, 𝑗 Dans ce cas, on parle d’indépendance statistique


(absence totale de lien entre X et Y)

Ici, les profils sont différents selon les régions !


Par exemple : 𝒇𝒙𝟑 ⁄𝒚𝟏 ≠ 𝒇𝒙𝟑 ⁄𝒚𝟐
Donc le coût du séjour dépend de la région.

10
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
 Question : existe-t-il une dépendance statistique entre le coût moyen du séjour et la région ?
calcul du khi-deux, noté 𝒄𝟐 (échantillon) et 𝝌𝟐 (population) avec 𝑐 ∈ 0 ; + ∞
 Réponse : Non, si 𝒄𝟐 = 𝟎 Dans ce cas, on parle également d’indépendance statistique (rare, en pratique)

 Méthode de calcul du 𝑐 :
 1. Calculer les effectifs théoriques 𝒏∗𝒊𝒋 que l’on devrait observer en situation d’indépendance :

𝑛 • × 𝑛•
𝑛 =
𝑁
 2. Comparer ces effectifs théoriques 𝑛∗ avec les effectifs observés 𝑛 d’après la formule du 𝑐 :
𝑛 − 𝑛∗
𝑐 =
𝑛∗
SI INDEPENDANCE : 𝒄𝟐 =𝟎

SI DEPENDANCE : 𝒄𝟐 > 𝟎 Calcul du coefficient de Cramer, noté 𝑽 avec 𝑉 ∈ 0 ; 1 :


𝑐 𝑐
Comment déterminer l’intensité 𝑉= =
𝑐max 𝑁 × min 𝑘 − 1 ; 𝑝 − 1
de la dépendance entre X et Y ?

11
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
 Tableau des effectifs observés 𝒏𝒊𝒋  Tableau des effectifs théoriques1 𝒏∗𝒊𝒋 (indépendance entre X et Y)

• Calcul du khi-deux :
𝑛 • × 𝑛• 113 × 66 𝑛 • × 𝑛• 39 × 73
𝑛∗ = = ≈ 32,3 𝑛∗ = = ≈ 12,3
𝑛 − 𝑛∗ 𝑁 231 𝑁 231
𝑐 =
𝑛∗

18 − 32,3 12 − 12,9 25 − 11,1 12 − 17,9 0 − 15,5 7 − 13,5


soit 𝑐 = + + +⋯+ + + ≈ 𝟕𝟑, 𝟏𝟒
32,3 12,9 11,1 17,9 15,5 13,5

1Attention: si plus de 20% des cellules présentent un effectif théorique inférieur à 5, alors il est nécessaire de regrouper
12
certaines modalités pour réaliser le test d’indépendance du 𝑐 (cf. leçon 4).
III. DÉPENDANCE STATISTIQUE
1. Entre deux variables qualitatives, en calculant deux indicateurs statistiques : et
 𝑐 = 𝟕𝟑, 𝟏𝟒 soit 𝑐 > 0
 Quelle est l’intensité de la dépendance entre X et Y ?
 Calcul du coefficient de Cramer :
𝑐 73,14
𝑉= = ≈ 𝟎, 𝟒𝟎
𝑁 × min 𝑘 − 1 ; 𝑝 − 1 231 × 2
 Avec 𝑘 = 3, on observe 𝑉 ≥ 0,35 donc la dépendance entre X et Y est importante.
 Interprétations :
Intensité de la dépendance Faible Modérée Importante
𝑉, avec 𝑘 = 2 0,10 − 0,30 0,30 − 0,50 0,50 − 1
𝑉, avec 𝑘 = 3 0,07 − 0,20 0,20 − 0,35 0,35 − 1
𝑉, avec 𝑘 = 4 0,06 − 0,17 0,17 − 0,29 0,29 − 1
𝑉, avec 𝑘 = 5 0,05 − 0,15 0,15 − 0,25 0,25 − 1
𝑉, avec 𝑘 = 6 0,04 − 0,13 0,13 − 0,22 0,22 − 1
Source : Cohen, J. (1988). Statistical power analysis for the behavioral sciences, 2nd edition. Routledge.

13
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

 Exemple :
 X : genre de l’individu (qualitative)
 Y : salaire mensuel de l’individu (quantitative)
 Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
 3 cas possibles :
1. X et Y sont indépendantes

14
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

 Exemple :
 X : genre de l’individu (qualitative)
 Y : salaire mensuel de l’individu (quantitative)
 Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
 3 cas possibles : 2. X et Y sont totalement
dépendantes Ce qui revient au
tableau ci-contre :

15
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

 Exemple :
 X : genre de l’individu (qualitative)
 Y : salaire mensuel de l’individu (quantitative)
 Question : existe-t-il une relation entre le salaire
et le sexe des individus ?
 3 cas possibles : 3. X et Y sont partiellement liées :
intensité de la dépendance ?

effet de cette
variable ?

… Calcul du rapport de corrélation 𝜼𝟐𝒀/𝑿

16
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

 Au sein de chacun des deux groupes (hommes, femmes), les salaires diffèrent :
 on parle de variance intragroupe
 Entre le groupe des hommes et le groupe des femmes, la distribution des salaires n’est pas la même :
 on parle de variance intergroupe

Variabilité globale = variance marginale de Y


Variance intergroupe =
Variance intragroupe =
Variance de Y expliquée
par X Variance de Y non expliquée par X


17
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

Variance marginale de Y =
Variance intergroupe =
Variance intragroupe =
Variance de Y expliquée
par X Variance de Y non expliquée par X

Variance des moyennes Moyenne des variances


conditionnelles de Y conditionnelles de Y
𝑽 𝒚𝒊 variance des moyennes conditionnelles de Y
rapport de corrélation : 𝜼𝟐𝒀/𝑿 = =
𝑽 𝒀 variance marginale de Y

 Principe du calcul :

 1. Calculer la moyenne globale de Y pour la population : moyenne marginale de Y notée 𝒚


 2. Calculer la moyenne de Y pour chacun des groupes : moyennes conditionnelles de Y notées 𝒚𝒊
 3. Calculer la variance globale de Y pour la population : variance marginale de Y notée 𝑽(𝒀)
 4. Calculer la variance de Y entre les 2 groupes : variance des moyennes conditionnelles de Y notée 𝑽(𝒚𝒊 )

18
III. DÉPENDANCE STATISTIQUE
2. Entre une variable quantitative et une variable qualitative : 𝜂 /

215 × 1000 + 165 × 2000 + 140 × 3000 + 140 × 4000


𝑉 𝑌 = − 2310,61
660
𝑉 𝑌 = 𝟏𝟐𝟖𝟗𝟖𝟔𝟗, 𝟑𝟏

220 × 3022,73 + 440 × 1954,55


𝑉 𝑦 = − 2310,61 = 𝟐𝟓𝟑𝟓𝟓𝟕, 𝟒𝟓
660
𝑉 𝑦 variance des moyennes conditionnelles de Y
𝜼𝟐𝒀/𝑿 = =
𝑉 𝑌 variance marginale de Y 253557,45
𝜼𝟐𝒀/𝑿 = ≈ 𝟏𝟗, 𝟕%
1289869,31
• Calculs :
215 × 1000 + 165 × 2000 + 140 × 3000 + 140 × 4000
𝑦= = 𝟐𝟑𝟏𝟎, 𝟔𝟏 Quelle interprétation ?
660
Effet brut : il est donc indispensable de raisonner
25 × 1000 + 35 × 2000 + 70 × 3000 + 90 × 4000 « toutes choses égales par ailleurs » !
𝑦 = = 𝟑𝟎𝟐𝟐, 𝟕𝟑
220 (objet de la leçon 6)
190 × 1000 + 130 × 2000 + 70 × 3000 + 50 × 4000
𝑦 = = 𝟏𝟗𝟓𝟒, 𝟓𝟓
440

19
20
ANNEXE
Expressions mathématiques des indicateurs pour le calcul du rapport de corrélation

 Moyenne marginale de Y :
1
𝑦= 𝑛• 𝑦
𝑁

 Moyennes conditionnelles de Y :
1
𝑦 = 𝑛 𝑦
𝑛•

 Variance marginale de Y :
1 1
𝟏. 𝑉 𝑌 = 𝑛• 𝑦 − 𝑦 𝑜𝑢 𝟐. 𝑉 𝑌 = 𝑛• 𝑦 − 𝑦
𝑁 𝑁

 Variance des moyennes conditionnelles de Y (variance intergroupe) :


1 1
𝟏. 𝑉 𝑦 = 𝑛• 𝑦 −𝑦 𝑜𝑢 𝟐. 𝑉 𝑦 = 𝑛 •𝑦 − 𝑦
𝑁 𝑁

21

Vous aimerez peut-être aussi