Statistiques Session 2 1
Test du Chi-2
Variables qualitatives ou quantitatives classées
Tests sur les effectifs
I Chi-2 X² de conformité
Comparaison d’effectifs observés à une distribution de référence
II Chi-2 X² d’homogénéité (ou indépendance)
Comparaison de plusieurs distributions observées
Test de l’indépendance de deux variables qualitatives
I Chi-2 X² de conformité
Comparaison d’effectifs observés à une distribution de référence
Chi-2 conformité : Exemples de questions
La distribution des problèmes visuels en Ethiopie est-elle différente de celle connue dans la
population française ?
Emmétrope Hypermétrope Myope Astigmate
Pourcentage des français 10 % 20 % 50% 20%
(référence)
Nombre de d’éthiopiens 10 13 20 17
(n=60)
Le sex-ratio chez les étudiants d’optométrie est-il de 50% - 50% ?
Sexe Fille Garçon
Pourcentage référence 50% 50%
Nombre de personnes retrouvées dans l’échantillon (n=26) 21 5
Statistiques Session 2 2
Le nombre de filles parmi les fratries de 4 enfants suit-il une loi binomiale B (4 ; 0.50) ?
Nombre de filles dans la fratrie 0 1 2 3 4
Référence
Nombre de famille 1 2 4 1 2
En France, 5.1% des jeunes sont en grande difficulté de lecture. Est-ce le cas en Aquitaine ?
En France Difficultés Non difficultés
Pourcentage 5.1% 94.9%
Nobs 430 570
Caractère en gras et verts : Fréquence de référence
1 Modèle
2 Hypothèse H0/H1
H0 : La distribution de la variable dans la population d’où provient l’échantillon est la même
que dans la population de référence (conforme)
H1 : La distribution de la variable dans la population d’où provient l’échantillon est différente
de celle de la population de référence (non-conforme)
Statistiques Session 2 3
3 Choix d’une statistique de test, de distribution connus sous H0
Nobs : Effectifs observés
[Link]éo : Effectifs théoriques – sous H0 (calculés à partir des fréquences théoriques et
l’effectif total de l’échantillon) – Condition d’application [Link]éo > 5
4 Forme de la zone de rejet
Degré de liberté = Nombre de classe – 1 = ddl
Statistiques Session 2 4
5 Choix du seuil α (5% si pas précisé)
6 Calcul de la valeur de la statistique de test
7 Pvalue / Conclusion
Conformité
• Une population référence + un échantillon
• Calcul [Link]éo – H0 ( n x proba de référence) Homogénéité/Indépendance
• Calcul stat de test
• Distribution Chi-2 avec nombre de ddl (conclusion)
Statistiques Session 2 5
II Chi-2 X² d’homogénéité ou indépendance
Comparaison de plusieurs distributions observées
Test de l’indépendance de deux variables qualitatives
Homogénéité Indépendance
1 Modèle
Une variable mais Deux variables sur un
plusieurs échantillons échantillon
Homogénéité
Le sexe-ratio chez les étudiants d’optométrie est-il le même que chez les étudiants en math ?
2 échantillons 1 échantillon VS 1 échantillon Mais pas de référence
Une seule variable mesurée
Fille Garçon
Optométrie (n=44) 26 18
Maths (n=51) 20 31
La distribution des jeunes en grande difficulté de lecture est-elle la même dans les différentes
régions de France ?
Indépendance
La distribution des problèmes visuels (myopes, AS…) en France est-elle indépendante de la
fréquence d’exposition aux écrans (fréquente, modérée, nulle) ?
Un échantillon mais deux variables analysées Echantillon n = 70
Exposition aux écrans Myope Astigmate Hypermétrope Emmetrope
24 13 15 18
Faible 3 7 5 10
Modérée 10 4 5 3
Fréquente 11 2 5 5
Statistiques Session 2 6
Chaque cellules ici est un Nobs
[Link]éo : Pas de référence c’est ce qu’on attend sous H0
Sous H0 : P expo faible et myope = P (expo faible) x P (myope) = 25/70 x 24/70 = 8.57
Classe faible et myope = (3 – 8.57)² / 8.57
Nombre de classe = 12 = 3 x 4 = expo aux écrans x amétropie
Ddl = (3 -1) x (4 – 1) = 2 x 3 = 6
L’application d’une correction visuelle est-elle en lien avec la classe sociale ?
1 Modèle
2 Hypothèses H0/H1
H0 : La distribution de X est identique dans toutes les populations d’où sont tirés les
échantillons
H1 : La distribution de X n’est pas identique dans toutes les populations d’où sont tiré les
échantillons
Exemple :
H0 : Le sex-ratio est le même chez les étudiants en mathématiques et en optométrie
H1 : Le sex-ratio est différent entre les étudiants en mathématiques et en optométrie
Statistiques Session 2 7
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y ne sont pas indépendantes
Exemple :
H0 : La classe sociale n’est pas en lien avec la présence d’une correction visuelle
H1 : La classe sociale est en relation avec la présence d’une correction visuelle
Exercice : Chi-2 ecran 1
Sur R recommander : Importer le ficher :
Données → Importer des données → Depuis un fichier texte → Cocher Autres dans séparateur
de champ, spécifier : ;
Puis dans R recommander :
Statistiques → Table de contingence → Tir croisé
Le logiciel fait la somme des valeurs : (Nobs – [Link]éo)² / [Link]éo
Pour calculé le X²obs = 24870
H0 : Indépendance des valeurs ou homogénéité des échantillons
H1 : Dépendance non homogénéité
Statistiques Session 2 8
3 Choix s’un statistique de test, de distribution connue sous H0
Nobs : Effectifs observés
[Link]éo : Effectifs théoriques – sous H0 (calculés à partir des fréquences théoriques et
l’effectif total de l’échantillon) – Condition d’application [Link]éo > 5
4 Forme de la zone de rejet
Statistiques Session 2 9
5 Choix du seuil α (5% si pas précisé)
6 Calcul de la valeur de la statistique de test
7 Pvalue / Conclusion
Est-ce que la répartition est la même en Afrique qu’en France pour les classes visuelles ci-
dessous ?
Faire un représentation graphique des données qui permet de se faire une idée de l’issu du
test.
Emmetrope Myope Hypermétrope Astigmate
Fréquence pop française 0.718 0.114 0.075 0.093
Echantillon dans la pop Afrique 15 30 45 23
du sud
[Link]éo 81.134 12.882 8.475 10.509
(Nobs – [Link]éo) / [Link]éo 53.907 22.746 157.413 14.846
Chi2 obs 248.913
Statistiques Session 2 10