M1 ISI
Cours 6: Analyse
bivariée (Partie 3)
Mme Fareh
02/12/2024
2024/ 2025 1
Plan du cours
1. Introduction
2. Représentation des données
1. Table de contingence
2. Distribution marginale
3. Moyennes et variances marginales
3. Analyse de deux variables quantitatives
1. Coefficient de corrélation
2. Régression linéaire
4. Analyse d’une variable qualitative et une variable quantitative
1. Test de student
2. Analyse de la variance
5. Analyse de deux variables qualitatives
1. Test d’indépendance de chi2
2
Analyse de deux
variables qualitatives
Représentation graphique
Test d’indépendance de chi2
02/12/2024 3
Exemple d’application
Domaine médical:
• Analyse de la relation entre la vaccination contre la COVID-19 (vacciné
ou non vacciné) et l'incidence des complications cardiaques chez les
patients atteints de COVID-19."
• L'objectif de l'analyse est de voir si la vaccination contre la COVID-19
affecte le risque de complications cardiaques chez les patients ayant
cette maladie.
02/12/2024 4
Exemple d’application
• Réseaux sociaux
• Déterminer si l’âge (jeunes, adultes, personnes âgées), a une
influence significative sur le choix de la plateforme de médias
sociaux préférée parmi ( Facebook, Instagram et Twitter).
• Cette analyse va permettre de répondre à la question : est-ce que
les tranches d'âge spécifiques ont des préférences distinctes en
matière de réseaux sociaux.
02/12/2024 5
Représentation graphique
• Diagramme en bâton superposé: permet de comparer visuellement deux
séries de données sur un même ensemble de catégories.
1. Axe horizontal (X) : Cet axe représente les catégories ou les groupes à
comparer. Chaque catégorie est généralement placée le long de l'axe
horizontal.
2. Axe vertical (Y) : Cet axe représente les valeurs numériques à visualiser,
telles que des fréquences, ou les effectifs.
3. Bâtons superposés : Pour chaque catégorie le long de l'axe horizontal,
plusieurs bâtons sont superposés, représentant les données des différentes
séries de l’autre variable que l'on compare. Chaque bâton symbolise une
série de données distincte pour une catégorie donnée.
02/12/2024 6
Représentation graphique
Diagramme en bâton empilé
02/12/2024 7
Représentation graphique
• L'avantage de ce type de graphique est qu'il permet de comparer
facilement les valeurs des différentes séries pour chaque
catégorie. Et voir comment les données se comparent les unes aux
autres sur le même graphique, ce qui facilite l'analyse comparative.
• L'utilisation de couleurs différentes dans un même bâton permet
de distinguer rapidement les données, et de comprendre
comment elles se comparent les unes aux autres dans chaque
catégorie. Cela rend le graphique plus clair et plus visible.
02/12/2024 8
Test d’indépendance de chi2 (χ2)
• Entre 2 variables qualitatives
• Le test d’indépendance du (χ2) permet de déterminer si
deux variables qualitatives sont indépendantes ou non. Pour
cela, nous testons les deux hypothèses :
• H0 : les variables sont indépendantes
• H1 : les variables sont liées
02/12/2024 9
Test d’indépendance de chi2
• Les variables doivent être catégorielles.
• Les fréquences attendues dans chaque cellule du tableau de
contingence doivent être supérieures ou égales à 5.
• Le tableau de contingence doit être constitué de données
croisées.
02/12/2024 10
Test d’indépendance de chi2
• Le test d'indépendance du chi2 permet de déterminer si deux
variables qualitatives sont indépendantes ou s'il existe un lien de
dépendance significatif entre elles.
• Le test du chi2 permet de comparer les fréquences observées
dans un tableau de contingence aux fréquences théoriques sous
l'hypothèse nulle d'indépendance.
• Cette comparaison permet de déterminer si les différences entre
les fréquences observées et théoriques sont statistiquement
significatives.
02/12/2024 11
Test d’indépendance de chi2
1. Formuler les hypothèses:
• Hypothèses du test et niveau α :
• H0 : les variables sont indépendantes
• H1 : les variables sont liées
2. Construire le tableau de contingence (croisé) des effectifs
observées
02/12/2024 12
Test d’indépendance de chi2
3. Construire le tableau de contingence pour les effectifs théoriques
Eff marginal de la ligne i*Eff marginal de la colonne j
Eff tij =
Eff global
02/12/2024 13
Test d’indépendance de chi2
4. Calcul de la statistique chi2:
02/12/2024 14
Test d’indépendance de chi2
5. Comparaison de chi2 entre la valeur calculée et la valeur
critique dans le tableau du chi2 :
ddl=(Nb lignes -1) x (Nb colonnes - 1).
6. Interprétation
chi2 Calculé < chi2 critique accepter H0
chi2 Calculé > chi2 critique rejeter H0, et valider H1
Conclusion
02/12/2024 15
V de Cramer
• Le V de Cramer est une mesure de la taille d'effet pour le test
d'indépendance du chi-carré. Il mesure le degré d'association de deux
champs catégoriels.
• La taille d'effet est calculée de la manière suivante :
•χ2 est la valeur du test du chi-carré pour la table de contingence.
•n est la taille totale de l'échantillon.
•k est le plus petit nombre de lignes ou de colonnes dans la table de
contingence.
02/12/2024 16
Interprétation de coefficient de V de Cramer
• Le coefficient de V de Cramer varie de 0 (indépendance complète) à 1
(association parfaite).
• Plus la valeur de V est proche de 1, plus l'association entre les deux variables
est forte.
• V proche de 0 indique une indépendance entre les variables.
• V ≤ 0.2: Le résultat est faible. Bien que le résultat soit statistiquement
significatif, les champs ont un lien d'association faible.
• 0.2 < V ≤ 0.6 : Le résultat est modéré. Les champs ont un lien d'association
modéré.
• V > 0.6: Le résultat est fort. Les champs ont un lien d'association fort
02/12/2024 17
Exemple
• Nous cherchons à déterminer s'il existe une association entre le
genre (homme, femme) et les préférences en matière de boissons
(thé, café, soda, jus).
• Le tableau de contingence est le suivant:
02/12/2024 18
Exemple
• Formulation des hypothèses:
H0 : hypothèse dite nulle, ce qui suppose que les caractères sont
indépendants. Concrètement sur notre exemple cela signifie que
les préférences en matière de boissons (thé, café, soda, jus) ne
dépendent pas du sexe des clients, hommes et femmes.
H1 : hypothèse dite alternative, ce qui contredit la précédente:
le sexe joue un rôle sur les préférences.
02/12/2024 19
Exemple
• Construire le tableau de contingence des effectifs observés:
02/12/2024 20
Exemple
• Construire le tableau de contingence des effectifs théoriques:
37 x 63 /138=16,89
02/12/2024 21
Exemple
• Calcul de chi2:
• Exemple de calcul de la cellule 11
(15- 16,89)²/16,89= 0,212
La valeur de chi2 =9.333
02/12/2024 22
Exemple
• Il faut comparer l’indicateur calculé de chi2 avec un indicateur de
référence que l’on trouve dans la table du chi2.
• Le degré de liberté (ddl ). Ce ddl se calcule de la manière suivante :
ddl=(Nb lignes -1) x (Nb colonnes - 1)=(4-1)(2-1)=3 et le risque
d’erreur est 0.05.
• La valeurs du chi2 critique est donc la ligne correspondant à un ddl
de 3 et à la colonne du risque d’erreur adopté.
02/12/2024 23
Exemple
• Loi de chi2
• (3, 0.05)
• La valeur est 7.81
02/12/2024 24
Exemple
• Interprétation:
• 9.333 > 7,815 : rejeter H0
• Nous comparons la valeur de notre statistique de test (9.333) à la
valeur khi-deux. Puisque 9.333 > 7,815, nous rejetons l'idée selon
laquelle le type de sexe et la préférence sont indépendants.
• Il existe une relation significative entre les variables qualitatives. En
d'autres termes, les variables ne sont pas considérées comme
indépendantes, d’être femme ou homme va influencer la
préférence du boissons.
02/12/2024 25
Exemple
Coefficient de V de Cramer:
• V= (9.333/(138*(2-1))) ½ = 0.26
• Il existe une association modérée entre les variables
qualitatives. Il existe une certaine relation significative entre
ces variables, mais elle n'est pas extrêmement forte, d’être
femme ou homme va influencer la préférence du boissons
d’une manière modérée.
02/12/2024 26
Conclusion
• L’analyse bivariée permet de d’identifier des relations significatives
entre deux variables,
• Elle permet d'identifier les relations et les corrélations entre deux
variables spécifiques, ce qui a enrichi notre compréhension des
interconnexions au sein de notre jeu de données.
• L'analyse bivariée peut être utilisée pour tester des hypothèses
préliminaires sur la relation entre deux variables.
02/12/2024 27
Conclusion
1.Corrélations significatives : En examinant les coefficients de corrélation entre paires de
variables, on peut identifier des relations significatives.
2.Tests d'hypothèses : Lors de l'application de tests statistiques bivariés, tels que le test t ou
le test du chi carré, on peut déterminer si une différence significative existe entre les
groupes ou les catégories de variables.
3.Analyse de la variance (ANOVA) : Lorsqu'il y a plus de deux groupes, l'ANOVA bivariée
peut aider à déterminer si les moyennes des groupes sont significativement différentes les
unes des autres pour une variable donnée.
4.Régressions linéaires : Les analyses de régression bivariée peuvent aider à évaluer la
relation entre une variable dépendante et une variable indépendante à la fois. Si une
variable indépendante montre une relation significative avec la variable dépendante, elle
peut être considérée comme importante.
02/12/2024 28
Conclusion
• Cependant:
• pour obtenir une perspective plus approfondie et
• tenir compte des interactions complexes entre plusieurs variables
simultanément une analyse multivariée.
• Permet de dépasser les relations simples et de découvrir des modèles
plus complexes au sein des données.
• Examiner les relations complexes entre plusieurs variables en même
temps. Cela permet d'obtenir une compréhension plus approfondie
des facteurs qui influent sur le phénomène étudié.
02/12/2024 29