Analyse Bivariée
Exemple
Vous travaillez pour un site web de e-
commerce. Dans le but de créer un
algorithme de recommandation (qui
proposera de nouveaux produits aux clients),
vous décidez de faire une petite étude
préliminaire.
Vous connaissez l'âge de chaque client. Vous
obtenez donc un échantillon de clients
caractérisés par 2 variables : l'âge et le
niveau d'intérêt.
Vous décidez donc d'étudier ces 2 variables
séparément, avec des histogrammes :
Histogramme
Age Vs Intérêt
Analyse bivariée
Étudient la relation entre deux variables
(variable dépendante et indépendante)
Permettent non seulement de déterminer si
deux variables sont associées (signification),
mais également de déterminer le sens et la
force de cette relation.
Type d’analyse
Les représentations statistiques diffèrent en
fonction du type de variables croisées :
qualitative/qualitative
qualitative/quantitative
quantitative/quantitative
Variable 1 Variable 2
Tableau croisé qualitative qualitative
et Khi carré
Test de qualitative quantitative
moyenne et
Anova
Corrélation quantitative quantitative
Type de variables
Variable dépendante (Y): variable que l’on
cherche à expliquer (effet)
Variable indépendante (X): variable qui vise à
en expliquer une autre (cause)
Causalité (relation cause à effet):
Conditions
Les deux concepts (cause et effet) doivent
être théoriquement distincts
La cause doit précéder l’effet
Il existe une interprétation possible de la
relation
Il existe une association statistique entre les
deux concepts
La relation persiste même si on inclut
d’autres variables
Formulation de l’hypothèse
Hypothèse nulle (H0): Il n’y a pas de relation
entre les variables
Hypothèse alternative (H1) : Il existe une
relation entre les variables
Eléments à verifier
1. Vérifier si la relation est significative : S’il
n’y a aucune relation….c’est fini. Pas besoin
d’aller vérifier #2 et #3
2. Examiner le sens de la relation : Relation
positive ou négative
3. Constater la force de la relation :Faible,
modérée ou forte
La signification
La signification (seuil de tolérance) nous indique si nos
variables sont associées ou non (hasard)
Le seuil de tolérance est souvent représenté par la lettre p
ou par sig.
Est-ce que ma relation entre X et Y est statistiquement
significative ? Existe-t-il une relation entre ces deux
variables?
Lorsque p< 0,05, nous pouvons affirmer qu’il existe une
relation statistiquement significative entre nos deux
variables. Nos risques de nous tromper en affirmant qu’il y a
une relation entre nos deux variables sont inférieurs à 5%.
Dans le cadre du cours, si p > 0,05, alors il n’existe pas de
relation significative entre nos 2 variables.
Le sens de la relation
S’il existe une relation, est-ce que X influe
négativement ou positivement sur Y ?
Relation positive : Plus un individu consomme
de l’alcool, plus il risque de faire des
niaiseries…
Relation négative : Plus un individu consomme
de l’alcool, moins celui-ci a d’inhibitions…
Le sens de la relation
Le sens de la relation
Le sens de la relation
La force de la relation
Est-ce que l’impact de X sur Y est fort,
modéré ou faible ?
Valeur Force
0
Entre 0,05 et Très faible
0,10
Entre 0,10 et Faible
0,20
Entre 0,20 et Modérée
0,40
Entre 0,40 et Forte
0,80
Entre 0.80 et 1 Louche
La force de la relation
Le coefficient de force qualifie la relation et
établit si la différence est attribuable à la
taille de l’échantillon ou non.
Il importe de connaitre le domaine d’étude
pour identifier la force de la relation
Un coefficient de force de plus de 0,80
indique la colinéarité… les deux variables
mesurent le même phénomène
Les postulats d’utilisation
Des postulats d’utilisation sont associés à
chaque type de test.
Les postulats sont un ensemble de règles à
respecter dans l’utilisation des statistiques
pour assurer la validité des résultats.
Quand les postulats d’utilisation ne sont pas
respectés, cela mène à une fausse sensibilité
du test.
Vérification des postulats avant de réaliser
les tests et d’analyser les résultats.
Relation entre deux
variables qualitatives
Le tableau croisé et Chi-deux: Utilité (Khi2)
Permet de tester le lien d’indépendance entre
2 variables qualitatives.
Tableau croisé (ou de contingence): montre la
distribution des effectifs des deux variables.
Chi-deux ou khi-carré (Χ2) : statistique
utilisée pour vérifier si la relation entre les
deux variables est significative.
Le tableau croisé et Chi-deux: Postulat
d’utilisation
Avoir deux variables qualitatives (nominales ou
ordinales)
Avoir un minimum de cinq observations dans
chaque case (intersection)(N≥5).
Questions
1. Existe-t-il un lien entre mes variables? La
question de la Signification
2.Ce lien est-il important? La question de la
Force
3.Que veut dire ce lien en termes concrets?
La question du Sens (ou de la nature) de la
relation
La signification
Le test d’indépendance du Chi-deux sert à répondre à
la question suivante : Existe-t-il un lien entre deux
variables qualitatives? Il sert donc à tester des
hypothèses.
Le test de d’indépendance du Chi-deux est utile pour
savoir si oui ou non il existe un lien entre deux
variable : il nous indique la signification de la relation.
Lorsque c’est significatif à p<0.05, nous rejetons H0.
Lorsque c’est supérieur, nous ne pouvons rejeter
l’hypothèse nulle.
La force de la relation
Déterminer la force de la relation (si
significatif)
Dans le cadre du cours, nous utiliserons 2
indicateurs de force pour ce type de test. Les
2 varient de 0 à 1 (plus ça tend vers 1 plus le
lien est fort entre les 2 variables)
V. de Cramer (2xk) ou (kxk)
Phi (2x2)
Avec SPSS : Tableau croisé
On vérifie si on a un minimum de 5 observations dans chaque case
(postulat d’utilisation)
Si oui, on regarde si le test du chi-carré est significatif. Si non, on
recode pour avoir moins de catégories et on recommence.
Signification: test du Chi-carré
Force de la relation
Interprétation
Les résultats du tableau 1 montrent qu’il
existe une relation statistiquement
significative (p<0,05) entre le sexe de la
victime de violence et les blessures subies
lors de l’événement. En effet, il est possible
de constater que 24 % des hommes victimes
de violence subissent des blessures graves
comparativement à une proportion de 10 %
pour les femmes victimes de violence. Cette
relation est toutefois assez faible comme en
témoigne un V de Cramer de 0,15.