ANALYSE DE DONNÉES
Raouf ZAFRI
[email protected]
Évaluation
1 partiel 80%
Analyse contextuelle en group 20%
1. Analyse de données textuelles
Variables qualitatives
Analyse quantitative de données qualitatives QUANTIFICATION
L’analyse qualitative
a) Thématique grille d’analyse
b) Lexicale analyser chaque mot, plus précis
Elles sont complémentaires. Mieux de commencer par l’analyse lexicale, après ça peut nous
aider avec les thématiques.
L’analyse des données textuelles (ADT)
Elle est développée à l’origine pout l’analyse de grands corpus littéraires ou
historiques
Elle s’appuie sur la statistique, l’ingénierie linguistique et sémantique dans des
applications informatiques.
Elle peut porter sur : les discours, les entretiens, les ouvrages, les rapports, contenus
des sites web, etc.
Avantages
Caractériser un grand volume d’infos
Traiter le texte de manière automatique et reproductible sans aucune lecture ou
codification préalable (objectiver et synthétiser ces infos qualitatives).
Le retour au texte est indispensable
Cas d’application à l’aide du logiciel
Format des données en entrée
Fichiers d’entrée – txt
Introduits par quatre étoiles suivies d’une série de variables étoilées (variables illustratives)
séparées par un espace
Un texte doit obligatoirement avoir au moins une variable étoilée
Les variables étoilées introduites dans le corpus ne doivent pas contenir d’espaces ou de
caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9, et des
tirets bas.
1
Les codages de la forme « variable_modalité » doivent être privilégiés pour les variables
illustratives. Ils permettent des analyses complémentaires.
Le texte à analyser ne doit pas comporter d’étoiles car le caractère * est
Exemple : **** *Président-Macron
Analyse de similitude
Analyse des cooccurrences présentée sous formes de graphiques de mots associes. L’objectif
de l’ADS est d’étudier la proximité et les relations entre les éléments d’un ensemble, sous
forme d’arbres maximum ou il est possible de faire apparaitre des communautés lexicales.
Analyse Factorielle de Correspondance
Objectif de AFC : représenter graphiquement l’analyse
Classification Méthode Reinert
Principes de la méthode de classification de Reinert
Cette procédure consiste à scinder le corpus en classes homogènes selon les mots et/ou les
concepts qu’elles contiennent.
Elle permet d’identifier les thématiques du texte. Celles-ci sont révélées par l’affichage de
mots spécifiques (significativement sur-représentés) de chaque classe.
Classe = thème du texte
Sur Iramuteq : analyse de texte classification Reinert
Arbre : Facon dont iramureq a classifie les classes de texte
Travailler sur moins classes, pas toutes.
C’est important l’ordre des classes. La première c’est la plus homogène, celle qui structure le
corpus textuel.
Sur le deuxième arbre, chaque classe est associé à des mots. Il faut donner des titres a chaque
classe. Les mots sont en ordre d’intensité entre le mot et sa classe.
Important d’identifier le contenu de chaque classe.
Segments de texte caractéristiques copier
Ce qui importe le plus c’est l’ordre. Il faut lire chaque paragraphe et analyser. Les mots en
gras et en rouge sont les termes qui représentent la classe.
Sur la colonne « forme », les mots qui représentent le mieux la classe. Les mots en rouge, les
« variables ».
Le terme le plus associé à la classe 1, « liberté », il y a au total 13 formes dans le corpus
textuel. Après avoir lu les termes, on doit nommer et donner du sens à la classe.
En bas, il y a des termes qui ne sont pas associes à la classe, ce terme ne se trouve pas dans
cette classe, ce n’est pas significative.
Quand on fait la classification, on a automatiquement un fichier Excel.
Nuage de mots de la classe : cliquer sur une forme (clic droit) nuage de mots
Clic droit sur une forme graphe du mot
Traitement et analyse des avis en ligne via le logiciel d’analyse de données
textuelles Iramuteq
Cas de Darty
2
1. Identifier et analyser les thématiques abordées par les clients
Méthode Reinert sur Iramuteq
Méthode pour svd sélectionner irlba
Sélectionner mode patate
2. Analyse descriptives et exploratoires des données
numériques
Nature des variables
a) Variable nominale
Réponses oui/non
b) Variable ordinale
Notion d’ordre qui est pertinente
Ici les distances entre les intervalles ne sont pas les mêmes.
c) Variable d’intervalle
Variable ordinale + distance entre les modalités de réponse.
d) Variable de proportion
Ce type de variable complète la précédente.
La codification
Codifier : donner un nom/chiffre
Chaque question, une variable.
Deux choses à codifier : variable et modalité
Pas de espaces, utiliser tirets bas
On peut utiliser de chiffres (ex, 1 pour homme, 2 pour femme). De préférence,
codifier par texte.
Pour les variables quantitatives, on donne des chiffres, mais éviter le 0.
Pour le codage de la variable de proportion, on laisse la réponse tel qu’elle (chiffre).
Quand il est possible de cocher plusieurs réponses, cette méthode n’est pas possible. On doit
transformer les possibilités de réponse en variables.
JAMOVI
Données calcul MEAN sélectionner variables (double clic, virgule)
Créer un filtre, sélectionner la variable qui nous intéresse, et : = sexe == « femme »
Pour transformer des variables
(D’abord désactiver les filtres) Données transformer (satisfaction globale en satisfaction
recodée) variable source (variable qu’on veut recoder) utiliser la transformation
ajouter ajouter
3
Si « satisfaction globale » inférieur ou égal (</=) 2 utiliser « non satisfait »
Autre utilisation « satisfait »
Cours 25/11 (JAMOVI)
Statistiques descriptives
Sélectionner la variable qui nous intéresse (satisfaction globale)
Onglet statistiques
Variable quantitative (on peut calculer la moyenne, médiane, quartile = percentil)
Copier le tableau ou exporter
Graphes histogramme, boite à moustache, diagramme en barres…
Taux de satisfaction = pourcentage de personnes satisfaites
Pour transformer une variable
Données transform donner un nom (satisfaction_recodee)
Variable transformable
Variable source : sélectionner satisfaction globale
Utiliser la transformation :
Ajouter une nouvelle condition de recodage : si la variable ou source est égal ou inferieur a
deux (ça veut dire insatisfaction) sélectionner inférieur ou égal utiliser « non »
Pour supérieur à 2 (else) utiliser « oui »
Pour trouver le taux de satisfaction
Statistiques descriptives sat recodage cocher tableau des fréquences
4
Pour voir satisfaction selon l’âge :
Pour voir satisfaction selon le genre :
5
Pour créer une graphe :
Plots bar plot
Installer modules (macros)
Modules jamovi library jjstatsplot
Pour faire des représentations graphiques
Correlation Matrix
En vert : les variables sont corrélationnelles
En orange : (négatif) inversement corrélationnels
Barré : indépendantes, pas significatif
6
On peut diviser par sexe :
Pour croiser deux variable quantitatives scatter plot
7
Chaque point = répondant, on peut voir la distribution (la plupart des gens ont dépensé entre
0-50 euros, et ils ont entre 18-25 ans). Après on peut voir la courbe de tendance (plus la
personne est âgée, plus elle dépense). Partie gris, tendance avec l’intervalle de confiance (pas
trop important).
Pour croiser une variable qualitative et une variable quantitative graphe en violon
(box violin plots)
Longueur de la boite : plus petite, plus homogène, plus large, plus hétérogène. Point rouge =
moyenne. Autour de la boite, violon, plus c’est large, plus densité.
8
Pour croiser deux variables qualitatives Bar charts
Graphe en barres empilées.
9
Analyse en composantes principales (ACP)
Méthode statistique descriptive réalisée sur des variables QUANTITATIVES.
L’ACP :
Consiste à regrouper les variables corrélées pour construire un nombre plus restreint
de facteurs indépendants
Permet de construire un indice permettant de mesurer une caractéristique complexe
composée de nombreux éléments.
Trouver des facteurs qui représentent ces variables au lieu de travailler sur toutes les
variables quantitatives.
Permet de concevoir et raffiner les instruments de mesure.
Objectif : simplifier la … de données.
Étapes :
1. Vérifier les conditions d’application
2. Choisir le nombre de facteurs à retenir
3. Interpréter les résultats
1. Vérifier les conditions d’application
La première étape consiste à déterminer si l’analyse factorielle est utile.
Il est important qu’il y air des corrélations entre les variables étudiées. Pour voir si les
variables sont corrélées :
Le test de sphéricité de Bartlett : permet de tester si les corrélations entre les
variables sont statistiquement significatives. (p<0,05)
Le test KMO : mesure l’importance de ces corrélations. Il doit être supérieur a
0,5
Snowcluster factor principal component anaylsis
Hide loadings below : mettre 0
10
Test bartlett : inferieur à 0,05 = pas significatif
Test KMO : pas supérieur à 0,5 = pas
significatif
Dans le KMO il faut regarder le « overall ».
Il faut que tous les deux tests soient significatifs.
Il n’y a pas de préférence entre les deux.
La rotation :
Si les facteurs obtenus sont
faiblement corrélés (corrélation
inferieure ou égale à 0,3) on
opère une rotation orthogonale
(varimax)
Si elle est supérieure, on opère
une rotation oblimine.
Imp : il faut décocher rotation, par défaut
c’est varimax.
11
2. Choisir le nombre de facteurs à retenir
L’ACP va nous proposer combien de facteurs retenir. On peut voir qu’il choisit 2
composants.
Comment choisir ses composants ?
Les facteurs choisis sont ceux qui expliquent la plus grande variance des variables.
On regarde les valeurs propres initiales pour savoir combien de facteurs on retient. Il
convient de retenir les facteurs ayant une valeur propre (Eigenvalue) supérieur ou égal à 1.
Plus de 60% pour le cumulative est recommandé.
Dans cette graphe on voit que les components 1 et 2 sont les seuls à être en dessus de 1
(ligne).
3. Interpréter les résultats
Les variables ayant des unicités (UNIQUENESS) supérieures à 0,5 sont mal expliquées par
les facteurs retenus. De ce fait, elles peuvent être enlevées.
L’unicité est la proportion de variance qui est « spécifique » à la variable et qui n’est pas
expliquée par les facteurs.
Par exemple 2,76% de la variance de « ActiveLocalement » ne s’explique pas par les facteurs
de la solution à deux facteurs.
12
L’unicité doit être inférieure à 0,5, ça veut dire que 95% de l’information de cette variable
est conservée. L’unicité veut dire la perte d’information.
Ici, elles sont toutes supérieures à 0,05 on les accepte
Analyse de contributions : donner du sens au facteurs
Voir les contributions de chaque variable à la construction des facteur. On regarde les
coefficients de corrélation.
NOTE : REGARDER EN VALEUR ABSOLU
- Variable « Active localement » plus corrélé au facteur 1 qu’au facteur 2. Elle
contribue plus à la construction du facteur 1.
- Variable « Services complets » plus corrélé au facteur 2 qu’au facteur 1. Elle
contribue plus à la construction du facteur 2.
- Variable « Humaine » plus associé à 1.
- Variable « Proche » plus associé à 1.
Conditions :
- Pour pouvoir dire qu’elle contribue, il faut que chaque contribution soit supérieure
à 0,5 en valeur absolu.
- Il faut que la différence entre coefficients de corrélation de chaque composant soit
supérieure à 0,3.
1er axe : pour le facteur 1, active localement, humane et proche citoyenité
2ème axe : pour le facteur 2, service complets, service compétitive qualité de service
On peut calculer scores moyens pour les différentes nouvelles variables
Data compute mean et après aller dans analyse pour voir
13
14
PCA PLOT
Graphiquement on peut voir quel axe est représenté par quelle variable.
Premier axe défini par quand on fait la corrélation. On regarde l’angle, il est réduit il est
mieux représenté.
INDIVIDUAL PLOT
Ces données sont relatives, en comparaison
aux autres.
Variable latante : motivation hédonique et
utilitaire
Analyse de fiabilité
15
Item Reliability Statistics
If item dropped
Cronbach's α
MH1 0.820
MH2 0.814
MH3 0.866
MH4 0.821
Bonne chiffre : entre 0,7-0,9
A partir de 0,9 très fiable, « trop fiable », il peut avoir des redondances dans les items.
Si on supprime une variable, l’alfa de Cronbach descend.
Il ne faut pas supprimer car on risque de perdre de l’information, et l’alfa est déjà bon.
Il n’y a pas d’alfa de Cronbach négatif, cela veut dire qu’il y a un problème de codage de
données.
Si on ne retrouve pas les facteurs qu’on cherche, on fait un score moyen.
Si on trouve un score comme ça :
Scale Reliability Statistics
Cronbach's α
scale 0.964
Cela peut être indice d’un effet halo, que les gens cochent toujours la même réponse.
Pour calculer le score moyen, on peut le faire directement sur « reliability analysis ».
save mean score
16
Analyse des Correspondances Multiples (ACM)
Sur Jamovi : Multiple Correspondance Analysis
L’ACM est une variante de l’analyse en composantes principales adaptée aux traitements de
données qualitatives
Elle est utilisée
Pour les variables qualitatives, il faut que ce soit du texte sur jamovi. (« Type de données :
texte »)
Eigenvalues
Component Eigenvalue % of Variance Cumulative %
1 0.6950 39.715 39.7
2 0.5298 30.273 70.0
3 0.3133 17.902 87.9
4 0.1430 8.171 96.1
5 0.0539 3.078 99.1
6 0.0151 0.862 100.0
7 5.63e-33 3.22e-31 100.0
En ACM, on sélectionne les valeurs propres (Eigenvalue>1) en faisant « 1 sur n », dans ce
cas, si tous les facteurs sont 4, on calcule 1/4 et on retient ceux qui sont en dessus de cette
chiffre.
Dans ce cas-là, on garde les 3 premiers (>0,25).
17
Correlation between variables and dimensions
La taille est plus proche de la fonction, alors elle est associée à la fonction (quand le chien
fait une taille spécifique, il sert à une fonction).
Cours 02/12. Analyses inférentielles des données numériques
Test du Chi2
Les tests statistiques reposent sur le principe d’inférence.
Les tests sont fondés sur des infos portant sur un échantillon de la population
Il est nécessaire de définir le seuil de signification du test : le choix du seuil est lie au niveau
de risque accepté (1% et 5% valeurs usuelles).
Le choix du teste varie selon différentes variables :
La nature des variables (quali, quanti, nominale…)
La nature du lien : relation de corrélation ? cause à effet ?
X variable indépendante, explicative
Y variable dépendante
18
Test du Chi-deux
Vise à examiner la relation de dépendance entre deux variables nominales. Si deux variables
nominales dépendent l’une de l’autre, la variation de l’une influence la variation de l’autre.
Exemple : base canines
Frequencies contingency tables independent samples
Statistics nominal phi
Test de régression linéaire simple
19
Ce test vise a examiner l’existence d’une relation de cause à effet entre une variable
indépendante quantitative et une variable dépendante quantitative.
Ce test permet de
Étapes :
1ere étape : il faut analyser s’il y a un effet de la variable indépendante sur la variable
dépendante pour cela il faut interpréter les résultats du test F
Nous constatons qu’il y a une relation statistiquement significative entre la variable
dépendante et independante. La satisfaction explique significativement l’intention de revenir
au restaurant.
2eme etape : en quelle proportion
R deux explique la proportion de variance totale de l’intention de revenir expliquée par la
satisfaction globale.
La satisfaction explique 1,69% de la variabilité de l’intention de revenir au restaurant.
Il est compris entre 0 et 1.
3eme etape : tableau de coefficient
La satisfaction a un effet significatif et positif sur l’intention de revenir au restaurent.
Coefficient standardisé : (+b) en una ecuación.
Linear Regression
Model Fit Measures
Overall Model Test
Model R R² F df1 df2 p
1 0.130 0.0169 5.46 1 317 0.020
Model Coefficients - Intention_retour
Predictor Estimate SE t p Stand. Estimate
Intercept 3.913 0.2765 14.15 < .001
Satisfaction_globale 0.200 0.0856 2.34 0.020 0.130
20
Regression linear regression cocher F test et après : model coefficients standardized
estimate
Estimated marginal means marginal means table
21
Test de régression linéaire multiple
Ce test vise à expliquer la variance d’une variable dépendante à l’aide d’une combinaison de
plusieurs facteurs explicatifs (variables indépendantes)
Plusieurs variables indépendantes, quel que soit leur nature, au moins une variable
quantitative.
Interprétation en 3 étapes
1ere : signification test relation statistiquement significative entre la variable dépendante
(intention de venir) et la combinaison des variables indépendantes.
2eme : r-deux : 8% de revenir au restaurant est expliquée
3eme : dans quelle mesure la satisfaction vis-à-vis des prix, de l’efficacité du personnel et de
la facilite de trouver de l’info influencent-elles l’intention de revenir au restaurant. ?
Sur JAMOVI :
Linear Regression
Model Fit Measures
Overall Model Test
Model R R² F df1 df2 p
1 0.283 0.0801 9.15 3 315 < .001
Model Coefficients - Intention_retour
Predictor Estimate SE t p Stand. Estimate
Intercept 4.2973 0.2801 15.340 < .001
Prix 0.0698 0.0719 0.970 0.333 0.0577
22
Model Coefficients - Intention_retour
Predictor Estimate SE t p Stand. Estimate
Efficacite_personnel 0.2607 0.0598 4.357 < .001 0.2547
Facilite_information -0.2185 0.0738 -2.963 0.003 -0.1701
Même procédure (faut cocher F test et standardized estimate) mais il faut mettre plusieurs
variables indépendantes (prix, efficacité personnel et facilité information).
Test t de comparaison de moyennes pour échantillons indépendants
Ce test vise à évaluer les différences de moyennes de deux groupes distincts. Exemple : les
hommes sont-ils plus satisfaits que les femmes ?
Comparativement aux hommes, les femmes sont-elles plus satisfaites vis-à-vis de l’efficacité
du personnel ?
Sur JAMOVI :
t-testsindependent samples t-test
Independent Samples T-Test
Statistic df p
Satisfaction_globale Student's t -0.724 ᵃ 317 0.470
Efficacite_personnel Student's t -2.017 ᵃ 317 0.045
23
Independent Samples T-Test
Statistic df p
ᵃ Levene's test is significant (p < .05), suggesting a violation of the assumption of equal variances
Test d’analyse de variance ANOVA inter-sujets
Ce test vise à évaluer les différences entre moyennes entre trous groups ou plus crées par une
variable dépendent qualitative.
La satisfaction vis-à-vis de l’amabilité du personnel varie-t-elle selon les jours de la visite ?
Sur JAMOVI : anova test anova
ANOVA - Amabilite_personnel
Sum of Squares df Mean Square F p
Jour_visite 17.6 4 4.41 4.26 0.002
Residuals 324.8 314 1.03
Apres estimated marginal means selectionner variable
24
Post Hoc Comparisons - Jour_visite
Comparison
Jour_visite Jour_visite Mean Difference SE df t ptukey
dimanche - jeudi -0.04779 0.216 314 -0.2214 0.999
- mercredi -0.59146 0.211 314 -2.8007 0.043
- samedi 0.00280 0.207 314 0.0135 1.000
- vendredi -0.11029 0.216 314 -0.5110 0.986
jeudi - mercredi -0.54366 0.174 314 -3.1214 0.017
- samedi 0.05060 0.169 314 0.2998 0.998
- vendredi -0.06250 0.180 314 -0.3476 0.997
mercredi - samedi 0.59426 0.163 314 3.6514 0.003
- vendredi 0.48116 0.174 314 2.7626 0.048
samedi - vendredi -0.11310 0.169 314 -0.6701 0.963
Note. Comparisons are based on estimated marginal means
Finalement, test Post Hoc : mean difference veut dire la moyenne de dimanche moins la
Moyenne de jeudi, si la différence est significative, on regarde le test de Ptukey (moins de
0,05).
Application
Dans une perspective d’amélioration de l’expérience client, le manager du restaurant se pose
les questions suivantes :
1. Le montant dépensé est-il vraiment lié à la satisfaction globale ?
Test de régression linéaire simple
25
Model Fit Measures
Overall Model Test
Model R R² F df1 df2 p
1 0.0963 0.00927 2.97 1 317 0.086
Model Coefficients - Montant_commande
Predictor Estimate SE t p
Intercept 58.07 7.38 7.86 < .001
Satisfaction_globale -3.94 2.29 -1.72 0.086
Non car >0,05
Test de régression linéal simple, car satisfaction globale est une variable quanti et le montant
dépensé aussi.
Montant dépensé : dépendante
Satisfaction : indépendante
Cocher estimation standardisé !!
2. La satisfaction vis-à-vis de la facilité à trouver l’information au sein du
restaurant est-elle liée au profil du client (habituel vs. de passage) ?
Test t de comparaison de moyennes pour échantillons indépendants
Independent Samples T-Test
Statistic df p
Facilite_information Student's t -0.151 317 0.880
Non
3. Parmi l’ensemble des mesures de satisfaction vis-à-vis des composantes du
service, lesquelles influencent l’intention de retour au restaurant ?
Test de régression linéaire multiple
Relation cause-effet entre plusieurs variables quanti indépendants et une variable dépendante
quantitative.
26
Model Fit Measures
Overall Model Test
Model R R² F df1 df2 p
1 0.315 0.0989 5.71 6 312 < .001
Model Coefficients - Intention_retour
Predictor Estimate SE t p Stand. Estimate
Intercept 4.11424 0.2929 14.046 < .001
Facilite_information -0.22146 0.0787 -2.812 0.005 -0.17238
Rapidite_service 0.07798 0.0851 0.916 0.360 0.07394
Prix -0.00954 0.0799 -0.119 0.905 -0.00788
Amabilite_personnel 0.10007 0.1038 0.964 0.336 0.10147
Efficacite_personnel 0.07100 0.1171 0.606 0.545 0.06937
Apparence_personnel 0.13981 0.0753 1.857 0.064 0.13442
Facilité d’information : plus l’info est facile, moins on a l’intention de revenir
Rapidité de service : pas d’impact
Prix : pas d’impact
Amabilité : pas d’impact
Efficacité : pas d’impact
Apparence : pas d’effet
4. La satisfaction globale dépend-t-elle du jour de la visite du restaurant ?
ANOVA
ANOVA - Satisfaction_globale
Sum of Squares df Mean Square F p
Jour_visite 3.00 4 0.750 1.71 0.148
Residuals 137.85 314 0.439
FAIRE REFERENCE AUX CHIFFRES DANS LES RÉPONSES !!!
Ce n’est pas significative car p>0,05
Post Hoc Comparisons - Jour_visite
Comparison
Jour_visite Jour_visite Mean Difference SE df t ptukey
dimanche - jeudi 0.01654 0.141 314 0.1177 1.000
- mercredi 0.00242 0.138 314 0.0176 1.000
- samedi 0.23529 0.135 314 1.7471 0.407
- vendredi 0.04779 0.141 314 0.3399 0.997
27
Post Hoc Comparisons - Jour_visite
Comparison
Jour_visite Jour_visite Mean Difference SE df t ptukey
jeudi - mercredi -0.01413 0.113 314 -0.1245 1.000
- samedi 0.21875 0.110 314 1.9898 0.273
- vendredi 0.03125 0.117 314 0.2668 0.999
mercredi - samedi 0.23288 0.106 314 2.1966 0.184
- vendredi 0.04538 0.113 314 0.3999 0.995
samedi - vendredi -0.18750 0.110 314 -1.7056 0.432
Note. Comparisons are based on estimated marginal means
Relation cause effet entre une variable indépendante qualitative (jour de visite) qui a
plusieurs modalités (plus de deux modalités) et une variable dépendante de nature
quantitative (satisfaction globale).
5. Le fait d’être satisfait ou non est-elle une question de genre ?
Test de chi-deux
Tester relation de dépendance entre deux variables qualitatives.
Fait d’être satisfait ou non !!! pas le degré de satisfaction.
Recoder variable satisfaction avec transformer, après chi-deux
6. La satisfaction globale des femmes dépend-elle de l’âge ? Et la satisfaction
globale des hommes dépend- elle de leurs âges ?
On a que la variable satisfaction globale et la variable âge (toutes les deux quantitatives)
Test de régression linéaire simple
Pour avoir que les femmes, on fait un FILTRE.
Données filtrer, f(x) choisir la variable de base, == sexe= « femme »
L’âge des hommes a un impact significatif sur leur satisfaction globale. R2=0,03
L’âge explique 3% de la variance de la satisfaction globale des hommes.
ANOVA multifacteurs
Prend en compte les interactions qui peuvent exister entre deux variables.
Plusieurs images dans packaging vs une image.
28
Couleur ou pas
Texte ou pas
Impact sur l’intention d’achat
Ici il y a plusieurs variables, on peut faire de manière indépendante, mais on ne prend pas en
compte les interactions qui peuvent exister entre les différentes variables (synergies, par
exemple).
Ceux qui habitent proche (jaune)
Ceux qui habitent loin (bleu)
On regarde dans l’axe x (variable indépendante) cogemos femme y vamos hacia arriba, y
vemos en que punto del eje “y” está. Anotamos los dos puntos en el eje “y” y hacemos la
diferencia entre uno y otro.
Dans l’absolu, il n’y a pas de différence entre le montant de la commande, c’est quand on fait
la segmentation entre ceux qui habitent proche et loin. Pente = slope
Le tableau avec les chiffres est pertinent seulement si les interactions sont significatives.
Il faut cocher « marginal means tables » et ajouter les variables dans « marginal means »
29
30
Test d’analyse de covariance ANCOVA
Variante du test ANOVA.
Déterminer l’effet d’une variable qualitative (indépendante) sur une variable quantitative
(dépendante) en contrôlant l’effet d’une autre variable quantitative qui a un impact présumé
sur la relation initiale.
La covariable est susceptible d’affecter la relation qui existe entre la variable indépendante et
la variable dépendante.
Le but est de tester la relation initiale en supprimant statistiquement l’effet de la covariable.
Exemples :
- Couleur de packaging et typographie sur intention d’achat, en contrôlant le prix.
Comme ça on neutralise l’effet de cette variable externe.
- Y-a-t-il toujours un effet significatif de la vaccination (vs non-vaccination) sur le taux
de mortalité une fois que l’on a contrôlé l’effet … ?
- Le fait d’être satisfait ou non a-t-il un impact sur l’intention de retour au restaurant
une fois que l’on a contrôle l’effet de l’âge des clients ?
Si l’âge est intégré dans la charte, elle est contrôlée statistiquement. On peut voir dans la
valeur du p-value si elle est significative statistiquement.
Si l’âge est intégré dans la charte, on neutralise statistiquement, on élimine l’effet de l’âge.
REMINDER : POUR RECODER UNE VARIABLE
31
EXERCISES
1) Analyser l’impact de la proximité du domicile
ANCOVA - Intention_retour
Sum of Squares df Mean Square F p
Proximite_domicile 17.94 1 17.938 18.31 < .001
Satisfaction_globale 2.71 1 2.712 2.77 0.097
Residuals 309.51 316 0.979
32
33
34
2)
Le profil client a un impact significatif sur le montant de la commande.
Effet (puissance) des variable :
- <0,06 faible
- 0,06-0,15 moyen
- >0,15 fort
Analyse de l’effet de la médiation
La variable médiatrice intervient entre une variable indépendante X et une variable
dépendante Y. Elle représente le mécanisme
Niveau d’études espérance de vie ?
Le revenu
Niveau Espérance
d'études de vie
L’effet direct
Association entre X et Y en contrôlant pour les effets indirects : c
35
L’effet indirect
Produit a x b de l’association entre X et M (a) et Y (b). (Multiplicar a por b)
L’effet total
L’effet total = effet indirect + effet direct
Pour établir l’effet médiateur de la variable m dans la relation entre x et y il suffit de montrer
la significativité de l’effet indirect a x b
Le test de médiation via Jamovi permet d’estimer l’effet indirect a x b à partir du test
BOOTSTRAP
C’est-à-dire, si a x b est significatif, il y a un effet de médiation
Exemple :
La qualité perçue des produits médiatise la relation entre l’esthétique perçue du site et
l’intention d’achat : l’esthétique (…
Confidence value : soit les deux valeurs positives ou toutes les deux négatives.
Types de médiateurs
- Médiateur total : tout passe par l’effet médiateur
- Médiateur partiel : si le chemin c est significatif, il y a un effet direct, et c’est un
médiateur partiel.
Questions :
a) Le plaisir médiatise-t-il la relation entre la facilité d’utilisation perçue du site et
l’intention d’achat ?
36
Mediation Estimates
Effect Label Estimate SE Z p
Indirect a×b 0.438 0.0541 8.09 < .001
Direct c 0.110 0.0670 1.64 0.102
Total c+a×b 0.548 0.0514 10.66 < .001
Path Estimates
Label Estimate SE Z p
Facilité_utilisation_perçue → Plaisir a 0.579 0.0324 17.85 < .001
37
Path Estimates
Label Estimate SE Z p
Plaisir → Intention_Achat b 0.757 0.0804 9.41 < .001
Facilité_utilisation_perçue → Intention_Achat c 0.110 0.0670 1.64 0.102
Oui, car a x b est positif et p < 0,05.
C’est le PLUS IMPORTANT, L’INTERVALE DE CONFIANCE, le p value aussi mais
l’intervalle de confiance plus.
Quand c’est significatif excluant zéro
Quand ce n’est pas significative incluant
La facilite d’utilisation perçue influence positivement le plaisir, qui a son tour influence
positivement l’intention d’achat.
Pour voir le type de médiation, il faut regarder le chemin c comme il n’est pas significatif,
la médiation est complète.
Il n’y a pas de relation directe, cela passe par le plaisir.
b) La satisfaction médiatise-t-elle la relation entre les filtres des sites web et le
temps de visite ?
38
Mediation Estimates
95% Confidence Interval
Effect Label Estimate SE Lower Upper Z p
Indirect a×b 31.2 15.3 1.339 61.3 2.04 0.042
Direct c 20.7 19.9 -18.854 60.3 1.04 0.299
Total c+a×b 51.9 25.2 0.897 101.5 2.06 0.039
Path Estimates
95% Confidence
Interval
Label Estimate SE Lower Upper Z p
Filtre_site → Satisfaction a 0.364 0.180 0.0153 0.720 2.02 0.043
Satisfaction → Temps_visite b 85.857 7.358 71.5026 100.243 11.67 < .001
-
Filtre_site → Temps_visite c 20.718 19.947 60.261 1.04 0.299
18.8544
Pour voir le type de médiation, il faut regarder le chemin c comme il n’est pas significatif,
la médiation est complète.
39
Le temps de visite du site médiatise t-il la relation entre la facilité d’utilisation perçue et
l’intention d’achat ?
Le temps de visite ne méditai
La facilité d’utilisation influence l’intention d’achat sans prendre en compte le temps de
visite.
Car a x b n’est pas significatif, l’interval de confiance passe par zéro (0,001 -…).
Mediation Estimates
95% Confidence Interval
Effect Label Estimate SE Lower Upper Z p
Indirect a×b 0.0615 0.0308 0.00334 0.129 2.00 0.046
Direct c 0.4860 0.0638 0.34865 0.600 7.61 < .001
Total c+a×b 0.5475 0.0509 0.43898 0.646 10.76 < .001
40
Path Estimates
95% Confidence
Interval
Labe Estimat
SE Lower Upper Z p
l e
Facilité_utilisation_p 58.097 6.328 45.04 70.186 9.1 < .00
→ Temps_visite a
erçue 98 0 8 26 8 1
Intention_Ac 0.0010 4.95e 6.25e 0.0020 2.1
Temps_visite → b 0.032
hat 6 -4 -5 8 4
Facilité_utilisation_p Intention_Ac 0.4859 0.063 0.6003 7.6 < .00
→ c 0.349
erçue hat 7 8 3 1 1
41