0% ont trouvé ce document utile (0 vote)
747 vues50 pages

Analyse Statistique Univariée et Bivariée

Transféré par

sarahsora55
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
747 vues50 pages

Analyse Statistique Univariée et Bivariée

Transféré par

sarahsora55
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement et analyse des

données
Enseignant : Dr MAHOUI Karim
Démarche
• Rappel sur les échelles de mesure : types de variables
• Faire des aller-retour
• Importance des définitions et du processus d’opérationnalisation
• Types d’analyse:
• 1ère classification : analyses univariée, bivariée et multivariée
• 2e classification: statistique descriptive/exploratoire, statistique inférentielle
• Pour les analyse univariée et bivariée : voir cours de Dimitri Coll, Chargé de cours HEC de Montréal
• Pour le choix des tests (approfondissement du cours ci-dessus), Voir les deux sources suivantes (voir videos) : site de
claude Goulet (planet psy) :lien suivant : [Link] ainsi que le site
biostatgv sur le panorama des tests d’hypothèses [Link]
• Analyse multivariée: voir panorama des methodes (différentes figures).Voir fichier de wikipédia pour la classification
des différentes methodes
• Pour la mise en oeuvre de la regression simple et multiple : utiliser soit spss (voir le site de l’université de Sherbrook):
[Link] très pratique; soit Eviews, voir des applications dans le domaine FCI sur le
site en anglais! ) de Dave Smant : [Link]
eviews-programming
• Pour les analyses multivariées, je préconise XLSTAT (facilité d’uilisation)
Rappel de quelques notions
• Variable: une caractéristique des objets de l’étude. Ex. le revenu
d ’une personne; le taux de chômage d ’une commune, wilaya,
région, pays…
• Sur la base d’une hypothèse, on peut ensuite distinguer entre:
• Variable indépendante ( X, ou causale, ou explicative ou exogène)
• Variable dépendante (Y, ou expliquée ou endogène)
• Variable intermédiaire
Rappels de quelques notions
• Indicateurs: caractéristiques mesurables qui permettent de situer
les objets étudiés sur des dimensions
• Indice: combinaison de plusieurs indicateurs qui permet de
mesurer une dimension ou un concept
• Opérationnalisation:
Concept → dimension → indicateurs
Typologie des échelles de mesures
Tests statistiques – Définition et principes
• Les tests statistiques font partie de ce que l’on appelle la statistique
inférentielle.
• Au contraire de la statistique descriptive, on va utiliser des lois de
probabilités afin de prendre une décision dans une situation faisant
intervenir une part de hasard. Effectivement, dans les tests statistiques,
on ne va pas travailler sur une population mais sur un échantillon.
• Les tests statistiques sont ainsi souvent utilisées pour isoler une partie
de la population d’une influence. On forme ainsi une population témoin.
Par exemple :
• Dans le domaine médical, on isole 2 échantillons : le premier soumis a
un médicament et le second non soumis. On observe ainsi l’effet du
médicament.

[Link]
Typologie des test
1ère typologie: test paramétrique et test non paramétrique
•Tests paramétriques : Test des paramètres de la série en faisant
l’hypothèse d’une distribution (souvent normal)
•Tests non paramétriques : Test de la série sans hypothèse de
distribution.

Source : [Link]
• Finalité du test
• Conformité : La valeur observée dans mon échantillon est bien celle attendues
(correspondant à un standard)
• Adéquation : La série suit la même distribution qu’une loi choisie à priori (souvent
la loi normale)
• Homogénéité : Les échantillons proviennent de la même population, ie la variable
d’intérêt a le même comportement sur l’ensemble des échantillons
• Indépendance : il existe une liaison entre les variables.
• Type de variables
• Qualitatives
• Quantitatives
• Nombre et le type d’échantillons
• Un seul échantillon
• Deux ou plus échantillons
• Appariés
• Indépendants
2nd typologie: nbre de variables
Autres arbres de décision
• Xlstat guide : [Link]
test-statistique?language=fr
• Site Biostat TGV : [Link]
• Site Bioinfo : [Link]
• Site claude goulet:
[Link]
nes/[Link]
Analyse des données
1. Analyse statistique univariée
des données
Source : Dimitri Coll, Chargé de cours HEC de Montréal

13
L ’ANALYSE STATISTIQUE UNIVARIÉE
• Décrire et synthétiser les résultats de la recherche en analysant
les variables une à la fois.

• Dans le cas de variables non métriques, on utilise des


distributions de fréquences.

• Dans le cas de variables métriques, on utilise les statistiques


descriptives (mesures de tendance centrale et de dispersion)

14
L ’ANALYSE STATISTIQUE UNIVARIÉE
Tendance
Échelles Dispersion Graphique
centrale

Pie chart
Nominale Mode -
Histogramme
Variable
non
métrique Pie chart
Ordinale Mode -
Histogramme
Médiane

Mode
Écart type
Médiane Histogramme
Métrique Étendue
Moyenne
15
2. Analyse statistique bivariée
des données

16
LES TYPES DE RELATION
Les analyses bivariées :
• Vérifient les relations entre deux variables
• 2 types de relation bivariée :
• les relations de dépendance (plus fréquentes)
• Deux variables :
Une variable peut jouer le rôle de
variable dépendante
• variable indépendante
dans un contexte donnée et agir
à titre de variable indépendante
• variable dépendante dans un autre.

• les relations d’interdépendance


• Dans une relation d’interdépendance les 2 variables s’influencent
mutuellement
17
LES TYPES DE RELATION
Les analyses bivariées :

• Exemple de relation de dépendance

Appréciation
Âge de la marque X

Exemple : L’âge permet-il d’expliquer l’attitude envers la marque X ?

• Exemple de relation d’interdépendance

Appréciation de Appréciation de
la marque A la marque B

Exemple : Quelle est la différence d’appréciation entre la marque X et la marque Y ?


18
DÉMARCHE DE L'ANALYSE BIVARIÉE
Déterminer l’échelle de mesure des questions

Déterminer le test approprié

Faire le test

Interpréter le résultat

19
LE CHOIX D ’UNE TECHNIQUE D’ANALYSE
APPROPRIÉE
ÉCHELLE DE MESURE DE
LA DEUXIÈME VARIABLE
Nominale D’intervalles
ou Ordinale ou de ratio

Nominale Tableau Comparaison


ou Ordinale croisé de moyennes
ÉCHELLE DE MESURE DE
LA PREMIÈRE VARIABLE
D’intervalles Comparaison Corrélation
ou de ratio de moyennes ou régression

20
Deux variables Une variable non Deux variables
non métriques métrique et une métriques
variable métrique
Type Tableau croisé Comparaison de Corrélation ou
d’analyse moyennes régression

2 t (2 moyennes) t (corrélation,
Tests
statistiques  (si les F (2 moyennes ou régression)
variables sont plus) F (régression)
ordinales)

Force de la V de Cramer  eta r (corrélation)


relation  gamma (si R (régression)
les variables
sont ordinales)
Deux variables Une variable non Deux variables
non métriques métrique et une métriques
variable métrique
Interprétation Fréquences et Moyennes de Ordre de grandeur
pourcentages groupe et signe du
dans le tableau coefficient

À surveiller
Fréquences Taille des Dispersion des
observées et groupes, valeurs variables
théoriques extrêmes (linéarité) et
% de cell avec valeurs extrêmes 21
moins de 5 rep
DÉMARCHE DE L'ANALYSE BIVARIÉE
Déterminer l’échelle de mesure des questions

Déterminer le test approprié


Contrepartie : H1

Faire le test

Évaluer la significativité de la relation


entre les variables Déterminer H0

Tester H0
Déterminer la force de la relation

Accepter/Rejeter
Déterminer le sens de la relation H0

Interpréter le résultat 22
L ’analyse des tableaux
croisés : Le test
d’indépendance Chi2

23
L ’ANALYSE DES TABLEAUX CROISÉS
Procédure de test
• On pose l’hypothèse nulle :

• H0 : Il n’y a pas de relation entre les deux variables.


• H1 : Il y a une relation entre les deux variables.

• On rejette l’hypothèse nulle (on conclut que la relation existe dans


la population) si :

24
L ’ANALYSE DES TABLEAUX CROISÉS

La statistique khi2
Les fréquences théoriques sont les fréquences
que l’on obtiendrait si les variables dépendante et
indépendante ne sont pas associées
(indépendantes).

25
L ’ANALYSE DES TABLEAUX CROISÉS

Logique du test d ’indépendance du khi2


• La statistique x2
• un indice de la distance entre les fréquence théoriques et les fréquences
observées.

• Plus la valeur de x2 est grande, plus on croit que les deux variables sont
associées.
• Rejet de l'hypothèse H0

• la relation existe dans la population lorsque la valeur de x2 est trop


improbable,
• plus précisément lorsque la probabilité d’observer une telle valeur est inférieure à
0,05 (règle de la valeur p).
• sous l’hypothèse que les deux variables sont indépendantes

26
L ’ANALYSE DES TABLEAUX CROISÉS
• La valeur p (ou seuil de significativité)…

• … correspond au % de chance que H0 (2 =0) soit vrai.

• NOTEZ: La relation entre les variable est significative lorsque p


≤ 0,05

27
L ’ANALYSE DES TABLEAUX CROISÉS
La force de la relation
V de Cramer :
0 ≤V≤1
Interprétation qualitative de la statistique V

V  0,70 relation très forte


0,50  V  0,69 relation forte
0,30  V  0,49 relation modérée
0,10  V  0,29 relation faible
0,01  V  0,09 relation très faible
V = 0,00 relation nulle
28
Cas des variables
ordinales
L ’ANALYSE DES TABLEAUX CROISÉS :
CAS DES VARIABLES ORDINALES
• L’analyse du x2 appropriée pour des variables nominales ou ordinales
• Lorsque les deux variables sont mesurées à l’aide d’une échelle
ordinale, on peut procéder à une analyse complémentaire à l’aide de la
statistique gamma ().
• La statistique  mesure le sens et la force de la relation entre deux
variables ordinales dans une relation linéaire :
• -1≤  ≤ 1

• Important : Nécessité d’un échantillon assez grand
• L'interprétation se fait à partir du schéma d'interprétation du V de
Cramer
30
L ’ANALYSE DES TABLEAUX CROISÉS

Important…
• Il est important de s’assurer que les fréquences à l’intérieur du tableau
sont suffisamment grandes.
Règles :
• - Oij  1
• - Tij  1
• - max. entre 25 % et 30 % de Tij ¸< 5
Regroupement de catégories (recodification)

31
Comparaison de
deux moyennes
indépendantes

32
COMPARAISON DE DEUX MOYENNES INDÉPENDANTES

Exemple État civil Dépenses

Variables non métriques


2 personnes différentes Homme Femme

350 $ 245 $
325 $ 195 $
Variables métriques … …
290 $ 220 $
33
X1 = 318 $ X2 = 222 $
COMPARAISON DE DEUX MOYENNES
INDÉPENDANTES : LA PROCÉDURE DE TEST
On pose l’hypothèse nulle :
H0 : Il n’y a pas de relation entre les deux variables.
H1 : Il a une relation entre les deux variables

On rejette l’hypothèse nulle (on conclut que la relation existe dans la population) si :
Test bilatéral Test unilatéral
t > t0,025 t > t0,05 (à droite)
ou < -t0,025 ou t < t0,05 (à gauche)
dans les deux cas,  = n1 + n2 - 2 (degrés de liberté).

34
COMPARAISON DE DEUX MOYENNES
INDÉPENDANTES : LA FORCE DE LA RELATION
On peut mesurer la force de la relation entre les deux variables par
le biais de l’indice suivant, qu’on appelle la statistique eta «  »:

2
t
= 2
t + n1 + n2 − 2

0 ≤  ≤ 1

Aucune relation Relation parfaite

35
COMPARAISON DE DEUX MOYENNES APPAREILLÉES

Appréciation de Appréciation de
la marque A la marque A

X1A X1B
X2A X2B
… …
XnA XnB

XA XB

Mêmes personnes ou personnes appareillées

36
COMPARAISON DE PLUSIEURS
MOYENNES INDÉPENDANTES (ANOVA)
Exemple
État civil Dépenses

Marié Célibataire Divorcé

350 $ 245 $ 375 $


325 $ 195 $ 350 $
… … …
290 $ 220 $ 310 $

Xm = 318 $ Xc = 222 $ Xd = 379 $


37
COMPARAISON DE PLUSIEURS MOYENNES
INDÉPENDANTES : LA PROCÉDURE DE TEST
On pose l’hypothèse nulle :

H0 : Il n’y a pas de relation entre les deux variables.


H1 : Il a une relation entre les deux variables

On rejette l’hypothèse nulle (on conclut que la relation


existe dans la population) si :

38
COMPARAISON DE DEUX PLUSIEURS
MOYENNES INDÉPENDANTES : LA LOGIQUE DU
TEST
On conclut que la relation existe dans la population
• lorsque la valeur de F est improbable,
plus précisément…
• lorsque la probabilité d’observer une telle valeur
est inférieure à 0,05 (règle de la valeur p).

39
COMPARAISON DE PLUSIEURS MOYENNES INDÉPENDANTES :
LA FORCE DE LA RELATION

On peut mesurer la force de la relation entre les


deux variables par le biais de l’indice suivant, qu’on
appelle la statistique eta :
SCG
=
SCT
SCG = somme des carrés entre les groupes
SCT = somme des carrés totale
0<<1

Statistique non fournie par spss


40
L’analyse de
corrélation

41
L ’ANALYSE DE CORRÉLATION

• Variables mesurées avec des échelles métriques.


• Établir si l’augmentation des valeurs d’une des deux variables
entraîne systématiquement l’augmentation ou la diminution des
valeurs de l’autre variable.
• Relation linéaire

42
L ’ANALYSE DE CORRÉLATION

Y Y

X X

Covariation positive : r > 0 Covariation négative : r < 0

43
L ’ANALYSE DE CORRÉLATION

Y Y

X X

Covariations significatives Absence de covariation

44
COEFFICIENT DE CORRÉLATION DE
PEARSON
• Varie :
-1≤ r ≤ +1
• L'interprétation peut se faire à partir du
schéma d'interprétation du V de Cramer

45
L ’ANALYSE DE CORRÉLATION : LA PROCÉDURE DE TEST

On pose l’hypothèse nulle :


H0 : Il n’y a pas de relation entre les deux variables
. H1 : Il a une relation entre les deux variables

On rejette l’hypothèse nulle (on conclut que la relation


existe dans la population) si :
Test bilatéral Test unilatéral
t > t0,025 t > t0,05 (à droite)
ou < -t0,025 ou
t < t0,05 (à gauche)
dans les deux cas,  = n-2 (degrés de liberté).
46
L ’ANALYSE DE CORRÉLATION : LA
STATISTIQUE t
r
t=
1− r 2

n−2

r= Coefficient de corrélation
n= Taille de l’échantillon

47
L ’ANALYSE DE CORRÉLATION : LA LOGIQUE
DU TEST EN t
• On conclut que la relation existe dans la
population lorsque la valeur de t (sous l’hypothèse
que les deux variables sont indépendantes) est trop
improbable, plus précisément lorsque la probabilité
d’observer une telle valeur est inférieure à 0,05
(règle de la valeur p).

48
CONCLUSION SUR L ’ANALYSE
STATISTIQUE BIVARIÉE
• L’importance de l’interprétation.

• La signification statistique versus la signification pratique.

• Les relations non significatives.

• La force de la relation.

49
Conclusion sur les analyses univariée et
bivariée
• Première étape de l’analyse à proprement parler, la description des données
permet de représenter les valeurs observées sur les différents individus de
l’échantillon. L’analyse univariée, qui examine une seule variable à la fois,
repose sur la description (fréquences, tendance centrale, dispersion,
distribution), la visualisation graphique des variables et, éventuellement, sur
l’inférence, c’est-à-dire la comparaison à des valeurs de référence connues
pour déterminer si un échantillon diffère significativement d’une population
plus large. L’analyse bivariée permet d’aller plus loin par l’étude des relations
entre deux variables, grâce aux tris croisés et aux principaux tests d’analyse
bivariée : tests d’association (khi-deux) et tests de comparaison (test t, test U
de Mann-Whitney, etc.). Pour aller encore plus loin dans l’analyse, il faudra
mettre en place des analyses multivariées abordées dans les chapitres
suivants.

Vous aimerez peut-être aussi