Analyse de données
I- Introduction à l’analyse de
données
Donnée -> Processus ->
Information
Les cinq étapes d’une démarche
d’étude
II- Des données aux variables
Les entreprises sont aujourd’hui noyées sous l’information dans son
état brut. Une démarche analytique permet de créer, de gérer et de
diffuser cette connaissance dans l’organisation.
La statistique :
C’est la discipline qui permet d étudier les phénomènes à travers la
collecte de données leur traitement et l interprétation des résultats et la
présentation pour rendre ces données compréhensibles
Les statistiques descriptives:
décrire, résumer et représenter à l’aide de graphiques et de mesures
Les statistiques inférentielles :
utilise des probabilités et des modèles statistiques pour estimer
les paramètres de la population et tester des hypothèses sur la
population à partir de données d'échantillonnage.
Les statistiques multidimensionnelles ou exploratoires:
Prolongement des statistiques descriptives: l'ensemble des
méthodes de la statistique permettant de traiter
simultanément un nombre quel- conque de variables (il s'agit
d'aller au-delà de l'étude d'une seule ou de deux variables)
La modélisation statistique:
C’est une manière simplifiée et formalisée mathématiquement
de s’approcher de la réalité et, en d’autres termes, de décrire
les processus qui génèrent les données
1-Types de données
Secondaires : 2ème main Déjà disponibles
les données internes Etudes
documentaires
les données externes
Primaires : 1ère main Non disponibles
Etudes sur le terrain.
Les sources de données:
Traditionnellement, on distingue 3 grandes familles d'étude :
Les études documentaires: Sont des synthèses réalisées à partir de documents
connus existants
Les études quantitatives : décrire, mesurer, prévoir et tester des attitudes et
des comportements. Elles sont réalisées à partir d'un questionnaire administré
à un échantillon représentatif d'individus.
Les études qualitatives: comprendre, explorer les motivations et les besoins,
qui sont des objets d'étude moins concrets et plus difficiles d'accès, à la
consommation d'un produit.
EXEMPLES
Etude documentaire : un relevé de prix réalisé en magasin pour
connaître l'évolution des prix de vente au consommateur sur un
marché donné.
Etude quantitative : les attitudes et les comportements des
consommateurs vis-à-vis de leur fréquence de consommation.
Etude qualitative : Connaitre la motivation, le pourquoi de leur
consommation.
Les types d'études quantitatives
Les études ad-hoc : elles sont réalisées « sur
mesure » pour le compte d'un seul demandeur.
Les omnibus : ce sont des études périodiques,
réalisées pour le compte de plusieurs demandeurs,
sur le même échantillon, comprenant plusieurs
groupes questions spécifiques à chaque demandeur.
Les panels : ce sont des études périodiques
réalisées pour plusieurs clients, sur des questions
identiques d'une étude à l'autre. Entre 2 000 ET 10
000 participants
Les baromètres : Ils suivent l'évolution d'indices propres à des
marques ou à des produits pour le compte de plusieurs clients
(exemple : les baromètres d'image dans lesquels on observe
l'évolution de l'image des marques dans le temps, sur
plusieurs critères comme la qualité perçue de la marque, son
aspect « cher, « jeune », etc.).
Les marchés test : ce sont des études ponctuelles réalisées
pour un seul client (donc totalement confidentielles) afin
d'évaluer les chances de succès d'un produit (le marché test
peut être effectué en réel, dans des vrais magasins implantés
dans une ville ou en fictif, dans des « faux » magasins
reconstitués pour le protocole d'étude)
Les types d'études qualitatives
l’entretien individuel : étude qualitative dont l’objectif est
de recueillir le discours individuel. On distingue l’entretien
non directif (libre propos), semi-directif (intervention et
thèmes), directif (guide d’entretien strict, questions
ouvertes), associatif ou projectif (analogie, associations de
mots, compléments de phrases, jeux de rôle, etc.);
la réunion de groupe : étude qualitative libre et non
structurée d’un groupe de 8 à 12participants, conduite par
un animateur. La discussion libre repose sur les
phénomènes de psychologie collective des groupes
restreints, fondée notamment sur les travaux de Kurt Lewin
2- L'échantillon
Définir l’échantillon, c’est sélectionner les catégories de personnes que
l’on veut interroger
Dans le cadre d'une enquête qualitative, l'échantillon comporte un
petit nombre d'individus (15 à 20), qui présentent des profils variés,
afin de pouvoir dresser un portrait le plus exhaustif possible du sujet
étudié.
Il n'a donc aucune validité statistique : on ne cherche pas à
représenter statistiquement la population, mais à identifier
l'ensemble des situations possibles.
Généralités
Recensement /
Echantillonnage?
Recensement : Tous les sujets
de la population sont « examinés
»
Echantillonnage : Une partie
des sujets de la population sont «
examinés »
ÞL’échantillon en lui-même n’est
pas intéressant, ce sont les
conclusions sur la population que
l’on peut tirer de son observation
qui en font l’intérêt : Inférence
Étapes pour sélectionner un
échantillon
Établir les objectifs de l’enquête
Évaluer les avantages et les inconvénients d’un
recensement par rapport à un échantillon.
Étapes pour sélectionner un
échantillon
Définir la population cible
C’est la population totale étudiée.
Il faut définir les unités qui composent la population sous
forme de caractéristiques les identifiant :
Nature des données dont on a besoin : sur des personnes,
des sociétés, des institutions…
Emplacement géographique : périmètre géographique
(région, département…)
Période de référence : Date (t1 t2)
Autres caractéristiques : caractéristiques
sociodémographiques par exemple
Étapes pour sélectionner un
échantillon
Fixer le degré de précision
dépend notamment de la méthode d’échantillonnage et de
la taille de l’échantillon
Quel degré peut-on
accepter ?
Il faut établir un compromis entre le degré d’incertitude et
le budget disponible pour l’enquête
La population observée
La population cible est différente de la population
observée.
L’enquête prend en compte une population dite «
population observée » :
Par exemple, certains membres de la population cible ne
sont pas observés du fait du coût de la collecte des
données
Les conclusions ne s’appliqueront qu’à la population
réellement observée
La base de sondage
Permet d’avoir accès à la population
Deux types:
Les Les bases
nomenclatures aléatoires
Liste de noms et d’adresses Liste de « régions » qui
qui donnent directement donnent accès indirectement à
accès à des unités des unités
Exemple : Exemple :
• Fichiers ONE • Quartier d’une ville
• Liste des étudiants • Service d’une
inscrits en filière administration
commerce.
• Annuaire téléphonique
Les unités d’enquête
L’unité d’échantillonnage
Fait partie de la base de sondage
Peut être ou non sélectionnée
L’unité déclarante
Fournit l’information qu’exige l’enquête
L’unité d’analyse ou de référence
C’est l’unité au sujet de laquelle l’information est fournie
Exemple
Enquête sur les nouveau-nés
Unité d’échantillonnage :
Ménage
Unité déclarante
L’un des deux parents ou le tuteur
Unité d’analyse
Le nouveau-né
La taille de l’échantillon
Estsouvent un compromis entre le degré de
précision à atteindre et le budget de
l’enquête mais aussi d’autre contraintes
opérationnelle comme le temps disponible
Repose notamment sur :
La variabilité des caractéristiques que l’on mesure
La taille de la population
Les méthodes d’échantillonnage et d’estimation
Deux approches pour construire un
échantillon
Méthodes aléatoires Méthodes non aléatoires
(probabiliste) (non probabiliste)
Chaque unité a une
chance que l’on peut
quantifier d’être
sélectionnée
Les méthodes aléatoires
L’échantillon aléatoire simple
L’échantillonnage systématique
L’échantillonnage avec une probabilité
proportionnelle à la taille
L’échantillonnage stratifié
L’échantillonnage en grappes
L’échantillonnage à plusieurs degrés
L’échantillonnage à plusieurs phases
L’échantillonnage aléatoire simple
Principe: consiste à choisir des individus de
telle sorte que chaque membre de la
population a une chance égale de figurer
dans l’échantillon.
Ce choix peut se faire avec remise ou sans
remise :
Avec remise, un individu peut être choisi
plusieurs fois
Sans remise, un individu déjà choisi ne peut
l’être de nouveau. C’est le cas habituel.
L’échantillonnage aléatoire simple
Avantage de cette méthode : On peut
espérer un échantillon «représentatif »
puisque la méthode donne à chaque individu
de la population une chance égale.
Difficultés : la méthode n’est applicable
que lorsqu’il existe une liste exhaustive de
toute la population.
Comment procéder ?
A- Procédure générale
1. On numérote tous les individus de la liste correspondant
aux individus de la population avec des nombres
comportant un même nombre de chiffres.
2. En utilisant une table de nombres aléatoires ou un
programme informatique, on obtient des nombres
aléatoires comportant le nombre de chiffres désiré.
3. on s’arrête après avoir sélectionné n individus
(n représentant le nombre d’individus souhaités
dans l’échantillon)
Application:
Choisir au hasard un échantillon de 10 personnes parmi les
individus numérotés de 100 à 199 d’une population de 100
individus
L’échantillonnage systématique
Principe: L’échantillonnage systématique est
une méthode qui exige aussi l’existence
d’une liste de la population où chaque
individu est numéroté de 1 jusqu’à N.
Notons:
- n, le nombre d’individus que doit
comporter l’échantillon (la taille de
l’échantillon).
- L’entier voisin de N/n sera noté r et appelé
raison de sondage.
L’échantillonnage systématique
Pour constituer l’échantillon il faut :
Choisir au hasard un entier naturel d entre 1 et r (cet
entier sera le point de départ),
L’individu dont le numéro correspond à d est le premier
individu,
Pour sélectionner les autres, il suffit d’ajouter à d la raison
de sondage : les individus choisis seront alors ceux dont les
numéros correspondent à
d+r
d + 2r
d + 3r
etc.
L’échantillonnage systématique
Avantages : facile à sélectionner parce qu’un seul
individu est choisi au hasard.
On peut obtenir une bonne précision parce que la
méthode permet de répartir l’échantillon dans
l’ensemble de la liste.
Désavantages : Les données peuvent être biaisées
à cause de la périodicité.
Application : Étudier les déplacements par autobus
sur 365 jours en prenant un échantillon de taille 60.
(N=365 jours et n=60).
L’échantillonnage systématique
Exemple:
On a une population de 400 individus, on veut un échantillon
de 100 individus
R = 400/ 100 = 4
On a donc que 4 échantillons possibles
1, 5, 9, …. 397
2, 6, 10, … 398
3, 7, 11, ….399
4, 8, 12, … 400
Si la population est distribuée au hasard dans la base de
sondage, un échantillonnage systématique donnera des
résultats similaire à ceux d’un échantillonnage aléatoire
simple
Cette méthode est très utilisée dans les contrôles de qualité
L’échantillonnage stratifié
Démarche de sélection :
[Link] subdivise la population en strates (groupes
relativement homogènes) qui sont mutuellement
exclusives
[Link] à son importance dans la
population, on calcule combien il faut d’individus
au sein de l’échantillon pour représenter chaque
strate.
[Link] des strates, on choisit au hasard
le nombre nécessaire d’individus
L’échantillonnage stratifié
Lesvariables de starification doivent
être :
Simple à utiliser
Facile à observer
Étroitement reliées au thème de l’enquête
L’échantillonnage stratifié
Avantages : Il est peu probable de choisir un échantillon absurde
puisqu’on s’assure de la présence proportionnelle de tous les divers
sous-groupes composant la population.
Désavantages : La méthode suppose l’existence d’une liste de la
population. Il faut aussi connaître comment cette population se
répartit selon certaines strates.
Exemple : choisir par échantillonnage stratifié 10 étudiants dans un
groupe de 60, en tenant compte du fait que 50% d’entre eux sont en
1ère année, 30% en 2ème année et 20% en 3ème année.
L’échantillonnage par grappes
Dans les méthodes précédentes, l’unité statistique
était choisie individuellement.
La technique de l’échantillonnage en grappes
entraîne la division de la population en groupes ou
grappes.
On sélectionne au hasard un certain nombre de
grappes (unités primaires) pour représenter la
population.
On sélectionne tous les individus des grappes choisies
L’échantillonnage par grappes
Avantages : la méthode ne nécessite pas une liste globale de la
population puisque seules les individus inclus dans les grappes
comptent. Elle permet de limiter l’échantillon à des groupes compacts
ce qui permet de réduire les coûts de déplacement, de suivi et de
supervision.
Désavantage : la méthode peut entraîner des résultats imprécis
(moins précis que les méthodes précédentes) puisque les unités
voisines ont tendance se rassembler. Elle ne permet pas de contrôler
la taille finale de l’échantillon.
Exemple : Choisir par grappes 600 individus à l’aide d’un certain
nombre de ménages.
L’échantillonnage à plusieurs degrés
Ressemble à l’échantillonnage en grappes, sauf
que dans ce cas on prélève un échantillon à
l’intérieur de chaque grappe
On a au moins deux degrés
On identifie au premier les grandes grappes (unités
primaires). Ces grappes renferment plus d’unités qu’il
n’en faut dans l’échantillon
Au second degré, à l’intérieur de chaque grappes, on
sélectionne les unités (unités secondaires) qui vont
faire partie de l’échantillon
On peut utiliser plus de 2 degrés :
Niveau 1 : Ville
Niveau 1 : Établissement d’enseignement
Niveau 3 : Etudiants
Méthodes empirique ou non
aléatoires
On oppose aux méthodes aléatoires les méthodes
non aléatoires.
Principe: Les méthodes non aléatoires sont des
méthodes où le concept de «chance égale» est
absent. Ce sont des méthodes généralement peu
fiables.
Elles ne nécessite pas de base de sondage
Elles sont souvent utilisées
pour des études exploratoires;
pour réduire les coûts;
quand il est impossible ou non envisageable d’utiliser la
méthode aléatoire.
Méthodes non aléatoires
On distingue :
l’échantillonnage à l’aveuglette ou de commodité : Ex.: ..
Déguster un échantillon d’huile d’olive.
L’échantillonnage de volontaires : Ex : Expériences médicales
ou psychologiques.
L’échantillonnage au jugé : cette méthode implique la
sélection d’individus en fonction de l’idée qu’on se fait de la
composition de la population. On le fait pour des essais auprès
des groupes cibles.
L’échantillonnage par quotas : il est largement utilisé dans les
enquêtes d’opinion et les études de marché notamment parce
qu’il ne suppose pas de liste des individus de la population.
Échantillon « boule de neige » : L’échantillon est construit
progressivement sur proposition des individus sondés.
Exemple d’échantillon par quotas simples:
Un échantillon de 1000 personnes devra être
composé de:
Méthodes non aléatoires
Avantages : Moins coûteuse et plus facile à
réaliser.
Désavantages: Beaucoup de non-réponses;
difficulté de trancher lorsqu’il s’agit de sélectionner
des individus d’un groupe d’âge ouvert (Ex : 65 ans
et plus : faut-il prendre 66 ans, 70 ans …).
Les erreurs
Lesméthodes d’échantillonnage peuvent
être sources d’erreurs. Un certain nombre
d’erreurs pourront être éliminées, certaines
pourront être réduites, mais d’autres
persisteront.
3- La variable
C’est
la description d’un caractère observé
dans la population
Variables qualitatives
leurs modalités, c’est-à-dire la manière dont
les observations sont regroupées, ne peuvent
être calculées:
Ordinales
Nominales
Variables quantitatives:
Les modalités sont mesurables et les tests
envisageables sont nombreux.
Discrètes
Continues
Les Échelles de Mesure:
Vise à quantifier un élément
Attribution d’un symbole ou d’un chiffre à
une caractéristique d’un objet ou d’une
personne
Par exemple, degré de satisfaction
Les échelles de mesure
Elles ont pour objet de fournir au répondant un support d’expression des
phénomènes complexes à observer, le plus souvent sous la forme
d’échelles de notation :
L’échelle nominale a pour principe d’utiliser les nombres comme
des étiquettes afin de classer chacune des modalités.
Exemple : Êtes-vous? 1. Un homme 2. Une femme
L’échelle ordinale est une échelle de classement comme l’échelle
nominale, dans laquelle les nombres attribués à chaque modalité ont
une relation d’ordre avec l’autre
Exemple : Notez de 1 à 5 la qualité gustative du produit X (1 étant la
note la plus faible, 5 la note la plus élevée) :
1 2 3 4 5
L’échelle métrique:
possède les propriétés des échelles nominales et ordinales,
elle permet également de comparer les distances entre les objets, les
modalités étant séparées par des espaces équidistants
III- LES STRATEGIES D’ANALYSE:
Les méthodes d’analyses
Descriptif/explicatif:
représentation des données
Modélisation des données
typesde variables traitées
nombre de variables traitées
Analyse univariée
Les analyses univariées concernent le traitement d ’une seule
variable
Elles ont pour objet de synthétiser et d ’analyser les
informations disponibles sur cette variable
Ces données peuvent provenir de sources différentes
données d ’observations
données expérimentales
séries statistiques
résultats d ’une question posée dans le cadre d ’un
sondage
1. LA CODIFICATION
Objectif : représenter les données brutes de la
recherche par des nombres pour en faciliter le
traitement.
Exemple : Codes
numérique
s
Veuillez indiquer votre intérêt pour le cinéma.
1
J’ai très peu d’intérêt pour le cinéma ____
2
J’ai moyennement d’intérêt pour le cinéma ____3
J’ai beaucoup d’intérêt pour le cinéma ____
SITUATIONS DE CODIFICATION : 1/4
Variables non métriques comportant une seule
affectation
Exemple
Quel est votre statut civil ?
Marié(e) _____
Célibataire _____
Séparé(e) _____
Veuf(ve) _____
SITUATIONS DE CODIFICATION : 2/4
Variables métriques
1. Estimez-vous qu’en matière d’achat d’automobiles
vous êtes :
Très inexpérimenté 1 2 3 4 5 6 7 Très expérimenté
2. Quel âge avez-vous ? _____
SITUATIONS DE CODIFICATION : 3/4
Variables non métriques comportant plusieurs
affectations
Exemple
Quelles sont les catégories de film que vous appréciez ? (Cochez
autant de catégories que nécessaire).
Action Guerre
Aventure Histoire
Biographie Policier
SITUATIONS DE CODIFICATION : 3/4
Variables non métriques comportant plusieurs
affectations (suite)
Exemple
Veuillez choisir les cinq catégories de film que vous appréciez le
plus. Indiquez pour chacune votre préférence en utilisant les
nombres de 1 à 5 (1=la plus préférée,… 5= la moins préférée).
Action
Guerre
Aventure
Histoire
Biographie
Policier
SITUATIONS DE CODIFICATION : 4/4
Questions ouvertes
Exemple
Que pensez-vous de la dernière publicité télévisée
de Coca ?
2- DESCRIPTION DES DONNEES:
Décrire et synthétiser les résultats de la recherche en
analysant les variables une à la fois.
Dans le cas de variables non métriques, on utilise des
distributions de fréquences.
Dans le cas de variables métriques, on utilise les statistiques
descriptives
Données qualitatives
(nominales)
Dans le cadre d ’un questionnaire, elles apparaissent
chaque fois que la personne interrogée à le choix
entre plusieurs modalités qui lui sont proposées
explicitement ou implicitement (cas d ’une question
ouverte avec post-codification)
Pour chaque individu i, la réponse correspond à un
code ou éventuellement à plusieurs si le choix est
multiple
Sur l ’ensemble de la population enquêtée, on calcule
alors la fréquence absolue (le nombre de fois qu’un
code j donné est apparu pour la variable k étudiée)
Données qualitatives
(ordinales)
Dans le cadre d ’un questionnaire, elles apparaissent
chaque fois que la personne interrogée se voit
demander de classer plusieurs items proposés
Sur l ’ensemble de la population enquêtée, il sera
ainsi possible de comptabiliser :
le
nombre de fois qu’un item donné a été classé
en 1ère position, en 2e, …, en me
Lenombre de fois qu’un item donné a été classé
avant un autre item; ce type de résultats
permettra d’établir une matrice des préférences
DÉCRIRE UNE VARIABLE
QUALITATIVE
La description d’une variable qualitative consiste à
présenter les effectifs, c’est-à-dire le nombre
d’individus de l’échantillon pour chaque modalité de
la variable, et les fréquences, c’est-à-dire le nombre
de réponses associées aux modalités de la variable
étudiée.
Données quantitatives
(métriques)
Dans le cadre d ’un questionnaire, elles
apparaissent chaque fois que la personne
interrogée se voit demander la valeur qu’elle
donne à la variable concernée
Pour chaque individu i, une valeur Xik sera
obtenue pour cette variable. Si l ’enquête porte
sur n individus, la variable sera associée à un
vecteur de n éléments
La synthétisation de ces données peut être
réalisée à travers le calcul de divers indicateurs
que fournissent la plupart des logiciels
DÉCRIRE UNE VARIABLE
QUANTITATIVE
les mesures de la tendance centrale : moyenne,
médiane, mode ;
les mesures de la dispersion : étendue, variance,
écart type, coefficient de variation;
les mesures de la distribution : asymétrie,
aplatissement;
les représentations graphiques : histogrammes ou
boîtes à moustaches, par exemple.
Les mesures de position
cherchent à résumer par une caractéristique de tendance
centrale les niveaux pris par une variable
Le mode Modalité pour laquelle les observations sont les
plus nombreuses (Mo)
Valeur qui divise la population étudiée en deux
La médiane parties égales (Me)
Généralement considérée comme représentant
La moyenne « naturellement » la tendance centrale de la
distribution d’une variable numérique :somme des
réponses divisée par le nombre de réponses
XA k = Xik / n
Les mesures de dispersion
mesurent la plus ou moins grande dispersion des valeurs
autour de leur tendance centrale
Intervalle qui sépare les deux
L’étendue valeurs extrêmes :
E = Xmax - Xmin
La variance Moyenne des carrés des écarts par
rapport à la moyenne (obtenue sur
échantillon) :
XA
S²k = (Xik - )² / (n-1)
k
Racine carrée deX la
A variance :
L’écart-type Sk = [ (Xik - k)² / (n-1)]
1/2
Pourcentage permettant de
Le coefficient de variation comparer la dispersion de variables
ayant des moyennes X Adifférentes :
C.V. = Sk / k
Relation entre l’écart type et la
courbe normale
MOYENNE
Écart type = Écart type =
-1 +1
-2 +2
-3 +3
99% 68% 68% 99%
95% 95%
Les mesures de la distribution
On mesure la symétrie et la forme de la distribution par
l’asymétrie et l’aplatissement. Ces statistiques sont présentées
avec leur erreur standard.
Symétrie de la distribution
coefficient de symétrie (skewness)
mesure indiquant que les déviations par rapport à la moyenne sont plus
importantes dans une direction
Une distribution normale est symétrique : skewness de 0
une distribution asymétrique à droite : skewness positif significatif
une distribution asymétrique à gauche : skewness négatif significatif
Symétrie de la distribution
Distribution
symétrique
Distribution
asymétrique
Moyenne
Médiane
Mode
Moyenn Mode
e
Médiane
Aplatissement de la distribution
Le coefficient d’aplatissement (kurtosis) permet de mesurer le relief
ou la platitude d’une courbe issue d’une distribution de fréquences
Mesure indiquant que la courbe de la distribution de fréquence est
plus plate (si valeur négative), ou moins plate (si valeur positive),
par rapport à une courbe normale
Aplatissement d’une distribution normale = 0
Aplatissement de la distribution
Courbe concentrée
Kurtosis = positif
Courbe normale
Kurtosis = 0
Courbe plate
Kurtosis = négatif
3-Introduction à l’analyse des
données sur SPPS
SPSS [Link]