Méthodologie, recueil et manipulation de données
Christophe Pallier
September 7-8, 2017
Préliminaires
Plan
1. Une peu d’épistémologie (Théorie de la connaissance)
2. Construction de questionnaires
3. Définition d’une population et stratégies d’échantillonages
4. Manipulation et exploration de données (avec R)
Ressources
• Lohr, S. (2010) Sampling Design and Analysis. Brooks/Cole.
• Zuur, Ieno Meester (2009) A Beginner’s Guide to R Springer
– Falissard, B. (2012) Analysis of Questionnaire Data with R. CRC
Press.
– Lumley, T. (2010) Complex Surveys: A guide to analysis using R.
Wiley (package survey)
Partie 1: Un peu d’épistémologie
La Méthode scientifique
• Une bonne théorie doit faire des prédictions testables.
“Si les pierres qu’on trouve actuellement sur Terre tombent quand on
les lâche, c’est parce que celles qui ne tombaient pas se sont toutes
envolées dans l’espace.”
méthodologie, recueil et manipulation de données 2
Figure 1: Des allers-retours entre
Observation/Expérimentation et
Théorie
Rien de plus pratique qu’une bonne théorie !
La théorie dit quoi regarder. Autrement dit, elle suggère les ques-
tions pertinentes.
Si vous n’avez pas théorie du fonctionnement d’un téléviseur, il
est difficile de le dépanner (Métaphore du “dépannage”. voir aussi:
développement logiciel, médecine, etc.)
Cependant, au début d’une recherche (dans sa phase exploratoire), il
existe souvent des questions a- théoriques.
Questions “a-théoriques”
Des questions purement empiriques, ou descriptives, peuvent présenter
de l’intérêt (ou non). Exemples:
• L’espérance de vie dépend-elle du niveau socio-économique?
(il faut le mettre en évidence avant de rechercher les causes:
meilleure hygiène de vie, soins, génétique,. . . )
• Les champs électro-magnétiques ont-ils des effets délétaires sur la
santé ?
• Y-a-t il un lien entre l’âge d’acquisition d’une seconde langue et le
niveau qu’on peut atteindre (indépendament des autres facteurs:
quantité d’exposition à la seconde langue, type d’enseignement) ?
• La taille ou la couleur de cheveux d’un invididu ont-ils des effets
sur son revenu ?
• Le signe astrologique a t-il une influence sur le caractère d’une
personne ?
méthodologie, recueil et manipulation de données 3
Observation vs. Expérimentation
Observer: Noter et rapporter les événements de manière systèma-
tique.
Expérimenter: manipuler des conditions et démontrer que des événe-
ments se reproduisent sous certaines d’entre elles.
Exemples de variables ne pouvant pas être manipulées directe-
ment:
• la taille d’une étoile et sa couleur.
• le poids, la taille, le sexe d’un individu.
• Le fait d’avoir une certaine maladie psychiatrique ou non.
Exemples de variables pouvant être manipulées (assignées arbi-
trairement à des individus):
• médicament actif vs. placebo
• aide sociale (économie expérimentale). Voir [Link]
org/articles/effective-social-program/
Corrélation et causalité
• L’existence d’une corrélation entre deux variables n’implique pas
de lien de causalité directe.
Figure 2: effet du nombre de Pirates sur
le réchauffement climatique
• Par exemple, s’il existe une corrélation entre la cylindrée de la
voiture familliale et le QI des enfants, cela est certainement dû à
méthodologie, recueil et manipulation de données 4
des variables tierces (niveau socio-économique,. . . ; on s’en doute
uniquement parce qu’on a une théorie!)
Figure 3: relations entre variables
• L’expérimentation, mieux que l’observation, permet de tester en
termes de causalité, l’impact d’une ou plusieurs variable(s) in-
dépendantes sur une ou plusieurs variables dépendantes.
• Néanmoins, même avec des données d’observation, on peut cal-
culer des coefficients de corrélations partiels et ajuster pour les effets
de variables de “contrôles”.
Claude Bernard (1877) Principes de médecine expérimentale.{smaller}
“Dans toutes les sciences, il y a deux états bien distincts à considérer.
Ce sont :
1. l’état de science d’observation ;
2. l’état de science expérimentale.
Ces deux états sont nécessairement et absolument subordonnés
l’un à l’autre. Jamais une science ne peut parvenir à l’état de science
expérimentale sans avoir passé par l’état de science d’observation.
Mais il y a des sciences auxquelles il n’est pas donné de pouvoir
parvenir à l’état de science expérimentale ; telle est l’astronomie, par
exemple.
Une science d’observation, ou science naturelle, se borne à ob-
server, à classer, à contempler les phénomènes de la nature et à
dédire des observations les lois générales des phénomènes. Mais
méthodologie, recueil et manipulation de données 5
elle n’agit pas sur les phénomènes eux-mêmes pour les modifier ou
en créer de nouveaux, pour agir sur la nature en un mot. Les sciences
qui, comme l’astronomie, s’occupent de phénomènes hors de notre
portée expérimentale, restent forcément des sciences d’observation.
Conséquence: Claude Bernard ne prenait pas au sérieux la théorie
de l’évolution de Darwin. . .
Conséquences pratiques
Choix de la procédure statistique pour quantifier la degré de relation
linéaire entre 2 variables :
• Dans une situation d’observation, on privilégie la corrélation simple
où les deux variables jouent un rôle symétrique.
Figure 4: Corrélation linéaire entre deux
variables
On calcule typiquement le coefficient de corrélation de Pearson :
2
σX,Y
r ( X, Y ) =
σX .σY
• Dans une situation expérimentale où les variables jouent des rôles
asymétriques — avec une variable “dépendante” et une variable
“indépendante” —, on utilisera plutôt la régression.
Yi = aXi + b + ei
Remarques sur le coefficient de corrélation
Le coeff. de corrélation ne reflète que la composante linéaire. Même
quand il est nul, il peut néanmoins exister une relation non-linéaire
entre les deux variables:
Ne jamais rapporter un coefficient de corrélation sans examen
graphique !
Pour en savoir plus :[Link]
and_dependence
méthodologie, recueil et manipulation de données 6
Figure 5: Les droites de régression de X
sur Y et de Y sur X diffèrent
Figure 6: Exemples de relations possi-
bles entre deux variables continues
méthodologie, recueil et manipulation de données 7
Figure 7: Les coefficients de corrélation
sont exactement les mêmes dans ces
quatre figures
Avantages de l’observation sur l’expérimentation
Les enquêtes ne font pas partie des recherches expérimentales: on n’y
manipule pas de variables, on se contente de les enregistrer.
Néanmoins, les enquêtes présentent certains avantages sur les
travaux expérimentaux:
• Les enquêtes sont typiquement moins coûteuses par individu, ce
qui permet d’obtenir des échantillons plus larges et plus représen-
tatifs (Les expériences sont typiquements réalisées sur des étudi-
ants sains et volontaires)
• Le résultat d’une enquête (bien menée) renseigne sur le “monde
réel” alors que la généralisabilité des expériences en laboratoire
peut être mise en doute (manque de validité écologique).
En pratique, les deux approches sont complémentaires. Toutes les
méthodes sont imparfaites, et des résultats convergents selon plusieurs
méthodes sont très appréciables.
Démarche exploratoire vs. descriptive, explicative
Induction et Déduction
• Le scandale de l’induction: aller du particulier au géneral n’est
pas logiquement valide.
méthodologie, recueil et manipulation de données 8
Figure 8: Il est important de bien
identifier le type de démarche
Un physicien, un mathématicien et un logicien voyagent dans un train
qui traverse la campagne. Ils croisent un champ où se trouve une vache
blanche.
Le physicien: “tiens, dans ce pays, les vaches sont blanches!” Le math-
ématicien: “Non: il y au moins un vache blanche dans ce pays.” Le
logicien: “Je te corrige: il y a au moins une vache avec un côté blanc.”
• Seule la déduction est logiquement valide.
Tous les hommes sont mortels, Socrate est un homme, donc Socrate est
mortel.
Et pourtant vive l’induction !
En réalité, on peut souvent faire le pari qu’il y a des régularités dans
les événements:
“Jusqu’à présent, le soleil s’est levé tous les matins, donc il se lèvera
tous les jours (ou au moins avec une forte probabilité).”
Intuitivement, si on a observé un événement A, il y a plus de
chance qu’il se reproduise qu’un événement B qui n’a jamais été
observé:
En pratique, scientifiques et autres utilisent l’induction en essayant
de quantifier notre incertitude à l’aide de méthodes statistiques (Analyse
risques/bénéfice. cf. Assurances)
méthodologie, recueil et manipulation de données 9
Les statistiques Baysiennes permettent de calculer la probabilité
d’une hypothèse en fonction des données, ou la distribution de prob-
abilité d’un paramètre.
En statistiques fréquentistes, la décision d’accepter une hypothèse
est prise avec un seuil de risque, typiquement 5%, et on calcule des
intervalle de confiance pour les paramêtres.
Karl Popper et la Falsification
Pour Karl Popper, une théorie scientifique doit pouvoir être réfutée
par une observation (un “test crucial”). L’avancée des connaissances
se fait en rejettant des théories, celles qui ne sont pas encore falsifiées
sont les meilleures à un moment donné.
Quand plusieurs théories sont compatibles avec les données ex-
istante, o cherche alors si elles font des prédictions différentes, et on
teste ces prédictions pour les départager (Voir John R. Platt, Strong
Inference, Science, 1964).
• L’astrologie, la psychanalyse, l’astronomie, l’histoire,. . . font-elles
des prédictions falsifiables ?
En réalité, les choses sont beaucoup plus complexes: On ne re-
jette pas une théorie dès qu’une expérience la contredit. On essaye
d’abord de rejetter des hypothèses auxiliaires, c.à.d. de modifier le
modèle (Paul Duhem).
Pour aller plus loin:
• Thomas Kuhn (1962) La structure des Révolutions Scientifiques
• Imre Lakatos (1976) Conjectures et Refutations
• Paul Fayerabend (1975) Contre la méthode. Esquisse d’une théorie
anarchiste de la connaissance
La pyramide de la qualité des preuves
La démarche scientifique en pratique
• Choisir une problèmatique
• Faire une revue de l’état de l’art (synthèse de la littérature scien-
tifique)
• Suggèrer une ou plusieurs hypothèses opérationnelles (une défini-
tion opérationnelle spécifie les procédures effectives de mesure
d’une variable. Ex: ‘anxiété’)
• Construire un plan d’acquisition de données
• (déposer des demandes de financement; recommencer; recom-
mencer; . . . )
• Recueillir les données
méthodologie, recueil et manipulation de données 10
Figure 9: La pyramide de la qualité des
preuves
méthodologie, recueil et manipulation de données 11
• Tester le(s) hypothèses, en utilisant des outils d’analyse statistique.
• Rédiger un compte rendu dans un article ou rapport de recherche.
• Evaluation par les pairs
• Publication
• Quelquefois: Reproduction par d’autres chercheurs
L’objectivité scientifique
Nos sentiments personnels ou nos attentes ne doivent pas influencer
les données que nous rapportons ([Link]. biais de sélection des don-
nées).
D’où l’importance des expériences en double aveugle.
Les articles scientifiques distinguent soigneusement la partie méth-
odes/résultats des parties interprétatives.
(Lecture recommandée: Steven J. Gould La mal-mesure de l’Homme
Odile Jacob.)
Principales étapes d’une enquête
Figure 10: Principales étapes d’une
enquête
Partie 2: Construction d’un questionnaire
Les qualités fondamentales d’un questionnaire:
• l’outil choisi mesure bien ce pour quoi il a été construit (validité)
• les mesures réalisées sont bien reproductibles (fiabilité (reliabil-
ity)) et permettent de detecter les effets recherchés (puissance
statistique)
méthodologie, recueil et manipulation de données 12
Vérification de la validité
Lors de la phase de définition des hypothèses générales de l’enquête
ainsi que de ses objectifs, il est nécessaire de bien préciser l’information
désirée.
“construct validity”: Est ce que les définitions opérationnelles
choisies capturent bien les concepts ([Link]. anxiété) pertinents ? Ne
sont-elles pas influencées par des facteurs non pertinents ?
Exemple: si je veux mesurer l’intelligence par le QI, et que le test
de QI que je construis est très long, je peux être en train de mesurer
la persévérance plutôt que l’intelligence. (Au passage, certains ques-
tionnent si la mesure de QI est une bonne mesure de l’intelligence).
Lors de la conception du test, il faut jouer l’avocat du diable et
chercher des explications alternatives. Tant qu’il y en a, modifier le
test.
Introduire plusieurs instruments de mesures (pour une enquête,
plusieurs questions), dont certaines utilisant des méthodes “éprou-
vées” (si elles existent), et vérifier a posteriori que leurs résultats
corrèlent bien.
Comment vérifier la fiabilité?
cross-validation (split-half, k-fold, leave-one out)
Retest sur un nouveau groupe indepedant.
Inter-rater reliability (IRR)
S’il y a des réponses qui doivent être classifiées par un humain, il
faut verifier si un autre humain donne des résultats similaires.
Exemple: deux juges classent les réponses des paticipants dans
deux catégories:
Juge1 Rep1 Rep2
Juge2
Rep1 a b
Rep2 c d
Pour évaluer le degré d’accord, on calcule le Kappa de Cohen.
Par exemple, si deux psychiatres évaluent 23 patients pour décider
s’ils ont un tristesse douloureuse. Les données ([Link]) sont
disponibles au format csv2 sur la page [Link]
fr/biostatistiques/#livre&id=02&r=partie02
require(psy)
data = read.csv2(’ [Link]
table(data)
méthodologie, recueil et manipulation de données 13
ckappa(data)
Puissance statistique (sensibilité):
• au moment de la conception: s’assurer qu’on a un nombre adéquat
de mesures (pour cela, il faut estimer les tailles d’effets et leurs
variances)
• après-coup: à partir des effets effectivement observés et leur vari-
abilité, on peux évaluer le nombre de sujets qu’il aurait fallu pour
détecter une différence avec une certaine probabilité.
Critères d’inclusion/exclusion
Il peut être nécessaire de définir des critères d’exclusion.
Par exemple, en imagerie cerebrale sur le sujet sain, j’evite les per-
sonnes qui consomment trop d’alcool ou de stupefiants, les femmes
potentiellement en enceintes, etc.
Cela fait parti de la définition de la population-mère.
Différents modes de recueil des données
• Questionnaires auto-administrés, par courrier ou Par Internet (site
ou email)
• Interview téléphonique
Avantage: si les interviewers sont bons, la qualité des réponses
peut être meilleure que dans les questionnaire auto administrés.
Désavantages: durée limitée ne permettant que des questions assez
simples.
• Interview en face-à-face
– interview structurée: les mêmes questions sont posées exacte-
ment de la même manière à tous les participants
– interview non structurée: interaction libre.
• Groupe de discussion
Petit groupe de personnes partageant des caratériques (e.g. femmes
entre 30 et 40 ans, . . . ). L’interviewer est un “facilitateur” qui pose
des question ouvertes.
Intéressant pour prétester les questions d’une enquête afin de
choisir les plus pertinentes.
méthodologie, recueil et manipulation de données 14
Construction pratique d’un questionnaire
Des logiciels permettent de construire des interfaces avec des masques
de saisie pour les différentes questions, permettant de spécifier de
conditions de validité des réponses, d’effectuer des branchements en
fonction des réponses, . . .
Des modules permettent : - la saisie des données - leur analyses
statistique ou leur exportation dans des fichiers (tables, bases de don-
nées,. . . ) exploitable par des logiciels comme R, SAS, SPSS, Stata. . .
Offline
• epidata (http:[Link]/) puissant, multiplateforme (Win-
dows, Mac, Linux), gratuit. (cf. TP sur [Link]
[Link]/biostatistiques/#livre&id=01&r=partie01)
Online
• google forms [Link] très pratique pour
des questionnaires simples ([Link]. ne permet pas de branchement).
Fourni les resultats sous form de feuille de calcul google
• surveymonkey [Link] simple à utiliser,
puissant, 400e/an (900e pour la version plus puissante).
• limesurvey: [Link] libre, très puissant,
peut être installé sur son propre serveur web.
• Moodle (plateforme de cours en ligne) utilise un format GIFT pour
contruire les questionnaires.
Les questions
• Quand elles portent sur des individus, elles permettent d’obtenir
trois types de données:
• Factuelle. Ex: caractéristiques démographiques, fumeur non
fumeur, . . .
• Comportementales: Ex: style de vie (Ex: prenez vous souvent le
metro?)
• Attitudinale: opinions, valeurs, croyances (pensez-vous que ‘X’
soit vrai/faux)
• Poser de bonnes questions est un art.
Voir A. N. Oppenheim (1992) Questionnaire design, Interviewing and
Attitude Measurement Continuum.
méthodologie, recueil et manipulation de données 15
“The world is full of well-meaning people who believe that anyone
who can write plain English and has a modicum of common sense can
produce a good questionnaire. This book is not for them.”
• Questions à choix fermé vs. questions à choix ouvert.
Exemples de questions à choix fermé
Likert scale
Strongly disagree | Disagree | Neither agree nor diwagree | Agree | Strongly Agree
Echelle sémantique différentielle:
This test is:
difficult ___:___:___:___:___:___:___ easy
useless ___:___:___:___:___:___:___ useful
Choix multiple:
During French class, I would like:
(a) to have a combination of French and English spoken
(b) to have as much English as possible spoken
(c) to have only French spoken
Questions à choix ouvert
A utiliser de préférence pour demander au sujet d’apporter des clari-
fications
Exemples de questions à choix ouvert:
Quel est votre programme télé favori?
Si vous avez mis une note inférieure ou égale à 2 à votre séjour, merci d’expliquer brièvement vos raisons
Questions guidées:
Une chose que j’ai apprécié est:
Une chose que je n’ai pas apprécié est:
Types de Variable
• Nominale : la variable peut prendre des valeurs dans un ensemble
fini de catégories distinctes. Ex: Vrai/Faux. Couleur de cheveux.
• Ordinale : les catégories peuvent être ordonnées. Ex:
méthodologie, recueil et manipulation de données 16
• intervalle : la différence numerique entre les catégories a du sens.
Ex: temperature (la difference entre 40 degre C et 20 degré C est la
meme qu’entre 20 et 0, mais 40 n’est pas deux fois plus chaud que
20 degrés)
• ratio: le ratio entre deux valeur à du sens. Ex: poids (4 kg est 2
fois plus lourd que 2 kg)
Les procédures statistiques dépendent du type de données. Par
exemple :
• Pour comparer deux proportions (variable nominale à deux
valeurs), on pourra utiliser un test de chi2 (e.g. [Link]), une
regression logistique ou un modèle loglinéraire.
• Pour comparer deux moyennes de variables de type intervalle ou
ratio, on utilisera un test de Student ou de Welsh.
Interlude: rapports de côte et risque relatif
Une probabilité p est un nombre entre 0 et 1.
Pour comparer deux probablités, plutôt que de regarder leur dif-
férence, on utilise plutôt le risque relatif ou le rapport de côte.
Le risque relatif est simplement le ratio:
Par exemple, Si 10 % des fumeurs ont eu un cancer du poumon, et
5 % des non-fumeurs ont eu un cancer du poumon, le risque relatif
(RR) est .10/.05 = 2.
On peut aussi transformer les probalités un côtes (“odds” en
anglais), par example “10 contre 1”, et on utilise des rapport de côtes
(odd ratio) pour comparer des probabilités.
p
c= 1− p
/
odd = function(p) { p / (1 - p) }
plot(odd(seq(0, 1, by=.01)), type=’l’)
odd(.1)/odd(.05)
2.111111
On peut obtenir des intervalles de confiance pour le RR et les odd
ratio avec la function twoby2 du package Epi
require(Epi)
examples(twoby2)
méthodologie, recueil et manipulation de données 17
Figure 11: Convertion de probabilité en
côte
Conseils pratiques pour des questionnaires auto-administrés
Afin de maximiser le taux de réponse:
• Les questions doivent être simples.
• les questions doivent suivre un ordre logique,
• La concision doit l’emporter sur la tentation d’être exhaustif.
• Faire une mise en page soignée. Aérer le texte. Format petit livret
préférable à pages A4.
• Eviter d’avoir un saut de page au milieu d’un item.
• Idéalement, pas plus de 4 pages, 30 minutes max.
• mettre les questions factuelles à la fin du questionnaire
Contrôle de qualité
Nettoyage des données
• Données absurdes Ex: Si code numérique devait petre entre 1 et
7, une valeur en dehors de cet intervalle est “absurde”; il faut la
remplacer par un ‘NA’ (donnée manquante).
• Réponses contradictoires à des items distincts (il faut envisager
d’éliminer ces questionnaires)
méthodologie, recueil et manipulation de données 18
• Données implausibles (outliers). C’est le cas problématique. Cela
reflète t-il la vérité ou une erreur? Approches possibles:
• utiliser des statistiques robustes ([Link]. médiane plutôt que la
moyenne).
• faire l’analyse avec et sans les outlier, et si le resultat ne dépends
pas de ceux-ci, tout va bien.
• Données manquantes:
• supprimer l’enregistrement complet. Ou ne pas l’utiliser dans les
analyses qui ont besoin de cette variable.
• interpoler avec les données des participants similaires (imputation)
Construction et validation psychométrique d’un questionnaire.
Pour un bon questionnaire, on s’attend essentiellement à ce que :
• les items doivent avoir suffisemment de variance (si toutes les
réponses à un item sont bloquées sur la même valeur, cet item
n’apporte pas d’information)
• les items censés mesurer le même “construct” doivent corrèler plus
entre eux qu’avec les autres items.
Remarques:
méthodologie, recueil et manipulation de données 19
• On utilise également l’Analyse Factorielle (Falissard, Chap.7)
• Les graphiques de Bland-Altman sont aussi pertinents.
• Prévoir (au moins) une phase de pilotage où une version prélim-
inaire du questionnaire est distribuée puis analysée de manière à
ne conserver que les items les plus efficaces.
Traçabilité des données
Identificateur unique sur chaque questionnaire
• Le générer lors de la production des questionnaires
• Si le questionnaire est administré par ordinateur, un bonne idée
consiste à générer un idenfiant sur la base de la date/heure/identifiant
de l’ordinateur (IP).
Une fois les données recueillies et saisies dans un logiciel :
• conserver la forme papier éventuelle dans des archives pour veri-
fier d’eventuelle erreurs de saisies (données aberrantes).
• conserver la forme informatique sous forme de fichier TEXTE
(Interdiction absolue de conserver les données dans un format
binaire propriétaire (feuille EXCEL, base de données ACCESS).
Privilégier des formats lisibles par l’humain (json, csv, plutot que
XML).
Sécurité:
• calculer une somme de contrôle md5 pour chaque fichier de don-
nées et les conserver dans un fichier qui ne peut pas être modifier.
Cela permettra de vérifier plus tard l’intégrité des données.
• protéger les données brutes: au minimum, zip protégé par mot
de passe lors d’envois par email ou de partage sur des serveurs
Internet (Dropbox, Google Drive, . . . ) — sauf si les données brutes
de l’enquête sont destinées à être rendues publiques.
Anonymisation
Si les données d’une enquête doivent être partagées, il est presque
toujours nécessaire d’anonymiser celles-ci, c’est à dire de supprimer
des champs tels que nom, addresse, et toute information qui pourrait
permettre d’identifier les participants.
Le mieux est de faire cela au moment du codage des données.
méthodologie, recueil et manipulation de données 20
Si on n’a jamais besoin de revenir à l’individu, jetter purement et
simplement ces données.
Si on risque d’avoir besoin de remonter à l’individu — [Link]. en-
quête longitudinale — garder dans un fichier séparé un table reliant
les identifiants anonymes et les informations identifiantes.
Traçabilité des traitements
AUCUNE intervention manuelle n’est autorisée sur les données !
TOUS les traitements (filtrage, ré-organisation des données, calculs
statistiques) doivent être automatisés, par exemple avec des scripts
écrit en langage R.
Les outils de “litterate programing” comme rmarkdown (logiciel R)
ou les notebooks jupyter (Python) sont très utiles pour documenter une
analyse de données et produire des rapports. Notamment cela évite
les copier-coller entre les sorties du logiciels d’analyse et les rapports.
A faire: Démonstration de Rmarkdown.
Partie 3: Définition d’une population et constitution d’un échan-
tillon
Effet d’une variable
• Que signifie, d’un point de vue statistique, qu’une variable “à un
effet sur une autre” ?
• Y est influencée par X si la *distribution de Y change quand X
prend des valeurs différentes.
Population-mère et échantillon
On a rarement les moyens de contacter tous les membres de la pop-
ulation d’intérêt, appelée population-mère (sauf en cas de “recense-
ment”).
On doit se limiter à une population plus réduite (**l’échantillon*)
qui est censée représenter la population-mère et qui doit nous perme-
ttre de généraliser — par induction — les résultats observés.
Problème: si pour comparer deux populations, on compare deux
échantillons, il est quasiment certain qu’on va observer des dif-
férences entre les échantillons. Mais celles-ci reflètent-elles des différences
réelles entre les populations?
Autrement dit, si on tire deux échantillons d’une même popula-
tion mère, ils seront presque certainement différents à cause de la
varibilité des individus.
méthodologie, recueil et manipulation de données 21
Figure 12: Distribution de Y en fonction
de X
méthodologie, recueil et manipulation de données 22
Exemple: les Français et les Allemands ont-ils la même taille
moyenne ? Si on prend 100 individus français et 100 individus alle-
mands, il est peu probable que la taille moyenne soit égale au mil-
limêtre prêt.
Statistiques descriptives et statistiques inférentielle
Remarque: Il est très important de distinguer deux types d’usage des
statistiques:
• descriptives: qui fournissent des indicateurs qui décrirent les
données que l’on possèdent effecivement (moyenne, ecart-type,
...)
• inférentielles: qui cherchent à inférer des propriétés des popu-
lations mères à partir des données observés (test d’hypothèse,
estimation, . . . )
Quand on réalise une analyse de données, il faut bien séparer
mentalement ces deux objectifs.
Simulation de tirage aléatoire
On va simuler des échantillonages dans une population.
La population est constituée de 1M d’individus dont on considère
la variable ‘taille’. En l’absence de données réelles, on va simuler ces
données:
pop = rnorm(1e+06, mean = 180, sd = 15)
hist(pop)
méthodologie, recueil et manipulation de données 23
Histogram of pop
250000
200000
150000
Frequency
100000
50000
0
100 150 200 250
pop
summary(pop)
## Min. 1st Qu. Median Mean 3rd Qu.
## 108.8 169.9 180.0 180.0 190.1
## Max.
## 261.9
samp1 = sample(pop, 10)
samp2 = sample(pop, 10)
samp3 = sample(pop, 10)
boxplot(samp1, samp2, samp3)
méthodologie, recueil et manipulation de données 24
200
190
180
170
160
1 2 3
samples = replicate(100, sample(pop, 10))
boxplot(samples)
220
200
180
160
140
1 6 12 19 26 33 40 47 54 61 68 75 82 89 96
méthodologie, recueil et manipulation de données 25
samplesm = replicate(100, mean(sample(pop, 10)))
summary(samplesm)
## Min. 1st Qu. Median Mean 3rd Qu.
## 171.5 177.5 180.6 180.7 184.0
## Max.
## 194.3
Avec des tailles d’échantillon plus grande (100).
sampmeans = replicate(100, mean(sample(pop, 100)))
hist(sampmeans)
Histogram of sampmeans
30
25
20
Frequency
15
10
5
0
177 178 179 180 181 182 183 184
sampmeans
boxplot(sampmeans)
méthodologie, recueil et manipulation de données 26
184
183
182
181
180
179
178
177
summary(sampmeans)
## Min. 1st Qu. Median Mean 3rd Qu.
## 177.1 179.1 180.1 180.1 180.8
## Max.
## 183.9
Ces exemples fournissent une idée de la variabilité d’échantillons
tirés dans une même population. L’ecart-type de la distribution de
la statistique calculée sur les échantillons est appelé erreur-standard.
Elle fournit une indication de la précision obtenue avec des échantil-
lons de taille fixée.
Dans la réalité, on ne connait pas la distribution parente.
Si on en connait la forme, on peut néanmoins évaluer la précision
de la moyenne d’un échantillon de taille n, c’est à dire la taille de
l’intervalle de confiance (pour un certain degré de confiance)
Par exemple, pour estimer une proportion: Si on dispose d’un
échantillon de taille 1000 et que la propriété d’intérêt est présente
chez 100 individus, la précision peut être obtenue dans R par:
[Link](100, 1000)
##
méthodologie, recueil et manipulation de données 27
## 1-sample proportions test with
## continuity correction
##
## data: 100 out of 1000, null probability 0.5
## X-squared = 638.4, df = 1, p-value <
## 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.08245237 0.12069092
## sample estimates:
## p
## 0.1
On observe ici que l’intervalle de confiance à 95% est 8.2%–12%
(Essayer avec d’autres valeurs)
Attention: ce résultat n’est valide que pour un tirage compléte-
ment aléatoire (et une population “infinie”). Dans le cas de plans de
sondage plus complexes, il faut utiliser une autre fonction (svyciprop
du package survey; cf. exemple pages 53-54 of B. Falissard’s Analysis
of Questionnaire Data with R pour un echantillonage à deux niveaux).
Comparaison de deux populations
Supposons qu’on tire des échantillons dans deux populations pour
comparer celles-ci, par exemple avec un test de T (test de Student).
On peut refaire des stimulations.
pop1 <- rnorm(1e+06, mean = 180, sd = 15)
pop2 <- rnorm(1e+06, mean = 185, sd = 15)
[Link](sample(pop1, 1000), sample(pop2, 1000),
[Link] = T)
##
## Two Sample t-test
##
## data: sample(pop1, 1000) and sample(pop2, 1000)
## t = -8.9006, df = 1998, p-value <
## 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.254835 -4.635025
## sample estimates:
## mean of x mean of y
## 178.9381 184.8830
On pourrait, par essais et erreurs, déterminer la taille de l’échantillon
nécessaire pour détecter une différence significative (au seuil de 5%)
méthodologie, recueil et manipulation de données 28
dans 80% des cas. Mais une fonction R permet cela automatique-
ment:
[Link](delta=5, sd=5, [Link]=.05, power=.8, type=’[Link]’)
Précision et représentativité d’un échantillon
Idéalement, pour permettre de généraliser, l’échantillon doit être :
• précis : d’une taille suffisante pour que l’erreur d’estimation qu’il
introduit soit acceptable.
• représentatif : sa composition doit être semblable à celle de la
population-mère.
Echantillonage complétement aléatoire
• Il s’agit d’un tirage parfaitement aléatoire dans toute la popula-
tion.
Celle-ci ayant une taille N, chaque individu à une probabilité 1/N
d’être inclu.
• Il faut disposer de la liste complète des membres de la population-
mère pour pouvoir mettre en oeuvre une véritable sélection aléa-
toire (et d’une fonction d’extraction aléatoire comme sample).
Si l’échantillon ne respecte pas ce critère de représentativité, il est
considéré comme biasé et il faut envisager d’effectuer un redresse-
ment (du moins si l’on veut absolument des estimateurs non biaisés).
Redressement d’échantillon
Le redressement par suppression
Afin de retrouver les proportions attendues (celles de la population-
mère), on supprime aléatoirement des répondants parmi les caté-
gories sur-représentées.
Cela entraine la réduction de la taille de notre échantillon, ce qui
est frustrant vu les efforts réalisés pour motiver les personnes contac-
tées à répondre et vus les coûts engendrés. Par ailleurs, on va perdre
en précision puisque l’erreur associée va augmenter.
Cette stratégie peut être néanmoins une bonne solution dans un
protocole de collecte par Internet qui permet de contacter rapidement
et à moindre coût un grand nombre d’interlocuteurs. On peut ainsi
extraire après coup et selon une méthode aléatoire, un échantillon
représentatif selon des quotas pré-définis.
méthodologie, recueil et manipulation de données 29
Application: Redressement par suppression dans R
require(car)
data(SLID)
str(slid)
table(SLID$sex)
n = min(table(SLID$sex))
males = subset(SLID, sex==’Male’)
nrow(males)
females = subset(SLID, sex==’Female’)
nrow(females)
females = females[sample(1:nrow(females), n), ]
nrow(females)
Le redressement par pondération
On conserve toutes les réponses enregistrées mais on attribue à
chaque répondant un « poids » particulier en fonction de la catégorie
à laquelle il appartient.
Par exemple, si il y deux fois moins de femmes que prévu dans
l’échantillon, le « poids » d’une femme sera 2 et la réponse de chaque
femme comptera double.
Voir [Link]
Pondérer ou non: un choix parfois délicat
Considérons une entreprise avec la structure de salaire suivante:
Sexe Status Salaire moyen Effectif dans l’entreprise
Femme cadre 3000 2
Femme non-cadre 2000 50
Homme cadre 3000 8
Homme non-cadre 2000 50
Question: les hommes et les femmes perçoivent-ils le même
salaire?
Application: Pondération dans R
sal = c(3000, 2000, 3000, 2000)
sex = c(’F’, ’F’, ’H’, ’H’)
status = c(’c’, ’n’, ’c’, ’n’)
eff = c(2, 50, 8, 50)
[Link](sex, status, sal, eff)
# salaire moyen dans l’entreprise
mean(sal)
méthodologie, recueil et manipulation de données 30
[Link](sal, eff)
# salaire par sexe
# non pondéré
for (s in unique(sex)) { print(paste(s, mean(sal[sex==s]))) }
tapply(sal, sex, mean)
# pondéré
for (s in unique(sex)) {
print(paste(s, [Link](sal[sex==s], eff[sex==s]))) }
Note: Le package survey fournit des fonctions statistiques qui
prennent systematiquement en compte des poids.
Echantillonage stratifié (méthode des quotas)
La stratégie de redressement peut être évitée si on prend en compte
la structure de la population dès le plan de sondage.
La population est découpée en groupes (par exemple, groupes
d’âge, de sexe, de niveau socio économique) dont on connait les
effectifs.
On prélève alors des échantillons aléatoires à l’intérieur de chaque
groupe.
Si les tailles des échantillons respectent les proportions des groupes
dans la populations: on a une meilleure précision que dans le cas du
tirage complétement aléatoire.
Par exemple: pour comparer les tailles des français et des alle-
mands, on peut constituer des échantillons qui respectent les propor-
tions d’hommes et de femmes dans chaque catégorie d’âge.
Pour en savoir plus, voir Thomas Lumley Complex Surveys: A guide
to analysis using R (package survey)
Echantillonage par “grappes” (cluster sampling)
On effectue d’abord un tirage aléatoire d’unités plus grandes ([Link].
villes, ou des écoles). Puis on mesure tout ou parti des individus
dans ces unités.
• Avantage: Il est plus facile et moins coûteux à mettre en oeuvre
que les méthodes précédentes
• Désavantages:
– Plus d’individus sont nécessaire pour obtenir une précision
identique à l’echantillonage aléatoire complet.
– Il faut tenir compte de la dépendance entre les individu d’un
même “cluster”. Cela complique nettement les analyses analy-
ses statistiques (on doit utiliser des modèles-hiérarchiques)
méthodologie, recueil et manipulation de données 31
Déterminer la taille des échantillons pour estimer une proportion
Dans le cas d’un tirage purement aléatoire, on doit fournir une esti-
mation de la fréquence attendue (p), et la demi-largeur de l’intervalle
de confiance à 95% (delta):
require(epiDisplay)
[Link](p=0.1, delta=0.02)
Une formule approximative permet d’évaluer la taille de l’échantillon:
p (1 − p )
n=
(e/2)2
(remarque: le maximum de p(1 − p) est de 0.25)
A retenir: la précision est proportionnelle à la racine carrée de de
la taille de l’échantillon
Pour les échantillonages par strate ou par grappe, les formules
sont nettement plus compliquées.
Pour un échantillonage par grappe, il faut tenir compte du fait que
les données des deux individus dans le même groupe sont corrélées.
On introduit la notion d’effet de design (Falissard, p.72):
[Link](p=0.1, delta=0.2, deff= 4)
Déterminer la taille d’un échantillon pour comparer deux groupes
require(epiDisplay)
# Comparer 2 proportions:
[Link].2p (p1, p2, alpha = 0.05, power = 0.8, ratio = 1)
# Comparer 2 moyennes:
[Link].2means (mu1, mu2, sd1, sd2, ratio = 1, alpha = 0.05, power = 0.8)
Arguments:
p: estimated probability
delta: difference between the estimated prevalence and one side of the 95 percent confidence limit (prec
popsize: size of the finite population
deff: design effect for cluster sampling
alpha: significance level
mu1, mu2: estimated means of the two populations
sd1, sd2: estimated standard deviations of the two populations
ratio: n2/n1
Remarque sur les objectifs des analyses statistiques
1. Test d’hypothèse : une variable influence-t-elle une autre?
méthodologie, recueil et manipulation de données 32
2. Estimation : quel est la taille de l’effet de X sur Y (dans les condi-
tions Z, W. . . ) ?
3. Prédiction : à partir des caractéristiques de nouveaux individus,
peut-on prédire la valeur des variables dépendantes ([Link]. proba-
bilitté d’être fumeur) ?
Ex: si on veut tester si les droitiers réagissent plus rapidement
avec la main droite qu’avec la main gauche, on peux se contenter de
faire l’expérience sur des étudiants d’université: si l’effet existe, ils est
raisonable qu’il soit présent chez tous les humains. Mais l’amplitude
de l’effet peut dépendre de l’âge.
Dans des approches exploratoires, un test biaisé n’est pas un prob-
lème car l’important est de détecter un effet.
Si l’on désire tester la valeur prédictive des modèles, on peut
utiliser des approches de cross-validation.
Partie 4: Manipulation et Exploration des données
Importation des données
Les données, sous forme de tables, sont lues dans des [Link],
typiquement avec les fonctions
[Link](filename)
[Link](filename)
La librarie foreign permet de lire les formats Minitab, S, SAS,
SPSS, Stata, Systat, Weka, dBase,
On peut se faire une idée du contenu d’un [Link] dataf.
str(dataf)
head(dataf)
names(dataf)
On peut accèder au contenu d’une colonne d’un [Link] avec la
syntaxe dataf$colname.
Manipulations
subset
merge
Recodage
[Link]
cut
ifelse(test, value-if-yes, value-if-no)
méthodologie, recueil et manipulation de données 33
require(car)
?recode
Examiner des distributions
• Variables discrètes
table(x)
barplot(table(x))
• Variables continues
summary(x)
stem(x)
stripchart(x, method)=’stack’)
boxplot(x)
plot(density(x))
rug(x)
Examiner des relations
• variables discrètes:
table(x, y, z)
ftable(x, y, z)
xtabs(~ x + y +z)
[Link](table(x, y))
[Link]()
• variables continues:
plot(x, y)
require(car)
scatterplot(x, y)
smoothScatter(SLID2$age, SLID2$wages)
[Link](x, y)
[Link](x, y)
More than 2 variables
plot(x, y, col=z)
pairs(cbind(x, y, z))
méthodologie, recueil et manipulation de données 34
[Link](cbind(x, y, z))
coplot(x ~ y | a + )
lm(z ~ x + y) # regression multiple
R graphics Gallery
[Link]
Cartes géographiques
• ggmap: Spatial Visualization with ggplot2 par David Kahle and
Hadley Wickham [Link]
2013-1/[Link]
• Géocoder en masse avec R et sans Google Maps par Timothée Giraud
[Link]
• Plotly Scatter Plots on Maps in R [Link]
Données à analyser
• caith Colours of Eyes and Hair of People in Caithness (package
MASS)
– A 4 by 5 table with rows the eye colours (blue, light, medium,
dark) and columns the hair colours (fair, red, medium, dark,
black).
méthodologie, recueil et manipulation de données 35
• SLID Survey of Labour and Income Dynamics (package car)
– wages Composite hourly wage rate from all jobs.
– education Number of years of schooling.
– age in years.
– sex A factor with levels: ‘Female’, ‘Male’.
– language A factor with levels: ‘English’, ‘French’, ‘Other’.
• mtcars Motor Trend Car Road Tests
The data was extracted from the 1974 Motor Trend US magazine,
and comprises fuel consumption and 10 aspects of automobile
design and performance for 32 automobiles (1973-74 models).
• données du livre de Bruno Falissard Comprendre et utiliser les statis-
tiques dans les sciences de la vie: [Link]
biostatistiques/#livre&id=02&r=partie02
Références
• Géneral:
– Lohr, S. (2010) Sampling Design and Analysis. Brooks/Cole.
– Oppenheim, A. N. (1992) Questionnaire Design, Interviewing and
Attitude Measurement. Continuum.
• Analyses avec R:
– Zuur, Ieno Meester (2009) A Beginner’s Guide to R Springer
– Falissard, B. (2012) Analysis of Questionnaire Data with R. CRC
Press.
méthodologie, recueil et manipulation de données 36
– Lumley, T. (2010) Complex Surveys: A guide to analysis using R.
Wiley (package survey)
– Chongsuvivatwong V. (2013) Analysis of epidemiological data
using R and Epicalc [Link]
Epicalc_Book.pdf (note: le package epicalc a été renommé
epiDisplay)
– Aides mémoire: [Link]
Appendice : Quelques distributions
# Distribution normale
plot(dnorm(seq(-5, 5, .1))) # affiche la densité de proba
pnorm(3) # aire sous la courbe entre -inf et 3
qnorm(.95) # valeur de x telle que P(Z<X)=.95
rnorm(1000) # genere 1000 nombres aléatoires
# Distribution binomiale
barplot(dbinom(0:10, size=10, prob=.5))
barplot(dbinom(0:10, size=10, prob=.2))
pbinom(3, size=10, prob=.5) # proba d’observer 0, 1, 2 ou 3 evemenents
qbinom(.95, size=10, prob=.5) # valeur de X telle P(B<=X)=.95
Intervalles de confiance d’un odd ratio et d’un risque relatif
require(epi)
examples(twoby2)
2 by 2 table analysis:
Outcome : Yes
Comparing : A vs. B
Yes No P(Yes) 95% conf. interval
A 16 10 0.6154 0.4207 0.779
B 15 9 0.6250 0.4218 0.792
95% conf. interval
Relative Risk: 0.9846 0.6379 1.5197
Sample Odds Ratio: 0.9600 0.3060 3.0117
Conditional MLE Odds Ratio: 0.9608 0.2623 3.4895
Probability difference: -0.0096 -0.2602 0.2451
méthodologie, recueil et manipulation de données 37
Intervalle de confiance par Bootstrap
Pour obtenir un intervalle de confiance sans faire d’hypothèse sur
la forme de la distribution parente, on peut utiliser une approche
de bootstrap, qui consiste à se dire que la meilleure estimation de la
distribution dans la population est la distribution dans l’échantillon.
Pour obtenir une estimation de la précision de statistiques calculée
sur l’échantillon, on effectue des tirages avec remise dans celui-ci.
data = c(164, 164, 164, 164, 165, 165, 166, 166,
170, 170, 171, 173, 175, 185, 190)
stripchart(data, method = "overplot")
165 170 175 180 185 190
# parametric test:
[Link](data)
##
## One Sample t-test
##
## data: data
## t = 82.841, df = 14, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 165.7285 174.5381
## sample estimates:
## mean of x
## 170.1333
# bootstrap
n = length(data)
ntirages = 5000
bs = NULL
for (i in 1:ntirages) {
indices = sample(c(1:n), n, replace = T)
bs[i] = mean(data[indices])
}
méthodologie, recueil et manipulation de données 38
hist(bs)
Histogram of bs
Frequency
600
0
165 170 175 180
bs
summary(bs)
## Min. 1st Qu. Median Mean 3rd Qu.
## 165.1 168.7 170.0 170.1 171.4
## Max.
## 182.4
quantile(bs, c(0.025, 0.975))
## 2.5% 97.5%
## 166.5333 174.4000
Remarques:
• On peut s’intéresser à beaucoup d’autres statistiques que la
moyenne et obtenir des intervalles de confiance (par exemple le
minimum, une corrélation, etc. . . )
• Le package boot de R permet de faire cela de manière plus effi-
cace.
Ref: Efron, B. and Tibshirani, R. (1993) An Introduction to the Boot-
strap. Chapman & Hall.
Statistiques paramétriques et non paramétriques
• Statistiques paramétriques: calculs fondés en faisant des hy-
pothèses sur la forme des distributions sous-jacentes.
• Statistiques non paramétriques: estimations sans faire d’hypothèses
précises sur la forme des distributions.
require(car)
méthodologie, recueil et manipulation de données 39
## Loading required package: car
require(hexbin)
## Loading required package: hexbin
data(SLID)
‘?‘(SLID)
str(SLID)
## ’[Link]’: 7425 obs. of 5 variables:
## $ wages : num 10.6 11 NA 17.8 NA ...
## $ education: num 15 13.2 16 14 8 16 12 14.5 15 10 ...
## $ age : int 40 19 49 46 71 50 70 42 31 56 ...
## $ sex : Factor w/ 2 levels "Female","Male": 2 2 2 2 2 1 1 1 2 1 ...
## $ language : Factor w/ 3 levels "English","French",..: 1 1 3 3 1 1 1 1 1 1 ...
SLID2 = SLID[[Link](SLID), ]
plot(wages ~ age, data = SLID2)
abline(lm(wages ~ age, data = SLID2), col = "blue",
lwd = 2)
lines(lowess(SLID2$age, SLID2$wages, f = 0.1),
col = "red", lwd = 2)
40
wages
10
20 30 40 50 60 70
age
smoothScatter(SLID2$age, SLID2$wages)
SLID2$wages
40
10
20 30 40 50 60 70
SLID2$age
méthodologie, recueil et manipulation de données 40
# bin = hexbin(SLID2$age, SLID2$wages,
# xbins=50) par(plot=’NEW’) plot(bin,
# main=’Hexagonal Binning’) abline(lm(wages ~
# age, data= SLID))
Le Big Data est un champ d’application des méthodes non-
paramétriques.