0% ont trouvé ce document utile (0 vote)
96 vues40 pages

Méthodologie et Analyse de Données R

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
96 vues40 pages

Méthodologie et Analyse de Données R

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Méthodologie, recueil et manipulation de données

Christophe Pallier
September 7-8, 2017

Préliminaires

Plan
1. Une peu d’épistémologie (Théorie de la connaissance)
2. Construction de questionnaires
3. Définition d’une population et stratégies d’échantillonages
4. Manipulation et exploration de données (avec R)

Ressources

• Lohr, S. (2010) Sampling Design and Analysis. Brooks/Cole.


• Zuur, Ieno Meester (2009) A Beginner’s Guide to R Springer
– Falissard, B. (2012) Analysis of Questionnaire Data with R. CRC
Press.
– Lumley, T. (2010) Complex Surveys: A guide to analysis using R.
Wiley (package survey)

Partie 1: Un peu d’épistémologie

La Méthode scientifique
• Une bonne théorie doit faire des prédictions testables.
“Si les pierres qu’on trouve actuellement sur Terre tombent quand on
les lâche, c’est parce que celles qui ne tombaient pas se sont toutes
envolées dans l’espace.”
méthodologie, recueil et manipulation de données 2

Figure 1: Des allers-retours entre


Observation/Expérimentation et
Théorie

Rien de plus pratique qu’une bonne théorie !


La théorie dit quoi regarder. Autrement dit, elle suggère les ques-
tions pertinentes.
Si vous n’avez pas théorie du fonctionnement d’un téléviseur, il
est difficile de le dépanner (Métaphore du “dépannage”. voir aussi:
développement logiciel, médecine, etc.)
Cependant, au début d’une recherche (dans sa phase exploratoire), il
existe souvent des questions a- théoriques.

Questions “a-théoriques”
Des questions purement empiriques, ou descriptives, peuvent présenter
de l’intérêt (ou non). Exemples:

• L’espérance de vie dépend-elle du niveau socio-économique?


(il faut le mettre en évidence avant de rechercher les causes:
meilleure hygiène de vie, soins, génétique,. . . )

• Les champs électro-magnétiques ont-ils des effets délétaires sur la


santé ?

• Y-a-t il un lien entre l’âge d’acquisition d’une seconde langue et le


niveau qu’on peut atteindre (indépendament des autres facteurs:
quantité d’exposition à la seconde langue, type d’enseignement) ?

• La taille ou la couleur de cheveux d’un invididu ont-ils des effets


sur son revenu ?

• Le signe astrologique a t-il une influence sur le caractère d’une


personne ?
méthodologie, recueil et manipulation de données 3

Observation vs. Expérimentation


Observer: Noter et rapporter les événements de manière systèma-
tique.
Expérimenter: manipuler des conditions et démontrer que des événe-
ments se reproduisent sous certaines d’entre elles.
Exemples de variables ne pouvant pas être manipulées directe-
ment:

• la taille d’une étoile et sa couleur.


• le poids, la taille, le sexe d’un individu.
• Le fait d’avoir une certaine maladie psychiatrique ou non.

Exemples de variables pouvant être manipulées (assignées arbi-


trairement à des individus):

• médicament actif vs. placebo


• aide sociale (économie expérimentale). Voir [Link]
org/articles/effective-social-program/

Corrélation et causalité
• L’existence d’une corrélation entre deux variables n’implique pas
de lien de causalité directe.

Figure 2: effet du nombre de Pirates sur


le réchauffement climatique

• Par exemple, s’il existe une corrélation entre la cylindrée de la


voiture familliale et le QI des enfants, cela est certainement dû à
méthodologie, recueil et manipulation de données 4

des variables tierces (niveau socio-économique,. . . ; on s’en doute


uniquement parce qu’on a une théorie!)

Figure 3: relations entre variables

• L’expérimentation, mieux que l’observation, permet de tester en


termes de causalité, l’impact d’une ou plusieurs variable(s) in-
dépendantes sur une ou plusieurs variables dépendantes.

• Néanmoins, même avec des données d’observation, on peut cal-


culer des coefficients de corrélations partiels et ajuster pour les effets
de variables de “contrôles”.

Claude Bernard (1877) Principes de médecine expérimentale.{smaller}


“Dans toutes les sciences, il y a deux états bien distincts à considérer.
Ce sont :

1. l’état de science d’observation ;


2. l’état de science expérimentale.

Ces deux états sont nécessairement et absolument subordonnés


l’un à l’autre. Jamais une science ne peut parvenir à l’état de science
expérimentale sans avoir passé par l’état de science d’observation.
Mais il y a des sciences auxquelles il n’est pas donné de pouvoir
parvenir à l’état de science expérimentale ; telle est l’astronomie, par
exemple.
Une science d’observation, ou science naturelle, se borne à ob-
server, à classer, à contempler les phénomènes de la nature et à
dédire des observations les lois générales des phénomènes. Mais
méthodologie, recueil et manipulation de données 5

elle n’agit pas sur les phénomènes eux-mêmes pour les modifier ou
en créer de nouveaux, pour agir sur la nature en un mot. Les sciences
qui, comme l’astronomie, s’occupent de phénomènes hors de notre
portée expérimentale, restent forcément des sciences d’observation.
Conséquence: Claude Bernard ne prenait pas au sérieux la théorie
de l’évolution de Darwin. . .

Conséquences pratiques
Choix de la procédure statistique pour quantifier la degré de relation
linéaire entre 2 variables :

• Dans une situation d’observation, on privilégie la corrélation simple


où les deux variables jouent un rôle symétrique.

Figure 4: Corrélation linéaire entre deux


variables

On calcule typiquement le coefficient de corrélation de Pearson :

2
σX,Y
r ( X, Y ) =
σX .σY

• Dans une situation expérimentale où les variables jouent des rôles


asymétriques — avec une variable “dépendante” et une variable
“indépendante” —, on utilisera plutôt la régression.

Yi = aXi + b + ei

Remarques sur le coefficient de corrélation


Le coeff. de corrélation ne reflète que la composante linéaire. Même
quand il est nul, il peut néanmoins exister une relation non-linéaire
entre les deux variables:
Ne jamais rapporter un coefficient de corrélation sans examen
graphique !
Pour en savoir plus :[Link]
and_dependence
méthodologie, recueil et manipulation de données 6

Figure 5: Les droites de régression de X


sur Y et de Y sur X diffèrent

Figure 6: Exemples de relations possi-


bles entre deux variables continues
méthodologie, recueil et manipulation de données 7

Figure 7: Les coefficients de corrélation


sont exactement les mêmes dans ces
quatre figures

Avantages de l’observation sur l’expérimentation


Les enquêtes ne font pas partie des recherches expérimentales: on n’y
manipule pas de variables, on se contente de les enregistrer.
Néanmoins, les enquêtes présentent certains avantages sur les
travaux expérimentaux:

• Les enquêtes sont typiquement moins coûteuses par individu, ce


qui permet d’obtenir des échantillons plus larges et plus représen-
tatifs (Les expériences sont typiquements réalisées sur des étudi-
ants sains et volontaires)

• Le résultat d’une enquête (bien menée) renseigne sur le “monde


réel” alors que la généralisabilité des expériences en laboratoire
peut être mise en doute (manque de validité écologique).

En pratique, les deux approches sont complémentaires. Toutes les


méthodes sont imparfaites, et des résultats convergents selon plusieurs
méthodes sont très appréciables.

Démarche exploratoire vs. descriptive, explicative

Induction et Déduction
• Le scandale de l’induction: aller du particulier au géneral n’est
pas logiquement valide.
méthodologie, recueil et manipulation de données 8

Figure 8: Il est important de bien


identifier le type de démarche

Un physicien, un mathématicien et un logicien voyagent dans un train


qui traverse la campagne. Ils croisent un champ où se trouve une vache
blanche.

Le physicien: “tiens, dans ce pays, les vaches sont blanches!” Le math-


ématicien: “Non: il y au moins un vache blanche dans ce pays.” Le
logicien: “Je te corrige: il y a au moins une vache avec un côté blanc.”

• Seule la déduction est logiquement valide.

Tous les hommes sont mortels, Socrate est un homme, donc Socrate est
mortel.

Et pourtant vive l’induction !


En réalité, on peut souvent faire le pari qu’il y a des régularités dans
les événements:

“Jusqu’à présent, le soleil s’est levé tous les matins, donc il se lèvera
tous les jours (ou au moins avec une forte probabilité).”

Intuitivement, si on a observé un événement A, il y a plus de


chance qu’il se reproduise qu’un événement B qui n’a jamais été
observé:
En pratique, scientifiques et autres utilisent l’induction en essayant
de quantifier notre incertitude à l’aide de méthodes statistiques (Analyse
risques/bénéfice. cf. Assurances)
méthodologie, recueil et manipulation de données 9

Les statistiques Baysiennes permettent de calculer la probabilité


d’une hypothèse en fonction des données, ou la distribution de prob-
abilité d’un paramètre.
En statistiques fréquentistes, la décision d’accepter une hypothèse
est prise avec un seuil de risque, typiquement 5%, et on calcule des
intervalle de confiance pour les paramêtres.

Karl Popper et la Falsification


Pour Karl Popper, une théorie scientifique doit pouvoir être réfutée
par une observation (un “test crucial”). L’avancée des connaissances
se fait en rejettant des théories, celles qui ne sont pas encore falsifiées
sont les meilleures à un moment donné.
Quand plusieurs théories sont compatibles avec les données ex-
istante, o cherche alors si elles font des prédictions différentes, et on
teste ces prédictions pour les départager (Voir John R. Platt, Strong
Inference, Science, 1964).

• L’astrologie, la psychanalyse, l’astronomie, l’histoire,. . . font-elles


des prédictions falsifiables ?

En réalité, les choses sont beaucoup plus complexes: On ne re-


jette pas une théorie dès qu’une expérience la contredit. On essaye
d’abord de rejetter des hypothèses auxiliaires, c.à.d. de modifier le
modèle (Paul Duhem).
Pour aller plus loin:

• Thomas Kuhn (1962) La structure des Révolutions Scientifiques


• Imre Lakatos (1976) Conjectures et Refutations
• Paul Fayerabend (1975) Contre la méthode. Esquisse d’une théorie
anarchiste de la connaissance

La pyramide de la qualité des preuves

La démarche scientifique en pratique


• Choisir une problèmatique
• Faire une revue de l’état de l’art (synthèse de la littérature scien-
tifique)
• Suggèrer une ou plusieurs hypothèses opérationnelles (une défini-
tion opérationnelle spécifie les procédures effectives de mesure
d’une variable. Ex: ‘anxiété’)
• Construire un plan d’acquisition de données
• (déposer des demandes de financement; recommencer; recom-
mencer; . . . )
• Recueillir les données
méthodologie, recueil et manipulation de données 10

Figure 9: La pyramide de la qualité des


preuves
méthodologie, recueil et manipulation de données 11

• Tester le(s) hypothèses, en utilisant des outils d’analyse statistique.


• Rédiger un compte rendu dans un article ou rapport de recherche.
• Evaluation par les pairs
• Publication
• Quelquefois: Reproduction par d’autres chercheurs

L’objectivité scientifique
Nos sentiments personnels ou nos attentes ne doivent pas influencer
les données que nous rapportons ([Link]. biais de sélection des don-
nées).
D’où l’importance des expériences en double aveugle.
Les articles scientifiques distinguent soigneusement la partie méth-
odes/résultats des parties interprétatives.
(Lecture recommandée: Steven J. Gould La mal-mesure de l’Homme
Odile Jacob.)

Principales étapes d’une enquête

Figure 10: Principales étapes d’une


enquête

Partie 2: Construction d’un questionnaire

Les qualités fondamentales d’un questionnaire:


• l’outil choisi mesure bien ce pour quoi il a été construit (validité)

• les mesures réalisées sont bien reproductibles (fiabilité (reliabil-


ity)) et permettent de detecter les effets recherchés (puissance
statistique)
méthodologie, recueil et manipulation de données 12

Vérification de la validité
Lors de la phase de définition des hypothèses générales de l’enquête
ainsi que de ses objectifs, il est nécessaire de bien préciser l’information
désirée.
“construct validity”: Est ce que les définitions opérationnelles
choisies capturent bien les concepts ([Link]. anxiété) pertinents ? Ne
sont-elles pas influencées par des facteurs non pertinents ?
Exemple: si je veux mesurer l’intelligence par le QI, et que le test
de QI que je construis est très long, je peux être en train de mesurer
la persévérance plutôt que l’intelligence. (Au passage, certains ques-
tionnent si la mesure de QI est une bonne mesure de l’intelligence).
Lors de la conception du test, il faut jouer l’avocat du diable et
chercher des explications alternatives. Tant qu’il y en a, modifier le
test.
Introduire plusieurs instruments de mesures (pour une enquête,
plusieurs questions), dont certaines utilisant des méthodes “éprou-
vées” (si elles existent), et vérifier a posteriori que leurs résultats
corrèlent bien.

Comment vérifier la fiabilité?


cross-validation (split-half, k-fold, leave-one out)
Retest sur un nouveau groupe indepedant.

Inter-rater reliability (IRR)


S’il y a des réponses qui doivent être classifiées par un humain, il
faut verifier si un autre humain donne des résultats similaires.
Exemple: deux juges classent les réponses des paticipants dans
deux catégories:

Juge1 Rep1 Rep2


Juge2
Rep1 a b
Rep2 c d

Pour évaluer le degré d’accord, on calcule le Kappa de Cohen.


Par exemple, si deux psychiatres évaluent 23 patients pour décider
s’ils ont un tristesse douloureuse. Les données ([Link]) sont
disponibles au format csv2 sur la page [Link]
fr/biostatistiques/#livre&id=02&r=partie02

require(psy)
data = read.csv2(’ [Link]
table(data)
méthodologie, recueil et manipulation de données 13

ckappa(data)

Puissance statistique (sensibilité):


• au moment de la conception: s’assurer qu’on a un nombre adéquat
de mesures (pour cela, il faut estimer les tailles d’effets et leurs
variances)
• après-coup: à partir des effets effectivement observés et leur vari-
abilité, on peux évaluer le nombre de sujets qu’il aurait fallu pour
détecter une différence avec une certaine probabilité.

Critères d’inclusion/exclusion
Il peut être nécessaire de définir des critères d’exclusion.
Par exemple, en imagerie cerebrale sur le sujet sain, j’evite les per-
sonnes qui consomment trop d’alcool ou de stupefiants, les femmes
potentiellement en enceintes, etc.
Cela fait parti de la définition de la population-mère.

Différents modes de recueil des données


• Questionnaires auto-administrés, par courrier ou Par Internet (site
ou email)

• Interview téléphonique

Avantage: si les interviewers sont bons, la qualité des réponses


peut être meilleure que dans les questionnaire auto administrés.
Désavantages: durée limitée ne permettant que des questions assez
simples.

• Interview en face-à-face

– interview structurée: les mêmes questions sont posées exacte-


ment de la même manière à tous les participants
– interview non structurée: interaction libre.

• Groupe de discussion
Petit groupe de personnes partageant des caratériques (e.g. femmes
entre 30 et 40 ans, . . . ). L’interviewer est un “facilitateur” qui pose
des question ouvertes.
Intéressant pour prétester les questions d’une enquête afin de
choisir les plus pertinentes.
méthodologie, recueil et manipulation de données 14

Construction pratique d’un questionnaire


Des logiciels permettent de construire des interfaces avec des masques
de saisie pour les différentes questions, permettant de spécifier de
conditions de validité des réponses, d’effectuer des branchements en
fonction des réponses, . . .
Des modules permettent : - la saisie des données - leur analyses
statistique ou leur exportation dans des fichiers (tables, bases de don-
nées,. . . ) exploitable par des logiciels comme R, SAS, SPSS, Stata. . .
Offline

• epidata (http:[Link]/) puissant, multiplateforme (Win-


dows, Mac, Linux), gratuit. (cf. TP sur [Link]
[Link]/biostatistiques/#livre&id=01&r=partie01)

Online

• google forms [Link] très pratique pour


des questionnaires simples ([Link]. ne permet pas de branchement).
Fourni les resultats sous form de feuille de calcul google

• surveymonkey [Link] simple à utiliser,


puissant, 400e/an (900e pour la version plus puissante).

• limesurvey: [Link] libre, très puissant,


peut être installé sur son propre serveur web.

• Moodle (plateforme de cours en ligne) utilise un format GIFT pour


contruire les questionnaires.

Les questions
• Quand elles portent sur des individus, elles permettent d’obtenir
trois types de données:

• Factuelle. Ex: caractéristiques démographiques, fumeur non


fumeur, . . .

• Comportementales: Ex: style de vie (Ex: prenez vous souvent le


metro?)

• Attitudinale: opinions, valeurs, croyances (pensez-vous que ‘X’


soit vrai/faux)

• Poser de bonnes questions est un art.

Voir A. N. Oppenheim (1992) Questionnaire design, Interviewing and


Attitude Measurement Continuum.
méthodologie, recueil et manipulation de données 15

“The world is full of well-meaning people who believe that anyone


who can write plain English and has a modicum of common sense can
produce a good questionnaire. This book is not for them.”

• Questions à choix fermé vs. questions à choix ouvert.

Exemples de questions à choix fermé


Likert scale

Strongly disagree | Disagree | Neither agree nor diwagree | Agree | Strongly Agree

Echelle sémantique différentielle:

This test is:

difficult ___:___:___:___:___:___:___ easy


useless ___:___:___:___:___:___:___ useful

Choix multiple:

During French class, I would like:


(a) to have a combination of French and English spoken
(b) to have as much English as possible spoken
(c) to have only French spoken

Questions à choix ouvert


A utiliser de préférence pour demander au sujet d’apporter des clari-
fications
Exemples de questions à choix ouvert:

Quel est votre programme télé favori?

Si vous avez mis une note inférieure ou égale à 2 à votre séjour, merci d’expliquer brièvement vos raisons

Questions guidées:

Une chose que j’ai apprécié est:

Une chose que je n’ai pas apprécié est:

Types de Variable
• Nominale : la variable peut prendre des valeurs dans un ensemble
fini de catégories distinctes. Ex: Vrai/Faux. Couleur de cheveux.
• Ordinale : les catégories peuvent être ordonnées. Ex:
méthodologie, recueil et manipulation de données 16

• intervalle : la différence numerique entre les catégories a du sens.


Ex: temperature (la difference entre 40 degre C et 20 degré C est la
meme qu’entre 20 et 0, mais 40 n’est pas deux fois plus chaud que
20 degrés)
• ratio: le ratio entre deux valeur à du sens. Ex: poids (4 kg est 2
fois plus lourd que 2 kg)

Les procédures statistiques dépendent du type de données. Par


exemple :

• Pour comparer deux proportions (variable nominale à deux


valeurs), on pourra utiliser un test de chi2 (e.g. [Link]), une
regression logistique ou un modèle loglinéraire.

• Pour comparer deux moyennes de variables de type intervalle ou


ratio, on utilisera un test de Student ou de Welsh.

Interlude: rapports de côte et risque relatif


Une probabilité p est un nombre entre 0 et 1.
Pour comparer deux probablités, plutôt que de regarder leur dif-
férence, on utilise plutôt le risque relatif ou le rapport de côte.
Le risque relatif est simplement le ratio:
Par exemple, Si 10 % des fumeurs ont eu un cancer du poumon, et
5 % des non-fumeurs ont eu un cancer du poumon, le risque relatif
(RR) est .10/.05 = 2.
On peut aussi transformer les probalités un côtes (“odds” en
anglais), par example “10 contre 1”, et on utilise des rapport de côtes
(odd ratio) pour comparer des probabilités.

p
c= 1− p
/

odd = function(p) { p / (1 - p) }
plot(odd(seq(0, 1, by=.01)), type=’l’)
odd(.1)/odd(.05)

2.111111

On peut obtenir des intervalles de confiance pour le RR et les odd


ratio avec la function twoby2 du package Epi

require(Epi)
examples(twoby2)
méthodologie, recueil et manipulation de données 17

Figure 11: Convertion de probabilité en


côte

Conseils pratiques pour des questionnaires auto-administrés


Afin de maximiser le taux de réponse:

• Les questions doivent être simples.


• les questions doivent suivre un ordre logique,
• La concision doit l’emporter sur la tentation d’être exhaustif.
• Faire une mise en page soignée. Aérer le texte. Format petit livret
préférable à pages A4.
• Eviter d’avoir un saut de page au milieu d’un item.
• Idéalement, pas plus de 4 pages, 30 minutes max.
• mettre les questions factuelles à la fin du questionnaire

Contrôle de qualité

Nettoyage des données


• Données absurdes Ex: Si code numérique devait petre entre 1 et
7, une valeur en dehors de cet intervalle est “absurde”; il faut la
remplacer par un ‘NA’ (donnée manquante).

• Réponses contradictoires à des items distincts (il faut envisager


d’éliminer ces questionnaires)
méthodologie, recueil et manipulation de données 18

• Données implausibles (outliers). C’est le cas problématique. Cela


reflète t-il la vérité ou une erreur? Approches possibles:

• utiliser des statistiques robustes ([Link]. médiane plutôt que la


moyenne).

• faire l’analyse avec et sans les outlier, et si le resultat ne dépends


pas de ceux-ci, tout va bien.

• Données manquantes:

• supprimer l’enregistrement complet. Ou ne pas l’utiliser dans les


analyses qui ont besoin de cette variable.

• interpoler avec les données des participants similaires (imputation)

Construction et validation psychométrique d’un questionnaire.


Pour un bon questionnaire, on s’attend essentiellement à ce que :

• les items doivent avoir suffisemment de variance (si toutes les


réponses à un item sont bloquées sur la même valeur, cet item
n’apporte pas d’information)

• les items censés mesurer le même “construct” doivent corrèler plus


entre eux qu’avec les autres items.

Remarques:
méthodologie, recueil et manipulation de données 19

• On utilise également l’Analyse Factorielle (Falissard, Chap.7)

• Les graphiques de Bland-Altman sont aussi pertinents.

• Prévoir (au moins) une phase de pilotage où une version prélim-


inaire du questionnaire est distribuée puis analysée de manière à
ne conserver que les items les plus efficaces.

Traçabilité des données


Identificateur unique sur chaque questionnaire

• Le générer lors de la production des questionnaires

• Si le questionnaire est administré par ordinateur, un bonne idée


consiste à générer un idenfiant sur la base de la date/heure/identifiant
de l’ordinateur (IP).

Une fois les données recueillies et saisies dans un logiciel :

• conserver la forme papier éventuelle dans des archives pour veri-


fier d’eventuelle erreurs de saisies (données aberrantes).

• conserver la forme informatique sous forme de fichier TEXTE


(Interdiction absolue de conserver les données dans un format
binaire propriétaire (feuille EXCEL, base de données ACCESS).
Privilégier des formats lisibles par l’humain (json, csv, plutot que
XML).

Sécurité:

• calculer une somme de contrôle md5 pour chaque fichier de don-


nées et les conserver dans un fichier qui ne peut pas être modifier.
Cela permettra de vérifier plus tard l’intégrité des données.

• protéger les données brutes: au minimum, zip protégé par mot


de passe lors d’envois par email ou de partage sur des serveurs
Internet (Dropbox, Google Drive, . . . ) — sauf si les données brutes
de l’enquête sont destinées à être rendues publiques.

Anonymisation
Si les données d’une enquête doivent être partagées, il est presque
toujours nécessaire d’anonymiser celles-ci, c’est à dire de supprimer
des champs tels que nom, addresse, et toute information qui pourrait
permettre d’identifier les participants.
Le mieux est de faire cela au moment du codage des données.
méthodologie, recueil et manipulation de données 20

Si on n’a jamais besoin de revenir à l’individu, jetter purement et


simplement ces données.
Si on risque d’avoir besoin de remonter à l’individu — [Link]. en-
quête longitudinale — garder dans un fichier séparé un table reliant
les identifiants anonymes et les informations identifiantes.

Traçabilité des traitements


AUCUNE intervention manuelle n’est autorisée sur les données !
TOUS les traitements (filtrage, ré-organisation des données, calculs
statistiques) doivent être automatisés, par exemple avec des scripts
écrit en langage R.
Les outils de “litterate programing” comme rmarkdown (logiciel R)
ou les notebooks jupyter (Python) sont très utiles pour documenter une
analyse de données et produire des rapports. Notamment cela évite
les copier-coller entre les sorties du logiciels d’analyse et les rapports.
A faire: Démonstration de Rmarkdown.

Partie 3: Définition d’une population et constitution d’un échan-


tillon

Effet d’une variable


• Que signifie, d’un point de vue statistique, qu’une variable “à un
effet sur une autre” ?

• Y est influencée par X si la *distribution de Y change quand X


prend des valeurs différentes.

Population-mère et échantillon
On a rarement les moyens de contacter tous les membres de la pop-
ulation d’intérêt, appelée population-mère (sauf en cas de “recense-
ment”).
On doit se limiter à une population plus réduite (**l’échantillon*)
qui est censée représenter la population-mère et qui doit nous perme-
ttre de généraliser — par induction — les résultats observés.
Problème: si pour comparer deux populations, on compare deux
échantillons, il est quasiment certain qu’on va observer des dif-
férences entre les échantillons. Mais celles-ci reflètent-elles des différences
réelles entre les populations?
Autrement dit, si on tire deux échantillons d’une même popula-
tion mère, ils seront presque certainement différents à cause de la
varibilité des individus.
méthodologie, recueil et manipulation de données 21

Figure 12: Distribution de Y en fonction


de X
méthodologie, recueil et manipulation de données 22

Exemple: les Français et les Allemands ont-ils la même taille


moyenne ? Si on prend 100 individus français et 100 individus alle-
mands, il est peu probable que la taille moyenne soit égale au mil-
limêtre prêt.

Statistiques descriptives et statistiques inférentielle


Remarque: Il est très important de distinguer deux types d’usage des
statistiques:

• descriptives: qui fournissent des indicateurs qui décrirent les


données que l’on possèdent effecivement (moyenne, ecart-type,
...)

• inférentielles: qui cherchent à inférer des propriétés des popu-


lations mères à partir des données observés (test d’hypothèse,
estimation, . . . )

Quand on réalise une analyse de données, il faut bien séparer


mentalement ces deux objectifs.

Simulation de tirage aléatoire

On va simuler des échantillonages dans une population.


La population est constituée de 1M d’individus dont on considère
la variable ‘taille’. En l’absence de données réelles, on va simuler ces
données:

pop = rnorm(1e+06, mean = 180, sd = 15)


hist(pop)
méthodologie, recueil et manipulation de données 23

Histogram of pop

250000
200000
150000
Frequency

100000
50000
0

100 150 200 250

pop

summary(pop)

## Min. 1st Qu. Median Mean 3rd Qu.


## 108.8 169.9 180.0 180.0 190.1
## Max.
## 261.9

samp1 = sample(pop, 10)


samp2 = sample(pop, 10)
samp3 = sample(pop, 10)
boxplot(samp1, samp2, samp3)
méthodologie, recueil et manipulation de données 24

200
190
180
170
160

1 2 3

samples = replicate(100, sample(pop, 10))


boxplot(samples)
220
200
180
160
140

1 6 12 19 26 33 40 47 54 61 68 75 82 89 96
méthodologie, recueil et manipulation de données 25

samplesm = replicate(100, mean(sample(pop, 10)))


summary(samplesm)

## Min. 1st Qu. Median Mean 3rd Qu.


## 171.5 177.5 180.6 180.7 184.0
## Max.
## 194.3

Avec des tailles d’échantillon plus grande (100).

sampmeans = replicate(100, mean(sample(pop, 100)))


hist(sampmeans)

Histogram of sampmeans
30
25
20
Frequency

15
10
5
0

177 178 179 180 181 182 183 184

sampmeans

boxplot(sampmeans)
méthodologie, recueil et manipulation de données 26

184
183
182
181
180
179
178
177

summary(sampmeans)

## Min. 1st Qu. Median Mean 3rd Qu.


## 177.1 179.1 180.1 180.1 180.8
## Max.
## 183.9

Ces exemples fournissent une idée de la variabilité d’échantillons


tirés dans une même population. L’ecart-type de la distribution de
la statistique calculée sur les échantillons est appelé erreur-standard.
Elle fournit une indication de la précision obtenue avec des échantil-
lons de taille fixée.

Dans la réalité, on ne connait pas la distribution parente.


Si on en connait la forme, on peut néanmoins évaluer la précision
de la moyenne d’un échantillon de taille n, c’est à dire la taille de
l’intervalle de confiance (pour un certain degré de confiance)
Par exemple, pour estimer une proportion: Si on dispose d’un
échantillon de taille 1000 et que la propriété d’intérêt est présente
chez 100 individus, la précision peut être obtenue dans R par:

[Link](100, 1000)

##
méthodologie, recueil et manipulation de données 27

## 1-sample proportions test with


## continuity correction
##
## data: 100 out of 1000, null probability 0.5
## X-squared = 638.4, df = 1, p-value <
## 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.08245237 0.12069092
## sample estimates:
## p
## 0.1

On observe ici que l’intervalle de confiance à 95% est 8.2%–12%


(Essayer avec d’autres valeurs)
Attention: ce résultat n’est valide que pour un tirage compléte-
ment aléatoire (et une population “infinie”). Dans le cas de plans de
sondage plus complexes, il faut utiliser une autre fonction (svyciprop
du package survey; cf. exemple pages 53-54 of B. Falissard’s Analysis
of Questionnaire Data with R pour un echantillonage à deux niveaux).

Comparaison de deux populations


Supposons qu’on tire des échantillons dans deux populations pour
comparer celles-ci, par exemple avec un test de T (test de Student).
On peut refaire des stimulations.
pop1 <- rnorm(1e+06, mean = 180, sd = 15)
pop2 <- rnorm(1e+06, mean = 185, sd = 15)
[Link](sample(pop1, 1000), sample(pop2, 1000),
[Link] = T)

##
## Two Sample t-test
##
## data: sample(pop1, 1000) and sample(pop2, 1000)
## t = -8.9006, df = 1998, p-value <
## 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.254835 -4.635025
## sample estimates:
## mean of x mean of y
## 178.9381 184.8830

On pourrait, par essais et erreurs, déterminer la taille de l’échantillon


nécessaire pour détecter une différence significative (au seuil de 5%)
méthodologie, recueil et manipulation de données 28

dans 80% des cas. Mais une fonction R permet cela automatique-
ment:

[Link](delta=5, sd=5, [Link]=.05, power=.8, type=’[Link]’)

Précision et représentativité d’un échantillon


Idéalement, pour permettre de généraliser, l’échantillon doit être :

• précis : d’une taille suffisante pour que l’erreur d’estimation qu’il


introduit soit acceptable.

• représentatif : sa composition doit être semblable à celle de la


population-mère.

Echantillonage complétement aléatoire


• Il s’agit d’un tirage parfaitement aléatoire dans toute la popula-
tion.

Celle-ci ayant une taille N, chaque individu à une probabilité 1/N


d’être inclu.

• Il faut disposer de la liste complète des membres de la population-


mère pour pouvoir mettre en oeuvre une véritable sélection aléa-
toire (et d’une fonction d’extraction aléatoire comme sample).

Si l’échantillon ne respecte pas ce critère de représentativité, il est


considéré comme biasé et il faut envisager d’effectuer un redresse-
ment (du moins si l’on veut absolument des estimateurs non biaisés).

Redressement d’échantillon

Le redressement par suppression


Afin de retrouver les proportions attendues (celles de la population-
mère), on supprime aléatoirement des répondants parmi les caté-
gories sur-représentées.
Cela entraine la réduction de la taille de notre échantillon, ce qui
est frustrant vu les efforts réalisés pour motiver les personnes contac-
tées à répondre et vus les coûts engendrés. Par ailleurs, on va perdre
en précision puisque l’erreur associée va augmenter.
Cette stratégie peut être néanmoins une bonne solution dans un
protocole de collecte par Internet qui permet de contacter rapidement
et à moindre coût un grand nombre d’interlocuteurs. On peut ainsi
extraire après coup et selon une méthode aléatoire, un échantillon
représentatif selon des quotas pré-définis.
méthodologie, recueil et manipulation de données 29

Application: Redressement par suppression dans R


require(car)
data(SLID)
str(slid)
table(SLID$sex)
n = min(table(SLID$sex))
males = subset(SLID, sex==’Male’)
nrow(males)
females = subset(SLID, sex==’Female’)
nrow(females)
females = females[sample(1:nrow(females), n), ]
nrow(females)

Le redressement par pondération


On conserve toutes les réponses enregistrées mais on attribue à
chaque répondant un « poids » particulier en fonction de la catégorie
à laquelle il appartient.
Par exemple, si il y deux fois moins de femmes que prévu dans
l’échantillon, le « poids » d’une femme sera 2 et la réponse de chaque
femme comptera double.
Voir [Link]

Pondérer ou non: un choix parfois délicat


Considérons une entreprise avec la structure de salaire suivante:

Sexe Status Salaire moyen Effectif dans l’entreprise


Femme cadre 3000 2
Femme non-cadre 2000 50
Homme cadre 3000 8
Homme non-cadre 2000 50

Question: les hommes et les femmes perçoivent-ils le même


salaire?

Application: Pondération dans R


sal = c(3000, 2000, 3000, 2000)
sex = c(’F’, ’F’, ’H’, ’H’)
status = c(’c’, ’n’, ’c’, ’n’)
eff = c(2, 50, 8, 50)
[Link](sex, status, sal, eff)
# salaire moyen dans l’entreprise
mean(sal)
méthodologie, recueil et manipulation de données 30

[Link](sal, eff)
# salaire par sexe
# non pondéré
for (s in unique(sex)) { print(paste(s, mean(sal[sex==s]))) }
tapply(sal, sex, mean)
# pondéré
for (s in unique(sex)) {
print(paste(s, [Link](sal[sex==s], eff[sex==s]))) }

Note: Le package survey fournit des fonctions statistiques qui


prennent systematiquement en compte des poids.

Echantillonage stratifié (méthode des quotas)


La stratégie de redressement peut être évitée si on prend en compte
la structure de la population dès le plan de sondage.
La population est découpée en groupes (par exemple, groupes
d’âge, de sexe, de niveau socio économique) dont on connait les
effectifs.
On prélève alors des échantillons aléatoires à l’intérieur de chaque
groupe.
Si les tailles des échantillons respectent les proportions des groupes
dans la populations: on a une meilleure précision que dans le cas du
tirage complétement aléatoire.
Par exemple: pour comparer les tailles des français et des alle-
mands, on peut constituer des échantillons qui respectent les propor-
tions d’hommes et de femmes dans chaque catégorie d’âge.
Pour en savoir plus, voir Thomas Lumley Complex Surveys: A guide
to analysis using R (package survey)

Echantillonage par “grappes” (cluster sampling)


On effectue d’abord un tirage aléatoire d’unités plus grandes ([Link].
villes, ou des écoles). Puis on mesure tout ou parti des individus
dans ces unités.

• Avantage: Il est plus facile et moins coûteux à mettre en oeuvre


que les méthodes précédentes
• Désavantages:

– Plus d’individus sont nécessaire pour obtenir une précision


identique à l’echantillonage aléatoire complet.
– Il faut tenir compte de la dépendance entre les individu d’un
même “cluster”. Cela complique nettement les analyses analy-
ses statistiques (on doit utiliser des modèles-hiérarchiques)
méthodologie, recueil et manipulation de données 31

Déterminer la taille des échantillons pour estimer une proportion


Dans le cas d’un tirage purement aléatoire, on doit fournir une esti-
mation de la fréquence attendue (p), et la demi-largeur de l’intervalle
de confiance à 95% (delta):

require(epiDisplay)
[Link](p=0.1, delta=0.02)

Une formule approximative permet d’évaluer la taille de l’échantillon:

p (1 − p )
n=
(e/2)2
(remarque: le maximum de p(1 − p) est de 0.25)
A retenir: la précision est proportionnelle à la racine carrée de de
la taille de l’échantillon
Pour les échantillonages par strate ou par grappe, les formules
sont nettement plus compliquées.
Pour un échantillonage par grappe, il faut tenir compte du fait que
les données des deux individus dans le même groupe sont corrélées.
On introduit la notion d’effet de design (Falissard, p.72):

[Link](p=0.1, delta=0.2, deff= 4)

Déterminer la taille d’un échantillon pour comparer deux groupes


require(epiDisplay)

# Comparer 2 proportions:
[Link].2p (p1, p2, alpha = 0.05, power = 0.8, ratio = 1)

# Comparer 2 moyennes:
[Link].2means (mu1, mu2, sd1, sd2, ratio = 1, alpha = 0.05, power = 0.8)
Arguments:
p: estimated probability
delta: difference between the estimated prevalence and one side of the 95 percent confidence limit (prec
popsize: size of the finite population
deff: design effect for cluster sampling
alpha: significance level
mu1, mu2: estimated means of the two populations
sd1, sd2: estimated standard deviations of the two populations
ratio: n2/n1

Remarque sur les objectifs des analyses statistiques


1. Test d’hypothèse : une variable influence-t-elle une autre?
méthodologie, recueil et manipulation de données 32

2. Estimation : quel est la taille de l’effet de X sur Y (dans les condi-


tions Z, W. . . ) ?
3. Prédiction : à partir des caractéristiques de nouveaux individus,
peut-on prédire la valeur des variables dépendantes ([Link]. proba-
bilitté d’être fumeur) ?

Ex: si on veut tester si les droitiers réagissent plus rapidement


avec la main droite qu’avec la main gauche, on peux se contenter de
faire l’expérience sur des étudiants d’université: si l’effet existe, ils est
raisonable qu’il soit présent chez tous les humains. Mais l’amplitude
de l’effet peut dépendre de l’âge.
Dans des approches exploratoires, un test biaisé n’est pas un prob-
lème car l’important est de détecter un effet.
Si l’on désire tester la valeur prédictive des modèles, on peut
utiliser des approches de cross-validation.

Partie 4: Manipulation et Exploration des données

Importation des données


Les données, sous forme de tables, sont lues dans des [Link],
typiquement avec les fonctions

[Link](filename)
[Link](filename)

La librarie foreign permet de lire les formats Minitab, S, SAS,


SPSS, Stata, Systat, Weka, dBase,
On peut se faire une idée du contenu d’un [Link] dataf.

str(dataf)
head(dataf)
names(dataf)

On peut accèder au contenu d’une colonne d’un [Link] avec la


syntaxe dataf$colname.

Manipulations
subset
merge

Recodage
[Link]
cut
ifelse(test, value-if-yes, value-if-no)
méthodologie, recueil et manipulation de données 33

require(car)
?recode

Examiner des distributions


• Variables discrètes

table(x)
barplot(table(x))

• Variables continues

summary(x)
stem(x)

stripchart(x, method)=’stack’)
boxplot(x)

plot(density(x))
rug(x)

Examiner des relations


• variables discrètes:

table(x, y, z)
ftable(x, y, z)
xtabs(~ x + y +z)
[Link](table(x, y))
[Link]()

• variables continues:

plot(x, y)
require(car)
scatterplot(x, y)
smoothScatter(SLID2$age, SLID2$wages)

[Link](x, y)
[Link](x, y)

More than 2 variables


plot(x, y, col=z)
pairs(cbind(x, y, z))
méthodologie, recueil et manipulation de données 34

[Link](cbind(x, y, z))
coplot(x ~ y | a + )

lm(z ~ x + y) # regression multiple

R graphics Gallery
[Link]

Cartes géographiques

• ggmap: Spatial Visualization with ggplot2 par David Kahle and


Hadley Wickham [Link]
2013-1/[Link]

• Géocoder en masse avec R et sans Google Maps par Timothée Giraud


[Link]

• Plotly Scatter Plots on Maps in R [Link]

Données à analyser
• caith Colours of Eyes and Hair of People in Caithness (package
MASS)

– A 4 by 5 table with rows the eye colours (blue, light, medium,


dark) and columns the hair colours (fair, red, medium, dark,
black).
méthodologie, recueil et manipulation de données 35

• SLID Survey of Labour and Income Dynamics (package car)

– wages Composite hourly wage rate from all jobs.


– education Number of years of schooling.
– age in years.
– sex A factor with levels: ‘Female’, ‘Male’.
– language A factor with levels: ‘English’, ‘French’, ‘Other’.

• mtcars Motor Trend Car Road Tests


The data was extracted from the 1974 Motor Trend US magazine,
and comprises fuel consumption and 10 aspects of automobile
design and performance for 32 automobiles (1973-74 models).

• données du livre de Bruno Falissard Comprendre et utiliser les statis-


tiques dans les sciences de la vie: [Link]
biostatistiques/#livre&id=02&r=partie02

Références
• Géneral:
– Lohr, S. (2010) Sampling Design and Analysis. Brooks/Cole.
– Oppenheim, A. N. (1992) Questionnaire Design, Interviewing and
Attitude Measurement. Continuum.

• Analyses avec R:
– Zuur, Ieno Meester (2009) A Beginner’s Guide to R Springer
– Falissard, B. (2012) Analysis of Questionnaire Data with R. CRC
Press.
méthodologie, recueil et manipulation de données 36

– Lumley, T. (2010) Complex Surveys: A guide to analysis using R.


Wiley (package survey)
– Chongsuvivatwong V. (2013) Analysis of epidemiological data
using R and Epicalc [Link]
Epicalc_Book.pdf (note: le package epicalc a été renommé
epiDisplay)
– Aides mémoire: [Link]

Appendice : Quelques distributions


# Distribution normale
plot(dnorm(seq(-5, 5, .1))) # affiche la densité de proba
pnorm(3) # aire sous la courbe entre -inf et 3
qnorm(.95) # valeur de x telle que P(Z<X)=.95
rnorm(1000) # genere 1000 nombres aléatoires

# Distribution binomiale
barplot(dbinom(0:10, size=10, prob=.5))
barplot(dbinom(0:10, size=10, prob=.2))
pbinom(3, size=10, prob=.5) # proba d’observer 0, 1, 2 ou 3 evemenents
qbinom(.95, size=10, prob=.5) # valeur de X telle P(B<=X)=.95

Intervalles de confiance d’un odd ratio et d’un risque relatif


require(epi)
examples(twoby2)

2 by 2 table analysis:

Outcome : Yes
Comparing : A vs. B

Yes No P(Yes) 95% conf. interval


A 16 10 0.6154 0.4207 0.779
B 15 9 0.6250 0.4218 0.792

95% conf. interval


Relative Risk: 0.9846 0.6379 1.5197
Sample Odds Ratio: 0.9600 0.3060 3.0117
Conditional MLE Odds Ratio: 0.9608 0.2623 3.4895
Probability difference: -0.0096 -0.2602 0.2451
méthodologie, recueil et manipulation de données 37

Intervalle de confiance par Bootstrap


Pour obtenir un intervalle de confiance sans faire d’hypothèse sur
la forme de la distribution parente, on peut utiliser une approche
de bootstrap, qui consiste à se dire que la meilleure estimation de la
distribution dans la population est la distribution dans l’échantillon.
Pour obtenir une estimation de la précision de statistiques calculée
sur l’échantillon, on effectue des tirages avec remise dans celui-ci.

data = c(164, 164, 164, 164, 165, 165, 166, 166,


170, 170, 171, 173, 175, 185, 190)
stripchart(data, method = "overplot")

165 170 175 180 185 190


# parametric test:
[Link](data)

##
## One Sample t-test
##
## data: data
## t = 82.841, df = 14, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 165.7285 174.5381
## sample estimates:
## mean of x
## 170.1333

# bootstrap
n = length(data)
ntirages = 5000
bs = NULL

for (i in 1:ntirages) {
indices = sample(c(1:n), n, replace = T)
bs[i] = mean(data[indices])
}
méthodologie, recueil et manipulation de données 38

hist(bs)

Histogram of bs
Frequency

600
0

165 170 175 180

bs
summary(bs)

## Min. 1st Qu. Median Mean 3rd Qu.


## 165.1 168.7 170.0 170.1 171.4
## Max.
## 182.4

quantile(bs, c(0.025, 0.975))

## 2.5% 97.5%
## 166.5333 174.4000

Remarques:

• On peut s’intéresser à beaucoup d’autres statistiques que la


moyenne et obtenir des intervalles de confiance (par exemple le
minimum, une corrélation, etc. . . )
• Le package boot de R permet de faire cela de manière plus effi-
cace.

Ref: Efron, B. and Tibshirani, R. (1993) An Introduction to the Boot-


strap. Chapman & Hall.

Statistiques paramétriques et non paramétriques


• Statistiques paramétriques: calculs fondés en faisant des hy-
pothèses sur la forme des distributions sous-jacentes.

• Statistiques non paramétriques: estimations sans faire d’hypothèses


précises sur la forme des distributions.

require(car)
méthodologie, recueil et manipulation de données 39

## Loading required package: car

require(hexbin)

## Loading required package: hexbin

data(SLID)
‘?‘(SLID)
str(SLID)

## ’[Link]’: 7425 obs. of 5 variables:


## $ wages : num 10.6 11 NA 17.8 NA ...
## $ education: num 15 13.2 16 14 8 16 12 14.5 15 10 ...
## $ age : int 40 19 49 46 71 50 70 42 31 56 ...
## $ sex : Factor w/ 2 levels "Female","Male": 2 2 2 2 2 1 1 1 2 1 ...
## $ language : Factor w/ 3 levels "English","French",..: 1 1 3 3 1 1 1 1 1 1 ...

SLID2 = SLID[[Link](SLID), ]
plot(wages ~ age, data = SLID2)
abline(lm(wages ~ age, data = SLID2), col = "blue",
lwd = 2)
lines(lowess(SLID2$age, SLID2$wages, f = 0.1),
col = "red", lwd = 2)
40
wages

10

20 30 40 50 60 70

age
smoothScatter(SLID2$age, SLID2$wages)
SLID2$wages

40
10

20 30 40 50 60 70

SLID2$age
méthodologie, recueil et manipulation de données 40

# bin = hexbin(SLID2$age, SLID2$wages,


# xbins=50) par(plot=’NEW’) plot(bin,
# main=’Hexagonal Binning’) abline(lm(wages ~
# age, data= SLID))

Le Big Data est un champ d’application des méthodes non-


paramétriques.

Vous aimerez peut-être aussi