Chapitre 1 : Introduction
II) données : source, nature, structure
Source des données :
Les données mobilisées en économie et gestion viennent de sources très variées :
- institutions publiques nationales (comme l'INSEE, les services stat. des ministères. . .)
- institutions internationales (Eurostat, OCDE, FMI, OMC, Banque Mondiale. . .)
- des cabinets spécialisés, des instituts de sondage, des médias
- des équipes de recherche académique
- des entreprises privées : Facebook, Amazon, EDF, etc.
Nature des données
Les données sont aussi de natures variées :
- données administratives : déclarations fiscales des entreprises et des particuliers, données de la CAF,
Assurance Maladie, etc.
- données d'enquêtes (questionnaires, sondages) menées à distance (internet, téléphone), à domicile, voire
dans la rue. . .
- données expérimentales construites dans le cadre d'une expérience scientifique (testing, vignettes,
expérimentation aléatoire, etc.)
- données de sites web / plateformes / archives (par web-scraping ou numérisation par exemple)
dimensions très variables : Big Data (millions d'observations, milliers de variables) à la monographie (une
seule observation)
Structure des données
Les données peuvent être structurées sous plusieurs formats :
- Données en coupe transversale : un échantillon d'unités statistiques (individus, ménages, entreprises, etc.)
toutes observées à la même date : données de sondage d'opinion, indicateurs éco en 2022 des 27 pays de
l'UE...
- Séries temporelles (ou chronologiques) : une seule grandeur est suivie sur plusieurs périodes successives
(jours, mois, années. . .) : évolution trimestrielle du taux de chômage, évolution chaque seconde d'un cours
boursier, évolution journalière du nombre de cas Covid-19. . .
- Données de panel (ou longitudinales) : un échantillon d'unités est suivi sur plusieurs périodes successives
(jours, mois, années. . .) : le Panel Européen des ménages d'Eurostat (suivi des revenus des ménages)
- Données de réseaux ou d'interactions : une quantité est suivie dans ses échanges entre différents agents -
aux commerciaux entrants et sortants entre pays, ux migratoires, etc.
III) Population et échantillon, collecte
population statistique : un ensemble, ni ou non, d'éléments que l'on souhaite étudier.
ex : La population francilienne : ensemble des habitants de l'Île de France à un moment donné/Le parc automobile
français : ensemble des automobiles immatriculées sur le territoire français.
On appelle ces éléments : individus/ unités statistiques /des observations
Très souvent, on souhaiterait pouvoir étudier une population très grande mais notre étude se restreint à un
échantillon.
Exemple : on étudie les données d'une partie des entreprises pour comprendre la situation des entreprises françaises
en général
p. 1
Chapitre 1 : Introduction
échantillon : un sous-ensemble de la population pour lequel on dispose de données. Idéalement, cet échantillon doit
être représentatif de la population (=partager les mêmes caractéristiques statistiques) pour déduire de l'échantillon
des résultats valant aussi pour la population dans son ensemble
1Er reflexe : Face à toute nouvelle information statistique, il faut toujours réfléchir à l'échantillon qui est utilisé pour
produire l'information :
- Cet échantillon est-il représentatif sur toutes les caractéristiques ?
- Quelles caractéristiques essentielles pourraient différencier l'échantillon étudié de la population sous-
jacente ?
- Quels biais cela peut-il introduire ?
- Peut-on trouver un meilleur échantillon pour éviter ces biais ?
Représentativité : un échantillon représentatif permet d'estimer efficacement et sans biais les caractéristiques de la
population dont il est issu :
Tirage aléatoire : échantillon qui reflète fidèlement toutes les caractéristiques de la population-cible
Principe : tirage au sort des répondants avec la même probabilité pour chaque individu de la population
(variante : tirage stratifié)
Enjeu principal : avoir potentiellement accès à toute la population + éviter tout biais dans la collecte
exemple :
quel mode de collecte : téléphone, internet, à domicile, dans la rue ?
quel jour, à quelle heure ?
dans quel endroit ?
C'est la méthode utilisée généralement par l'INSEE
Méthode des quotas : un échantillon qui reflète fidèlement les caractéristiques clés de la population-cible
Principe : contacter une liste de personnes de façon à reproduire la structure de la population cible
>> implique d'avoir des infos sur la structure : recensement de la population (INSEE)
>>on cherche à « remplir des cases » (chaque case est un prol de personne avec un certain effectif à
atteindre)
Enjeu principal : s'assurer que les variables de quota sont les bonnes pour la question d'intérêt
Ex : Pour une enquête sur le sport ? Ex : Qu'avez-vous pensé du Tour de France 2022 ? ... quotas moins
cruciaux a priori
difficulté commune :
certaines personnes refusent de répondre
Échantillon 6 = population statistique pour un sondage traditionnel (personne adulte résidant en
France)
2eme reflexe : face à toute nouvelle information statistique, il faut toujours réfléchir au mode de collecte qui est
utilisé pour produire l'information :Sondage en ligne/Micro-trottoir
utiliser la source, sa réputation, et le mode de collecte comme premiers indices de stabilité
IV) variables statistiques :
Caractère et modalité :
On classe les individus selon différents caractères, ou variable :
Ex : un salarié peut être caractérisé par : son sexe, son âge, son ancienneté, son salaire, son temps de travail. . .
chaque caractère ou variable peut prendre plusieurs modalités, cad plusieurs valeurs différentes.
p. 2
Chapitre 1 : Introduction
Une variable peut être caractérisée par :
- 2 modalités : Sexe = {Homme ; Femme} variable dichotomique ou binaire
- quelques modalités : Matière = {Mathématiques ; Statistiques ; Microéconomie ; Macroéconomie ; Langue
- infinité de modalité : Revenu, poids,... avec un grand nombre de modalités qu'on peut considérer comme
une infinité
pour analyser une variable : ses modalités doivent être incompatibles et exhaustives (une et une seule valeur
pour chaque individu)
deux types de variables :
quantitatives : mesurables par des valeurs chiffrées (salaire, temps de travail. . .)
- discrètes : lorsqu'il existe un nombre limité de valeurs différentes dans un certain interval. Il s'agit souvent
de nombres entiers (nombre d'enfants à charge, nombre de pièces dans un logement. . .)
- continue : s'il existe potentiellement une infinité de valeurs (taille, poids, salaire, . . .)
qualitatives : pas mesurables mais observables, modalité = texte (sexe, CSP, nationalité. . .)
- ordinales : lorsqu'il existe un ordre « naturel »entre les modalités : niveau de diplôme
- nominales : s'il n'existe pas de hiérarchie claire (nationalité, sexe, statut matrimonial, etc.)
V) Biais, erreurs et bonnes pratiques :
biais cognitifs :
biais de confirmation : tendance à faire + confiance à une statistique qui confirme nos propres a priori, quelle que
soit sa stabilité réelle
Biais de cadrage : biais lié à la manière dont l'information est présentée, structurée
Confusion entre corrélation et causalité, et les « variables de confusion »
deux variables corrélées ne sont pas forcément reliées par un quelconque mécanisme causal
- Raisonner en nombre absolu ou en proportion : danger
- Rôle des effets de compositions
- danger des variables de confusion
- rôle du hasard lié à l'échantillonnage
- Comparer des choses comparables
En résumé, quelques bonnes pratiques pour répondre à une à l'aide de données statistiques ou pour évaluer la
stabilité d'une information statistique :
- Se baser sur des sources statistiques de confiance
- Vérifier que la méthode de collecte ou de calcul est adapté
- Se demander si ces données sont les plus pertinentes pour répondre à la question d'intérêt
- Réfléchir aux éventuels effets de composition
- Tracer des graphiques sobres qui n'induisent pas en erreur
- Garder en tête le rôle du hasard en comparant deux chiffres /échantillons
- Comparer des entités ou des périodes comparables
- Calculer les indicateurs statistiques adaptés
- Formuler des interprétations correctes
- Avoir conscience des limites de l'analyse
p. 3