0% ont trouvé ce document utile (0 vote)
108 vues3 pages

Sources et Types de Données Économiques

Transféré par

kwxwmnrkx4
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
108 vues3 pages

Sources et Types de Données Économiques

Transféré par

kwxwmnrkx4
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1 : Introduction

II) données : source, nature, structure

 Source des données :

Les données mobilisées en économie et gestion viennent de sources très variées :


- institutions publiques nationales (comme l'INSEE, les services stat. des ministères. . .)
- institutions internationales (Eurostat, OCDE, FMI, OMC, Banque Mondiale. . .)
- des cabinets spécialisés, des instituts de sondage, des médias
- des équipes de recherche académique
- des entreprises privées : Facebook, Amazon, EDF, etc.

 Nature des données

Les données sont aussi de natures variées :


- données administratives : déclarations fiscales des entreprises et des particuliers, données de la CAF,
Assurance Maladie, etc.
- données d'enquêtes (questionnaires, sondages) menées à distance (internet, téléphone), à domicile, voire
dans la rue. . .
- données expérimentales construites dans le cadre d'une expérience scientifique (testing, vignettes,
expérimentation aléatoire, etc.)
- données de sites web / plateformes / archives (par web-scraping ou numérisation par exemple)

 dimensions très variables : Big Data (millions d'observations, milliers de variables) à la monographie (une
seule observation)

 Structure des données

Les données peuvent être structurées sous plusieurs formats :


- Données en coupe transversale : un échantillon d'unités statistiques (individus, ménages, entreprises, etc.)
toutes observées à la même date : données de sondage d'opinion, indicateurs éco en 2022 des 27 pays de
l'UE...
- Séries temporelles (ou chronologiques) : une seule grandeur est suivie sur plusieurs périodes successives
(jours, mois, années. . .) : évolution trimestrielle du taux de chômage, évolution chaque seconde d'un cours
boursier, évolution journalière du nombre de cas Covid-19. . .
- Données de panel (ou longitudinales) : un échantillon d'unités est suivi sur plusieurs périodes successives
(jours, mois, années. . .) : le Panel Européen des ménages d'Eurostat (suivi des revenus des ménages)
- Données de réseaux ou d'interactions : une quantité est suivie dans ses échanges entre différents agents -
aux commerciaux entrants et sortants entre pays, ux migratoires, etc.

III) Population et échantillon, collecte

population statistique : un ensemble, ni ou non, d'éléments que l'on souhaite étudier.


ex : La population francilienne : ensemble des habitants de l'Île de France à un moment donné/Le parc automobile
français : ensemble des automobiles immatriculées sur le territoire français.
On appelle ces éléments : individus/ unités statistiques /des observations

Très souvent, on souhaiterait pouvoir étudier une population très grande mais notre étude se restreint à un
échantillon.
Exemple : on étudie les données d'une partie des entreprises pour comprendre la situation des entreprises françaises
en général

p. 1
Chapitre 1 : Introduction
échantillon : un sous-ensemble de la population pour lequel on dispose de données. Idéalement, cet échantillon doit
être représentatif de la population (=partager les mêmes caractéristiques statistiques) pour déduire de l'échantillon
des résultats valant aussi pour la population dans son ensemble

1Er reflexe : Face à toute nouvelle information statistique, il faut toujours réfléchir à l'échantillon qui est utilisé pour
produire l'information :
- Cet échantillon est-il représentatif sur toutes les caractéristiques ?
- Quelles caractéristiques essentielles pourraient différencier l'échantillon étudié de la population sous-
jacente ?
- Quels biais cela peut-il introduire ?
- Peut-on trouver un meilleur échantillon pour éviter ces biais ?

Représentativité : un échantillon représentatif permet d'estimer efficacement et sans biais les caractéristiques de la
population dont il est issu :
 Tirage aléatoire : échantillon qui reflète fidèlement toutes les caractéristiques de la population-cible

Principe : tirage au sort des répondants avec la même probabilité pour chaque individu de la population
(variante : tirage stratifié)

Enjeu principal : avoir potentiellement accès à toute la population + éviter tout biais dans la collecte
exemple :
quel mode de collecte : téléphone, internet, à domicile, dans la rue ?
quel jour, à quelle heure ?
dans quel endroit ?
 C'est la méthode utilisée généralement par l'INSEE

 Méthode des quotas : un échantillon qui reflète fidèlement les caractéristiques clés de la population-cible

Principe : contacter une liste de personnes de façon à reproduire la structure de la population cible
>> implique d'avoir des infos sur la structure : recensement de la population (INSEE)
>>on cherche à « remplir des cases » (chaque case est un prol de personne avec un certain effectif à
atteindre)

Enjeu principal : s'assurer que les variables de quota sont les bonnes pour la question d'intérêt
Ex : Pour une enquête sur le sport ? Ex : Qu'avez-vous pensé du Tour de France 2022 ? ... quotas moins
cruciaux a priori

 difficulté commune :
 certaines personnes refusent de répondre
 Échantillon 6 = population statistique pour un sondage traditionnel (personne adulte résidant en
France)

2eme reflexe : face à toute nouvelle information statistique, il faut toujours réfléchir au mode de collecte qui est
utilisé pour produire l'information :Sondage en ligne/Micro-trottoir
utiliser la source, sa réputation, et le mode de collecte comme premiers indices de stabilité

IV) variables statistiques :

 Caractère et modalité :
On classe les individus selon différents caractères, ou variable :
Ex : un salarié peut être caractérisé par : son sexe, son âge, son ancienneté, son salaire, son temps de travail. . .

chaque caractère ou variable peut prendre plusieurs modalités, cad plusieurs valeurs différentes.

p. 2
Chapitre 1 : Introduction

Une variable peut être caractérisée par :


- 2 modalités : Sexe = {Homme ; Femme} variable dichotomique ou binaire
- quelques modalités : Matière = {Mathématiques ; Statistiques ; Microéconomie ; Macroéconomie ; Langue
- infinité de modalité : Revenu, poids,... avec un grand nombre de modalités qu'on peut considérer comme
une infinité
 pour analyser une variable : ses modalités doivent être incompatibles et exhaustives (une et une seule valeur
pour chaque individu)

 deux types de variables :

quantitatives : mesurables par des valeurs chiffrées (salaire, temps de travail. . .)


- discrètes : lorsqu'il existe un nombre limité de valeurs différentes dans un certain interval. Il s'agit souvent
de nombres entiers (nombre d'enfants à charge, nombre de pièces dans un logement. . .)
- continue : s'il existe potentiellement une infinité de valeurs (taille, poids, salaire, . . .)

qualitatives : pas mesurables mais observables, modalité = texte (sexe, CSP, nationalité. . .)
- ordinales : lorsqu'il existe un ordre « naturel »entre les modalités : niveau de diplôme
- nominales : s'il n'existe pas de hiérarchie claire (nationalité, sexe, statut matrimonial, etc.)

V) Biais, erreurs et bonnes pratiques :

 biais cognitifs :

biais de confirmation : tendance à faire + confiance à une statistique qui confirme nos propres a priori, quelle que
soit sa stabilité réelle

Biais de cadrage : biais lié à la manière dont l'information est présentée, structurée

 Confusion entre corrélation et causalité, et les « variables de confusion »


deux variables corrélées ne sont pas forcément reliées par un quelconque mécanisme causal
- Raisonner en nombre absolu ou en proportion : danger
- Rôle des effets de compositions
- danger des variables de confusion
- rôle du hasard lié à l'échantillonnage
- Comparer des choses comparables

En résumé, quelques bonnes pratiques pour répondre à une à l'aide de données statistiques ou pour évaluer la
stabilité d'une information statistique :
- Se baser sur des sources statistiques de confiance
- Vérifier que la méthode de collecte ou de calcul est adapté
- Se demander si ces données sont les plus pertinentes pour répondre à la question d'intérêt
- Réfléchir aux éventuels effets de composition
- Tracer des graphiques sobres qui n'induisent pas en erreur
- Garder en tête le rôle du hasard en comparant deux chiffres /échantillons
- Comparer des entités ou des périodes comparables
- Calculer les indicateurs statistiques adaptés
- Formuler des interprétations correctes
- Avoir conscience des limites de l'analyse

p. 3

Vous aimerez peut-être aussi