0% ont trouvé ce document utile (0 vote)
53 vues27 pages

Using Stata Chapter 1

Transféré par

kkjpj1999
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
53 vues27 pages

Using Stata Chapter 1

Transféré par

kkjpj1999
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1 : Une introduction en douceur et l'UE Chapitre 1

1.1 Acquisition de données

Tout d'abord. Avant de pouvoir utiliser Stata , vous devez y avoir accès. Comment tu
l'as obtenu? Votre collège ou université peut fournir Stata dans des laboratoires
informatiques officiels. Si ce n'est pas le cas (ou si vous souhaitez une copie
personnelle), vous pouvez acheter et télécharger Stata directement
(www.stata.com). Heureusement, des tarifs étudiants raisonnables sont disponibles.

Avec l'accès à Stata , vous « l'ouvrez » comme vous le feriez pour n'importe quel
programme sur votre ordinateur (comme Word, Excel, etc.). Lorsque vous ouvrez
Stata sur un PC, vous devriez voir quelque chose comme la figure 1.

FIGURE 1.1

Stata fonctionne également sur Mac et, même si cela semble légèrement différent,
les commandes et fonctionnalités sont presque identiques sur un PC. La figure 2
montre Stata sur un Mac.

Utiliser des statistiques 1- 1


FIGURE 1.2

Parlons de ce que vous voyez. Il y a cinq « panneaux » ou « fenêtres » dans Stata . La


plus grande, directement au milieu de l'écran, est la fenêtre « Résultats ». Eh bien, il
vous montre les résultats de ce que vous dites à Stata de faire.

En haut à gauche se trouve la fenêtre « Révision ». Cette zone fournit un historique


de toutes les commandes que vous avez données à Stata . L'angle supérieur droit est
l'endroit où les variables de votre ensemble de données apparaîtront et l'angle
inférieur droit est l'endroit où vous verrez les propriétés des variables.

La fenêtre centrale en bas est la fenêtre « Commande ». Comme son nom l'indique,
c'est ici que vous pouvez dire à Stata quoi faire, où vous « programmez » réellement.
(Pas de panique ! Vous pouvez travailler dans Stata en tapant des commandes une
par une ou vous pouvez regrouper toutes vos commandes dans un seul programme,
appelé en langage Stata un « fichier do ».)

1.2 Obtenir des données dans Stata

Avec Stata ouvert, nous devrions avancer et ouvrir un ensemble de données.

Utiliser des statistiques 1- 2


Format des données

Il existe plusieurs façons d'obtenir des données dans Stata . Le plus simple, bien sûr,
est de commencer par que les données soient au format Stata . Comme la plupart
des logiciels, une certaine « extension » est associée à un certain type de fichier. Un
document Microsoft Word porte l'extension « . docx » et « . pdf » est l'extension
d'Adobe Acrobat. Les ensembles de données statistiques ont un « . données »
extension.

Ouvrir un « . dta » dans Stata est assez simple. Cliquez sur « Fichier » en haut à
gauche. Cliquez ensuite sur « Ouvrir » et à partir de là, sélectionnez le dossier dans
lequel se trouve votre ensemble de données, puis cliquez sur le nom de l'ensemble
de données. Vous êtes prêt à courir. Dans la figure 1.3, je montre exactement cela
pour l'ensemble de données Magic Hill (nommé HTWT1.dta) introduit dans la
section 1.4 de Utilisation de l'économétrie . J'avais déjà enregistré ce fichier sur mon
disque dur (à partir du site Web Using Econometrics Student Companion).

HTWT1.dta a deux variables :

Y : poids (en livres) du i ème client


X : hauteur (en pouces au-dessus de 5 pieds) du i ème client

FIGURE 1.3

Utiliser des statistiques 1- 3


La figure 1.4 affiche ce que vous devriez voir dans Stata après avoir chargé le fichier
HTWT1.dta.

FIGURE 1.4

Utiliser des statistiques 1- 4


Remarquez que dans la fenêtre Variables (flèche bleue), il y a deux variables X et Y,
comme prévu. La fenêtre Résultats donne un enregistrement de ce que j'ai fait
(flèche rouge). Dans ce cas, j'ai ouvert un ensemble de données. En langage Stata ,
ouvrir un ensemble de données, c'est « utiliser » un ensemble de données. La ligne
use "/Volumes/ECONOMICS/Economics/Data/HTWT1.dta" est en réalité une
commande de programmation Stata . Ne stressez pas. Nous détaillerons cette
commande (et bien d’autres) un peu plus tard. Pour l'instant, sachez que même si
vous avez ouvert un ensemble de données par une approche « pointer et cliquer »,
Stata a enregistré ce que vous avez fait dans son langage. C’est une belle pépite à
garder à l’esprit.

Notez également que l'ouverture de la commande a été enregistrée dans la fenêtre


Révision.

Bien sûr, pour ouvrir un ensemble de données Stata , vous pouvez également
trouver le fichier sur votre ordinateur et « double-cliquer » dessus, tout comme vous
ouvrez des fichiers avec la plupart des autres logiciels courants.

Utiliser des statistiques 1- 5


Bien que vous ayez accès à tous les ensembles de données utilisés dans Utilisation de
l'économétrie au format Stata , ce ne sera pas le cas avec de nombreux autres
ensembles de données. Dans cet esprit, nous devrions aborder quelques approches
courantes pour importer des données dans Stata .

À la dure : saisie manuelle des données

Souvent, dans la vie, il existe une « manière difficile » de faire quelque chose. Notez
que « dur » ne signifie pas nécessairement « manière inefficace ». La « manière
difficile » d’obtenir des données dans Stata est de les saisir manuellement.

Disons que vous disposez des données suivantes dont vous avez besoin pour
accéder à Stata .

Revenu Expérience Nom


35 000 $ 8 Bruce
45 000 $ 6 poursuivre en
justice
52 500 $ 9 Marie
37 500 $ 15 Boisé
20 000 $ 1 John

Le revenu est défini comme le revenu annuel en dollars, l'expérience en années et le


nom est le nom de la personne.

Comme auparavant, ouvrez Stata comme vous le feriez pour n’importe quel autre
programme. Tout en haut, vous verrez une icône qui ressemble à une feuille de
calcul avec un crayon. La figure 1.5 montre ceci :

Utiliser des statistiques 1- 6


FIGURE 1.5

Si vous cliquez sur cette icône, une fenêtre « Éditeur de données » s'ouvrira. La
figure 1.6 montre l'éditeur de données. Comme son nom l'indique, c'est ici que vous
pouvez modifier les données.

Utiliser des statistiques 1- 7


FIGURE 1.6

L'éditeur de données ressemble beaucoup à une feuille de calcul. Il est organisé en


lignes et colonnes. Dans Stata , chaque colonne est une variable. Chaque ligne est
une observation.

Commencez dans la cellule en haut à gauche (indiquée par une flèche bleue), tapez
35 000 et appuyez sur « Entrée ». La figure 1.7 montre ce que vous devriez voir :

FIGURE 1.7

Utiliser des statistiques 1- 8


Notez que la colonne s'appelle désormais « var1 » et que la ligne est
automatiquement numérotée « 1 ». Nous devrions aller de l'avant et dire à Stata que
nous voulons que le nom de cette variable soit « Revenu » et non « var1 ». Puisque
nous sommes dans l'éditeur de données, un moyen simple de le faire est de double-
cliquer sur le « var1 » sous la fenêtre Propriétés à l'extrême droite de la page
(indiqué par une flèche bleue dans la figure 1.8).

FIGURE 1.8

Nommez la variable « Revenu ». La figure 1.9 montre ce que vous voyez après avoir
fait cela.

Utiliser des statistiques 1- 9


FIGURE 1.9

Nommer les variables est important pour des raisons évidentes. Vous voulez vous
assurer que les noms de variables sont informatifs mais pas excessivement longs.
Gardez également à l’esprit que Stata est sensible à la casse. Pour Stata, « revenu » et
« revenu » sont des mots différents.

L'étape suivante devrait consister à saisir l'expérience et le nom de la première


personne (Bruce). Vous entreriez « 8 » dans la première ligne, deuxième colonne,
puis « Bruce » dans la première ligne, troisième colonne. La figure 1.10 le montre.

Utiliser des statistiques 1- 10


FIGURE 1.10

Encore une fois, notez que lorsque nous sommes entrés dans l'expérience, la
variable a été automatiquement nommée « var2 » et le nom de la variable de
l'individu était « var3 ». Naturellement, nous voudrions renommer ces « Expérience
» et « Nom » comme nous l’avons fait pour le Revenu.

À ce stade, nous avons toutes les informations sur Bruce dans l’ensemble de
données. La première ligne de l'ensemble de données contient toutes les

Utiliser des statistiques 1- 11


informations de Bruce. Il convient de répéter qu'une ligne dans Stata est une
observation.

Après avoir renommé les variables, nous devons continuer et saisir les informations
pour les quatre autres personnes. La figure 1.11 montre ce que vous devriez voir
une fois toutes les informations saisies.

FIGURE 1.11

Vous avez maintenant travaillé à la dure pour importer des données dans Stata . Je
vous suggère à ce stade de sauvegarder votre ensemble de données. « Épargnez tôt
et épargnez souvent » est une TRÈS bonne règle à respecter ! La manière la plus
simple de procéder est de cliquer sur « fichier>enregistrer sous » comme vous le
feriez avec n'importe quel autre logiciel (tel que Word), comme le montre la FIGURE

Utiliser des statistiques 1- 12


1.12. Naturellement, après avoir enregistré et nommé le fichier pour la première
fois, pour enregistrer, cliquez simplement sur « enregistrer ».

FIGURE 1.12

Je voudrais faire une remarque très importante à ce stade, quelque chose sur lequel
vous êtes peut-être tombé par hasard. Notez que lorsque j'ai saisi le revenu de

Utiliser des statistiques 1- 13


Bruce, je n'ai PAS utilisé de virgule ni de signe dollar ($). Dans Stata , il existe
essentiellement deux types de données : numériques et non numériques. Les
données numériques ne contiennent que des nombres (et un nombre décimal, si
nécessaire). Les données contenant autre chose que des chiffres ne sont pas
numériques. Bien qu’il s’agisse d’une simplification excessive, c’est un bon point de
départ. Ce qu’il faut retenir pour le moment, c’est que Stata aurait vu « 35 000 $ »
comme une entrée non numérique, semblable à celle de « Bruce ». Puisque nous
avons besoin qu’il s’agisse d’un nombre, nous avons entré « 35 000 » comme valeur.

Après avoir enregistré votre ensemble de données, vous pouvez maintenant fermer
la fenêtre de votre éditeur de données. Vous remarquerez probablement qu'il y a de
nombreuses lignes dans les fenêtres Résultats et Révision. Ceci est illustré à la figure
1.13 (flèches bleues et rouges, respectivement).

FIGURE 1.13

Utiliser des statistiques 1- 14


Ce que vous voyez, c'est que Stata enregistre tout ce que vous avez fait lorsque vous
avez saisi les données sous la forme de commandes Stata . Comme auparavant, il
s'agit d'une fonctionnalité utile (et judicieuse) de Stata et quelque chose que nous
explorerons plus formellement plus tard.

La méthode la moins difficile : importer des données

Une autre façon courante d'introduire des données dans Stata consiste à les «
importer » à partir d'un autre formulaire. Bien que Stata puisse importer un certain
nombre de formulaires de données, l'importation la plus courante provient peut-
être d'une feuille de calcul Microsoft Excel. Dans cet esprit, nous prendrons le temps
de parcourir le processus.

Nous utiliserons les mêmes données que celles que nous avons imputées
manuellement. J'ai enregistré les données dans un fichier Excel, illustré à la figure
1.14.

FIGURE 1.14

Utiliser des statistiques 1- 15


Pour l'importer dans Stata , cliquez sur « fichier> importer » dans Stata et
sélectionnez « Feuille de calcul Excel (*. xls ; * xlsx ) » Ceci est illustré dans la figure
1.15 (flèche bleue).

FIGURE 1.15

Une fois cela fait, une autre fenêtre s'ouvrira, illustrée dans la figure 1.16.
FIGURE 1.16

Utiliser des statistiques 1- 16


A partir de là, cliquez sur « Parcourir… » ( flèche bleue ) qui vous permettra de
sélectionner le fichier que vous souhaitez importer. Mon fichier s'appelle
ExcelImportData.xlsx. Vous devriez voir quelque chose qui ressemble à la figure
1.17.

FIGURE 1.17

Utiliser des statistiques 1- 17


Avant de cliquer sur « OK », nous devrions parler de quelques paramètres. Le
premier, identifié par une flèche bleue, vous demande si vous souhaitez que la
première ligne de votre fichier Excel soit les noms de variables. Dans notre cas, nous
devrions cocher cette case car la ligne 1 contient nos noms de variables. Si la
première ligne Excel ne contient pas les noms, bien sûr, ne la vérifiez pas !

Le deuxième paramètre demande si nous voulons importer les données sous forme
de « chaînes » (indiquées par une flèche rouge). Bien que « chaînes » ait une
définition informatique formelle, pour nos besoins, cela signifie « pas un nombre ».
Ce n’est évidemment pas ce que nous souhaitons. Nous avons besoin que nos
données sur les revenus et l’expérience soient des chiffres dans Stata. Vous ne
devriez donc pas cocher cette case.

Après avoir cliqué sur la première case et NON sur la deuxième case, cliquez sur OK.
Cela extraira automatiquement les données Excel dans Stata. Vous devriez alors voir
quelque chose comme la figure 1.18.

FIGURE 1.18

Et vous êtes au même endroit que si vous aviez saisi manuellement les données
(même si c'est un peu plus amusant !). S'il s'agissait d'un vrai projet, vous voudriez
continuer et sauvegarder votre ensemble de données nouvellement importé.

Utiliser des statistiques 1- 18


1.3 : Quelques bases de l'utilisation des données

Une fois que vous avez des données dans Stata, vous pouvez réellement faire des
choses intéressantes. Vous utiliserez fréquemment certaines commandes dans Stata
et nous passerons ici en revue certaines des commandes les plus courantes. Nous
utiliserons les données de revenus et d'expérience présentées ci-dessus et les
récupérerons juste après l'importation des données Excel.

Statistiques récapitulatives

Une question qui pourrait se poser est la suivante : quel est le revenu moyen de
notre ensemble de données ? En d’autres termes, quelle est la moyenne des revenus
de l’échantillon ?

Pour obtenir des statistiques récapitulatives (qui incluent la moyenne, l’écart type,
le minimum et le maximum), vous devez exécuter la commande :

résumer Nom de variable

En règle générale, tout au long de ce document, les commandes Stata réelles


seront indiquées en bleu et les autres éléments des lignes de commande Stata,
tels que les variables, seront en rouge . Les deux seront en italique.

En prenant la syntaxe ci-dessus et en l'appliquant à nos données de revenus et


d'expérience, vous taperez ce qui suit dans la fenêtre de commande

résumer Revenu

et appuyez sur « Entrée ».

Vous devriez voir quelque chose comme la figure 1.19.

Utiliser des statistiques 1- 19


FIGURE 1.19

Les résultats de votre commande sont joliment rapportés dans la fenêtre Résultats
avec un enregistrement de la commande que vous avez donnée à Stata. Cette seule
commande donne pas mal d'informations. Passons en revue chacun d'entre eux :

1. Obs. : le nombre d'observations utilisées dans le calcul.


2. Moyenne : la moyenne de l'échantillon (c'est-à-dire la moyenne) de
l'ensemble de données.
3. Norme. Dev. : l’écart type de l’échantillon.
4. Min : la valeur minimale trouvée dans l'ensemble de données.
5. Max : la valeur maximale trouvée dans l'ensemble de données.

Si vous souhaitez encore plus d’informations sur les revenus, vous pouvez
demander des statistiques récapitulatives « détaillées ». Pour ce faire, vous devez
ajouter « ,detail » à la fin de la commande.

résumer Revenu , détail

La figure 1.20 fournit une image de ce que vous devriez voir après cette commande,
en zoomant pour voir uniquement ce qui serait affiché dans la fenêtre Résultats.

Utiliser des statistiques 1- 20


FIGURE 1.20

L'ajout de « détails » à la commande vous donne beaucoup plus d'informations.


Notre ensemble de données ne contient que 5 observations, ce n'est donc pas aussi
intéressant que si nous avions des milliers d'observations. Néanmoins, le fait est que
vous pouvez facilement obtenir pas mal d’informations sur une variable dans Stata,
qu’elle comporte 5 observations ou 5 millions.

Il est facile d'obtenir des statistiques récapitulatives pour plusieurs variables en


même temps. La syntaxe générale dans Stata est :

résumer nom de la variable1 nom de la variable2 nom de la variable3

Vous pouvez ajouter autant de variables à l'instruction que vous le souhaitez. Ou, si
vous êtes paresseux (pas de commentaire), vous pouvez simplement taper :

résumer

Cela donnera des statistiques récapitulatives sur chaque variable de l'ensemble de


données. Faire cela pour notre ensemble de données génère quelque chose dans le
sens de la figure 1.21.

FIGURE 1.21

Utiliser des statistiques 1- 21


Vous obtenez une liste de chaque variable de votre ensemble de données ainsi que
des statistiques récapitulatives calculées. Remarquez cependant qu'il y a quelque
chose de drôle dans la variable name. Stata rapporte qu'il n'a aucune observation et
ne fournit aucune statistique récapitulative. Que se passe-t-il?

Si vous y réfléchissez un instant, Name est une variable de texte. Il enregistre les
noms de chaque individu de l'échantillon. À quand remonte la dernière fois que vous
avez essayé de faire la moyenne des noms ? Je le pensais. Stata est poli lorsqu'il
rapporte 0 observation.

Création de variables

Une autre capacité utile à avoir dans Stata est de pouvoir créer des variables à partir
de variables existantes. Par exemple, en utilisant nos données actuelles sur les
revenus et l’expérience, nous pourrions nous demander combien chaque personne
est payée par année d’expérience. En d’autres termes, nous pourrions créer une
variable nommée IncPerYrExp (remarque, j’ai essayé de rendre le nom de la variable
informatif mais pas trop long) qui est définie comme le revenu divisé par les années
d’expérience.

La syntaxe générale dans Stata pour créer une nouvelle variable est la suivante :

générer nouvelle variable = some_mathematical_function

Où « nouvellevariable » est le nom que vous donnez à la variable que vous créez.

Pour créer IncPerYrExp comme défini ci-dessus pour notre ensemble de données, je
donnerais la commande suivante :

générer IncPerYrExp = Revenu / Expérience

La figure 1.22 montre ce que vous devriez voir dans Stata après cette commande.

Utiliser des statistiques 1- 22


FIGURE 1.22

Il ne se passe pas grand-chose d’excitant. Mais notez que dans la fenêtre Variables,
vous avez une variable de plus qu'auparavant : IncPerYrExp (indiquée par une flèche
bleue).

Vous pouvez cliquer sur l' icône pour la « voir ». Si vous faites cela, vous verrez
quelque chose qui ressemble à la figure 1.23.

FIGURE 1.23

Utiliser des statistiques 1- 23


Eh bien, Stata a fait exactement ce que nous avions demandé : créer une nouvelle
variable, nommer-la IncPerYrExp et la définir comme le revenu divisé par
l'expérience. Parfait.

La commande generate est assez flexible et peut gérer un certain nombre


d'expressions mathématiques. Voici des exemples de ce que vous pourriez faire
(même si vous ne le souhaitez pas). Pouvez-vous déchiffrer ce qui se passe dans
chacun d’eux ?

générer IncMinusExp = Revenu – Expérience

générer IncPlusExp = Revenu + Expérience

générer IncInThousands = Revenu / 1000

générer Inc_Squared = Revenu * Revenu

générer Inc_Squared = Revenu ^ 2

générer ln_Inc = ln( Revenu )

La dernière commande de génération est à noter. Il crée une variable ( ln_Inc ) qui
est le logarithme naturel du revenu. Il utilise une commande d'opérateur
mathématique : ln(…). Stata compte de nombreux opérateurs et nous en couvrirons
davantage si nécessaire.

1.4 Au-delà de la manipulation des données : régression OLS

J'espère que vous commencez à vous sentir un peu plus à l'aise avec Stata et à
travailler avec des données dans Stata. Il y a encore beaucoup à apprendre et à faire
(Stata est assez incroyable !) et nous sommes en bonne voie.

Utiliser des statistiques 1- 24


Les sections 1.4 et 1.5 de Utilisation de l'économétrie présentent deux exemples
d'analyse de régression. Il semble tout à fait approprié d'en utiliser un pour montrer
comment Stata peut être utilisé pour générer des résultats de régression.

La bonne nouvelle est qu’exécuter une régression dans Stata est assez simple. La
syntaxe de base est la suivante :

régresser variable dépendante variable indépendante

La commande « regress » indique à Stata de prendre les variables spécifiées et


d'effectuer une régression. Examinons l'exemple de Magic Hill à la page 17 dans
Utilisation de l'économétrie .

Les données de Magic Hill peuvent être téléchargées à partir du site Web Using
Econometrics Student Companion . Le nom de l'ensemble de données est HTWT1.dta
et il comporte deux variables :

Y : poids (en livres) du i ème client


X : hauteur (en pouces au-dessus de 5 pieds) du i ème client

Le modèle proposé dans Using Econometrics, Section 1.4, Équation 1.18, est :

Y i=β 0 + β 1 X i+ ε i

Après avoir chargé les données dans Stata , tapez la commande suivante dans la
fenêtre de commande et appuyez sur Entrée.

régresser YX

La figure 1.24 indique ce que vous verrez juste avant d'appuyer sur Entrée. La figure
1.25 montre ce que vous devriez voir juste après avoir appuyé sur Entrée.

FIGURE 1.24

Utiliser des statistiques 1- 25


FIGURE 1.25

Utiliser des statistiques 1- 26


Beaucoup de choses se sont passées dans la fenêtre Résultats. Pour l'instant,
concentrez-vous sur les trois flèches (bleue, rouge et verte). La flèche bleue pointe
vers la commande de régression. La flèche rouge pointe vers la colonne de variables
dans la régression : Y, X et quelque chose appelé « _cons ». Ce « quelque chose » est
le terme d'interception estimé du modèle, autrement connu sous le nom de ^β 0.

La flèche verte pointe vers le « Coef ». colonne, qui rapporte les coefficients estimés.
Le premier numéro du Coef . la colonne est 6,377093. Il s'agit de l'estimation de β 1 ,
le paramètre de X. Elle correspond au 6,38 (arrondi) de l'équation 1.19 dans Using
Econometrics . Juste en dessous se trouve _cons, l'estimation de β 0 , l' ordonnée à
l'origine. Il s'agit de 103,3971, qui est arrondi à 103,40.

Utiliser des statistiques 1- 27

Vous aimerez peut-être aussi