0% ont trouvé ce document utile (0 vote)
332 vues12 pages

Cours Stata 2025

Le document présente une introduction à STATA, un logiciel de gestion de données, en détaillant ses fonctionnalités, interfaces et commandes essentielles pour l'importation, l'exportation, et la gestion des données. Il aborde également la gestion des variables, y compris la création de variables, le traitement des données manquantes, et la réalisation de statistiques descriptives et de tests d'hypothèses. Enfin, il explique comment générer des graphiques et des courbes à partir des données traitées.

Transféré par

28041994mhd
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
332 vues12 pages

Cours Stata 2025

Le document présente une introduction à STATA, un logiciel de gestion de données, en détaillant ses fonctionnalités, interfaces et commandes essentielles pour l'importation, l'exportation, et la gestion des données. Il aborde également la gestion des variables, y compris la création de variables, le traitement des données manquantes, et la réalisation de statistiques descriptives et de tests d'hypothèses. Enfin, il explique comment générer des graphiques et des courbes à partir des données traitées.

Transféré par

28041994mhd
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE DE YAOUNDE II

THE UNIVERSITY OF YAOUNDE II

FACULTE DES SCIENCES FACULTY OF ECONOMICS AND


ECONOMIQUES ET DE GESTION MANAGEMENT
BP. 1365 YAOUNDE P.O Box 1365 YAOUNDE
CAMEROUN CAMEROON
Tél: (237) 22 21 34 41 / Fax (237)22 21 34 41 Tel: (237) 22 21 34 41/ Fax (237) 22 21 34 41

COURS D'INTRODUCTION A L'INFORMATIQUE APPLIQUEE

SEANCE I
INTRODUCTION A STATA

Un logiciel et un outil qui permet de gérer les données. Comme exemples de logiciel
on peut citer : STATA, EVIEWS, SPSS, SPAD, EXCEL, DASP, DAD, etc.

Stata est un logiciel qui stocke les données sous quatre formes. bytes (pour les valeurs
numériques-naturel de 127-100); int (pour les valeurs numériques-naturelles de 32,767
à 32, 740); float (pour les valeurs numériques-réelles avec 8.5 digits de précision);
double (pour les valeurs réelles avec 16.5 digits de précision); string ou str (pour des
textes). Tous les fichiers ouvrables par stata ont pour extension .dta

Il est possible d’importer ou d’exporter les données d'un logiciel à l'autre. En ce qui
concerne STATA, la commande import nous permet d'importer les données de type
ASCII, FDA, ODBC (qui sont des formats de saisie des données). La commande export
nous permet d'exporter les données de STATA à un autre type de fichier.

Toutefois, nous pouvons aussi copier les données d'un fichier comme Excel et les coller
dans un fichier STATA. Pour cela, il suffit de : (a) selectionner les données que nous
voulons copier dans un autre fichier comme un "spreadsheet" ou une base de données
saisie dans EXCEL par exemple ; (b) Cliquer sur la commande copier ; et (c) pointer la
souris sur la rangée des cellules où on voudrait coller les données et cliquer coller.

Par ailleurs, nous pouvons saisir les données directement dans STATA. Pour cela, il faut
cliquer sur le bouton Data Editor qui est une rubrique de STATA. Cette commande fait
apparaitre un "spreadsheet" qui est un fichier qui permet de saisir les données.

Les différentes Interfaces dans STATA

À l’ouverture STATA présente quatre interfaces ou fenêtres


(a) commande window ou la fenêtre de commande : elle permet de saisir les
commandes que nous demandons à STATA d'effectuer.
(b) review window ou la fenêtre de commandes passées : elle indique l'historique des
commandes que nous avons saisi dans STATA.
(c) variable window ou la fenêtre de variables : elle montre la liste des variables qui
1

sont dans la base de données, leurs libelles, leurs type de stockages et leurs format.
Page
(d) result window ou la fenêtre de résultat : elle permet de voir les résultats des
commandes saisies dans STATA.

Les différentes rubriques de STATA

Les différentes rubriques de STATA sont : Open-pour ouvrir un fichier; Save-pour


enregistrer un fichier; log-pour commencer, fermer, recommencer un fichier de type
log; Viewer-pour accéder le fichier d'aide de STATA, ou des fois gère un fichier
d'extension de STATA; Graph-pour ouvrir la fenêtre des graphique de STATA; Data
Editor-pour ouvrir la base de données et la éditer (changer, renommer, ajouter ou saisir
des variables, etc.); Data browser-pour voir la base de données; Clear-pour demander
à STATA de continuer si elle s’est arrêter; Break-pour demander à STATA de s'arrêter;
Do-File Editor-pour demander à STATA d'ouvrir le fichier do-file.

Le fichier do-file est très important dans STATA. Il permet par exemple de saisir les
syntaxes des programmes que l’on peut sauvegarder et réutiliser une prochaine fois.
Aussi, on peut demander à STATA de les exécuter une autre fois. Pour créer un do-file
clique sur New-Do-File Editor. Ensuite, nous pouvons saisir les commandes que nous
voudrions que STATA exécute pendant qu’on travaille et les sauvegarder pour les
réutiliser une autre fois.

2
Page
SEANCE II
GESTION SIMPLE DES DONNEES DANS STATA-IE-L3-FSEG-UY II

Avec STATA, nous pouvons par exemple libeller une variable.


Pour décrire ou renommer une variable (par exemple) ; tapez rename variable s03q4
"Eduquer".
Ici nous avons renommé la variable s03q4 en éduquer.

Nous pouvons aussi décider de décrire la variable sactivcm en lui donnant un label pour
facilite sa compréhension.
Tapez : label variable sactivcm `"secteur d'activité"'

Nous pouvons aussi libeller les valeurs d’une variable muette ou variable « dummy ».
Par exemple nous voulons libeller 1 et 0 de la variable mariage en oui et non. Pour
libeller une dummy qui avait la valeur 1 et 0 en oui ou non

Tapez : label define mariage 1 "oui", modify pour libeller 1 en oui


label define mariage 0 "non", modify pour libeller 2 en non
label values mariage mariage (Ceci permet d’indiquer le oui et non dans la base)
label values mariage “mariage”

Une fois que nous avons une base de données, nous pouvons la gérer comme à notre
guise afin d'obtenir les résultats que nous voulons.
Dans cette optique nous pouvons visualiser la base de données. Pour cela, il faut cliquer
sur data > Data browser > et cliquer sur OK.
Ou dans la fenêtre de commande il suffit de tapez browse.
Exemple browse Eduquer marriage

Nous pouvons aussi décrire les contenus de la base. Pour cela il faut cliquer sur Data >
Describe Data > Describe data in memory > et cliquer sur OK.
Ou dans la fenêtre commande il suffit de tapez describe. Exemple : describe branche

Cependant, il y'a parfois des notes qui sont associées aux données. Si nous voulons
visualiser l’endroit où nous avons enregistré ces données la dernière fois, ou sa taille,
etc., il suffit de tapez la commande notes pour accéder à ces notes.

Les bases de données sont plus qu'un ensemble des données. Elles contiennent des
éléments qui peuvent les rendre plus lisibles pour des personnes autres que les créateurs
de ces bases de données.
Pour accéder à toutes ces informations ou mieux comprendre une base, nous pouvons
générer quelque statistique descriptive.
3
Page
Pour le faire, il faut cliquer sur Statistics > Summaries, tables and tests >Summary and
Descriptive statistics > Summary statistics et puis sur OK.

Ou taper simplement la commande summarize ou sum. Exemple : sum tailm.

Par ailleurs, pour avoir plus d'information sur une variable, nous pouvons saisir sum
tailm, detail. Cette commande nous permet d'avoir des percentiles, variance, moment
d’ordre trois et quatre, etc.

En outre, nous pouvons vouloir observer une partie d'une variable comme c’est le cas
par exemple, lorsqu’on veut visualiser uniquement l'information sur une partie des
données. Si nous voulons par exemple visualiser uniquement les données sur les
hommes, il suffit de saisir la commande suivant : sum sexcm if sexcm==1.

De même, nous pouvons décider d’obtenir des statistiques sur l’état de santé des
femmes. Pour cela, nous allons taper la commande suivante : sum s02q11 if sexcm==2

Les commandes describe ou summarize ne peuvent que fournir un aperçu sommaire des
données. Aussi, la base de données peut contenir des données manquantes. Ainsi, pour
visualiser une description plus approfondie d'une variable, ou pour obtenir une
description approfondie de la structure du contenue et la valeur d'une variable, il faut
utiliser la commande codebook. Pour cela, vous pouvez taper la commande suivante :
codebook suivie du nom de la variable considérée. Ou bien aller sur Data > Describe
data > Describe data contents (codebook), puis appuyer sur OK. Exemple : codebook
sexcm décrit la variable genre d'une manière approfondie

Notion de Variable Manquante ou "Missing Variable"

Parfois, lorsque nous collectons les données, il peut arriver que certaines données soient
manquantes à cause d’un refuser de répondre des enquêtées, ou l'oubli des enquêteurs,
etc. Si nous listons ces variables à travers la commande list (par exemple list branche), à
chaque fois qu'un individu n'a pas répondu un point apparaît dans la case. Par exemple,
si on voulait visualiser les variables manquantes de la variable branche d’activité, on
peut saisir la commande suivante : browse branche if branche==.

Ces variables manquantes affectent certaines analyses des résultats obtenus par exemple
à partir des régressions économétriques, parce que STATA supprime ces variables. Aussi,
il est recommandé lors des régressions économétriques de traiter ces variables, ou
justifier pourquoi elles sont manquantes.
4
Page
Tabulate ou Tabuler

Il est possible d'obtenir les fréquences (ou proportions) de certaines variables. Ceci est
valable surtout pour des variables catégoriques ou binaires. Pour le faire il faut cliquer
sur Statistique > Summaries, tables and test > Tables > One-way table >, ensuite, il
faut choisir la variable à considérer (e.g s0q12), et enfin, il faut cliquer sur submit.
Ou alors, nous pouvons taper la commande suivante : tabulate s0q12 ou tab s0q12.
Ceci nous permet de voir les fréquences en termes de type de religion pratiquée par le
chef de ménage.

Pour comparer la relation entre deux variables catégorielles, ou binaires et catégoriques,


ou deux variables binaires, etc. Nous pouvons générer un tableau croisé de ces deux
variables. Pour le faire, il faut cliquer sur Statistique > Summaries, tables and test >
Tables > Two-way table with measure of association >, ensuite, il faut choisir la
première variable comme la variable ligne >, puis, il faut choisir la deuxième variable
comme la variable colonne >, et pour avoir les pourcentages de la deuxième variable,
il faut cliquer within-row relative frequencies >, et enfin sumit.
Ou tapez simplement la commande suivante : tabulate (la première variable) (la
deuxième variable). Exemple : croiser genre et maladie, tapez: tab sexcm s02q2

If Command

La commande If est la commande si. Elle nous permet de conditionner la commande.


Par exemple, pour résumer la variable âge si la variable considérée est le sous handicap
homme. Tapez: sum s01q4 if s01q12==1.

By Command

La commande by peut être utilisé comme si, ou par rapport à une variable, ou une
autre commande.
Par exemple: by sexcm, sort: sum s02q11. Ici nous demandons à STATA de nous donner
des statistiques de la variable s02q11, par rapport à la variable sexcm ordonnée.
Ou alors : by sexcm, sort : correlate typmen branche. Ici nous demandons à STATA de
nous donner la corrélation entre type de ménage et branche d’activité, par rapport à
la variable genre ordonnée.

Corrélation entre Deux Variable

Nous pouvons décider d'étudier la corrélation entre deux ou plusieurs variables.


Exemple entre âge et être actif (emploi). Pour cela, il suffit de taper la commande
suivante : corr agecm actifcm.
5
Page
Sort

Cette commande nous permet d'ordonner une variable par ordre croissant. Exemple :
la commande sort tailm, classe les tailles des chefs de ménages par ordre croissant.

Gsort

Cette commande nous permet d'ordonner une variable par ordre décroissant.
Exemple : la commande gsort –tailm, classe les tailles des chefs de ménages par ordre
décroissant.

Hypothesis Testing

Nous pouvons aussi effecteur des tests d’hypothèse à partir de STATA. C’est par
exemple le cas, si on veut verifier si la différence des moyennes est significative. Par
exemple nous pouvons vouloir tester genre et éducation.
Pour cela, il faut cliquer sur Statistics > Summaries, tables, and test > Classsical tests of
hypotheses > Two-group mean-comparison test. Ensuite, il faut choisir les variables
sexcm et Eduquer02 pour la rubrique Group Variable name, puis il faut cliquer sur
submit.

Ou alors, on peut utiliser la commande suivante : ttest sexcm, by (Eduquer).

Nous pouvons tester la significativité de la moyenne d'une variable. Par exemple, si


nous voulons vérifier la significativité de la moyenne de la variable taille de ménages
(tailm), nous pouvons utiliser la commande suivante : ttest tailm == 0. La valeur zéro
(0) voudrait supposer que la moyenne est nulle.

Pour tester la significativité de l'écart type, la commande à utiliser est la suivante : sdtest
tailm==0

Nous pouvons aussi tester l’interdépendance entre deux variables (éducation et secteur
d’activité). Pour cela, un test de Khi-deux pourrait être effectué. Pour cela, il suffit de
taper la commande suivante : tab Eduquer secteur, chi2.
6
Page
SEANCE III
COMMENT GENERER LES VARIABLES, TRACER LES GRAPHIQUE OU GENERER LES
COURBES

COMPARE COMMAND
Elle nous permet de comparer deux variables.
Ex. nous voulons comparer la variable branche d’activité et type de ménage. Taper:
compare branche typmen

LIST COMMAND
Cette commande nous permet de lister les variables. Nous pouvons lister les 20 premiers
individus de la variable taille de ménage.
Ex. list tailm in 1/20

BY COMMAND
La commande by nous permet de répéter la commande par sous-groupe (par exemple).
A priori, avant d'exécuter la commande by, if faudrait d'abord trier la variable via la
commande sort.
E.g. bysort s02q2: summarize depuc. Ici on demande à STATA de donner des statistiques
descriptives de la variable dépense par tête, selon la variable- malade au cours des deux
dernières semaines.

Nous pouvons aussi vouloir voir les statistiques descriptives de la variable dépense par
tête par la variable appréciation de son état de santé actuel, et aussi demander à STATA
de nous donner des statistiques comme la moyenne, médiane, l'écart type, la valeur
minimum et maximum.

Pour le faire, taper: tabstat depuc, by (s02q11) statistics (N mean median sd min max)

GENERATE COMANDE
La commande generate ou gen, nous permet de générer les variables. La commande
egen est plus puissante que gen.

Par exemple:
a) Pour générer une variable alors taper: gen (nouveaux_nom du variable) = (Noms
du variable)*(100). Ici nous avons générer une variable qui est l'ancien multiplier par
cent. E.g gen MultAge= agecm*100. Ici je génère une variable qui est la variable age
*100
b) Pour générer le log d'une variable: taper gen (nouveaux_nom du variable) = log
(l'ancien_nom du variable). gen Logdepuc = log (depuc). Ici nous avons générer le log
de la variable la variable dépense par tête
7
Page
c) Pour générer une variable obtenu par la division de l'autre par une autre, taper: gen
(nouveaux_nom du variable) = (Noms du 1er variable)/ (Noms du 2eme variable)
d) Pour générer le pourcentage. Taper: gen (nouveaux_nom du variable) = ((Noms du
1er variable)/ (Noms du 2eme variable))*100
e) Pour générer l'exponentielle de la variable taille de ménage, taper; gen exptailm=
exp(tailm)
f) Pour générer le carrée de la variable taille de ménage, taper; gentailm2=tailm^2
g) pour générer une variable qui est l'addition de deux variables, taper; gen
(nouveaux_nom du variable) = (Noms du 1er variable) + (Noms du 2eme variable)
e) Pour générer un dummy (ou variable muette), taper: tab branche, gen (dum).
Des fois nous pouvons générer un dummy d'une variable continue. Dans notre cas,
depuc (la variable dépense par tête est une variable continue). Nous voudrons générer
un dummy qui prend la variable un si la variable dépense par tête est supérieur à
300000FCFA et zéro autrement.
Pour cela, taper; generate ou gen dumdepuc=0 Cette commande donne la valeur zéro
a tous les individus. Apres taper; replace dumdepuc =1 if depuc>=300000 Cette
commande donne la valeur 1 a toute individus qui dépense plus de 300000 et plus et
zéro autrement.

REPLACE COMMAND
Ce command nous permet de remplacer une variable qui existait déjà dans la base. Par
exemple si la variable âge existait déjà dans la base (agecm) et nous voudrions la
remplacer avec la variable agecm*100, taper: replace agecm= agecm*100

RENAME COMMAND
Cette commande nous permet de renommer une variable une variable.
Par exemple si je voudrais renommer s03q27 (diplôme) en diplome, taper; rename
s03q27 diplome

RECODE COMMAND
Cette commande est utilisée pour recoder une variable. Par exemple, si je veux recoder
la variable discrète forincm en 0 si elle avait la valeur 1 (formelle), et en 1 si elle avait
la valeur 2 (informelle),
Taper: recode secteur=0 if secteur ==1
Après: recode secteur=1 if secteur ==2
8
Page
SEANCE IV
COMMENT TRACER LES COURBES, GENERER LES HISTOGRAMMES, PIE-CHARTE,
LES BAR-CHARTES

Des fois nous pouvons vouloir tracer un histogramme des âges (qui est une variable
continue) des étudiants. Pour ce faire nous allons utiliser la commande recode pour
d'abord codifier les âges selon des catégories. Taper;
1) gen Age_Categoriser = recode(agecm, 21,22, 23, 24, 25, 26)
2) tab Age_Categoriser
3) histogram Age_Categoriser, discrete frequency

Ici la 1ere commande générer une nouvelle variable qui donne à tout individu âgée de
moins de 21 la valeur 21ans ; supérieur à 21 et inferieur a 22 l'âge 22ans,
Supérieur à 22 et inferieur a 23 l'âge 23ans ; ainsi de suite. La seconde commande
demande à STATA de générer un tableau qui indique les fréquences. Et enfin la troisième
commande demande à STATA de tracer un histogramme avec des fréquences discrète.

Il existe plusieurs façons de tracer les courbes, ou représenter les données sous forme de
graphique.

Par exemple, si nous voulons représenter les données sous forme d'histogramme, taper

histogram depuc >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> pour


dépense par tête
histogram sexcm, discrete fraction >>>>>>>>>>>>>>> pour la variable genre

Nous pouvons décider de générer des histogrammes des sous groups qui nous
intéressent pour une analyse approfondie. Par exemple, nous voulons tracer des
histogrammes des tailles des ménages pour les individus malades et les individus qui ne
sont pas malade.
Pour le premier cas, taper: histogram tailm if s02q2==1, discrete frequency
Pour le second cas, taper: histogram tailm if s02q2==2, discrete frequency

Si nous voulons tracer une pie-charte

graph pie, over (s02q11) >>>>>>>>>>>>>>>>>>>>>> pour appréciation


de l’état de santé.
graph pie, over (s10q29) >>>>>>>>>>>>>> pour l'appréciation du niveau de
la corruption.
9
Page
Si nous voulons tracer le Bar-Charte

graph bar (mean) depuc, over (actifcm) blabel(bar) >>>>> je trace la moyenne de
dépense par tête par actif
graph bar (median) depuc, over (actifcm) blabel(bar) >>>>> je trace la mediane de
dépense par tête par actif

Je pourrais refaire la même analyse par taille des ménagés.

graph bar (mean) tailm, over ( actifcm) blabel(bar)


graph bar (median) tailm, over ( actifcm) blabel(bar)
graph bar (sum) tailm, over (actifcm) blabel(bar)

La troisième commande nous permet de tracer le Bar-charte par la somme de tous les
individus de chaque sous-groupe des actifs.

10
Page
SEANCE V
BREVE INTRODUCTION A LA REGRESSION EN UTILISANT STATA

Nous utilisons les régressions pour analyser les effets inconnus d'un au changement d'un
variable sur l'autre. Une régression fait deux hypothèses :
(a) la relation est linaire (par rapport au paramètre) entre deux variables. c.à.d. (entre
Y et X)
(b) La relation est additive (c.à.d. Y=X1+ X2+ X3+ ...+ Xn).
Techniquement une régression linaire estime de qu'elle quantité Y change quand X
change d'une unité.

Dans STATA c'est la commande regress ou reg. Elle se présente comme suit :
regress [variable dépendante] [variables indépendante]

Il est important de noter que, il est fondamental de bien cerner ce que nous voulons
estimer. Ceci est parce que toute estimation devrait être base sur la théorie. Dans le
cadre de ce cours, nous nous basons sur la théorie du capital humaine (voir Gary Becker
ou Thomas shultz) ou du bien-être (Pigou, Sen, les Marginalistes, etc.). Nous allons
essayer de voir les variables qui déterminent les dépenses des ménages à Yaoundé.

Nous considérons comme variable dépendant la variable depuc qui indique la dépense
par tête. Les variables indépendantes sont : (1) l’âge, (2) taille du ménage, (3) genre,
(4) malade au cours des deux dernière semaines.

Nota Bene:
Avant de commencer notre régression, nous traitons d'abord les variables. Dans ce cas
toutes variables catégoriques sont traitées. Pour ce faire nous gênerons les "dummies"
pour chaque variable catégorique (ou binaire). La raison est que en utilisant une variable
catégorique comme variable dépendante ou indépendante, nous biaisons l'analyse.

Toutes les variables sont traitées si dessous :


tab sexcm, gen(dum)
rename dum1 male
rename dum2 female
tab s02q2, gen(dum)
rename dum1 malade
rename dum2 pasmalade
drop dum3
reg depuc agecm tailm male malade
gen logdepuc= log(depuc)
11

reg logdepuc agecm tailm male malade


Page

L'équation est: reg depuc agecm tailm male malade


Voir résultat sur ordinateurs.
Coef est le coefficient (beta) estimée de chaque variable;
t est la valeur t-student de chaque variable;
P>|t| est le teste de significativité ;
[95% Conf. Interval] L'intervalle de confiance ;
R-carrée indique la significativité globale ;
F est la Fisher ;
Number of Obs est le nombre d'observations.

Interprétations des résultats :


Avant d'interpréter les résultats de chaque variable, il est important de voir si le model
est globalement significative à travers le R-carrée.
S'achat que, techniquement, une régression linaire estime de qu'elle quantité Y change
quand X change d'une unité.
Dans ce cas prenons la variable sexcm.
Cette variable est obtenue en créant une variable muette qui prend la valeur un pour
male et zéro autrement.
Cette variable a une relation positive avec depuc.
Elle est significative à 10% parce P>|t| observée (0.093) est inferieur a 10% mais
supérieur à 5%. Sa valeur t-student corrobore cette observation. L'interprétation
économique voudrait peut-être indiquer que le fait d’être un chef de ménage homme
augment les dépenses de ce ménage. Cette procédure d'analyse est appliquée pour tous
les autres variables.

Prédiction de la variable dépendante et le terme d'erreur

Après avoir fait la régression, nous pouvons prédire la variable dépendante.


La commande est predict depuchat
Nota Bene: Ici âpres avoir tapé predict, nous saisissons la variable dépendante suivie
par "hat". Pour prédire le terme d'erreur taper la commande predict resid

Teste d'Hétéroscédasticité

L’hétéroscédasticité étant l'une des hypothèses important dans l'analyse économétrique,


nous pouvons faire le test âpres une régression.
Elle indique que le terme d'erreur ne varie pas avec les variables indépendantes.
La commande est estat hettest

Nous pouvons aussi taper: rvfplot, yline(0)


12
Page

Vous aimerez peut-être aussi