0% encontró este documento útil (0 votos)
73 vistas76 páginas

Introducción a Stata en Ciencia Política

Este documento presenta las principales características de la interfaz de Stata y los procedimientos para trabajar con el software. Explica que Stata tiene una interfaz sencilla con ventanas para resultados, variables, comandos y editor de datos. Además, describe cómo abrir y leer archivos de datos en Stata en formatos como .dta, .sav de SPSS y archivos de texto, ya sea usando comandos o importando los archivos. También resume los tipos básicos de comandos y archivos que se utilizan en Stata.

Cargado por

Darío Pascual
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
73 vistas76 páginas

Introducción a Stata en Ciencia Política

Este documento presenta las principales características de la interfaz de Stata y los procedimientos para trabajar con el software. Explica que Stata tiene una interfaz sencilla con ventanas para resultados, variables, comandos y editor de datos. Además, describe cómo abrir y leer archivos de datos en Stata en formatos como .dta, .sav de SPSS y archivos de texto, ya sea usando comandos o importando los archivos. También resume los tipos básicos de comandos y archivos que se utilizan en Stata.

Cargado por

Darío Pascual
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TÉCNICAS DE INVESTIGACIÓN EN CIENCIA POLÍTICA

TEMA 0.- INTRODUCCIÓN A STATA: ESTRUCTURA DEL


PROGRAMA Y PREPARACIÓN DE LOS DATOS

Profesores: Dra. Patricia Pinta Sierra y Dr. Álvaro Martín Hernández


Departamento de Ciencias Sociales
Universidad Carlos III de Madrid | uc3m

Curso 2021/2022
Segundo cuatrimestre
RESUMEN DE CONTENIDOS

0.1. Interfaz y ventanas


0.2. Procedimientos de trabajo en Stata
0.3. Tipos de archivos
0.4. Los comandos de Stata
0.5. Apertura de ficheros y lectura de datos
0.6. Limpieza y transformación de los datos
0.7. Operaciones con los ficheros
0.1. INTERFAZ Y VENTANAS

Existen diferentes paquetes de software estadístico orientados al análisis de datos,


tales como MATLAB, SAS, SPSS, R o Stata.
0.1. INTERFAZ Y VENTANAS

0.1.1. ¿Cómo es su interfaz?


0.1. INTERFAZ Y VENTANAS

Software libre de código abierto


0.1. INTERFAZ Y VENTANAS
0.1. INTERFAZ Y VENTANAS

0.1.2. ¿Cuáles son sus ventanas?


RESULTADOS

REVISIÓN

VARIABLES

COMANDOS

Directorio de trabajo
0.1. INTERFAZ Y VENTANAS
0.1. INTERFAZ Y VENTANAS

Guardar el actual Abrir/cerrar/ Detener la


fichero de datos suspender un Editor de datos Gestor de ejecución de
(pero...¡cuidado!) log file Gráficos (editar) variables comandos

BARRA DE MENÚS Y
HERRAMIENTAS

Abrir ficheros de Imprimir Abrir el Editor de Editor de datos Continuar la


datos de Stata resultados, visor de nuevo do-file (buscar/explorar) ejecución de
gráficos y ayuda comandos
órdenes
0.1. INTERFAZ Y VENTANAS

MENÚS Y
CUADROS DE
DIÁLOGO
0.1. INTERFAZ Y VENTANAS

CUADROS DE DIÁLOGO
0.1. INTERFAZ Y VENTANAS

EDITOR DE Las columnas representan las variables


DATOS
Las filas representan los casos (observaciones)
0.1. INTERFAZ Y VENTANAS

GESTOR DE
VARIABLES

Cada fila es una variable


y cada columna un
atributo asociado a
dicha variable
0.1. INTERFAZ Y VENTANAS
0.1. INTERFAZ Y VENTANAS

ARCHIVOS DE
PROGRAMACIÓN:
DO-FILES
0.1. INTERFAZ Y VENTANAS

Instrucción: help [nombre de comando] Ej. help summarize

VENTANAS DE
AYUDA
0.1. INTERFAZ Y VENTANAS

0.1.3. Comparando con SPSS

E
L

P
R
I
M
E
R

V
I
S
T
A
Z
O
0.1. INTERFAZ Y VENTANAS

0.1.3. Comparando con SPSS


E
L

E
D
I
T
O
R

D
E

D
A
T
O
S
0.1. INTERFAZ Y VENTANAS

0.1.3. Comparando con SPSS

L
A
S

V
A
R
I
A
B
L
E
S
0.1. INTERFAZ Y VENTANAS

0.1.3. Comparando con SPSS

L
A

S
I
N
T
A
X
I
S
0.1. INTERFAZ Y VENTANAS
0.1.3. Comparando con SPSS

L
O
S

R
E
S
U
L
T
A
D
O
S
0.2. PROCEDIMIENTOS DE TRABAJO EN STATA

MANERAS DE
TRABAJAR EN
Modo instrucción Modo menú
STATA
Escribir instrucciones en la Dar instrucciones al programa
línea de comandos y ver los empleando las opciones de la
resultados en la ventana barra de menús
correspondiente

Modo programación
Utilizar do-files en los que se escriben las
instrucciones necesarias para llevar a cabo una tarea
y desde donde pueden ejecutarse tantas veces se
desee. Ésta es la manera óptima de trabajar.
0.3. TIPOS DE ARCHIVOS

Ficheros de datos (.dta) Ficheros de programa y


[.sav en SPSS] do-files (.ado y .do)
[.sps en SPSS]

Ficheros de resultados/output (.log o .smcl) Ficheros de gráficos (.gph, .wmf, .png, etc.)
[.spv en SPSS]
0.3. TIPOS DE ARCHIVOS

Ficheros de resultados/output: .log o .smcl


log using nombrearchivolog(.log) log close
0.4. LOS COMANDOS DE STATA

✓ Stata habla en inglés


✓ Los comandos/instrucciones serán en minúsculas
- Para las variables, Stata distingue entre mayúsculas y
minúsculas (EDAD != edad != Edad)
- Para las rutas y nombres de archivos, Stata NO distingue entre
La LÓGICA DE LOS COMANDOS mayúsculas y minúsculas
de Stata ✓ Algunos comandos se pueden abreviar
✓ Permite introducir comentarios (*)
✓ La estructura de las órdenes a Stata es la siguiente:
[preinstrucción:] comando [argumento] [especificación], [opción]
Ejemplo: tabulate p1, nolab
0.4. LOS COMANDOS DE STATA

ALGUNOS OPERADORES BÁSICOS ...

ARITMÉTICOS LÓGICOS RELACIONALES

+ Suma > Mayor que


& Y
- Resta < Menor que
| O
* Multiplicación >= Mayor o igual
! No
/ División <= Menor o igual
~ No
^ Potencia == Igual
!= No igual
~= No igual
0.4. LOS COMANDOS DE STATA

“KIT DE COMANDOS DE BIENVENIDA”

version: muestra la versión de Stata con la que trabajamos


browse: permite ver el editor de datos
edit: permite editar los datos en el editor de datos (¡cuidado!)
doedit [nombre archivo]: permite abrir y editar un fichero do-file
help comando: solicita ayuda sobre un determinado comando
cd [“ruta”]: muestra o establece el directorio de trabajo
dir: lista los archivos del directorio de trabajo
clear: elimina todos los datos que se encuentran en la memora
exit: salida de Stata
0.4. LOS COMANDOS DE STATA

EL DIRECTORIO DE TRABAJO

El directorio de trabajo (DT) es la ruta que Stata emplea por defecto para
buscar o guardar los archivos.

COMANDOS
cd cd [“ruta”]

dir
0.4. LOS COMANDOS DE STATA
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

0.5.1. ¿Cómo introducir manualmente datos en Stata?


0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

0.5.2. ¿Cómo abrir un fichero de Stata?

OPCIÓN 1:
icono de Stata
o doble click

use “ruta” o use “nombre de fichero” si ya está establecido el DT


OPCIÓN 2: save “ruta” o “nombre”: permite guardar los cambios introducidos en
El uso de comandos la base
clear: permite cerrar el fichero sin guardar los cambios
exit: permite salir de Stata
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

0.5.3a. ¿Y si los datos no están en formato .dta? Los ficheros de SPSS .sav (ej. CIS)

OPCIÓN 1:
Abrirlos con SPSS y
guardarlos desde allí
en formato Stata (.dta)

Problema: necesitas disponer


de ambos programas
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

▪ A partir de la versión Stata 16: import spss using “ruta", case(lower)

▪ Para versiones previas…

El comando usespss está disponible para instalaciones de Stata de 32-bit.


OPCIÓN 2: Para 64-bit existe una versión beta que puede ser instalada con el siguiente
El comando usespss comando:

net from [Link]


0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

Una vez instalado el paquete usespss...

para 32-bit: usespss using “ruta....(.sav)“ 64-bit: usespss “ruta.... .sav"

OPCIÓN 3: Software Stat/Transfer para la conversión del formato


Stat/Transfer de los archivos.
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

0.5.3b. ¿Y si los datos no están en formato .dta? Importar ficheros de texto .csv, .txt

Importa archivos de texto delimitados en los


que hay una observación por línea y los valores
insheet import delimited nombrefichero
están separados por comas, tabuladores o
algún otro delimitador. La primera línea contiene
los nombres de las variables.

Captura de la PTS: Gibney, Mark, Linda Cornett, Reed Wood, Peter Haschke, Daniel Arnon, Attilio Pisanò, and Gray Barrett. 2019. The Political Terror Scale
1976-2018. Date Retrieved, from the Political Terror Scale website: [Link]
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

[Link]
0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

Importa archivos de texto sin formato. Los


infile listvar using “nombrefichero” valores de las variables deben estar separados
por espacios. Es preciso especificar los
nombres de las variables.

Importa archivos de texto con formato fijo


infile using “ficherodiccionario” mediante el uso de un diccionario.

0.5.3c. ¿Y si los datos no están en formato .dta? Importar ficheros Excel .xlsx, .xls

import excel using nombrefichero, firstrow


0.5. APERTURA DE FICHEROS Y LECTURA DE DATOS

IMPORTAR MEDIANTE MENÚS...


EJERCICIO

Crea un pequeño fichero de Stata con los siguientes datos....

CUES EDAD SEXO VOTO INCIDENCIASCAMPO


1 25 Hombre Podemos
2 55 Mujer PSOE La entrevistada tiene prisa por terminar
3 43 Mujer No sabe todavía La entrevistada tiene pisa por terminar
4 47 Hombre PP
5 36 Hombre Ciudadanos
6 40 Hombre No votará El entrevistado se queja por la longitud del cuestionario
7 75 Mujer No sabe todavía
8 60 Hombre NC El entrevistado se siente molesto ante algunas preguntas
9 55 Hombre Vox
10 52 Mujer Blanco La entrevistada expresa deseo de abandonar

Nota: Se trata de los 10 primeros registros del barómetro de noviembre de 2019 del CIS (E3267), si bien adaptando el contenido de la última columna para el
desarrollo del ejercicio
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

0.6.1. Etiquetas de variables y valores

ETIQUETAR UNA VARIABLE:

label variable nombrevar “Nombre etiqueta”


Ej: label variable P37 “Estado civil”
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

ETIQUETAR LOS VALORES DE UNA VARIABLE:

label define nombrelistaetiquetas # “Etiqueta” # “Etiqueta”


Ej. label define ecivil 1 “Casado/a” 2 “Soltero/a” 3”Viudo/a” 4”Separado/a” 5”Divorciado/a”

label values nombrevar nombrelistaetiquetas


Ej. label values P37 ecivil

Nota: Si has cometido un error en la asignación de etiquetas, al intentar corregirlo Stata te dirá que las
etiquetas ya han sido definidas y no te dejará sobreescribirlas. Para ello...

Ej. label define ecivil 1 “Casado/a” 2 “Soltero/a” 3”Viudo/a” 4”Separado/a” 5”Divorciado/a”, modify
También existe la posibilidad de borrar un listado de etiquetas: label drop nombrelistaetiquetas
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

En resumen....

label variable: añade una etiqueta a una variable.

label define: define una lista de números y texto llamada etiqueta de valores.

label values: añade la etiqueta de valores a la variable.


0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

0.6.2. Ordenar el fichero

▪ Generalmente, el orden de los casos en el fichero no es importante para la realización de


nuestros análisis. Sin embargo, algunos procedimientos estadísticos requieren una
determinada organización de los casos (ej. fusiones de archivos o análisis diferenciado
por grupos).

sort nombrevariable [orden ascendente]


gsort [+|-] nombrevariable [orden ascendente o descendente]
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

0.6.3. Seleccionar casos


Subinstrucciones in e if

instrucción in rango

Ej. list sexo in 1/10


Ej. summarize edad in 1/5

▪ Selecciona los casos de un determinado rango de casos. La instrucción sólo se


ejecutará en ese rango.

▪ ¡Ojo! El listado dependerá de cómo esté ordenado el fichero.


0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

instrucción if expresión

▪ Selecciona los casos sobre los que se va a ejecutar la instrucción en función de si


cumplen una determinada condición lógica.

▪ La “instrucción” es la orden que se solicita. La “expresión” es la condición que


deberán cumplir los casos para que les afecte el comando.

Ej. tab P1 if sexo==1


tab P1 if edad>20 Recuerda aquí los “operadores lógicos” ...
summarize ingresos if sexo ==2 & edad <=35
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

¡Cuidado con el orden de ejecución de los operadores lógicos!

Si queremos seleccionar a las personas con más de 20 años que sean de la región
1 (norte) o de la región 2 (sur)... ¿cuál es la expresión correcta?

tabulate sexo if region==1 | region==2 & edad>20


tabulate sexo if (region==1 | region==2) & edad>20

El orden de ejecución de los operadores es el siguiente: primero la negación lógica (! ó ~); después,
las funciones; a continuación, la negación aritmética (-); seguidamente la división (/) y multiplicación
(*); después la resta (-) y la suma (+); luego los operadores relacionales (<, >, ==, etc.); y finalmente
los operadores lógicos & y |, por este orden (Escobar, 2009: 117).
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

0.6.4. Agrupación de casos

▪ La preinstrucción by permite agrupar los casos según sus valores en una o más
variables y hacer que la instrucción a la que acompañan se ejecute por separado en
cada uno de los grupos.

▪ Es necesario ordenar previamente los casos según los valores de la variable que
conforma los grupos.

sort variableagrupación
by variableagrupación: instrucción
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

Ejemplo:
sort sexo
by sexo: summarize edad

Un comando alternativo ... bysort sexo: summarize edad

▪ El prefijo by puede emplearse con muchas instrucciones y siempre realiza de manera


independiente la orden solicitada sobre cada uno de los grupos definidos por la variable
especificada.

▪ Puede especificarse más de una variable para obtener los correspondientes análisis.
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

0.6.5. Generación, transformación y recodificación de variables (Escobar et al. 2009: 122-141)


1. Unificación de categorías y creación de dummies
2. Categorización de variables cuantitativas en intervalos
Ej. Edad en grupos (18 a 24, 35 a 44, 45 a 54, 55 a 64, 65 y más)
¿Cuándo y para qué?

3. Creación de índices o inversión de escalas


Ej. Satisfacción con la democracia en un índice de 2 a -2
4. Limpieza/depuración de variables
Ej. Errores de codificación, preguntas filtradas, etc.
5. Cambio de escalas
Ej. PIB en dólares transformado en euros
6. Creación de una variable como combinación de otras
Ej. Clase social
7. Preparación de variables para la realización de cálculos
Ej. Escala ideológica
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS
= asigna valores a una variable
== es igual que (comparación lógica, test de igualdad)
a) Creación de variables

generate variablenueva = expresión Crea una nueva variable


clonevar variablenueva = variableprevia Clona una variable existente

b) Modificación y recodificación de variables

replace variable = expresión Cambia los contenidos de una variable existente


recode variable (regla) Recodifica una variable
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

generate variablenueva = expresión


replace variable = expresión

TRANSFORMACIONES ALGEBRAICAS

En “expresión” introduciremos una fórmula matemática: una constante (un número igual para todos los
casos), operaciones aritméticas básicas (suma, resta, multiplicación, división), una o varias funciones.

gen year = 2020


gen edad = 2020 - añonacimiento
gen staterepres2 = staterepres ^2
gen lngdp = ln(gdp)
replace sexo = 2 in 5
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

recode variable (regla)

TRANSFORMACIONES DE EQUIVALENCIA

A diferentes conjuntos de valores antiguos se les hace corresponder distintos valores nuevos. Operación
similar a la realizada por replace, pero en lugar de aplicar los cambios con una función lo hace mediante
equivalencias entre antiguos y nuevos valores.

recode variable (vvaa=nuevovalor)(vvaa=nuevovalor)[, into (nuevavariable)]


0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

recode sexo (3 =.) Limpieza y depuración de variables

recode satisdemo (1=5) (2=4) (3=3) (4=2) (5=1) Invertir escalas

recode edaddum (1=1) (2=1) (else=0) Crear una variable dummy


0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

Categorización de una variable cuantitativa


Muchas operaciones pueden hacerse
mediante comandos y vías distintas

recode edad (min/35=1) (36/50=2) (51/65=3) (66/max=4), into (edadr)

gen edadr= edad


recode edadr (min/35=1) (36/50=2) (51/65=3) (66/max=4)

recode edad (min/35=1 “Hasta 35 años”) (36/50=2 “De 36 a 50 años”) (51/65=3 “De 51 a 65 años”) ///
(66/max=4 “Más de 65 años”), into (edadr)
0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

TRANSFORMACIONES LÓGICAS

Para obtener una determinada transformación de los valores de una o varias variables, en ocasiones son
necesarias una o varias operaciones lógicas aplicadas a las instrucciones vistas hasta el momento

Instrucciones condicionadas a cláusulas de selección

gen joven = 1 if edad <= 30


replace joven=0 if edad>30

recode edad (18/30=1)(31/98=0), into (joven)


0.6. LIMPIEZA Y TRANSFORMACIÓN DE LOS DATOS

Ejemplo: Creación de una variable con cuatro categorías: 1= Hombres jóvenes;


2= Mujeres jóvenes, 3= Hombres mayores, 4= Mujeres mayores.

gen sexoedad=1 if sexo==1 & edad<=30


replace sexoedad=2 if sexo==2 & edad<=30
replace sexoedad=3 if sexo==1 & edad>30
replace sexoedad=4 if sexo==2 & edad>30

label define sexoedad 1 “Hombre joven” 2 “Mujer joven” 3 “Hombre mayor” 4 “Mujer mayor”
label value sexoedad sexoedad
0.7. OPERACIONES CON LOS FICHEROS

0.7.1. Validación de ficheros y anonimización de archivos

▪ Antes de empezar a trabajar con una matriz de datos hay que asegurarse de que no
hay ningún valor no válido en ninguna de las variables.

VALIDACIÓN de los datos

a. La validación consiste en ir pregunta por pregunta eliminando todos los casos con
CÓDIGOS NO VÁLIDOS o enviándolos a missing en esa variable concreta.
0.7. OPERACIONES CON LOS FICHEROS

b. En las PREGUNTAS FILTRADAS hay que comprobar que la han contestado quienes debían
hacerlo según el filtro.
PX. ¿En qué medida se siente satisfecho con....?

Muy satisfecho ...........1


Bastante satisfecho......2 Pasar a PY
Poco satisfecho...........3
Nada satisfecho ..........4
NS..................................8
NC ................................9

Fuente: Ana Raquel López Cabanas (CIS)

Si en este ejemplo han respondido a PY individuos que no estaban en las categorías 1 y 2 en PX, podrían enviarse
a “perdidos” todos aquellos casos para que no entren en el cálculo de porcentajes válidos de PY.
0.7. OPERACIONES CON LOS FICHEROS

c. ELIMINACIÓN DE INCONSISTENCIAS. Se puede ir incluso más allá en la validación de los


códigos y filtros, y estudiar posibles inconsistencias de los datos con objeto de depurar el
fichero de datos al máximo.

d. ANONIMIZACIÓN DE FICHEROS. En investigación social cuantitativa se precisa recoger o


manejar datos individuales procedentes de encuestas o registros; sin embargo, su fin son
los resultados colectivos.
0.7. OPERACIONES CON LOS FICHEROS

▪ La información individual no puede difundirse. Ha de protegerse como confidencial y guardar


la intimidad de los informantes.

▪ Sobre los datos archivados en los ficheros hay que mantener el secreto estadístico, hay que
ANONIMIZARLOS.

▪ Algunas cautelas (CIS):


✓ Aplicación anónima del cuestionario.
✓ No se graban datos de identificación personal (DNI, nombre, etc.).
✓ Se eliminan aquellos campos que son susceptibles de identificación de las personas entrevistadas.
Habitualmente se aplica a variables territoriales.
0.7. OPERACIONES CON LOS FICHEROS

i. Eliminación local: sustituir en una determinada variable un dato en uno o más registros por
un valor en blanco u omitido, lo que equivale a crear un categoría “resto/otros”. Por ejemplo
en la variable municipio, se asigna 0 a municipios menores de 100.000 habitantes,
exceptuando capitales de provincia.

ii. Eliminación global de variables de identificación del entrevistado: distrito, sección censal,
comarca, código del entrevistador, etc.
0.7. OPERACIONES CON LOS FICHEROS
0.7. OPERACIONES CON LOS FICHEROS

0.7.2. La ponderación de los datos (Escobar et al. 2009: 93-99)

▪ Se entiende por PONDERACIÓN ESTADÍSTICA la modificación del peso igualitario que


originalmente poseen las observaciones en el conjunto de datos.

▪ Stata ofrece diversos procedimientos de ponderación. Es necesario tener en cuenta que


no todos los procedimientos de ponderación son posibles en todas las instrucciones de
Stata. Acude a la ayuda (comando help) de cada orden.
0.7. OPERACIONES CON LOS FICHEROS
0.7. OPERACIONES CON LOS FICHEROS

PROCEDIMIENTOS DE PONDERACIÓN CON STATA (Escobar et al. 2009: 98)

[iweight= variableponde] importance weights

[aweight= variableponde] analytic weights

[pweight= variableponde] sampling weights

[fweight= variableponde] frequency weights

instrucción [pweight= variableponde]


Ej. tab P1 [iweight=PESO]
0.7. OPERACIONES CON LOS FICHEROS

0.7.3. Eliminar variables (y etiquetas de variables)

keep listavariables mantener variables en el fichero


drop listavariables borrar variables del fichero

label drop nombreetiqueta borrar etiqueta de variable

Ej. keep ccode year polity2


drop P2r P5 P21
label drop sitlab
0.7. OPERACIONES CON LOS FICHEROS

0.7.4. La fusión de archivos (Escobar et al. 2009: 74 y ss.)

a. La UNIÓN DE FICHEROS: el comando append

▪ Es preciso que las variables (todas o parte) sean iguales

▪ Fusión vertical de archivos: añadir casos

▪ Para poner un fichero a continuación de otros es preciso:


a. Cargar en la memoria el primer fichero (use)
b. Añadir los casos necesarios, en tanto que ambos ficheros tengan alguna variable
en común (append)
0.7. OPERACIONES CON LOS FICHEROS

use nombrefichero1
append using nombrefichero2 [, keep(listavariables)]

ID fecha confin ID fecha confin vacun ID fecha confin vacun


1 jul2020 8 6 feb2021 8 9 1 jul2020 8
2 jul2020 7 7 feb2021 7 8 2 jul2020 7
3 jul2020 2 8 feb2021 2 4 3 jul2020 2
4 jul2020 2 9 feb2021 2 4 4 jul2020 2
5 jul2020 10 5 jul2020 10
6 feb2021 8 9
7 feb2021 7 8
8 feb2021 2 4
9 feb2021 2 4
0.7. OPERACIONES CON LOS FICHEROS

b. La COMBINACIÓN DE FICHEROS: el comando MERGE

▪ Es preciso que los casos (todos o parte) sean iguales


▪ Fusión horizontal de archivos: añadir variables
▪ Es necesario que los dos ficheros que se van a combinar tengan el mismo orden (sort)
▪ Variable/s clave común entre ambos ficheros para identificar las obervaciones
▪ En el fichero se genera una nueva variable (_merge) con los siguientes códigos:
0.7. OPERACIONES CON LOS FICHEROS

use nombrefichero1
merge [1:1 | m:1 | 1:m] [listavariables clave] using nombrefichero2

1:1 One-to-one: una observación del fichero master se corresponde con una observación del
fichero using (ej. individuos a individuos). Este tipo de fusión tiene sentido cuando las observaciones en
ambas bases describen las mismas cosas, pero contienen información diferente sobre ellas.

m:1 Many-to-one: múltiples observaciones del fichero master se corresponden con una sola
observación del fichero using. Este tipo de fusión tiene sentido cuando hay datos jerárquicos y un
fichero contiene información sobre las unidades de nivel uno y el otro sobre las unidades de nivel dos.
Por ejemplo cuando se fusionan datos de nivel individual con datos de hogares, de regiones, de
países, etc.

1:m One-to-many: caso contrario al anterior.


0.7. OPERACIONES CON LOS FICHEROS

use master
merge 1:1 id using filename
0.7. OPERACIONES CON LOS FICHEROS

use master
merge m:1 region using filename
0.7. OPERACIONES CON LOS FICHEROS

APPEND MERGE

FICHERO 1 FICHERO 1 FICHERO 2


(MASTER) (MASTER)

FICHERO 2
BIBLIOGRAFÍA

Estas diapositivas tienen una finalidad exclusivamente docente. Se basan y reproducen, en ocasiones literalmente, los
siguientes materiales:

▪ Escobar, M., E. Fernández y F. Bernardi. 2009. Análisis de datos con Stata. Cuadernos Metodológicos
del CIS, nº45. Madrid: CIS.
▪ Santana, A. y J. Rama. 2017. Manual de análisis de datos con Stata. Madrid: Tecnos.
Otras fuentes consultadas:
▪ Robson, Karen. “Introduction to Stata”. Material docente. The Essex Summer School in Social Science
Data Analysis and Collection 2010.

También podría gustarte