0% encontró este documento útil (0 votos)
48 vistas4 páginas

Análisis de Datos GEIH 2021 en R

Ejercicio de Inteligencia de negocios utilizando R, ejercicio con datos de la gran encuesta de hogares.

Cargado por

Lina Cifuentes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
48 vistas4 páginas

Análisis de Datos GEIH 2021 en R

Ejercicio de Inteligencia de negocios utilizando R, ejercicio con datos de la gran encuesta de hogares.

Cargado por

Lina Cifuentes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Actividad_2_BI

Lina Cifuentes

2022-11-16

#GEIH : GRAN ENCUESTA INTEGRADA DE HOGARES 2021


El Departamento Administrativo Nacional de Estadistica -DANE ha desarrollado
encuestas en hogares desde finales de la decada de los 60 cuando adelanto encuestas
de fuerza de trabajo e ingresos y gastos de manera transversal.

Ecuaciones de MINCER para colombia (2021)

#1. OBTENCION DE LOS DATOS ___


##llamamos librerias
library(readr)

## Warning: package 'readr' was built under R version 4.2.1

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.2.1

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':


##
## filter, lag

## The following objects are masked from 'package:base':


##
## intersect, setdiff, setequal, union

library(ggplot2)
library(DataExplorer)

## Warning: package 'DataExplorer' was built under R version 4.2.2

library(summarytools)

## Warning: package 'summarytools' was built under R version 4.2.2

Se llama la libreria Readr que nos permite importar conjunto de datos, dplyr que
proporciona gramatica para la manipulacion y operacion de data frames, ggplot2 que
permite la visualizacion de datos que realiza una representacion esquematica y en
capas de lo que se dibuja en los graficos, dataexplorer que permite automatizar la
exploracion y el tratamiento de los datos Summarytools que genera un resumen
rapido, detallado y grafico de las variables del dataframe
##establecer directorio
setwd(choose.dir())
getwd()

## [1] "C:/EAM/II_Sem/BI/Ecuaciones_Mincer"

list.files()

## [1] "Act_2_LC_AM.R" "Act_2_V2.docx" "Act_2_V2.Rmd"


## [4] "Agosto.csv" "Agosto.csv (1).zip" "area_21.csv"
## [7] "Diciembre.csv (2)" "Diciembre.csv (2).zip" "ejer_11nov.R"
## [10] "ejer_12nov.R" "Enero.csv (1)" "Enero.csv (1).zi
p"
## [13] "Febrero.csv (1)" "Febrero.csv (1).zip" "Julio.csv (1)"
## [16] "Julio.csv (1).zip" "Junio.csv (1)" "Junio.csv (1).zi
p"
## [19] "Marzo.csv (1)" "Marzo.csv (1).zip" "Mayo.csv (1)"
## [22] "Mayo.csv (1).zip" "Noviembre.csv (1)" "Noviembre.csv (1
).zip"
## [25] "Octubre.csv (1)" "Octubre.csv (1).zip" "report.html"

#llamar todos los archivos, de enero a diciembre, correspondiente al archivo de areas


- caracteristicas generales
ene_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Enero.csv (1)/Ene
ro.csv/Área - Características generales (Personas).csv")
feb_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Febrero.csv (1)/F
ebrero.csv/Área - Características generales (Personas).csv")
mar_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Marzo.csv (1)/Mar
zo.csv/Área - Características generales (Personas).csv")
may_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Mayo.csv (1)/Mayo
.csv/Área - Características generales (Personas).csv")
jun_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Junio.csv (1)/Jun
io.csv/Área - Características generales (Personas).csv")
jul_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Julio.csv (1)/Jul
io.csv/Área - Características generales (Personas).csv")
ago_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Agosto.csv/Área -
Características generales (Personas).csv")
oct_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Octubre.csv (1)/Ár
ea - Características generales (Personas).CSV", sep=";")
nov_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Noviembre.csv (1)/
Área - Características generales (Personas).CSV", sep=";")
dic_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Diciembre.csv (2)/
Área - Características generales (Personas).CSV", sep=";")
Se descargan los archivos para cada mes del año, correspondiente a las caracteristicas
generales de las areas. que son areas que son cabeceras y resto y porque se omitio
abril y septiembre…
#mirar si las variables son iguales, se comparan dos meses aleatorios, en este caso se
comparan los meses de febrero y en noviembre con el comando sum, compara que la
suma de las columnas del data frame feb_21 sea igual a la suma de las columnas del
data frame nov_21
sum(colnames(feb_21)==colnames(nov_21))

## [1] 43

se comprueba con el comando anterior que los meses de enero y octubre tienen las
mismas columnas, con esto se puede proceder a unir todos los meses en un solo
archivo correspondiente al año.
#se procede a unir todos los meses en una tabla con el comando rbind, el cual une
agregando filas cuando sabemos que las columnas son iguales y estan en el mismo
orden
area_21 <-rbind(ene_21, feb_21, mar_21, may_21, jun_21, jul_21, ago_21, o
ct_21, nov_21, dic_21)

El data frame area_21 incluye 10 meses de información de la GEIH con las


caracteristicas de las areas, tiene 28337 datos y 52 variables
#Se consulta una tabla de frecuencia con el comando table para ver cuantas
observaciones hay por mes
table(area_21$MES)

##
## 1 2 3 5 6 7 8 10 11 12
## 28155 28962 28256 28362 27730 27619 28337 26965 27451 26390

Se evidencia que las observaciones de cada mes coinciden con cada unos de los
archivos denominados ene_21, feb_21 ….. dic_21.
#Como la base de datos tiene tantas variables, se filtran solo las de nuestro interes y
nombramos el archivo con otro nombre area_21_v2
area_21_v2 <- area_21[,c("DIRECTORIO", "SECUENCIA_P","ORDEN","HOGAR","REG
IS","P6020", "P6040","P6080","P6070", "P3246", "P6090","P6100", "P6160","
AREA","ESC","MES","fex_c_2011")]

Se escogen las variables de directorio, secuencia, orden, hogar, registro de la encuesta,


sexo (P6020), edad (P6040), etnia (P6080), estado civil (P6070), es pobre (P3246),
afiliado a EPS (P6090), regimen de EPS (P6100), sabe leer y escribir (P6160), area
metropolitana a la que pertenece (area), nivel de escolaridad (esc), mes, factor de
expansion (fex_c_2011)
#generando una llave primaria area_21_v2𝑘𝑒𝑦 < −𝑝𝑎𝑠𝑡𝑒(𝑎𝑟𝑒𝑎21𝑣 2DIRECTORIO,
area_21_v2𝑆𝐸𝐶𝑈𝐸𝑁𝐶𝐼𝐴𝑃 , 𝑎𝑟𝑒𝑎21𝑣 2ORDEN, area_21_v2$HOGAR, sep = “-”)

También podría gustarte