Análisis de Datos GEIH 2021 en R

Ejercicio de Inteligencia de negocios utilizando R, ejercicio con datos de la gran encuesta de hogares.

Cargado por

Lina Cifuentes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

48 vistas4 páginas

Análisis de Datos GEIH 2021 en R

Ejercicio de Inteligencia de negocios utilizando R, ejercicio con datos de la gran encuesta de hogares.

Cargado por

Lina Cifuentes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Actividad_2_BI

Lina Cifuentes

2022-11-16

#GEIH : GRAN ENCUESTA INTEGRADA DE HOGARES 2021

El Departamento Administrativo Nacional de Estadistica -DANE ha desarrollado
encuestas en hogares desde finales de la decada de los 60 cuando adelanto encuestas
de fuerza de trabajo e ingresos y gastos de manera transversal.

Ecuaciones de MINCER para colombia (2021)

#1. OBTENCION DE LOS DATOS ___

##llamamos librerias
library(readr)

## Warning: package 'readr' was built under R version 4.2.1

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.2.1

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':

##
## filter, lag

## The following objects are masked from 'package:base':

##
## intersect, setdiff, setequal, union

library(ggplot2)
library(DataExplorer)

## Warning: package 'DataExplorer' was built under R version 4.2.2

library(summarytools)

## Warning: package 'summarytools' was built under R version 4.2.2

Se llama la libreria Readr que nos permite importar conjunto de datos, dplyr que
proporciona gramatica para la manipulacion y operacion de data frames, ggplot2 que
permite la visualizacion de datos que realiza una representacion esquematica y en
capas de lo que se dibuja en los graficos, dataexplorer que permite automatizar la
exploracion y el tratamiento de los datos Summarytools que genera un resumen
rapido, detallado y grafico de las variables del dataframe
##establecer directorio
setwd(choose.dir())
getwd()

## [1] "C:/EAM/II_Sem/BI/Ecuaciones_Mincer"

list.files()

## [1] "Act_2_LC_AM.R" "Act_2_V2.docx" "Act_2_V2.Rmd"

## [4] "Agosto.csv" "Agosto.csv (1).zip" "area_21.csv"
## [7] "Diciembre.csv (2)" "Diciembre.csv (2).zip" "ejer_11nov.R"
## [10] "ejer_12nov.R" "Enero.csv (1)" "Enero.csv (1).zi
p"
## [13] "Febrero.csv (1)" "Febrero.csv (1).zip" "Julio.csv (1)"
## [16] "Julio.csv (1).zip" "Junio.csv (1)" "Junio.csv (1).zi
p"
## [19] "Marzo.csv (1)" "Marzo.csv (1).zip" "Mayo.csv (1)"
## [22] "Mayo.csv (1).zip" "Noviembre.csv (1)" "Noviembre.csv (1
).zip"
## [25] "Octubre.csv (1)" "Octubre.csv (1).zip" "report.html"

#llamar todos los archivos, de enero a diciembre, correspondiente al archivo de areas

- caracteristicas generales
ene_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Enero.csv (1)/Ene
ro.csv/Área - Características generales (Personas).csv")
feb_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Febrero.csv (1)/F
ebrero.csv/Área - Características generales (Personas).csv")
mar_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Marzo.csv (1)/Mar
zo.csv/Área - Características generales (Personas).csv")
may_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Mayo.csv (1)/Mayo
.csv/Área - Características generales (Personas).csv")
jun_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Junio.csv (1)/Jun
io.csv/Área - Características generales (Personas).csv")
jul_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Julio.csv (1)/Jul
io.csv/Área - Características generales (Personas).csv")
ago_21 <- read.csv2("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Agosto.csv/Área -
Características generales (Personas).csv")
oct_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Octubre.csv (1)/Ár
ea - Características generales (Personas).CSV", sep=";")
nov_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Noviembre.csv (1)/
Área - Características generales (Personas).CSV", sep=";")
dic_21 <- read.csv("C:/EAM/II_Sem/BI/Ecuaciones_Mincer/Diciembre.csv (2)/
Área - Características generales (Personas).CSV", sep=";")
Se descargan los archivos para cada mes del año, correspondiente a las caracteristicas
generales de las areas. que son areas que son cabeceras y resto y porque se omitio
abril y septiembre…
#mirar si las variables son iguales, se comparan dos meses aleatorios, en este caso se
comparan los meses de febrero y en noviembre con el comando sum, compara que la
suma de las columnas del data frame feb_21 sea igual a la suma de las columnas del
data frame nov_21
sum(colnames(feb_21)==colnames(nov_21))

## [1] 43

se comprueba con el comando anterior que los meses de enero y octubre tienen las
mismas columnas, con esto se puede proceder a unir todos los meses en un solo
archivo correspondiente al año.
#se procede a unir todos los meses en una tabla con el comando rbind, el cual une
agregando filas cuando sabemos que las columnas son iguales y estan en el mismo
orden
area_21 <-rbind(ene_21, feb_21, mar_21, may_21, jun_21, jul_21, ago_21, o
ct_21, nov_21, dic_21)

El data frame area_21 incluye 10 meses de información de la GEIH con las

caracteristicas de las areas, tiene 28337 datos y 52 variables
#Se consulta una tabla de frecuencia con el comando table para ver cuantas
observaciones hay por mes
table(area_21$MES)

##
## 1 2 3 5 6 7 8 10 11 12
## 28155 28962 28256 28362 27730 27619 28337 26965 27451 26390

Se evidencia que las observaciones de cada mes coinciden con cada unos de los
archivos denominados ene_21, feb_21 ….. dic_21.
#Como la base de datos tiene tantas variables, se filtran solo las de nuestro interes y
nombramos el archivo con otro nombre area_21_v2
area_21_v2 <- area_21[,c("DIRECTORIO", "SECUENCIA_P","ORDEN","HOGAR","REG
IS","P6020", "P6040","P6080","P6070", "P3246", "P6090","P6100", "P6160","
AREA","ESC","MES","fex_c_2011")]

Se escogen las variables de directorio, secuencia, orden, hogar, registro de la encuesta,

sexo (P6020), edad (P6040), etnia (P6080), estado civil (P6070), es pobre (P3246),
afiliado a EPS (P6090), regimen de EPS (P6100), sabe leer y escribir (P6160), area
metropolitana a la que pertenece (area), nivel de escolaridad (esc), mes, factor de
expansion (fex_c_2011)
#generando una llave primaria area_21_v2𝑘𝑒𝑦 < −𝑝𝑎𝑠𝑡𝑒(𝑎𝑟𝑒𝑎21𝑣 2DIRECTORIO,
area_21_v2𝑆𝐸𝐶𝑈𝐸𝑁𝐶𝐼𝐴𝑃 , 𝑎𝑟𝑒𝑎21𝑣 2ORDEN, area_21_v2$HOGAR, sep = “-”)

También podría gustarte

Ciencia de Datos 1 - Clase 3
Aún no hay calificaciones
Ciencia de Datos 1 - Clase 3
18 páginas
Manejo de Archivos y Dataframes en R
Aún no hay calificaciones
Manejo de Archivos y Dataframes en R
36 páginas
Estimaciones de Empleo No Remunerado en R
Aún no hay calificaciones
Estimaciones de Empleo No Remunerado en R
20 páginas
Funciones y Gráficos en R para Análisis de Datos
Aún no hay calificaciones
Funciones y Gráficos en R para Análisis de Datos
2 páginas
Proyecto Estadístico Agrario en R
Aún no hay calificaciones
Proyecto Estadístico Agrario en R
12 páginas
Script R, 14marzo (Definitivo)
Aún no hay calificaciones
Script R, 14marzo (Definitivo)
23 páginas
Importación y Análisis de Datos en R
Aún no hay calificaciones
Importación y Análisis de Datos en R
123 páginas
Análisis de Datos ENAPRES 2020-2021
Aún no hay calificaciones
Análisis de Datos ENAPRES 2020-2021
6 páginas
Introducción a R y RStudio: Prácticas básicas
Aún no hay calificaciones
Introducción a R y RStudio: Prácticas básicas
10 páginas
Tabla de Contenidos
Aún no hay calificaciones
Tabla de Contenidos
13 páginas
Comandos R para Estadísticas Sociales
Aún no hay calificaciones
Comandos R para Estadísticas Sociales
10 páginas
Guía de Laboratorio: Machine Learning en R
Aún no hay calificaciones
Guía de Laboratorio: Machine Learning en R
10 páginas
Taller de Programación en R: Ejercicios y Análisis
Aún no hay calificaciones
Taller de Programación en R: Ejercicios y Análisis
3 páginas
Introducción al paquete Tidyverse en R
Aún no hay calificaciones
Introducción al paquete Tidyverse en R
54 páginas
Big Data: MapReduce y Apache Spark
0% (1)
Big Data: MapReduce y Apache Spark
8 páginas
Curso Práctico de R y Ciencia de Datos
Aún no hay calificaciones
Curso Práctico de R y Ciencia de Datos
37 páginas
Graficas de Cualitatuvas Continuas
Aún no hay calificaciones
Graficas de Cualitatuvas Continuas
34 páginas
Python - Trabajo Integrador Parte 1
Aún no hay calificaciones
Python - Trabajo Integrador Parte 1
10 páginas
Modelos en Hoja de Cálculo TAREA 3
Aún no hay calificaciones
Modelos en Hoja de Cálculo TAREA 3
44 páginas
Introducción a R: Operaciones y Gráficas
Aún no hay calificaciones
Introducción a R: Operaciones y Gráficas
19 páginas
4.1. Exploración de Datos - PICAD
Aún no hay calificaciones
4.1. Exploración de Datos - PICAD
8 páginas
Funciones y Argumentos en R para Archivos
Aún no hay calificaciones
Funciones y Argumentos en R para Archivos
10 páginas
Introducción a data.frames en R
Aún no hay calificaciones
Introducción a data.frames en R
9 páginas
Operaciones Básicas en R: Guía Práctica
Aún no hay calificaciones
Operaciones Básicas en R: Guía Práctica
40 páginas
MapReduce y Apache Spark en Big Data
Aún no hay calificaciones
MapReduce y Apache Spark en Big Data
8 páginas
DataFrame R
Aún no hay calificaciones
DataFrame R
24 páginas
Introducción a R y R Studio 2023
Aún no hay calificaciones
Introducción a R y R Studio 2023
36 páginas
Apuntes de Stata
Aún no hay calificaciones
Apuntes de Stata
16 páginas
Guía para Usar R
Aún no hay calificaciones
Guía para Usar R
16 páginas
Introducción a R para Estudiantes
Aún no hay calificaciones
Introducción a R para Estudiantes
37 páginas
Funciones Esenciales en R
Aún no hay calificaciones
Funciones Esenciales en R
2 páginas
Estadística Descriptiva en Proyectos Agrarios
Aún no hay calificaciones
Estadística Descriptiva en Proyectos Agrarios
33 páginas
Guía de Data Frames en R
Aún no hay calificaciones
Guía de Data Frames en R
14 páginas
Clase Práctica Tablas Bidimensionales
Aún no hay calificaciones
Clase Práctica Tablas Bidimensionales
10 páginas
Análisis de Estadística Descriptiva en R
Aún no hay calificaciones
Análisis de Estadística Descriptiva en R
13 páginas
Guía de Redatam y ArcGIS en Geo306
Aún no hay calificaciones
Guía de Redatam y ArcGIS en Geo306
10 páginas
Estadística Descriptiva en Agropecuaria
Aún no hay calificaciones
Estadística Descriptiva en Agropecuaria
24 páginas
Unidades 1 y 2 Fase 5 - Desarrollar La Evaluación Final Prueba Objetiva Abierta (POA) Estadística Descriptiva
Aún no hay calificaciones
Unidades 1 y 2 Fase 5 - Desarrollar La Evaluación Final Prueba Objetiva Abierta (POA) Estadística Descriptiva
15 páginas
Lectura y escritura de datos en R
Aún no hay calificaciones
Lectura y escritura de datos en R
4 páginas
Módulo 3. Manejo de Datos. Importación y Exportación de Datos en R
Aún no hay calificaciones
Módulo 3. Manejo de Datos. Importación y Exportación de Datos en R
8 páginas
Estadística Aplicada en Agroproyectos
Aún no hay calificaciones
Estadística Aplicada en Agroproyectos
24 páginas
Comandos Basicos en R - Daniel G. Galan R.
Aún no hay calificaciones
Comandos Basicos en R - Daniel G. Galan R.
4 páginas
Análisis Exploratorio de Datos en R
Aún no hay calificaciones
Análisis Exploratorio de Datos en R
7 páginas
Scripts Del Reto 2
Aún no hay calificaciones
Scripts Del Reto 2
22 páginas
Manual de uso de bases de datos EPHC 2022
Aún no hay calificaciones
Manual de uso de bases de datos EPHC 2022
64 páginas
Análisis de Ingresos en la GEIH 2021
Aún no hay calificaciones
Análisis de Ingresos en la GEIH 2021
1 página
PDF Do File Practica 1 Taller 2
Aún no hay calificaciones
PDF Do File Practica 1 Taller 2
4 páginas
Análisis de Datos Económicos en Python
Aún no hay calificaciones
Análisis de Datos Económicos en Python
6 páginas
Manejo y Visualización de Datos en R
Aún no hay calificaciones
Manejo y Visualización de Datos en R
8 páginas
Importar y Exportar Datos en R
Aún no hay calificaciones
Importar y Exportar Datos en R
47 páginas
Sección 2.05 Lectura y Escritura de Datos en R
Aún no hay calificaciones
Sección 2.05 Lectura y Escritura de Datos en R
11 páginas
Ejer 09 Stata Enaho y Modelos
Aún no hay calificaciones
Ejer 09 Stata Enaho y Modelos
6 páginas
Recuperación Práctica en R
Aún no hay calificaciones
Recuperación Práctica en R
4 páginas
Estadística Descriptiva en Agronomía
0% (2)
Estadística Descriptiva en Agronomía
34 páginas
Introducción al Manejo de R en Estadística
Aún no hay calificaciones
Introducción al Manejo de R en Estadística
14 páginas
Arquitectos Destacados en Perú: Trayectorias y Premios
Aún no hay calificaciones
Arquitectos Destacados en Perú: Trayectorias y Premios
2 páginas
Libro Sobre La Fabricación Del Papel para Niños
91% (11)
Libro Sobre La Fabricación Del Papel para Niños
49 páginas
El Ultimo Rostro
100% (1)
El Ultimo Rostro
53 páginas
EXAMEN Biblioteca
Aún no hay calificaciones
EXAMEN Biblioteca
7 páginas
095 Liu Es
Aún no hay calificaciones
095 Liu Es
9 páginas
Duane Hanson
Aún no hay calificaciones
Duane Hanson
25 páginas
Ensayo Turismo
Aún no hay calificaciones
Ensayo Turismo
5 páginas
Algoritmos de Programacion Del Brazo Del Disco 2
Aún no hay calificaciones
Algoritmos de Programacion Del Brazo Del Disco 2
16 páginas
Eclecticismo en la arquitectura europea
Aún no hay calificaciones
Eclecticismo en la arquitectura europea
3 páginas
Arquitectura y Escultura Otomí
Aún no hay calificaciones
Arquitectura y Escultura Otomí
2 páginas
Oliveras E. Cusestiones de Arte Contemporaneo Cap V 1
Aún no hay calificaciones
Oliveras E. Cusestiones de Arte Contemporaneo Cap V 1
18 páginas
Ramón Casas y el Modernismo Español
Aún no hay calificaciones
Ramón Casas y el Modernismo Español
24 páginas
Fassio (Alternativo) 1 A 197
Aún no hay calificaciones
Fassio (Alternativo) 1 A 197
196 páginas
Introducción a la Numismática Histórica
Aún no hay calificaciones
Introducción a la Numismática Histórica
128 páginas
Generador de Analizadores Lexicográficos JFlex
Aún no hay calificaciones
Generador de Analizadores Lexicográficos JFlex
6 páginas
Fundamentos Teorico Practicos de Quimica Organica
Aún no hay calificaciones
Fundamentos Teorico Practicos de Quimica Organica
125 páginas
Optimización SEO para Documentos Digitales
Aún no hay calificaciones
Optimización SEO para Documentos Digitales
4 páginas
Dialnet AriasMontanoYLaUniversidadDeLovaina 5385003
Aún no hay calificaciones
Dialnet AriasMontanoYLaUniversidadDeLovaina 5385003
30 páginas
25124341
Aún no hay calificaciones
25124341
13 páginas
Museo Leeum Samsung: Arte y Arquitectura
Aún no hay calificaciones
Museo Leeum Samsung: Arte y Arquitectura
24 páginas
Ciencia, Técnica y Desarrollo - Mario Bunge PDF
100% (5)
Ciencia, Técnica y Desarrollo - Mario Bunge PDF
236 páginas
Ficha 08 Com Leemos Sobre Nuestro Libro Favorito
Aún no hay calificaciones
Ficha 08 Com Leemos Sobre Nuestro Libro Favorito
4 páginas
Historia de La Mesa Redonda Pan American A de Veracruz Al Cumplir El XV Aniversario de Su Fundacion
Aún no hay calificaciones
Historia de La Mesa Redonda Pan American A de Veracruz Al Cumplir El XV Aniversario de Su Fundacion
7 páginas
Cultura Moche: Historia y Características
Aún no hay calificaciones
Cultura Moche: Historia y Características
14 páginas
Arte Optico y Cinetico
Aún no hay calificaciones
Arte Optico y Cinetico
2 páginas
El Misterio del Valle de los Reyes
100% (1)
El Misterio del Valle de los Reyes
206 páginas
Paco Taibo II: en Busca Del Álamo Mexicano
0% (1)
Paco Taibo II: en Busca Del Álamo Mexicano
1 página
Catalogación Archivística Esencial
Aún no hay calificaciones
Catalogación Archivística Esencial
21 páginas
Mestre A Casa Crear Compte
Aún no hay calificaciones
Mestre A Casa Crear Compte
26 páginas
U1 Arte Mesopotamia A2025
Aún no hay calificaciones
U1 Arte Mesopotamia A2025
18 páginas