0% encontró este documento útil (0 votos)
330 vistas25 páginas

Edición y Limpieza de Datos en Rstudio

Este documento describe los conceptos y procesos fundamentales para limpiar y depurar datos con R. Explica que la limpieza de datos es un paso crucial para obtener información confiable a partir de los datos. Luego describe las principales fases del procesamiento de datos - entrada, proceso y salida - enfocándose en usar paquetes de tidyverse como dplyr y stringr para transformar los datos durante la fase de proceso, incluyendo renombrar variables, crear nuevas variables, seleccionar y filtrar datos.

Cargado por

EEPO FINANCIERO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
330 vistas25 páginas

Edición y Limpieza de Datos en Rstudio

Este documento describe los conceptos y procesos fundamentales para limpiar y depurar datos con R. Explica que la limpieza de datos es un paso crucial para obtener información confiable a partir de los datos. Luego describe las principales fases del procesamiento de datos - entrada, proceso y salida - enfocándose en usar paquetes de tidyverse como dplyr y stringr para transformar los datos durante la fase de proceso, incluyendo renombrar variables, crear nuevas variables, seleccionar y filtrar datos.

Cargado por

EEPO FINANCIERO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Depuración y limpieza

de datos con R

Ángel Sandoval
1. Pirámide del conocimiento
Vivimos en la sociedad de la información

La jerarquía del conocimiento suele representarse


gráficamente por una pirámide.

Distinguir estos conceptos básicos proporciona un


nivel de abstracción útil para el proceso de análisis.

Datos + Contexto + Utilidad


1.1. Datos
Vivimos en la sociedad de la información

Datos + Contexto + Utilidad

Datos: un valor, una mínima unidad semántica. Por si solos


son irrelevantes para la toma de decisiones. Por ejemplo,
los números 30 y 31.
1.2. Información
Vivimos en la sociedad de la información Información: conjunto de datos procesados
(categorizados y saneados) y que tienen un significado
(relevancia, propósito y contexto).

Contextualización
• Conocer el propósito del dato obtenido.
Categorización
• Conocer la unidad de medida que ayudan a
interpretarlo.
Calculo
• Realizar una operación matemática o estadística
Datos + Contexto + Utilidad sobre el dato.
Corrección
• Eliminar errores del dato.
Agregación
• Resumir un dato de forma más concisa.
1.3. Conocimiento
Vivimos en la sociedad de la información Conocimiento: combinación de experiencias e
información contextual y relevancia sobre cierta
información.

Comparación
• Relación entre información obtenida en distintas
experiencias.

Repercusión
• Implicación de la información en decisiones y
acciones.
Datos + Contexto + Utilidad Conexión
• Relación entre distintos tipos de información.

Conversación
• Opinión de otras personas sobre la información.
Correción /
Descubrimiento Validación
eliminación

¿Qué es la limpieza de datos?

Es el proceso de preparación de los datos para que satisfagan


las necesidades concretas de los usuarios.

Calidad de los datos


Los datos incorrectos llegan a costar entre
Nuestro activo más valioso el 15% y 25% de los ingresos para la
mayoría de las empresas (Thomas C.
Redman, 2017).
2.1. La necesidad de limpiar los datos
Es muy difícil conseguir que los datos de una base Si los datos no son fiables, las conclusiones
estén limpios de origen. tampoco lo serán.

Por errores en la integración de bases de datos. Es mejor gastar mucho tiempo en limpiar los
datos,
Por errores humanos.
• Que gastar demasiado tiempo en un análisis con
información errada.
Por errores de medición. • Para poder confiar en los resultados.

Los científicos de datos dedican el 80% de su tiempo de su tiempo


a buscar, limpiar y reorganizar datos, y el 20% restante al análisis
de estos (Ruiz, 2017).
2.2. Principios de limpieza de datos
Bases de datos Análisis de datos Enforcarnos en Logística de la
limpias más fácil el problema No data

Principios

❖ Cada variable forma una columna.


❖ Cada observación forma una fila.
❖ Cada tipo de unidad observacional
forma una tabla.

Una variable contiene todos los valores que miden el atributo (nombre, edad, correo).
Manipulación de datos con tidyverse
❖ El tidyverse es una colección de paquetes R diseñados para la
ciencia de datos.
❖ Todos los paquetes comparten una filosofía de diseño, una
gramática y estructuras de datos subyacentes.

El paquete de tidyverse incluye 30 subpaquetes en los que se destacan: Para la limpieza de datos utilizaremos:

❖ dplyr
❖ stringr
❖ tidyr
❖ lubridate
4. Procesamiento de la información
El procesamiento es la recolección de datos que son ordenados, transformados y evaluados para conseguir información
interesante, con lo cual, podemos producir información significativa.

Fases para el procesamiento de los datos

Entrada Proceso Salida

• Recolectamos y • Coercionamos, creamos • Producto


almacenamos los datos variables de interés, y filtramos
de acuerdo al objetivo

En esta fase se
limpia los datos
4.1. Entradas: importación de archivos a R
R puede importar una amplia variedad de tipos de archivos con el uso de paquetes específicos.
Cuando importamos un archivo, estamos guardando su contenido en nuestra sesión como un objeto. Dependiendo del
procedimiento que usemos será el tipo de objeto creado.

Tipo de Librerías
archivo,
extensión openxlsx readxl [Link] readr utils haven foreign

Excel [Link]() read_excel()


.xlsx [Link]()

Plano fread() read_csv() [Link]()


.csv fwrite() write_csv() [Link]()

Plano fread() read_delim() [Link]()


.txt fwrite() write_delim() [Link]()

STATA read_stata() [Link]()


.dta write_stata() [Link]()

SPSS read_sav() [Link]()


.sav write_sav()

SAS read_sas()
.sas write_sas()
4.2. Proceso:
transformar datos
4.2. Proceso: transformar datos

4.1. Entrada

4.2. Proceso
❖ Renombrar variables con
rename()

❖ Crear variables con mutate()

❖ Seleccionar variables con


select()

❖ Filtrar datos con filter()


4.2.1. Operador "pipe"
El operador pipeline %>% es útil para concatenar múltiples dplyr operaciones.
Cada vez que queremos aplicar mas de una función, la instrucción es una secuencia de funciones anidadas que resulta ilegible:

Este anidamiento no es una forma natural de expresar un secuencia de operaciones. El operador %>% nos permite escribir
una secuencia de operaciones de izquierda a derecha:

En nuestro ejemplo de exportaciones quedaría:


4.2.2. Funciones: groupby(), summarise(), y arrange()

groupby()

• Realiza operaciones por grupos y crea tablas de estos


grupos.

summarise()

• Crea tablas de resumen aplicando funciones a las


columnas.

arrange()

• Ordena los datos de una variable


4.3. Proceso:
limpiar datos
4.3.1. Reestructuración de datos
❖ La misma información puede ser representada de muchas maneras, es decir, diversos [Link] pueden contener la
misma información, cada uno ordenándola de una forma diferente.
4.3.1. Reestructuración de datos
❖ El objetivo de tidyr es ayudarte a crear datos ordenados . Los datos ordenados son datos donde:
• Cada columna es una variable.
• Cada fila es una observación. Principio de la limpieza de datos
• Cada celda es un valor único.

Tidyr también permite realizar


transformaciones de un [Link] de
modo que podemos llevarlo de una a
otra estructura.
4.3.1. Funciones principales de tidyr
El primer paso para utilizar tidyr es determinar cuales son las variables y cuales son las observaciones.
Una identificado variables y observaciones, nos enfrentamos a tres tipos de problemas:

• Una variable está dividida en múltiples columnas. Usar función gather()


• Una observación está dispersa en múltiples filas. Usar función spread()
• Múltiples variables están metidas en una única celda. Usar función separate()

•gather(): reunir (contraer) columnas en filas.


•spread(): extiende filas en columnas.
•separate(): separa una columna en múltiples
•unite (): une varias columnas en una.
[Link]

4.3.2. Expresiones regulares


Las expresiones regulares son una secuencia de caracteres que se usan para encontrar patrones de caracteres. También
realiza operaciones de sustituciones mediante el patrón que define qué buscar y un argumento x que representa el contenido
donde se va a realizar esta búsqueda.
(Se puede agregar elementos al patrón usando el operador |)

str_split()

• Divide una cadena de texto en varias partes.


• Alternativa función strsplit().

str_replace()

• Reemplaza las coincidencias con texto nuevo.


• Alternativa función gsub().

str_sub()

• Extrae subcadenas en un vector de caracteres.


• Alternativa función substr().
[Link]

4.3.2. Expresiones regulares

str_extract()

• Extrae un patrón de una cadena de texto.

str_detect()

• Determina si un partrón pertenece a la cadena.


• Alternativa función grepl().

grep()

• Extrae las oraciones donde se encuentra el patrón.


• Esta función no pertenece a la librería stringr().
[Link]
7439-Sintaxis-para-la-expresi%C3%B3n-regular

4.3.2. Expresiones regulares, profundizando sub y gsub

\\d

• Elimina dígitos del 1 al 9.

\\D

• Selecciona dígitos del 1 al 9.

• Comienzo de cadena.

• Fin de cadena.

.+
• Selecciona caracteres antes o despúes del patrón
Extracción automática de
datos desde la web con R

4.3.3. Formateo de fechas


El estándar de R para trabajar con fechas es: año-mes-día

Para coercionar la fecha, utilizamos la función [Link]()

Símbolo Significado
%d Día (numérico, de 0 a 31)
%a Día de la semana abreviado a 3 letras
Para introducir una fecha con un formato distinto al
%A Día de la semana sin abreviatura
predeterminado, usamos el comando [Link]()
%m Mes (numérico, de 0 a 12)
acompañado del formato deseado.
%b Mes abreviado a 3 letras
%B Mes sin abreviatura
%y Año a dos dígitos
%Y Año a cuatro dígitos
Extracción automática de
datos desde la web con R

4.3.3. Formateo de fechas


El estándar de R para trabajar con fechas es: año-mes-día

Símbolo Significado
%d Día (numérico, de 0 a 31)
%a Día de la semana abreviado a 3 letras
%A Día de la semana sin abreviatura
%m Mes (numérico, de 0 a 12)
%b Mes abreviado a 3 letras
%B Mes sin abreviatura
El separador de la fecha, debe coincidir a mano
%y Año a dos dígitos
derecha y a mano izquierda para el formato
%Y Año a cuatro dígitos correcto.
Aplicar lo aprendido en
una base de datos real

También podría gustarte