0% encontró este documento útil (0 votos)

330 vistas25 páginas

Edición y Limpieza de Datos en Rstudio

Este documento describe los conceptos y procesos fundamentales para limpiar y depurar datos con R. Explica que la limpieza de datos es un paso crucial para obtener información confiable a partir de los datos. Luego describe las principales fases del procesamiento de datos - entrada, proceso y salida - enfocándose en usar paquetes de tidyverse como dplyr y stringr para transformar los datos durante la fase de proceso, incluyendo renombrar variables, crear nuevas variables, seleccionar y filtrar datos.

Cargado por

EEPO FINANCIERO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

330 vistas25 páginas

Edición y Limpieza de Datos en Rstudio

Cargado por

EEPO FINANCIERO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Depuración y limpieza

de datos con R

Ángel Sandoval
1. Pirámide del conocimiento
Vivimos en la sociedad de la información

La jerarquía del conocimiento suele representarse

gráficamente por una pirámide.

Distinguir estos conceptos básicos proporciona un

nivel de abstracción útil para el proceso de análisis.

Datos + Contexto + Utilidad

1.1. Datos
Vivimos en la sociedad de la información

Datos + Contexto + Utilidad

Datos: un valor, una mínima unidad semántica. Por si solos

son irrelevantes para la toma de decisiones. Por ejemplo,
los números 30 y 31.
1.2. Información
Vivimos en la sociedad de la información Información: conjunto de datos procesados
(categorizados y saneados) y que tienen un significado
(relevancia, propósito y contexto).

Contextualización
• Conocer el propósito del dato obtenido.
Categorización
• Conocer la unidad de medida que ayudan a
interpretarlo.
Calculo
• Realizar una operación matemática o estadística
Datos + Contexto + Utilidad sobre el dato.
Corrección
• Eliminar errores del dato.
Agregación
• Resumir un dato de forma más concisa.
1.3. Conocimiento
Vivimos en la sociedad de la información Conocimiento: combinación de experiencias e
información contextual y relevancia sobre cierta
información.

Comparación
• Relación entre información obtenida en distintas
experiencias.

Repercusión
• Implicación de la información en decisiones y
acciones.
Datos + Contexto + Utilidad Conexión
• Relación entre distintos tipos de información.

Conversación
• Opinión de otras personas sobre la información.
Correción /
Descubrimiento Validación
eliminación

¿Qué es la limpieza de datos?

Es el proceso de preparación de los datos para que satisfagan

las necesidades concretas de los usuarios.

Calidad de los datos

Los datos incorrectos llegan a costar entre
Nuestro activo más valioso el 15% y 25% de los ingresos para la
mayoría de las empresas (Thomas C.
Redman, 2017).
2.1. La necesidad de limpiar los datos
Es muy difícil conseguir que los datos de una base Si los datos no son fiables, las conclusiones
estén limpios de origen. tampoco lo serán.

Por errores en la integración de bases de datos. Es mejor gastar mucho tiempo en limpiar los
datos,
Por errores humanos.
• Que gastar demasiado tiempo en un análisis con
información errada.
Por errores de medición. • Para poder confiar en los resultados.

Los científicos de datos dedican el 80% de su tiempo de su tiempo

a buscar, limpiar y reorganizar datos, y el 20% restante al análisis
de estos (Ruiz, 2017).
2.2. Principios de limpieza de datos
Bases de datos Análisis de datos Enforcarnos en Logística de la
limpias más fácil el problema No data

Principios

❖ Cada variable forma una columna.

❖ Cada observación forma una fila.
❖ Cada tipo de unidad observacional
forma una tabla.

Una variable contiene todos los valores que miden el atributo (nombre, edad, correo).
Manipulación de datos con tidyverse
❖ El tidyverse es una colección de paquetes R diseñados para la
ciencia de datos.
❖ Todos los paquetes comparten una filosofía de diseño, una
gramática y estructuras de datos subyacentes.

El paquete de tidyverse incluye 30 subpaquetes en los que se destacan: Para la limpieza de datos utilizaremos:

❖ dplyr
❖ stringr
❖ tidyr
❖ lubridate
4. Procesamiento de la información
El procesamiento es la recolección de datos que son ordenados, transformados y evaluados para conseguir información
interesante, con lo cual, podemos producir información significativa.

Fases para el procesamiento de los datos

Entrada Proceso Salida

• Recolectamos y • Coercionamos, creamos • Producto

almacenamos los datos variables de interés, y filtramos
de acuerdo al objetivo

En esta fase se
limpia los datos
4.1. Entradas: importación de archivos a R
R puede importar una amplia variedad de tipos de archivos con el uso de paquetes específicos.
Cuando importamos un archivo, estamos guardando su contenido en nuestra sesión como un objeto. Dependiendo del
procedimiento que usemos será el tipo de objeto creado.

Tipo de Librerías
archivo,
extensión openxlsx readxl [Link] readr utils haven foreign

Excel [Link]() read_excel()

.xlsx [Link]()

Plano fread() read_csv() [Link]()

.csv fwrite() write_csv() [Link]()

Plano fread() read_delim() [Link]()

.txt fwrite() write_delim() [Link]()

STATA read_stata() [Link]()

.dta write_stata() [Link]()

SPSS read_sav() [Link]()

.sav write_sav()

SAS read_sas()
.sas write_sas()
4.2. Proceso:
transformar datos
4.2. Proceso: transformar datos

4.1. Entrada

4.2. Proceso
❖ Renombrar variables con
rename()

❖ Crear variables con mutate()

❖ Seleccionar variables con

select()

❖ Filtrar datos con filter()

4.2.1. Operador "pipe"
El operador pipeline %>% es útil para concatenar múltiples dplyr operaciones.
Cada vez que queremos aplicar mas de una función, la instrucción es una secuencia de funciones anidadas que resulta ilegible:

Este anidamiento no es una forma natural de expresar un secuencia de operaciones. El operador %>% nos permite escribir
una secuencia de operaciones de izquierda a derecha:

En nuestro ejemplo de exportaciones quedaría:

4.2.2. Funciones: groupby(), summarise(), y arrange()

groupby()

• Realiza operaciones por grupos y crea tablas de estos

grupos.

summarise()

• Crea tablas de resumen aplicando funciones a las

columnas.

arrange()

• Ordena los datos de una variable

4.3. Proceso:
limpiar datos
4.3.1. Reestructuración de datos
❖ La misma información puede ser representada de muchas maneras, es decir, diversos [Link] pueden contener la
misma información, cada uno ordenándola de una forma diferente.
4.3.1. Reestructuración de datos
❖ El objetivo de tidyr es ayudarte a crear datos ordenados . Los datos ordenados son datos donde:
• Cada columna es una variable.
• Cada fila es una observación. Principio de la limpieza de datos
• Cada celda es un valor único.

Tidyr también permite realizar

transformaciones de un [Link] de
modo que podemos llevarlo de una a
otra estructura.
4.3.1. Funciones principales de tidyr
El primer paso para utilizar tidyr es determinar cuales son las variables y cuales son las observaciones.
Una identificado variables y observaciones, nos enfrentamos a tres tipos de problemas:

• Una variable está dividida en múltiples columnas. Usar función gather()

• Una observación está dispersa en múltiples filas. Usar función spread()
• Múltiples variables están metidas en una única celda. Usar función separate()

•gather(): reunir (contraer) columnas en filas.

•spread(): extiende filas en columnas.
•separate(): separa una columna en múltiples
•unite (): une varias columnas en una.
[Link]

4.3.2. Expresiones regulares

Las expresiones regulares son una secuencia de caracteres que se usan para encontrar patrones de caracteres. También
realiza operaciones de sustituciones mediante el patrón que define qué buscar y un argumento x que representa el contenido
donde se va a realizar esta búsqueda.
(Se puede agregar elementos al patrón usando el operador |)

str_split()

• Divide una cadena de texto en varias partes.

• Alternativa función strsplit().

str_replace()

• Reemplaza las coincidencias con texto nuevo.

• Alternativa función gsub().

str_sub()

• Extrae subcadenas en un vector de caracteres.

• Alternativa función substr().
[Link]

4.3.2. Expresiones regulares

str_extract()

• Extrae un patrón de una cadena de texto.

str_detect()

• Determina si un partrón pertenece a la cadena.

• Alternativa función grepl().

grep()

• Extrae las oraciones donde se encuentra el patrón.

• Esta función no pertenece a la librería stringr().
[Link]
7439-Sintaxis-para-la-expresi%C3%B3n-regular

4.3.2. Expresiones regulares, profundizando sub y gsub

\\d

• Elimina dígitos del 1 al 9.

\\D

• Selecciona dígitos del 1 al 9.

• Comienzo de cadena.

• Fin de cadena.

.+
• Selecciona caracteres antes o despúes del patrón
Extracción automática de
datos desde la web con R

4.3.3. Formateo de fechas

El estándar de R para trabajar con fechas es: año-mes-día

4.3.3. Formateo de fechas

El estándar de R para trabajar con fechas es: año-mes-día

Símbolo Significado
%d Día (numérico, de 0 a 31)
%a Día de la semana abreviado a 3 letras
%A Día de la semana sin abreviatura
%m Mes (numérico, de 0 a 12)
%b Mes abreviado a 3 letras
%B Mes sin abreviatura
El separador de la fecha, debe coincidir a mano
%y Año a dos dígitos
derecha y a mano izquierda para el formato
%Y Año a cuatro dígitos correcto.
Aplicar lo aprendido en
una base de datos real

También podría gustarte

Historia del Petróleo en Bolivia
Aún no hay calificaciones
Historia del Petróleo en Bolivia
130 páginas
Comportamiento de Yacimientos 2020-1
Aún no hay calificaciones
Comportamiento de Yacimientos 2020-1
133 páginas
Introducción a Procesos Estocásticos
Aún no hay calificaciones
Introducción a Procesos Estocásticos
328 páginas
Indicadores de Precipitacion
Aún no hay calificaciones
Indicadores de Precipitacion
6 páginas
Refrigeracion en Hysys
Aún no hay calificaciones
Refrigeracion en Hysys
8 páginas
Hidrocarburos
Aún no hay calificaciones
Hidrocarburos
24 páginas
Fundamentos D Transporte D HC
100% (1)
Fundamentos D Transporte D HC
94 páginas
Analisis de Datos
Aún no hay calificaciones
Analisis de Datos
3 páginas
Creación de Árbol de Decisión en KNIME
Aún no hay calificaciones
Creación de Árbol de Decisión en KNIME
5 páginas
Introducción A Microsoft SQL Server
Aún no hay calificaciones
Introducción A Microsoft SQL Server
21 páginas
Ejercicio de Minería en Programación Por Metas
Aún no hay calificaciones
Ejercicio de Minería en Programación Por Metas
18 páginas
Unit Iii - Drilling Hydraulic PDF
Aún no hay calificaciones
Unit Iii - Drilling Hydraulic PDF
36 páginas
Construcción de Una Distribución de Frecuencia
Aún no hay calificaciones
Construcción de Una Distribución de Frecuencia
10 páginas
Computacion de Alto Rendimiento Ieee
Aún no hay calificaciones
Computacion de Alto Rendimiento Ieee
5 páginas
Visual Studio - Base de Datos
Aún no hay calificaciones
Visual Studio - Base de Datos
51 páginas
Lingo Localizacion de Planta
100% (1)
Lingo Localizacion de Planta
9 páginas
RStudio
Aún no hay calificaciones
RStudio
20 páginas
EIA Construccion Relleno Sanitario
Aún no hay calificaciones
EIA Construccion Relleno Sanitario
33 páginas
Queso Proteico de Quinua y Espinaca
Aún no hay calificaciones
Queso Proteico de Quinua y Espinaca
42 páginas
Tecnología Twister en Gas Natural
Aún no hay calificaciones
Tecnología Twister en Gas Natural
3 páginas
R For Data Science (Spanish) Completo
Aún no hay calificaciones
R For Data Science (Spanish) Completo
565 páginas
Triggers en MySQL: Ejemplos y Uso
Aún no hay calificaciones
Triggers en MySQL: Ejemplos y Uso
8 páginas
Exploratory Data Analysis en Python
Aún no hay calificaciones
Exploratory Data Analysis en Python
21 páginas
Ejemplo Montecarlo PDF
100% (1)
Ejemplo Montecarlo PDF
121 páginas
Simulacion 6 - Desarrollo de Columnas - Reactores
Aún no hay calificaciones
Simulacion 6 - Desarrollo de Columnas - Reactores
5 páginas
Fundamentos de SQL Server
Aún no hay calificaciones
Fundamentos de SQL Server
18 páginas
Introducción a R para análisis de datos
Aún no hay calificaciones
Introducción a R para análisis de datos
111 páginas
Guía de Instalación y Uso de QGIS y Gephi
Aún no hay calificaciones
Guía de Instalación y Uso de QGIS y Gephi
57 páginas
Practica 8 Hysys
Aún no hay calificaciones
Practica 8 Hysys
16 páginas
CRUD PHP Básico para Principiantes
Aún no hay calificaciones
CRUD PHP Básico para Principiantes
14 páginas
Aplicacionesdela Programacionlinealenteraalaoptimizacionenergetica
Aún no hay calificaciones
Aplicacionesdela Programacionlinealenteraalaoptimizacionenergetica
253 páginas
Ejercicio Con Lenguaje R
100% (1)
Ejercicio Con Lenguaje R
10 páginas
Distribuciones y Ejecución de Apache Derby
100% (1)
Distribuciones y Ejecución de Apache Derby
6 páginas
Herramientas de Visual Basic 2008
100% (6)
Herramientas de Visual Basic 2008
9 páginas
Data Mart en Ventas de Boticas 2016
Aún no hay calificaciones
Data Mart en Ventas de Boticas 2016
28 páginas
Análisis de Variedades de Patatas en Biplot HJ
Aún no hay calificaciones
Análisis de Variedades de Patatas en Biplot HJ
8 páginas
9 Practicas DDL DML
Aún no hay calificaciones
9 Practicas DDL DML
16 páginas
Introducción A Scala
Aún no hay calificaciones
Introducción A Scala
72 páginas
Yacimientos Primera Region No Metalicos
Aún no hay calificaciones
Yacimientos Primera Region No Metalicos
16 páginas
VBAExcel MNumericos
100% (1)
VBAExcel MNumericos
76 páginas
Gestión de Datos y ETL en R
Aún no hay calificaciones
Gestión de Datos y ETL en R
44 páginas
Exploración de La Base de Datos
Aún no hay calificaciones
Exploración de La Base de Datos
20 páginas
Analisis Exploratorio de Datos
Aún no hay calificaciones
Analisis Exploratorio de Datos
28 páginas
Presentacion Ejercicio Estudiantes Chichipatos Paso A Paso Limpieza de Datos Pandas
Aún no hay calificaciones
Presentacion Ejercicio Estudiantes Chichipatos Paso A Paso Limpieza de Datos Pandas
70 páginas
Módulo 3. Manejo de Datos. Introducción A Tidyverse
Aún no hay calificaciones
Módulo 3. Manejo de Datos. Introducción A Tidyverse
9 páginas
Manejo Archivos
Aún no hay calificaciones
Manejo Archivos
36 páginas
Curso Primeros Pasos en R - Clase 3
Aún no hay calificaciones
Curso Primeros Pasos en R - Clase 3
40 páginas
PR 6
Aún no hay calificaciones
PR 6
17 páginas
Introducción A "R"
Aún no hay calificaciones
Introducción A "R"
12 páginas
Creación de Dataframes en R
Aún no hay calificaciones
Creación de Dataframes en R
13 páginas
Taller 1 de R Studio
Aún no hay calificaciones
Taller 1 de R Studio
28 páginas
R Programación Estadística
Aún no hay calificaciones
R Programación Estadística
5 páginas
Conjunto Numeros Reales
Aún no hay calificaciones
Conjunto Numeros Reales
8 páginas
Unidad 2. lenguaje-y-tratamiento-de-datos-A8cEOTX
Aún no hay calificaciones
Unidad 2. lenguaje-y-tratamiento-de-datos-A8cEOTX
41 páginas
Curso Python para Análisis de Datos
Aún no hay calificaciones
Curso Python para Análisis de Datos
47 páginas
Manejo de Datos Masivos con Tidyverse
Aún no hay calificaciones
Manejo de Datos Masivos con Tidyverse
11 páginas
Introducción a R para Estudiantes
Aún no hay calificaciones
Introducción a R para Estudiantes
37 páginas
4 Manipulacion de Datos Con R-TED-Salinas-UNALM
Aún no hay calificaciones
4 Manipulacion de Datos Con R-TED-Salinas-UNALM
26 páginas
LOGO! - Modificar Los Parámetros
Aún no hay calificaciones
LOGO! - Modificar Los Parámetros
3 páginas
Configuración Básica de Switch Cisco
Aún no hay calificaciones
Configuración Básica de Switch Cisco
37 páginas
Java EE: Plataforma Empresarial y Arquitectura Multicapa
Aún no hay calificaciones
Java EE: Plataforma Empresarial y Arquitectura Multicapa
7 páginas
Geomática en Rellenos Sanitarios
Aún no hay calificaciones
Geomática en Rellenos Sanitarios
4 páginas
El Analista y Tipos de Sistema
Aún no hay calificaciones
El Analista y Tipos de Sistema
5 páginas
La Ventana de Leonardo y El Velo Albertiano
Aún no hay calificaciones
La Ventana de Leonardo y El Velo Albertiano
4 páginas
GFI LanGuard Brochure - ES
Aún no hay calificaciones
GFI LanGuard Brochure - ES
2 páginas
Lista de Chequeo Laboratorio2 MER
100% (1)
Lista de Chequeo Laboratorio2 MER
2 páginas
Diagrama de Circuitos Neumáticos
Aún no hay calificaciones
Diagrama de Circuitos Neumáticos
12 páginas
Temario Power Bi - Itsystems Peru
Aún no hay calificaciones
Temario Power Bi - Itsystems Peru
6 páginas
Estudio Topográfico Hualla Ultimo
Aún no hay calificaciones
Estudio Topográfico Hualla Ultimo
34 páginas
Advance. Guia Del Estudiante Online
Aún no hay calificaciones
Advance. Guia Del Estudiante Online
14 páginas
Recibo de Solicitud de Servicios Sociales
Aún no hay calificaciones
Recibo de Solicitud de Servicios Sociales
1 página
Quiz: Desarrollo de Software B01
Aún no hay calificaciones
Quiz: Desarrollo de Software B01
8 páginas
Crear Slider con WowSlider en Proyectos Web
Aún no hay calificaciones
Crear Slider con WowSlider en Proyectos Web
11 páginas
Guía Completa de Dropshipping
Aún no hay calificaciones
Guía Completa de Dropshipping
10 páginas
Introducción a AutoCAD
Aún no hay calificaciones
Introducción a AutoCAD
422 páginas
Estudio Técnico Correcto
Aún no hay calificaciones
Estudio Técnico Correcto
6 páginas
CRP Conceptos
Aún no hay calificaciones
CRP Conceptos
9 páginas
Sesion 16 - Intervalos - 22 - 07 - 20
100% (10)
Sesion 16 - Intervalos - 22 - 07 - 20
1 página
Analista de Transportes SENRES
Aún no hay calificaciones
Analista de Transportes SENRES
1 página
Control de Humedad
50% (2)
Control de Humedad
15 páginas
Comparativa TPM vs RCM en Mantenimiento
Aún no hay calificaciones
Comparativa TPM vs RCM en Mantenimiento
2 páginas
Manual Soafi2 Español
Aún no hay calificaciones
Manual Soafi2 Español
44 páginas
Tema 01 Sistemas Gestores de Bases de Datos
Aún no hay calificaciones
Tema 01 Sistemas Gestores de Bases de Datos
26 páginas
Trabajofinal Fisica Aplicada
Aún no hay calificaciones
Trabajofinal Fisica Aplicada
25 páginas
Trabajo de Informatica
Aún no hay calificaciones
Trabajo de Informatica
6 páginas
Técnicas CAD/CAM en Diseño de Productos
Aún no hay calificaciones
Técnicas CAD/CAM en Diseño de Productos
12 páginas
Asentamientos Zarpa-Pilotes PDF
Aún no hay calificaciones
Asentamientos Zarpa-Pilotes PDF
17 páginas
Armónicos en Corrientes de Excitación
Aún no hay calificaciones
Armónicos en Corrientes de Excitación
6 páginas

Edición y Limpieza de Datos en Rstudio

Cargado por

Edición y Limpieza de Datos en Rstudio

Cargado por

Depuración y limpieza

La jerarquía del conocimiento suele representarse

Distinguir estos conceptos básicos proporciona un

Datos + Contexto + Utilidad

Datos + Contexto + Utilidad

Datos: un valor, una mínima unidad semántica. Por si solos

¿Qué es la limpieza de datos?

Es el proceso de preparación de los datos para que satisfagan

Calidad de los datos

Los científicos de datos dedican el 80% de su tiempo de su tiempo

❖ Cada variable forma una columna.

Fases para el procesamiento de los datos

Entrada Proceso Salida

• Recolectamos y • Coercionamos, creamos • Producto

Excel [Link]() read_excel()

Plano fread() read_csv() [Link]()

Plano fread() read_delim() [Link]()

STATA read_stata() [Link]()

SPSS read_sav() [Link]()

❖ Crear variables con mutate()

❖ Seleccionar variables con

❖ Filtrar datos con filter()

En nuestro ejemplo de exportaciones quedaría:

• Realiza operaciones por grupos y crea tablas de estos

• Crea tablas de resumen aplicando funciones a las

• Ordena los datos de una variable

Tidyr también permite realizar

• Una variable está dividida en múltiples columnas. Usar función gather()

•gather(): reunir (contraer) columnas en filas.

4.3.2. Expresiones regulares

• Divide una cadena de texto en varias partes.

• Reemplaza las coincidencias con texto nuevo.

• Extrae subcadenas en un vector de caracteres.

4.3.2. Expresiones regulares

• Extrae un patrón de una cadena de texto.

• Determina si un partrón pertenece a la cadena.

• Extrae las oraciones donde se encuentra el patrón.

4.3.2. Expresiones regulares, profundizando sub y gsub

• Elimina dígitos del 1 al 9.

• Selecciona dígitos del 1 al 9.

4.3.3. Formateo de fechas

Para coercionar la fecha, utilizamos la función [Link]()

4.3.3. Formateo de fechas

También podría gustarte