0% encontró este documento útil (0 votos)

26 vistas7 páginas

Limpieza y Tratamiento de Datos en R

Cargado por

antonia caceres

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

26 vistas7 páginas

Limpieza y Tratamiento de Datos en R

Cargado por

antonia caceres

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

1/7

CLASE 2: TRATAMIENTO Y LIMPIEZA DE BASES DE DATOS

1.- TODOS LOS DATOS DEBEN TIENER UN “ID”

# Cargamos el fichero de formato .csv

Data_set <- read.csv("data/arrowheads_limpieza.csv", sep = ";")

#Hacemos un preview de la base con un head()

head(data_set)

#Para hacer unas tablas más bonitas usamos kableExtra

#install.packages("kableExtra") #Instalamos este paquete para ayudarnos a mejorar tablas

library(kableExtra) #Cargamos la librería, Revisar documentación

head(data_set) %>% kbl() %>% kable_classic_2(full_width = F, position = "left") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 11) %>%

row_spec(0, font_size = 11)

#Aunque esta base tiene una columna de “record” como identificador, vamos a crear otro desde
cero, lo llamaremos ID

#Primero contamos la cantidad de filas y lo asignamos a un objeto

n <- nrow(data_set)

cat("La Base tiene: ", n, " filas") #lo imprimimos en la consola

#Creamos una nueva variable en la base y le generamos una secuencia de números del 1 al 1079

data_set$ID <- seq(from=1, to=n, by=1)

head(data_set,8) %>% kbl() %>% kable_classic_2(full_width = F, position = "left") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 11) %>%

row_spec(0, font_size = 11)

2.- IDENTIFICAR VALORES DUPLICADOS

#Revisamos si en la columna record de la base de datos tiene valores repetidos.

duplicated(data_set$record)

duplicados <- duplicated(data_set$record) #Los guardamos en un objeto

sum(duplicados==TRUE) #Contamos cuantos TRUE existen

2/7

#Es decir, hay 3 datos que estan duplicados. Ahora queremos saber quienes son.

data_set[duplicados, ] %>% kbl() %>% kable_classic_2(full_width = F, position = "left") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 11) %>%

row_spec(0, font_size = 11)

#Como ya sabemos quienes son, agregamos un indentificador a los valores repetidos por medio de
un condicional

data_set$record <- ifelse(duplicados == TRUE, "999", data_set$record)

sum(data_set$record == "999") #Contamos para verificar los valores repetidos

#verificamos que son los mismos:

data_set[data_set$record == "999", ]

# Como vemos que son las misma cantidad, procedemos a eliminar los valores repetidos

data_set <- data_set[data_set$record != "999", ]

nrow(data_set) #Volvemos a contar la cantidad de filas de nuestra base para verificar que hubo un
cambio

sum(duplicated(data_set$record) == TRUE) #verificamos que no existan duplicados en "record"

3.- IDENTIFICAR/ELIMINAR DATOS FALTANTES

#Lo primero es saber si todas nuestras columnas tienen el formato que les corresponde. Para ello
usaremos la función str()

str(data_set)

#Podemos ver que la columna “width” está en formato “chr” (character), es decir, en formato
texto, lo cual no corresponde, pues debería ser numérico. Para eso usamos la función as.numeric()

data_set$width <- as.numeric(data_set$width)

str(data_set) #comprobamos que se ha realizado el cambio

#Ahora comprobamos si existen valores perdidos en nuestra base con la función is.na()

sum(is.na(data_set)) #Cuenta todos los valores perdidos en la base en variables numéricas

# Si queremos conocer los valores perdidos de cada variable, hay que usar una función vectorizada
llamada sapply

sapply(data_set, function(x) length(which(is.na(x))))

3/7

# Si queremos verlo en un forma más “presentable”, usaremos el kableExtra

t(sapply(data_set,function(x) length(which(is.na(x))))) %>% kbl() %>%

kable_classic_2(full_width = F, position = "center") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 11) %>%

row_spec(0, font_size = 11)

#Podemos identificar que hay una columna que tienen muy poca información como es:
“diameter”, que es la que más aporta a los vacíos. Por tanto vamos a proceder a eliminar esa
columna de la base de datos

data_set <- data_set[, -7] #Eliminamos la columna donde tienen mayor cantidad de valores vacíos
"diameter"

# data_set$diameter = NULL #alternativamente podemos eliminarlo así

data_set[, c("classification","subClassification")] <- list(NULL) #aprovechamos y eliminamos estas

dos que nada aportan y hacen que la base sea muy “larga”

#Volvemos a revisar

sum(is.na(data_set))

t(sapply(data_set,function(x) length(which(is.na(x))))) %>% kbl() %>%

kable_classic_2(full_width = F, position = "center") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 12) %>%

row_spec(0, font_size = 12)

# Una vez que ya sabemos cuantos y donde está los datos vacíos o perdidos, los eliminamos con la
función na.omit()

data_set <- na.omit(data_set)

sum(is.na(data_set)) # Volvemos a revisar si existen datos vacíos.

# Buscar y eliminar otros vacíos que no fueron detectados con el is.na(), porque esta función solo
busca en variables numéricas.

sum(data_set$broadperiod == "")

sum(data_set$location == "")

# Los inputamos como NA para poder eliminarlos

data_set$broadperiod[data_set$broadperiod == ""] <- NA

data_set$location[data_set$location == ""] <- NA

4/7

sum(is.na(data_set)) #contamos los NA

# Finalmente los eliminamos

data_set <- na.omit(data_set) # Los eliminamos

sum(is.na(data_set)) #Volvemos a verificar la existencia de NA

# Al constatar que ya no hay valores vacíos, podemos revisar cuanto es el “n” de cada columna de
nuestro data frame. Nos apoyamos con la función kableExtra para que se vea mejor.

t(sapply(data_set, length)) %>% kbl() %>% kable_classic_2(full_width = F, position = "center") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 12) %>%

row_spec(0, font_size = 12)

# Observamos que ahora nuestra base tiene 694 filas.

4.- SEPARAR COLUMNAS QUE TIENEN MÁS DE UN DATO

#Para separar columnas que tienen más de un dato usaremos como ejemplo la columna “location”,
que observamos que tiene el nombre de la district y la county

head(data_set$location, 12) #al hacer un head sobre location en los 12 primeros datos, podemos
observar que podemos usar la coma(“,”) como separador de las dos instancias. Para ello podemos
usar la función strsplit()

district_county <- strsplit(data_set$location, ",") #Usando la "," como separador, genera un lista

# Convertimos la lista “district_county” a una matriz en dos columnas leido en filas, esto para
poder identificar o separar en dos columnas: ditrict y county

m <- matrix(unlist(district_county), ncol = 2, byrow=T) #aquí creamos la matriz m

data_set$ditrict <- m[,1] #Agregamos la columna 1 a una nueva columna en la base llamada ditrict

data_set$county <- m[,2] #Agregamos la columna 2 a una nueva columna en la base llamada
county

head(data_set, 12) #vemos los resultados

# Observamos que ha separado correctamente en dos columnas

5.- INCONSISTENCIA/ERRORES EN VALORES CONTINUOS

#Identificamos si hay datos con incosistencia o errores en valores contínuos por ejemplo: length,
width, thickness y weight entre otras variables numéricas.
5/7

#Empezamos por length

#Hacemos una descriptiva básica de length para identificar valores

summary(data_set$length)

# Observamos que el valor mínimo es de -47.62 mm y un valor máximo de 48000 mm. Que son
claramente datos erróneos. Por tanto, vamos a explorar con más detalle:

#Identificamos los individuos con valores menores o iguales a 0

data_set[ifelse(data_set$length <= 0, TRUE,FALSE), ]

#Vemos que en realidad hay 2 individuos con valores “negativos”. Como no tenemos posibilidad de
corregir esos datos. Procedemos a eliminarlos.

#Para eliminar esos valores, usamos el siguiente código:

data_set <- data_set[data_set$length >0, ] #Aquí le decimos que nos deje solamente los valores

#cuya length sea mayor a 0. Por tanto, esos valores

#negativos ya no aparecen en la base

sum(ifelse(data_set$length <= 0, TRUE,FALSE)) #Confirmados que se hayan eliminados de la base

# Ahora identificamos los mayores de 1000 mm

data_set[ifelse(data_set$length > 1000, TRUE,FALSE), ]

#Igualmente que el caso anterior, no tenemos la posibilidad de corregir esos datos, por tanto
procedemos a eliminarlos.

data_set <- data_set[data_set$length <=1000, ] #Conservamos los valores menores o iguales a

1000

sum(ifelse(data_set$length > 1000, TRUE,FALSE)) #Confirmados que se hayan eliminados de la

base

#Si hacemos un nrow(data_set) observaremos que nuestra base ahora tiene 691 filas

6.- COLOCAR LOS DATOS EN EL FORMATO O UNIDAD CORRECTOS

#La variable “weather” está en grados farenheit y necesitamos transformarla en grados Celsius

summary(data_set$weather) #hacemos un summary para ver si hay valores extremos inusuales o

extraños.

#Creamos una nueva columna en la base de datos llamada weather_m

data_set$weather_m <- (data_set$weather-32)*5/9 #En esta nueva columna hacemos la

transformación
6/7

summary(data_set$weather_m) #Verificamos con un summary

#Vemos que se ha transformado correctamente

7.- TODAS LAS CATEGÓRICAS DEBEN ESTAR CODIFICADAS

#Para que el programa r reconozca las variables categóricas, hay que usar la función factor()

#Empezaremos con la variable "broadperiod"

data_set$broadperiod <- factor(data_set$broadperiod) #Aqui hemos factorizado la variable

table(data_set$broadperiod) #Podemos ver una frecuencia simple son table()

Si queremos darle un mejor formato a la tabla, usaremos el kableExtra

t(table(data_set$broadperiod)) %>% kbl() %>% kable_classic_2(full_width = F, position =

"float_left") %>% kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 11)
%>% row_spec(0, font_size = 11)

#Hay que hacer lo mismo con el resto de variables categóricas.

#En caso de querer unir dos o más categorías hay que usar la función ifelse junto con la condición |
(OR). Por ejemplo, supongamos que deseamos unir las categorías EARLY MEDIEVAL y MEDIEVAL

data_set$broadperiod_m <- ifelse(data_set$broadperiod == "EARLY MEDIEVAL" |

data_set$broadperiod == "MEDIEVAL", "MEDIEVAL_full", data_set$broadperiod)

data_set$broadperiod_m <- factor(data_set$broadperiod_m, labels=c("BRONZE AGE","IRON

AGE","MESOLITHIC","NEOLITHIC", "POST MEDIEVAL","ROMAN","UNKNOWN","MEDIEVAL_full"))

table(data_set$broadperiod_m)

8.- AJUSTAR VALORES FECHAS

# transformar el campo “date” de un formato numérico a un formato de tipo fecha.

# vamos a usar la función as.Date()

#Transformar el campo date a tipo fecha

library(dplyr) # Cargamos esta librería para poder usar la función mutate

fecha <- data_set['date'] %>%

mutate(date_m = as.Date(date, # transformamos en date_m

origin = "1900-01-01", # Fecha de origen para el conteo

tz = "UTC")) # Huso horario

7/7

data_set$date_m <- fecha$date_m #Integramos la nueva fecha a la base

#Observamos el cambio en nuestra base de datos

head(data_set,6) %>% kbl() %>%

kable_classic_2(full_width = F, position = "left") %>%

kable_styling(fixed_thead = T, bootstrap_options = "responsive", font_size = 9) %>%

row_spec(0, font_size = 9)

# …y de esta forma ya podemos hacer uso de la fecha para diferentes operaciones:

as.numeric(format(data_set$date_m,'%Y')) #Extrae solo los años

#as.numeric(format(data_set$date_m,'%d')) #Extrae solo los días

#as.numeric(format(data_set$date_m,'%m')) #Extrae solo los meses

9.- GUARDAR Y LEER BASES EN FORMATO R

Para guardar la base (data frame) ya lista y limpia, tenemos dos opciones:

1. Guardar el fichero con formato .xlsx o .csv por ejemplo:

a. write.csv(data_set, “data_set.csv”) | openxlsx::write.xlsx(data_set,
file=“data_set.xlsx”)

2. Lo recomendable, guardarlo con el formato interno de R (.RData), lo que permite mayor

rápidez al momento de cargarlo y usarlo nuevamente
a. Para esta última opción, usaremos la función save():
b. save(data_set, file="data_set.RData") #Lo guarda en la mima carpeta que estemos
trabajando

Para cargarlo nuevamente, ya sea en la misma carpeta u otra, debemos asegurarnos que tener el
fichero .RData y usamos la función load()

load("data_set.RData")

También podría gustarte

Notas de Clase
Aún no hay calificaciones
Notas de Clase
32 páginas
Implementación de Proyecto en RStudio
Aún no hay calificaciones
Implementación de Proyecto en RStudio
30 páginas
Limpieza de Datos con Python en Ciencia de Datos
Aún no hay calificaciones
Limpieza de Datos con Python en Ciencia de Datos
72 páginas
Limpieza y Transformación de Datos en Python y R
Aún no hay calificaciones
Limpieza y Transformación de Datos en Python y R
10 páginas
Limpieza de Datos en R: Reporte Mayo
Aún no hay calificaciones
Limpieza de Datos en R: Reporte Mayo
6 páginas
Limpieza de Datos
Aún no hay calificaciones
Limpieza de Datos
16 páginas
Limpieza y Análisis de Datos en R
Aún no hay calificaciones
Limpieza y Análisis de Datos en R
8 páginas
Introducción a R: Vectores y Datos
Aún no hay calificaciones
Introducción a R: Vectores y Datos
10 páginas
Limpieza de Datos en R: Reporte de Actividades
Aún no hay calificaciones
Limpieza de Datos en R: Reporte de Actividades
6 páginas
Informe de Programacion en R Studio
Aún no hay calificaciones
Informe de Programacion en R Studio
10 páginas
Depuración de datos en R-Studio
Aún no hay calificaciones
Depuración de datos en R-Studio
10 páginas
Guía Rstudio
Aún no hay calificaciones
Guía Rstudio
2 páginas
Manipulación de datos con dplyr en R
Aún no hay calificaciones
Manipulación de datos con dplyr en R
24 páginas
Edición y Limpieza de Datos en Rstudio
Aún no hay calificaciones
Edición y Limpieza de Datos en Rstudio
25 páginas
Guía de Laboratorio: Machine Learning en R
Aún no hay calificaciones
Guía de Laboratorio: Machine Learning en R
10 páginas
Limpieza y Transformación de Datos
Aún no hay calificaciones
Limpieza y Transformación de Datos
21 páginas
Notas R-Isaac
Aún no hay calificaciones
Notas R-Isaac
7 páginas
Análisis Geográfico de Farmacias en Quito
Aún no hay calificaciones
Análisis Geográfico de Farmacias en Quito
13 páginas
Creación y manipulación de tablas en R
Aún no hay calificaciones
Creación y manipulación de tablas en R
23 páginas
Limpieza y Pre-procesamiento de Datos
Aún no hay calificaciones
Limpieza y Pre-procesamiento de Datos
44 páginas
Introducción a R para Data Science
Aún no hay calificaciones
Introducción a R para Data Science
5 páginas
Preparación y Limpieza de Datos en Análisis
Aún no hay calificaciones
Preparación y Limpieza de Datos en Análisis
43 páginas
Estructuras de Datos en R: Listas, Vectores y Data Frames
Aún no hay calificaciones
Estructuras de Datos en R: Listas, Vectores y Data Frames
8 páginas
Análisis de Datos en R: Funciones y Gráficos
Aún no hay calificaciones
Análisis de Datos en R: Funciones y Gráficos
15 páginas
Introducción a R: Operaciones y Gráficos
Aún no hay calificaciones
Introducción a R: Operaciones y Gráficos
11 páginas
Introducción a R: Tipos de Datos y Operaciones
Aún no hay calificaciones
Introducción a R: Tipos de Datos y Operaciones
19 páginas
Actividad Practica ETL 3 Individual
Aún no hay calificaciones
Actividad Practica ETL 3 Individual
14 páginas
Limpieza de Datos para Análisis
Aún no hay calificaciones
Limpieza de Datos para Análisis
75 páginas
Introducción al Manejo de R en Estadística
Aún no hay calificaciones
Introducción al Manejo de R en Estadística
14 páginas
Limpieza de datos en R con dplyr y tidyr
Aún no hay calificaciones
Limpieza de datos en R con dplyr y tidyr
17 páginas
Limpieza de Datos con R en Educación
Aún no hay calificaciones
Limpieza de Datos con R en Educación
23 páginas
Python 07
Aún no hay calificaciones
Python 07
53 páginas
Organización y Limpieza de Datos Tidy
Aún no hay calificaciones
Organización y Limpieza de Datos Tidy
13 páginas
Guía Completa sobre Análisis de Datos
Aún no hay calificaciones
Guía Completa sobre Análisis de Datos
18 páginas
Subconjuntos de Datos en R: Guía Práctica
Aún no hay calificaciones
Subconjuntos de Datos en R: Guía Práctica
9 páginas
Limpieza y Transformación de Datos en Python
Aún no hay calificaciones
Limpieza y Transformación de Datos en Python
70 páginas
Limpieza y Análisis de Datos Bancarios
Aún no hay calificaciones
Limpieza y Análisis de Datos Bancarios
39 páginas
Introducción a R y R Studio 2023
Aún no hay calificaciones
Introducción a R y R Studio 2023
36 páginas
Limpieza de Datos con Python y Pandas
Aún no hay calificaciones
Limpieza de Datos con Python y Pandas
41 páginas
Parcial2 20251 Brahian Agudelo
Aún no hay calificaciones
Parcial2 20251 Brahian Agudelo
16 páginas
Sintaxis
Aún no hay calificaciones
Sintaxis
3 páginas
Comandos Basicos en R - Daniel G. Galan R.
Aún no hay calificaciones
Comandos Basicos en R - Daniel G. Galan R.
4 páginas
Análisis de Datos por Brandon Salcedo
Aún no hay calificaciones
Análisis de Datos por Brandon Salcedo
18 páginas
Limpieza de Datos en Excel: Guía Práctica
Aún no hay calificaciones
Limpieza de Datos en Excel: Guía Práctica
7 páginas
Análisis de Datos en R: Guía Completa
Aún no hay calificaciones
Análisis de Datos en R: Guía Completa
21 páginas
Caso de Estudio Fase 1 SCRIPT
Aún no hay calificaciones
Caso de Estudio Fase 1 SCRIPT
3 páginas
Introducción a R: Fundamentos y Datos
Aún no hay calificaciones
Introducción a R: Fundamentos y Datos
10 páginas
R-Studio: Estadística Avanzada en R
Aún no hay calificaciones
R-Studio: Estadística Avanzada en R
7 páginas
Introduccion A R Studio
Aún no hay calificaciones
Introduccion A R Studio
4 páginas
Tutorial Detección y Correccion de Inconsistencias en Datos
Aún no hay calificaciones
Tutorial Detección y Correccion de Inconsistencias en Datos
10 páginas
1-Elementos Básicos de R (Día 1)
Aún no hay calificaciones
1-Elementos Básicos de R (Día 1)
7 páginas
CLASE 4 - Data Analytics
Aún no hay calificaciones
CLASE 4 - Data Analytics
9 páginas
Introducción a data.frames en R
Aún no hay calificaciones
Introducción a data.frames en R
9 páginas
Exploración de La Base de Datos
Aún no hay calificaciones
Exploración de La Base de Datos
20 páginas
Laboratorio. Limpieza de Datos
Aún no hay calificaciones
Laboratorio. Limpieza de Datos
10 páginas
Guía de Data Frames en R
Aún no hay calificaciones
Guía de Data Frames en R
14 páginas
Uso de R para Manipulación de Datos
Aún no hay calificaciones
Uso de R para Manipulación de Datos
3 páginas
Limpieza y Organización de Base de Datos - Andrés Cárdenas Yánez
Aún no hay calificaciones
Limpieza y Organización de Base de Datos - Andrés Cárdenas Yánez
9 páginas
Qué Errores Podemos Encontrarnos en Un Conjunto de Datos
Aún no hay calificaciones
Qué Errores Podemos Encontrarnos en Un Conjunto de Datos
2 páginas
Recursos y Agenda Universitaria 2023
Aún no hay calificaciones
Recursos y Agenda Universitaria 2023
41 páginas
Tutorial SCREEN View: Proyecto y Ejecución
Aún no hay calificaciones
Tutorial SCREEN View: Proyecto y Ejecución
29 páginas
Bases de Datos STL
Aún no hay calificaciones
Bases de Datos STL
24 páginas
Guía de Configuración de Windows 10
67% (3)
Guía de Configuración de Windows 10
13 páginas
DGMN Certificado de Situacion Militar... 799804 PDF
Aún no hay calificaciones
DGMN Certificado de Situacion Militar... 799804 PDF
1 página
Ofimática Virtual: Google Drive vs OneDrive
Aún no hay calificaciones
Ofimática Virtual: Google Drive vs OneDrive
6 páginas
Códigos de Reseteo para Móviles Chinos
100% (2)
Códigos de Reseteo para Móviles Chinos
6 páginas
Especificaciones CFDI 4.0 México
100% (2)
Especificaciones CFDI 4.0 México
29 páginas
Qué es un ERP y sus beneficios clave
Aún no hay calificaciones
Qué es un ERP y sus beneficios clave
3 páginas
Comunicación Pasiva
Aún no hay calificaciones
Comunicación Pasiva
13 páginas
UTP Cursos
Aún no hay calificaciones
UTP Cursos
14 páginas
Contrato de Obra: Contratista y Comitente
Aún no hay calificaciones
Contrato de Obra: Contratista y Comitente
4 páginas
Clases de Fecha y Fecha Completa en Python
Aún no hay calificaciones
Clases de Fecha y Fecha Completa en Python
3 páginas
Evolución de Bases de Datos Relacionales
Aún no hay calificaciones
Evolución de Bases de Datos Relacionales
2 páginas
Manual de Usuario - CONTRATISTA - Presentación de Documentos
100% (2)
Manual de Usuario - CONTRATISTA - Presentación de Documentos
37 páginas
Sistemas Avanzados de Control y Automatización
Aún no hay calificaciones
Sistemas Avanzados de Control y Automatización
5 páginas
CV Victor Gonzalez
Aún no hay calificaciones
CV Victor Gonzalez
3 páginas
Situación Problema
Aún no hay calificaciones
Situación Problema
11 páginas
0xword-Hacking Web Technologies v6 PDF
Aún no hay calificaciones
0xword-Hacking Web Technologies v6 PDF
300 páginas
PROTOCOLO FEDICOMv2
Aún no hay calificaciones
PROTOCOLO FEDICOMv2
5 páginas
JP03 - Afd
Aún no hay calificaciones
JP03 - Afd
6 páginas
Solución Error EFI Shell 2.31
Aún no hay calificaciones
Solución Error EFI Shell 2.31
3 páginas
Guía Clínica de ACT y Compromiso
Aún no hay calificaciones
Guía Clínica de ACT y Compromiso
80 páginas
Actualización de Indicadores Genesys
Aún no hay calificaciones
Actualización de Indicadores Genesys
20 páginas
Diseño Paramétrico con Grasshopper
Aún no hay calificaciones
Diseño Paramétrico con Grasshopper
9 páginas
GUIA 9 - Merged
Aún no hay calificaciones
GUIA 9 - Merged
4 páginas
Computrabajo General Guia Candidatos
Aún no hay calificaciones
Computrabajo General Guia Candidatos
36 páginas
Buenas Prácticas en Seguridad de Software
100% (1)
Buenas Prácticas en Seguridad de Software
8 páginas
Partes internas de la computadora
Aún no hay calificaciones
Partes internas de la computadora
6 páginas
Hacker PC
Aún no hay calificaciones
Hacker PC
115 páginas