Capacitación gratis #4
R Studio para análisis de datos
Agenda
Introducción
Introducción a R Studio
Importación, visualización y tratamiento de datos
Descanso
Limpieza de datos y EDA
Descanso
Data frames, gráficos, dplyr y export
Introducción
¿Quiénes somos?
Proyectos de analytics
Consultorías relacionadas a BI
Talleres, cursos y capacitaciones
Webinars
Y más
¿Quién lo ofrece?
Ingeniero en Administración Financiera
Master en Data Science for Business
Coordinador de Business Intelligence en
BAC Credomatic Guatemala
• Postgrado en Business Analytics y Data Science
• Postgrado en Data Analytics
• Certificado en Microsoft Excel, Power BI y R Studio
¿Qué es esto?
• Alineación de expectativas
• Capacitación intensiva
• 1 Sesión
• 4 Horas
• Permitido
• Preguntas
• Comentarios
• Aportes
¿Por qué hacemos esto?
• Certificado de participación
• Aporte al CV
• ¿Qué pasa si deseo otra capacitación?
• Reglas
• Participar
• Llenar encuesta
¿Qué es R?
¿Para qué se usa R?
¿Principales conflictos con R?
Conceptos clave
1. Librería y paquete
2. Función
3. Comando
4. Variable
5. Data Frame
6. Limpieza de datos
7. Ambiente
8. Consola
9. Plot
Conozcamos R desde cero
¿Por qué R?
Conozcamos R desde cero
R es un software de programación libre
Ideal para realizar analítica de datos
Muestra interfaz gráfica, visual y de historial
R es capaz tanto de preparar data como de analizar y
modelar data
Conozcamos R desde cero
Importar librerías
Importar librerías
[Link](“readxl”) Library(readxl)
[Link](“readr”) library(readr)
[Link]("ggplot2") library(ggplot2)
[Link]("dplyr") library(dplyr)
Importar datos
Existen 3 formas:
1. Importarla directamente desde la carpeta del
proyecto.
2. Clic en “Import dataset”
3. Tabla <- [Link](“ruta/especifica/[Link]”)
Al importar los datos, las
características de este
podrán verse en la vista de la
esquina superior derecha.
Visualización de los datos
importados
• View(Ventas)
• head(Ventas,5)
• tail(Ventas,5)
• summary(Ventas)
Manejo de datos en R
•Citar la columna “Mes” y todas las filas: Ventas$Mes o
Ventas[,1]
•Citar la primera fila y todas las columnas: Ventas[1,]
•Llamar al dato de la tercera fila y segunda columna (por
ejemplo): Ventas[3,2]
•Alterar la cantidad y orden de las columnas:
Ventas[,c(5,4,3,2,1)]
•Filtrar para el mes 3 de la columna Mes: Ventas[Ventas$Mes =
x,] Ojo, si una selección de datos está
igualada a un nombre indicado, se estará
creando una nueva tabla de datos.
Condicionales y campos calculados
•Campos calculados:
•Ventas$’Nombre del campo’ = columna1 + columna2
•Ventas$’Nombre del campo’ = mean(columna1)
•Ventas$’Nombre del campo’ = (columna1 – mean(columna1))/sd(columna1)
•Columnas condicionales:
•Ventas$’Nombre del campo’ = ifelse(columna1 > 5 , 5 , 0)
•Ventas$’Nombre del campo’ = ifelse(columna2 == “Alto” , “Alto” , “Bajo”)
Joins en R
•Formato general:
• Tabla3 = merge(tabla1,tabla2,by.x = tabla1$llave,by.y = tabla2$llave,all.x = TRUE)
•all.x = TRUE corresponde a un left join
•All.y = TRUE corresponde a un rigth join
•All = TRUE corresponde a un full join
•No colocar all… corresponde a un inner join
Ejercicios 1 – Tratamiento de datos
1. Mostrar los valores de la columna Tienda
2. Mostrar los valores de la columna Tienda únicamente de las filas 1 a la 10
3. Crear un nuevo data set con únicamente el mes, el sector y la edad Llamado dataprueba
4. Del dataset anterior, filtrar para únicamente los meses menores a julio y que el sector sea 1.
5. Del dataset de ventas, filtrar para únicamente los productos iguales a “Radio”
6. Al dataset de ventas agregarle una columna llamada “Tipo de compra” que sea 1 cuando el monto
de la venta sea mayor que 1000 y 0 cuando el monto sea igual o menor que 1000.
7. Agregar una columna llamada Utilidad que sea el monto de las ventas menos el 15% de impuestos
8. Agregar mediante un join una columna correspondiente al nombre del vendedor
Limpieza de datos
1. Validar que cada variable está en su correspondiente formato
2. Cada campo numérico abarca los dominios lógicos que le
corresponden
3. No hay ceros ni datos faltantes donde no corresponde
4. Las columnas categóricas no tienen niveles extras
5. Cuidar los outliers
Distribución del tiempo en cada paso
ERRORES
5%
• Entender el problema de negocio
• Entender los datos 15% 70%
• Preparar y procesar los datos 40%
• Análisis y modelaje 25% 20%
• Evaluación de resultados 5%
10%
• Presentación y visualización 10%
Funciones para hacer limpieza de datos
•Str() para conocer la estructura de los tipos de variables que tengo en mi data set
•Summary() me da un breve resumen de estadística descriptiva de mis datos
•Table() para tener un resumen estilo tabla dinámica de la proporción de los datos
•[Link]() Borra todas las filas que contienen NA´s
Ejercicios 2 – Limpieza
1. Verificar que las variables de edad y mes estén dentro de un rango
lógico
2. Verificar que las variables categóricas no tengan datos de más
3. Verificar que no hay datos faltantes
4. Eliminar columnas que no aportan o que no deberían de estar ahí
Funciones para hacer EDA en R
•Boxplot() brinda un gráfico de cajas y bigotes de una variable de los datos
•Hist() brinda un histograma de una variable de los datos
•Cor() brinda el coeficiente de correlación de dos variables de un data set
•Nrow() y ncol() para conocer el número de filas y columnas en mi data set, en ese
orden
•Mean() para conocer el promedio de una variable del set de datos
•Median() para conocer la mediana de una variable del set de datos
•pairs(Ventas[,c(8,9)])
•[Link]() para conocer la proporción de los niveles en una variable de datos
Ejercicios 3 – EDA
1. Se desea hacer un boxplot de los montos comprados y de las edades
2. Se desea realizar un histograma de la variable Utilidad
3. Se desea conocer si existe alguna correlación entre la edad y los montos
de las ventas
4. Se desea conocer la media, mediana y desviación estándar de las
variables de Utilidad, edad y frecuencia.
5. Se desea conocer las proporciones de las variables de compra y género
Creación de data frames
•Nombre de la tabla = [Link](“columna1” = datos, “columna2” = datos …
•Ejercicio:
•Se desea crear una tabla que contenga el total de ventas, el promedio de ventas y
edad y la proporción de quienes sí compran.
Gráficos en R con ggplot2
DPLYR y Power BI