0% encontró este documento útil (0 votos)
45 vistas36 páginas

Untitled

Este documento presenta la estructura de una sesión de capacitación en análisis de datos con R y R Studio. Incluye una introducción a R y R Studio, una presentación del curso, ejemplos de entradas y salidas de datos, y ejercicios prácticos sobre vectores, matrices, datos categóricos, data frames y limpieza de datos. El objetivo es enseñar conceptos y herramientas básicas de R para el análisis exploratorio de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
45 vistas36 páginas

Untitled

Este documento presenta la estructura de una sesión de capacitación en análisis de datos con R y R Studio. Incluye una introducción a R y R Studio, una presentación del curso, ejemplos de entradas y salidas de datos, y ejercicios prácticos sobre vectores, matrices, datos categóricos, data frames y limpieza de datos. El objetivo es enseñar conceptos y herramientas básicas de R para el análisis exploratorio de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de datos con

software estadístico
R y R Studio
2023
Ing. Carlos Mondragón
Sesión 1
Estructura de la sesión
(contenidos, actividades individuales, actividades grupales)

Presentación
01
Introducción a R y R Studio
02
Brief del Curso
03
Entradas y Salidas
04
Cursos de Extensión Profesional INFOPUC
Presentación

¿Por qué estudiamos


este curso?

@TonyRData

Cursos de Extensión Profesional INFOPUC


Introducción a R y R Studio
https://data-flair.training/blogs/why-learn-r/

Cursos de Extensión Profesional INFOPUC


Instalación

• R Studio: https://rstudio.com/products/rstudio/download/

• R: https://cran.rstudio.com/

Cursos de Extensión Profesional INFOPUC


Overview Machine Learning
https://www.simplilearn.com/10-algorithms-machine-
learning-engineers-need-to-know-article

Cursos de Extensión Profesional INFOPUC


Casos prácticos – Ejercicio 01

1. # Configuremos el IDE
2. # Tool > Global Option > Appearence > Editor Theme
3. # Uso de una hoja de trabajo
4. # File > New File > R Script (Ctrl + Shift + N)

Cursos de Extensión Profesional INFOPUC


Casos prácticos – Ejercicio 01

1. # Formas de Ejecución de comandos


2. # Ctrl + Enter (Run)
3. # Ctrl + Alt+ P (Re-Run el comando anterior)
4. # Ctrl + Shift + S (Source, ejecuta todo)

Cursos de Extensión Profesional INFOPUC


Vectores - 1

#Vectores
# Crear el vector de compras de productos con los siguientes valores
# 13, 18, 23, 12, 25.
producto.compras <- c(13, 18, 23, 12, 25)
# Asignarle a cada valor un día de la semana, de tal manera que sean lunes,
martes, miércoles jueves y viernes respectivamente
names(producto.compras) <- c('Lunes','Martes','Miercoles','Jueves','Viernes')
#¿Cual es el promedio de compras de todos los productos de la semana?
mean(producto.compras)

Cursos de Extensión Profesional INFOPUC


Vectores-2

#¿Cuales son los días que tienen un precio mayor a promedio?


producto.compras > mean(producto.compras)

#Guardar el resultado en una nueva variables superio.promedio


producto.superior_promedio <- producto.compras >
mean(producto.compras)

#Retorne solo los días que son mayores al promedio


producto.compras[producto.superior_promedio]

Cursos de Extensión Profesional INFOPUC


Vectores - 3

#Ahora busca el máximo valor


max(producto.compras)
producto.compras[producto.compras==max(producto.compras)]

#Ahora busca el número 12


producto.compras[producto.compras==12]

Cursos de Extensión Profesional INFOPUC


Matrices

• #Creemos una matriz de números, del 11 al 25.


• 11:25

• #Asignemoslo a una variable v


• v<- 11:25

• #Creemos una matriz con el vector v


• matrix(v)

Cursos de Extensión Profesional INFOPUC


Matrices

#Creemos una matriz con el vector v y con 3 columnas


matrix(v, ncol=3)

#Cambiemos el llenado de datos, por columas y por filas


matrix(v, byrow=FALSE , ncol=3)
matrix(v, byrow=TRUE , ncol=3)

Cursos de Extensión Profesional INFOPUC


Matrices

#Consideremos que compramos kilos de frutas todos los días de la


semana
precios.fruta <- c(13, 18, 23, 12, 25)

#Tambien, compramos kilos de verduras todos los días de la semana


precios.verdura <- c(10, 9, 8,9, 7)

#Crear un único vector con los precios de las frutas y verduras


precios <- c(precios.fruta,precios.verdura)

Cursos de Extensión Profesional INFOPUC


Matrices

#Crear una matrix considerando los precios de las frutas, de las verduras
#etiquetando además los días de la semana

precios.matrix = matrix(precio, byrow=T, nrow=2)


dias <- c('Lunes','Martes','Miercoles','Jueves','Viernes')
Etiquetas <- c('Frutas','Verduras')
colnames(precios.matrix)<- dias
rownames(precios.matrix)<-Etiquetas

Cursos de Extensión Profesional INFOPUC


Matrices

#Sumemos las columnas


colSums(precios.matrix)

#Sumemos las filas


rowSums(precios.matrix)

#Promedio por filas


rowMeans(precios.matrix)

Cursos de Extensión Profesional INFOPUC


Matrices

#Agreguemos una fila más para los precios de golosinas


golosinas <- c(5,3,4,2,8)

#unamos todos a la matriz original


precios.matrix <- rbind(precios.matrix, golosinas)

#Agamos un promedio por tipo de producto y agreguemoslo a la matriz


como #una nueva columna ‘promedio’
promedio<-rowMeans(precios.matrix)
precios.matrix<-cbind(precios.matrix,promedio)
Cursos de Extensión Profesional INFOPUC
Limpieza

#Limpiar el environment.
rm(list=objects())

#Limpiar la bandeja de trabajo


cat("\014")

Cursos de Extensión Profesional INFOPUC


Filas y Columnas
# Registrar y eliminar filas y columnas
# En una matriz

a<-c(1,2,3)
b<-c(4,5,6)
c<-c(7,8,9)
d<-rbind(a,b,c)
colnames(d) <- c(‘A’,’B’,’C’)
d <- d[,-c(2)]
d <- cbind(d,c(2,5,8))

Cursos de Extensión Profesional INFOPUC


Matrices Factoriales y Categóricas
1. #Definamos los siguientes animales
2. animal <- c(‘perro’,’gato’,’perro’,’gato’,’gato’)
3. #Definamos un número de identificación
4. id<-c(1:5)

1. #Definamos un número de identificación


2. factor.animal <- factor(animal)

1. #Catergorias Nominales u Ordinales


2. #Nominales no requiere orden, Ordinales si
3. #Los animales no requieren un orden para interpretarse

Cursos de Extensión Profesional INFOPUC


Matrices Factoriales y Categóricas
#En el caso de la temperatura, si se requiere de un orden para entenderse
orden.cat <- c(‘frio’,’medio’,’caliente’)

#Asignamos datos de temperatura


temperatura<-c(‘frio’,’medio’,’caliente’ ,’caliente’ ,’caliente’, ‘frio’ ,’medio’)

#Definamos los factores


factor.temperatura <- factor(temperatura, ordered=TRUE,
levels=c(‘frio’,’medio’,’caliente’))
#Con la función summary se puede conocer más sobre la variable factor
summary(factor.temperatura)
Cursos de Extensión Profesional INFOPUC
Data Frames
1. #Con la función data() podemos ver las bases de datos que contamos
con R para usar de ejemplos
2. data()

1. #Probemos con la base de datos que viene por defecto en R, state.x77


2. state.x77

1. #Probemos la función head


2. head(state.x77)
3. #Probemos con la función tail
4. tail(state.x77)
Cursos de Extensión Profesional INFOPUC
Data Frames
1. #Con la función str() podemos ver la estructura de la bases de datos

1. str(state.x77)

1. #Cuando le aplicamos el summary podemos ver información sobre la


base de datos

1. summary(state.x77)

Cursos de Extensión Profesional INFOPUC


Data Frames
1. #Desarrollemos un ejercicio con temperatura
2. #Creemos un vector para días, uno para temperatura, y uno para lluvia
3. #Luego, creemos un data frame
4. #Luego, analicemos con la función str y summary

1. dias <- c(‘lunes’,’martes’,’miércoles’,’jueves’,’viernes’)


2. temperatura <- c(22.2, 21, 23, 24.3, 25)
3. lluvia<- c(T,T,F,F,T)
4. df<- data.frame (días, temperatura, lluvia)
5. str(df)
6. summary(df)
Cursos de Extensión Profesional INFOPUC
Data Frames
1. #Hagamos unos ejercicios con el df recién creado
2. #Obtengamos la primera fila
3. df[1,]

1. #Obtengamos una columna en particular


2. df[, 'lluvia']

1. #Obtengamos solo las tres primeras filas y dos columnas


2. df[1:3,c('dias','temperatura')]

Cursos de Extensión Profesional INFOPUC


Data Frames
1. #El uso del signo dólar nos ayuda a visualizar una columna en particular
2. df$dias
3. df$temperatura

1. #Ahora probemos el uso de la función subset


2. subset(df, subset= (lluvia==TRUE))
3. subset(df, subset= (temperatura>=23))

Cursos de Extensión Profesional INFOPUC


Data Frames
1. #Ahora, utilicemos la función order
2. order(df['temperatura’])

1. #Ahora de forma descendente


2. order(-df['temperatura’])

1. #Asignemos el orden en una variable y apliquémoslo al df


2. desc.temp <- order(-df['temperatura’])
3. df[desc.temp,]

Cursos de Extensión Profesional INFOPUC


Data Frames
1. #Funcionales adicionales
2. nrow(df)
3. ncol(df)
4. colnames()
5. rownames()

1. #Grabemos y leamos el data frame en una base de datos csv


2. write.csv(df, file=‘base_prueba.csv’)
3. df2<- read.csv(‘base_prueba.csv’)

Cursos de Extensión Profesional INFOPUC


Data Frames
1. #Otra forma de acceder a los datos de data frame

1. df[[1]]

Cursos de Extensión Profesional INFOPUC


Entradas

#Lectura de una base de datos plana.


#En una variable datos carguemos la información de la BD usair.txt

datos1<-read.table("usair.txt",header=T)

#Leamos desde una base de datos pública


enlace <- 'https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015'
datos2 <- read.table(file=enlace, header=TRUE)

Cursos de Extensión Profesional INFOPUC


Entradas

#Lectura de una base de datos en excel.


install.packages("readxl")
library(readxl)
hijos <- read_excel(file.choose(), sheet='Hijos')
as.data.frame(hijos) # Para ver el contenido

Cursos de Extensión Profesional INFOPUC


Tarea 1
Ejercicio Individual: [Apellido_Nombre_Tarea1.R]
Se debe salir de compras de lunes a viernes, en donde se debe considerar las siguientes
categorías de productos: Materiales de aseo e higiene, materiales de limpieza, verduras, frutas y
carnes.

En materiales de aseo e higiene se gasto 80, 20, 10, 0, 0 soles según día de semana
respectivamente. En materiales de limpieza se gasto diariamente 0, 0, 100, 20, 0 soles según día
de semana respectivamente. En verduras se gasto diariamente 0, 0, 0, 100, 40 soles según día de
semana respectivamente. En frutas el gasto fue de 0, 0, 0, 30, 115 soles. En carnes el gasto fue
de 0, 0, 0, 220, 25 soles.

Se solicita desarrollar una matriz en donde se consigne con etiquetas las categorías compradas
con los valores y el promedio por cada una de las categorías.
INFOPUC

Qué
aprendimos
hoy ?
Conocimos R y R Studio, como
instalarlo, como utilizarlo para
definir variables, operaciones
básicas y usos de datos.
Cierre de la sesión

● Desarrollo de la tarea 1 hasta el día sábado próximo.

Cursos de Extensión Profesional INFOPUC


Actividades para la siguiente sesión

● Manejo de variables
● Normalidad
● Prueba de hipótesis
● Regresiones

Cursos de Extensión Profesional INFOPUC

También podría gustarte