0% encontró este documento útil (0 votos)

86 vistas9 páginas

Manejo de Paquetes y Datos en R

Este documento describe los pasos para importar, manipular y exportar datos en R. Explica cómo instalar y cargar paquetes, importar datos desde Excel y CSV, crear data frames, seleccionar y transformar columnas, y calcular medidas estadísticas como promedios, modas, cuartiles y dispersion. También muestra ejemplos de código para importar datos de un archivo Excel y calcular medidas de tendencia central y dispersión en un data frame.

Cargado por

Christian Kevin Tomalá

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

86 vistas9 páginas

Manejo de Paquetes y Datos en R

Cargado por

Christian Kevin Tomalá

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Manejo de paquetes

 Instalación: [Link]('nombre_paquete')
 Ver paquetes instalados: [Link]()
 Activar/Cargar: library('nombre_paquete')
 Desactivar/Des-cargar: detach('package:nombre_paquete')
 Paquetes cargados: search()
 RStudio tiene pestaña Packages que permite instalación visual

PAQUETES QUE SE PUEDEN USAR

[Link]("openxlsx") # Para importar desde excel

[Link]("tidyverse") # Manipulación de datos y ggplot2
[Link]('modeest') # Obtener moda
[Link]('fdth') # Calcular tabla frecuencias
[Link]("prettyR") # Opcion de Descriptivas

Importar csv
 Desde RStudio (R-base o paquete readr)
Import Dataset > From Text File > Escoger archivo > Abrir > Escribir nombre a la variable >
Import
 Con comando
[Link]( file, sep = "," , dec = "," , stringsAsFactors= FALSE)
 Para grandes volúmenes de datos usar paquete [Link]
fread()
 Paquete vromm en desarrollo,
vroom()

Importar desde Excel

 Copiando desde un archivo de Excel abierto
[Link]("clipboard", sep="\t", header=TRUE)
 Desde RStudio
Rstudio > Import Dataset > From Excel > Escoger archivo > Abrir > Escribir nombre a la variable > Import

 Usando el paquete openxlsx

[Link](xlsxFile , sheet , startRow , colNames , skipEmptyRows, rowNames)
data_tiempo_espera <- [Link](xlsxFile = 'Data/Data_Banco.xlsx')
 Otros paquetes
[Link], XLConnect, xlsx, readxl, rio
Exportar a excel
 Descargar Rtools
 Instalar Rtools
 Se debe escoger “agregar al path”
 Si la computadora ya tiene CYGWIN, se tiene un tratamiento especial
 Usando el paquete openxlsx
[Link](x, file, asTable = FALSE, ...)
 Se puede usar los paquetes XLConnect, xlsx, etc.

Ejemplo - Importar
# Cargar la libreria a utilizar
library(openxlsx)
# Leer el archivo de excel y asignarlo al objeto data_banco
data_banco <- [Link](xlsxFile = "Data/Data_Banco.xlsx", sheet = "Data")
data_sucursal <- [Link](xlsxFile = "Data/Data_Banco.xlsx", sheet = "Data_Sucursal")

[Link]
 [Link] es una lista de vectores, cumple:
 Las componentes son vectores
 Cada vector puede se de un tipo de dato distinto
 Cada elemento, columna es una variable
 Las columnas tienen el mismo largo
 Se podría decir que un [Link] es como una tabla en una hoja de excel
Crear un [Link]

Nombre <- c('Ana', 'Berni', 'Carlos')

Edad <- c(20,19,20)
Ciudad <- factor(c('Gye', 'Uio', 'Cue'))
df_1 <- [Link](Nombre, Edad, Ciudad)
df_1
Nombre Edad Ciudad
1 Ana 20 Gye
2 Berni 19 Uio
3 Carlos 20 Cue

Otra forma de Crear un [Link]

df_3 <- [Link]( Nombre= c('Ana', 'Berni', 'Carlos'),

Edad = c(20,19,20),
Ciudad= factor(c('Gye', 'Uio', 'Cue')) )
df_3
Nombre Edad Ciudad
1 Ana 20 Gye
2 Berni 19 Uio
3 Carlos 20 Cue

Tipos de variables y su correspondencia en R

Tipos de datos
Al importar los datos es posible que no estén en el formato correcto, podemos pasar de un tipo de dato a otro (siempre que sea
posible), usando R-base
[Link](x)
[1] 11 12 13 14
[Link](im)
[1] 3
[Link](data_factor)
[1] "alto" "bajo" "alto" "alto"
[Link](x)
[1] 11 12 13 14
Levels: 11 12 13 14

Seleccionar columnas y aplicar una función

Seleccionar la columna Tiempo_Servicio_seg y obtener un boxplot
# Seleccionar la columna Tiempo_Servicio_seg y obtener un boxplot
# boxplot(data_banco$Tiempo_Servicio_seg) ## Base de R
data_banco %>% select(Tiempo_Servicio_seg) %>% boxplot

Medidas de Tendencia Central

Media.- Promedio de los valores
 Se la puede entender como el punto de equilibrio
 Muy sensible a valores aberrantes
 En R: mean(x, [Link]= TRUE)
Media Acotada.- Promedio de los valores, pero quitando un porcentaje de valores extremos.
 Es menos sensible a valores aberrantes
 Se puede perder información importante
 En R: mean(x, [Link]= TRUE, trim)

Medidas de Tendencia Central

Mediana.- Punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a
menor.
 Valor importante pero poco usado
 No es sensible a valores aberrantes
 En R: median(x, [Link]= TRUE)

Media Ponderada.- Promedio de los valores, pero asignando un peso diferente a cada valor.
 Normalmente se utiliza cuando se tiene datos agrupados
 Es también sensible a valores aberrantes
 En R: [Link](x, w, …, [Link] = TRUE)

Medidas de Tendencia Central

Moda.- Valor de la observación que aparece con mayor frecuencia.
 Mejor análisis se obtiene con una tabla de frecuencias
 En R:
 library('modeest')
 mlv(x)

Calcular las medidas de Tendencia central para la data de Banco

# Media
# mean(data_banco$Tiempo_Servicio_seg, [Link] = TRUE) ## Base R
data_banco %$% mean(Tiempo_Servicio_seg, [Link] = TRUE)
[1] 155.58
# Media acotada al 10%
data_banco %$% mean(Tiempo_Servicio_seg, trim = 0.05, [Link] = TRUE)
[1] 141.9233
Calcular las medidas de Tendencia central para la data de Banco

# Cargar paquete
library('modeest')
# Moda
mlv(data_banco$Tiempo_Servicio_seg)
[1] 84.13594

Medidas de Posición
 Min y Max

 En R, min(x, [Link] = TRUE), max(x, [Link] = TRUE)

 Cuartiles.- Dividen al conjunto de observaciones en 4 partes iguales
 El segundo cuartil es la mediana

 En R quantile(x , probs = c(0.25, 0.50, 0.75))

 Deciles.- Dividen al conjunto de observaciones en 10 partes iguales
 El quinto decil sería igual a la mediana

 En R quantile(x , probs = seq(from = 0.1, to = 1, by = 0.1))

 Centiles.- Dividen al conjunto de observaciones en 100 partes iguales
 El quincuagésimo centil es la mediana
 En R quantile(x, probs )

Entendiendo los cuartiles

Boxplot.- Muestra gráficamente las medidas de posición
boxplot(data_banco$Tiempo_Servicio_seg, main= "Boxplot para Tiempo de Servicio (seg)", ylab= "Tiempo")

Medidas de Dispersión

 Rango intercuartil.- Distancia entre el cuartil 1 y 3

 En R IQR(x, [Link] = TRUE)
 Rango.- Diferencia entre maximo y minimo valor
 En R diff(range(x, [Link] = TRUE))
Calcular las medidas de dispersión

# Varianza, de la base data_banco, de la variable Tiempo_Servicio_seg,

var(data_banco$Tiempo_Servicio_seg, [Link] = TRUE) # [Link] = TRUE no permite tomar valores en blanco
[1] 14402.27
# Desviacion
sd(data_banco$Tiempo_Servicio_seg, [Link] = TRUE)
[1] 120.0095
# Mediana de las desviaciones absolutas
mad(data_banco$Tiempo_Servicio_seg, [Link] = TRUE)
[1] 82.35503

# Rango intercuartil
IQR(data_banco$Tiempo_Servicio_seg, [Link] = TRUE)
[1] 122.0393
# Min Max
range(data_banco$Tiempo_Servicio_seg, [Link] = TRUE)
[1] 18.13177 1602.69832
# Rango
diff(range(data_banco$Tiempo_Servicio_seg, [Link] = TRUE))
[1] 1584.567

También podría gustarte

Manejo de Datos en R: Importación y Análisis
Aún no hay calificaciones
Manejo de Datos en R: Importación y Análisis
8 páginas
Introducción A "R"
Aún no hay calificaciones
Introducción A "R"
12 páginas
Curso Primeros Pasos en R - Clase 3
Aún no hay calificaciones
Curso Primeros Pasos en R - Clase 3
40 páginas
Unidad 1
Aún no hay calificaciones
Unidad 1
28 páginas
Comandos R Bàsico.
Aún no hay calificaciones
Comandos R Bàsico.
11 páginas
Comnados en R Studio
Aún no hay calificaciones
Comnados en R Studio
2 páginas
Apuntes Practicas
Aún no hay calificaciones
Apuntes Practicas
40 páginas
Guía de Funciones y Gráficos en R
Aún no hay calificaciones
Guía de Funciones y Gráficos en R
24 páginas
Estadística Básica
Aún no hay calificaciones
Estadística Básica
123 páginas
Análisis de Datos en R: Guía Práctica
Aún no hay calificaciones
Análisis de Datos en R: Guía Práctica
4 páginas
Guía de Data Frames en R
Aún no hay calificaciones
Guía de Data Frames en R
14 páginas
Guaillas Robert CBCEESTAJUS U2 T3
Aún no hay calificaciones
Guaillas Robert CBCEESTAJUS U2 T3
9 páginas
Análisis de Reservas y Acciones 2008-2020
Aún no hay calificaciones
Análisis de Reservas y Acciones 2008-2020
9 páginas
MEC R Preliminares y Regresión
Aún no hay calificaciones
MEC R Preliminares y Regresión
5 páginas
Estadística para Ciencias Sociales - Guía Comandos
Aún no hay calificaciones
Estadística para Ciencias Sociales - Guía Comandos
10 páginas
Introducción A R
Aún no hay calificaciones
Introducción A R
60 páginas
Introducción a R para Estadística
100% (1)
Introducción a R para Estadística
35 páginas
Ayuda - Con - R 4
Aún no hay calificaciones
Ayuda - Con - R 4
3 páginas
Regresion Lineal
Aún no hay calificaciones
Regresion Lineal
14 páginas
Laboratorio de Limpieza de Datos
Aún no hay calificaciones
Laboratorio de Limpieza de Datos
15 páginas
DataFrame R
Aún no hay calificaciones
DataFrame R
24 páginas
Análisis de Datos en R: Guía Básica
Aún no hay calificaciones
Análisis de Datos en R: Guía Básica
47 páginas
Referencia Rapida R
Aún no hay calificaciones
Referencia Rapida R
16 páginas
Tablas y Gráficos en R
Aún no hay calificaciones
Tablas y Gráficos en R
24 páginas
Guía Básica de Análisis de Datos en R
Aún no hay calificaciones
Guía Básica de Análisis de Datos en R
58 páginas
Práctica 1 - Empezando en R
Aún no hay calificaciones
Práctica 1 - Empezando en R
5 páginas
Intro Analisis Datos R
Aún no hay calificaciones
Intro Analisis Datos R
212 páginas
Modulo 1 - Investigacion de Mercados
Aún no hay calificaciones
Modulo 1 - Investigacion de Mercados
38 páginas
Reporte Practica1
Aún no hay calificaciones
Reporte Practica1
31 páginas
Introducción A R y A RStudio
Aún no hay calificaciones
Introducción A R y A RStudio
11 páginas
Análisis de Datos I - Actividad
Aún no hay calificaciones
Análisis de Datos I - Actividad
7 páginas
Análisis Exploratorio de Datos en R
Aún no hay calificaciones
Análisis Exploratorio de Datos en R
7 páginas
RStudio para Negocios: Guía Práctica
Aún no hay calificaciones
RStudio para Negocios: Guía Práctica
8 páginas
Clase 3
Aún no hay calificaciones
Clase 3
10 páginas
Clase 14
Aún no hay calificaciones
Clase 14
8 páginas
Guía de Laboratorio: Machine Learning en R
Aún no hay calificaciones
Guía de Laboratorio: Machine Learning en R
10 páginas
Manual Completo de R para Principiantes
Aún no hay calificaciones
Manual Completo de R para Principiantes
226 páginas
Curso - Analisis Estadístico de Datos Usando R Studio - 20182
Aún no hay calificaciones
Curso - Analisis Estadístico de Datos Usando R Studio - 20182
91 páginas
Feir 10: Entorno de Trabajo R. Rstudio: Índice
Aún no hay calificaciones
Feir 10: Entorno de Trabajo R. Rstudio: Índice
58 páginas
Analisis Exploratorio Datos Con R-Sample
Aún no hay calificaciones
Analisis Exploratorio Datos Con R-Sample
37 páginas
Laboratorio 1
Aún no hay calificaciones
Laboratorio 1
40 páginas
Guía R: Funciones, Series y Análisis
Aún no hay calificaciones
Guía R: Funciones, Series y Análisis
12 páginas
Manualde R
Aún no hay calificaciones
Manualde R
214 páginas
Codigo R Introducción Jorge Romero
Aún no hay calificaciones
Codigo R Introducción Jorge Romero
10 páginas
Script Clase.R
Aún no hay calificaciones
Script Clase.R
2 páginas
Clase 6
Aún no hay calificaciones
Clase 6
17 páginas
Análisis de Datos con NaN en Matlab
Aún no hay calificaciones
Análisis de Datos con NaN en Matlab
4 páginas
Ejercicios Resueltos Estimación Inferencia Estadística
Aún no hay calificaciones
Ejercicios Resueltos Estimación Inferencia Estadística
9 páginas
Ajuste de Datos Empíricos
Aún no hay calificaciones
Ajuste de Datos Empíricos
12 páginas
Análisis de Datos Financieros en R
Aún no hay calificaciones
Análisis de Datos Financieros en R
10 páginas
Análisis de Datos 2020 - UDLA (CLASE 5)
100% (1)
Análisis de Datos 2020 - UDLA (CLASE 5)
50 páginas
R Studio
100% (7)
R Studio
42 páginas
Guía para Usar R
Aún no hay calificaciones
Guía para Usar R
16 páginas
Comandos Estadistica en R
Aún no hay calificaciones
Comandos Estadistica en R
86 páginas
Recuperación Práctica en R
Aún no hay calificaciones
Recuperación Práctica en R
4 páginas
ST Con Gretl R
Aún no hay calificaciones
ST Con Gretl R
18 páginas
EXA-2016-1S-FUNDAMENTOS DE PROGRAMACIÓN-17-1Par
Aún no hay calificaciones
EXA-2016-1S-FUNDAMENTOS DE PROGRAMACIÓN-17-1Par
4 páginas
1S-2016 Química PrimeraEvaluacion08h30 Version1
Aún no hay calificaciones
1S-2016 Química PrimeraEvaluacion08h30 Version1
7 páginas
1S-2016 Química RECUPERACIÓN08h30 Version1
Aún no hay calificaciones
1S-2016 Química RECUPERACIÓN08h30 Version1
6 páginas
Mapa Mental Christian Tomala Acerca de QFD
Aún no hay calificaciones
Mapa Mental Christian Tomala Acerca de QFD
2 páginas
Fundición - Tomala y Villegas
Aún no hay calificaciones
Fundición - Tomala y Villegas
4 páginas
5S: Clave para Eficiencia y Calidad
Aún no hay calificaciones
5S: Clave para Eficiencia y Calidad
2 páginas
Practica para Matematicas
Aún no hay calificaciones
Practica para Matematicas
4 páginas
Deber 1 Mecánica Vectorial
Aún no hay calificaciones
Deber 1 Mecánica Vectorial
7 páginas
Tutoria 1 Sesión 2 Mat Bas 1S 2020
Aún no hay calificaciones
Tutoria 1 Sesión 2 Mat Bas 1S 2020
4 páginas
MA642 - 202501 - Simulacro Solución
Aún no hay calificaciones
MA642 - 202501 - Simulacro Solución
7 páginas
Christian Gaete - Tarea Semana 4 - Estadistica.
Aún no hay calificaciones
Christian Gaete - Tarea Semana 4 - Estadistica.
4 páginas
Medidas Estadísticas. TICS
Aún no hay calificaciones
Medidas Estadísticas. TICS
4 páginas
Organización de Datos en Tablas de Frecuencias
Aún no hay calificaciones
Organización de Datos en Tablas de Frecuencias
16 páginas
Ejemplos Bidimensionales Discretas
Aún no hay calificaciones
Ejemplos Bidimensionales Discretas
6 páginas
Evaluación de Medidas de Ubicación en Estadística
Aún no hay calificaciones
Evaluación de Medidas de Ubicación en Estadística
4 páginas
Tabla de Crecimiento
Aún no hay calificaciones
Tabla de Crecimiento
18 páginas
Laboratorio Excel Estadistico I, ForMATO. Jorge Saravia 20182001870
Aún no hay calificaciones
Laboratorio Excel Estadistico I, ForMATO. Jorge Saravia 20182001870
19 páginas
Estadistica Lectura C
Aún no hay calificaciones
Estadistica Lectura C
14 páginas
Varianza y Desviación Estándar Explicadas
Aún no hay calificaciones
Varianza y Desviación Estándar Explicadas
4 páginas
Ejercicico Final Bioestadistica
Aún no hay calificaciones
Ejercicico Final Bioestadistica
6 páginas
Curvas de Lorenz en Economías X e Y
Aún no hay calificaciones
Curvas de Lorenz en Economías X e Y
6 páginas
Coeficientes de Regresión y Análisis
Aún no hay calificaciones
Coeficientes de Regresión y Análisis
13 páginas
A - Problemas Probabilidad Normal 1 II
Aún no hay calificaciones
A - Problemas Probabilidad Normal 1 II
3 páginas
Estadistica 2 Unicaribe - Hidelkis Nuez PDF
Aún no hay calificaciones
Estadistica 2 Unicaribe - Hidelkis Nuez PDF
5 páginas
Pe S2 E1 Mayra Abigail Canul Dzul
Aún no hay calificaciones
Pe S2 E1 Mayra Abigail Canul Dzul
4 páginas
Trabajo Final DD
Aún no hay calificaciones
Trabajo Final DD
50 páginas
Evaluación de Estadística Inferencial
Aún no hay calificaciones
Evaluación de Estadística Inferencial
4 páginas
Análisis de Glucosa y Ventas en Diabetes
Aún no hay calificaciones
Análisis de Glucosa y Ventas en Diabetes
6 páginas
Excel Unir
Aún no hay calificaciones
Excel Unir
27 páginas
Practica de Medidas de Tendencia Central
Aún no hay calificaciones
Practica de Medidas de Tendencia Central
2 páginas
Análisis Estadístico de Empleados: Salario, Edad y Hijos
Aún no hay calificaciones
Análisis Estadístico de Empleados: Salario, Edad y Hijos
2 páginas
Detección de Autocorrelación en Econometría
Aún no hay calificaciones
Detección de Autocorrelación en Econometría
6 páginas
Taller de Estadística: Regresión Lineal
Aún no hay calificaciones
Taller de Estadística: Regresión Lineal
6 páginas
Tarea 9 de Estadistica
Aún no hay calificaciones
Tarea 9 de Estadistica
7 páginas
Estadistica 1 - Trabajo Grupal
Aún no hay calificaciones
Estadistica 1 - Trabajo Grupal
13 páginas
Criterio de Dixon - César Daniel Zamora Hernández
Aún no hay calificaciones
Criterio de Dixon - César Daniel Zamora Hernández
11 páginas
Tema - Foro - Desarrollo Del Trabajo - Guia Trabajo Andres
Aún no hay calificaciones
Tema - Foro - Desarrollo Del Trabajo - Guia Trabajo Andres
11 páginas
Análisis de Consumo y Variabilidad
Aún no hay calificaciones
Análisis de Consumo y Variabilidad
9 páginas
Análisis Estadístico del Gasto de Agua
Aún no hay calificaciones
Análisis Estadístico del Gasto de Agua
3 páginas