Introduccion a R studio.
Sitios para aprender R: https://www.neoland.es/blog/las-10-mejores-webs-para-aprender-data-
science
R es un programa estadístico
Su complejidad está asociada a cómo funciona el programa. Se trabaja a través de
comandos.
La primera clase va tratar de cubrir estos tópicos:
1. Usando Rstudio para trabajar con R
2. Operaciones matemáticas
3. Creando un trabajo con objetos
4. Tipos de data (numeria, carácter, y lógica)
5. Estructura de datos (vectores, listas y data.frame)
6. Usando funciones
7. Explorando datos
8. Leyendo data en R (.cvs y xlsx)
1 usando Rstudio para trabajar con R:
La consola en Rstudio representa lo que seria R sin la aplicación. Es donde el código de R
es ejecutado
Rscript: es donde en Rstudio se almacena las líneas de código que quieres ejecutar mas de
una vez
Se recomienda que cuando se esté escribiendo una línea de código se deje espacio entre
cada parte de la operación
Para que R ejecute una operación escrita en una Rscript, se preciona Ctrl + enter
Un Rscript es como archivo de texto
En R cualquier operación puede ser guardada como un objeto, usando el operad <-
En R todo lo que sigue un “#” no es ejecutado por el programa
Si en R empiezas un línea de código con “#” y la terminas con una línea de cuatro espacio
“----“ genera una mini sección del código.
R es sensible a mayúsculas y minúsculas, si se escribe el nombre de un objeto ignorando
esta norma se comete un error
R se puede rescribir en un objeto y queda grabado la ultima versión
R tiene convenciones a la hora de nombra un objeto. No puede empezar en un numero.
Tampoco nombre que empiezes con carcateres especiales (¿¡). Incluso en caso donde se
ponen los caracteres especiales dentro de nombre
Pero el nombre del objeto puede tener números al final. Ejemplo: Objeto4 <- 3
Hay tres formas comunes de escribir el nombre de un objeto que tiene espacios
1. Separando las palabras con puntos. Ejemplo: mi.objeto <- 4
2. Separando las palabras con slasch “_”. Ejemplo: mi_objeto <-4
3. Separando las palabras con mayúscula en la primera letra de cada palabra que
empieza <-4
Los objetos son formas de guardar valores, datos, graficos con una sola palabra
Para remover objetos podemos usar la función rm(nombre del objeto)
R esta construido para análisis estadístico
R esta diseñado para trabajar con distintos tipos de datos (numerico, caracteres, lógico)
Los caracteres en R se escriben entre comillas (“carácter”)
Los datos lógicos se escriben en mayuscula TRUE, FALSE. Tambien se pueden abreviar en T
yF
La mayoría de las veces no trabajamos con data sola, sino con bases de datos
Los vectores en R son una línea datos con la misma característica
Una lista es una combinación de diferentes tipos de datos
Matrices son vectores y columnas des mismo tipo de datos
Y data.frame es un matrices que puede contener diferentes tipos de datos
Para construir un vector usamos la función c(contenido)
Para construir un lista usamos la función list(contenido)
Si queremos obtener un valor especifico de un vector anotamos entre “[]” la posición en
números del dato que queremos extraer
Dentro de la funciones tenemos la mediana que es : mean(objeto) median(objeto)
Funciones de máximos y minimos min(objeto); max(objeto)
Suma: sum(objeto)
Desviación estándar: sd(objeto)
Función para ver el tipo de dato: class(objeto)
Función para ver el numero de elementos de un vector length
R tiene un fuente de ayuda interna que se puede acceserder colocando un signo de
interrogación en la función que se quiere aprender a usar. Ejemplo: ?max
Data.frame es la estructura de datos mas importante
Data.frame es una serie de vectores pegados. Y cada columna puede representar un tipo
de dato diferente
Hay varias formas de hacer data.frame. la primera que muestran en el video es unir
diferente columnas de vectores
Para acelerar el proceso de la generación de valores repetido se puede usar la función de
repetición. Ejemplo: rep(valor que se quiere repetir, numero de veces que se quiere
repetir)
Si las bases de datos son muy grandes se puede usar la función de head(nombre de la base
de datos) para visualizar los primeros 6 valores de la base de datos. También le puede
agregar un segundo argumento para ver mas filas de la base de datos. Ejemplo:
head(nombre de la base de datos, números de filas a visualizar)
Si queremos ver los últimos valores de nuestra tabla usamos otra función que se llama
tale(nombre de la base de datos, números de filas a visualizar)
Si uno quiere visualizar el tamaño de nuestra base de datos usamos la función
dim(nombre de la base de datos)
Para ver la estructura de la base de datos de usa la función str(nombre de la base de
datos)
También esta una función que te permite ver toda las características de tus datos que se
llama summary(nombre de la base de datos)
También estan las funciones que te permite cambiar el tipo de valor (numerico, entero,
caracteres). Ejemplo: as.numeric, as.character
Para buscar valores especifico en r usamos escribimos esta línea de código. Ejemplo:
nombre de la base de datos[fila, columna]
mi_data$respuestas esta línea de código sirve para ver los valores de una columna
especifica de la base de datos
mi_data$positivo <- mi_data$respuestas > 26 podemos redactar esta línea de código para
generar una columna que se llame positivo y que tome el valor true cuando los valores en
las columna de respuesta sean mayores a 26
mi_data[mi_data$tratamineto == "vehiculo" & mi_data$respuestas <= 23,] esta línea de
código los que no quiere decir es que selecciones la final en nuestra base de datos que en
la columna de tratamiento sean vehiculo y que en la columna de respuestas sean menores
o iguales a 23. En este caso el & representa de que se tienen que cumplir la dos
condiciones para seleccionar la fila.
En el caso de que cumpla con alguno de los dos criterios, no necesariamente al mismo
tiempo, usamos el símbolo “|”
Si queremos buscar cosas que no son iguales al termino que estamo mencionando,
usamos la simobologia “!=”
Si queremos números enteros usamos la función round(objeto)
Creamos un proyecto y posimos y trabajamos con los datos de pokemo
pokemon <- read.csv("pokemon.csv", header = TRUE). Usamos el codigo Header = TRUE
para identificar a la primera línea de nuestro código como los nombres de las columnas
Parte dos
algunas formas básica de graficar (no es el foco de la clase)
t test and mann Whitney U test
1. Equal variance vs. Welch
2. Unpaired vs paired
3. One-tailed vs two-tailed
Regresiones lineales
One-way ANOVA and Kruskal-Wallis
1. Equal variance vs. Weich
2. Post-hoc test
Two-way ANOVA
1. Post-hoc test
How to check assumptions
2. Equal variance
3. Normality of residual
Graficos
Si usamos la funcion plot(objeto) . R no extrae todas las combinaciones de gráficos
posibles
Pero si queremos hacer los graficos de valores específicos en nuestra bases de datos.
Usamos [] los paréntesis para seleccionar las filas o columnas de datos que queremos ver
en los graficos