Análisis estadístico
mediante el uso de
R-UCA
[Link]
Gustavo Ramirez Valverde
Programa de estadística
Organizado por:
REEDAR y
Programa en Estrategias
para el Desarrollo Agrícola Regional
2022
Objetivos del curso
• Los participantes del curso sean capaces de realizar
análisis estadísticos básicos en el software R-UCA
Contenido:
1. Introducción a R y R-UCA
2. Fundamentos del lenguaje R
3. Preparación de los datos
4. Análisis descriptivo de datos
5. Métodos estadísticos básicos
6. Algunos métodos estadísticos no-paramétricos
7. Análisis de regresión
8. Diseño de experimentos
9. Modelo lineal generalizado
10. Análisis multidimensional
Información del curso
Inicio del curso: martes 5 de julio de 2022
Horario: 20:00-22:00
Duración:
10 sesiones de 2 hrs. Dos sesiones por semana
20 horas en total
Evaluación
El curso se impartirá a distancia desde la plataforma Zoom del profesor.
Para aprobar el curso se requiere asistir al menos al 70% de las sesiones
Textos de apoyo
• Peter, D. (2008). Introductory statistics with R, Springer.
• Ankerst, D. P. (2017). DANIEL ZELTERMAN, Applied Multivariate Statistics with R.
Heidelberg: Springer.
• F. Husson, S. Lê & J. Pagès(2012): Análisis de datos con R. Escuela Colombiana de
Ingeniería Julio Garavito.
• Faraway, J. J. (2004). Linear models with R. Chapman and Hall/CRC.
• Kabacoff, R. I. (2015). R in action: data analysis and graphics with R. Simon and
Schuster.
Qué es R?
• Lenguaje de
programación
orientado a
objetos dedicado
a la estadística
R es un software libre
de análisis estadístico
• Los derechos de autor del código fuente principal de R
pertenecen a la Fundación R y se publican bajo la licencia pública
general GNU.
1. La libertad de ejecutar el programa, para cualquier propósito.
2. La libertad de estudiar cómo funciona el programa y
Robert Gentleman (izquierda)
adaptarlo a sus necesidades. y Ross Ihaka (derecha)
creadores de R
3. La libertad de redistribuir copias.
4. La libertad de mejorar el programa y divulgar sus mejoras al
público, de modo que toda la comunidad se beneficie.
Ranking
Ranking
Un poco de historia …
• En 1976 John Chambers old de Bell Telephone Laboratories, inician el programa S
• En 1993 se vende S y se crea el comercial (S-plus)
• R se considera la versión libre del programa S, de los Laboratorios Bell.
• En 1993 Ross Ihaka y Robert Gentleman crean la primera versión de R.
• En 1995, se crea el GNU General Public License para hacer “libre” al R.
• En 1997 se crea el R Core Group
Ventajas del R
• Es muy poderoso
• Es gratis y multiplataforma (Windows, linux, Mac)
• Gráficos de alta calidad
• R hace que sea fácil el manejo, proceso y análisis de datos
• Lenguaje orientado a objetos de alto nivel con sintaxis (relativamente)
intuitiva.
• Existe una gran cantidad de bibliografía generada para las aplicaciones de
R en muchísimas áreas de la actividad humana
• La gran biblioteca de “paquetes” contribución de la comunidad científica
Gráficos en R
Gráficos en R
Gráficos en R
Desventajas del R
• No existe soporte técnico.
• Requiere programación
• Requiere de precisión en la sintaxis.
Elementos Importantes
• R ES UN LENGUAJE DE PROGRAMACIÓN DE ALTO NIVEL
• Se basa en funciones
• Función ( argumentos)
• Ejemplo: mean( datos$X)
• Una Fortaleza importante son los paquetes
• Paquetes = rutinas generados por los usuarios
• Ejemplos: ggplot2 y nmlm
Paquetes:
Paquetes R
• Los "paquetes" complementarios son contribuciones de los usuarios.
• Muchos estadísticos han adoptado R como su principal plataforma
de programación.
• Muchos Métodos estadísticos avanzados disponibles en R
• Red integral de archivos R (CRAN): repositorio para paquetes R
Instalación de paquetes
• Usando código:
• En la consola de R dentro de RStudio, utilizar el siguiente código:
[Link] (“nombre del paquete")
• Ejecutar la linea
• El proceso de instalación de paquetes puede tomar varios minutos.
• Usando ventana de gráficos
• Seleccionar la pestaña paquetes(Packages) en el panel inferior isquierdo
• Seleccionar Install
• Escribir el nombre del paquete y dar instalar
Que es Rcmdr (R
Commander )
• R Commander es una interfaz gráfica de usuario para el
lenguaje de programación R, liberada bajo licencia GNU GPL, y
desarrollada y mantenida por John Fox del Departamento de
Sociología de la Universidad McMaster. __ “Wikipedia”
• El paquete es especialmente útil para los novatos en R, pues
con cada opción de menú utilizada presenta el código R que se
ha ejecutado.
Rcmdr:
Identificando componentes de Rcmdr
Conjunto de
datos activos
Script
Área de salida
Mensajes (errores)
Proyecto R-UCA
[Link]
id=instalacion_de_r_y_rcmdr:r-uca
• R-UCA para Windows es una instalación única de R junto a
R-commander y a algunos paquetes de uso frecuente.
• Ventajas :
• Se instala en un solo paso, con un solo archivo y un solo click.
• Su instalación no requiere internet.
• Rcmdr inicia automáticamente
• Se instala en forma autónoma y se desinstala sin problemas.
Conceptos Importantes
• Se puede trabajar en la consola o en un “script “
• “Script” es un programa que puede guardarse
• Se puede modificar fácilmente
• Ayuda a la reproductibilidad de los resultados
• Como todo programa puede ser “corrido“ por línea o completo
• Los resultados pueden ser almacenado en un objeto y visualizarse en
cualquier momento
Conceptos Importantes
• Una Fortaleza importante son los paquetes
• Paquetes = rutinas generados por los usuarios
• Ejemplos: ggplot2 y nmlm
• Los paquetes se instalan una sola vez
• Ejemplo: [Link] ( “ggplot2”)
• Los paquetes deben activarse cuando se van a usar
• Solo una vez por sesión
• ejemplo: library(ggplot2)
Sintaxis de R
• R es un lenguaje orientado a objetos.
• Los objetos son el elemento base del R.
• Los objetos se guardan con un nombre específico que no debe tener
espacios.
• Un número, una matriz, en la gráfica, una función o una base de
datos son ejemplos de objetos de R.
• El operador <- (=) sirve para asignar un objeto.
grafica <- plot (datos)
saludo = "Hola a todos“ #cadenas de texto entre comillas
Practica 1:
• Revisar instalación de R-UCA
• Revisar instalación de R y Rstudio
• Crear proyecto y directorio de trabajo
Elementos básicos
R como calculadora Tipos de Archivo “nativos” de R • Generar un objeto
>3+2 Datos (.rdata) Para generar un objeto, utilizamos “ <- ”
[1] 5 Scripts (.r) Opcionalmente se puede usar “->” y “=”
> sqrt(10) en la mayoría de la literatura no se usan
[1] 3.162278 > a<-1
> 4^2 > b<-2
[1] 16 > d<-4
> pi > a+b
[1] 3.141593 [1] 3
• Primeros Comandos > (a+b)/d
> sin(pi/2) [1] 0.75
ls ( )
[1] 1 > a+b/d
rm ( )
save() [1] 1.5
load()
Tipos de datos
• Cuando hablamos de tipos de datos en R, nos referimos a
los objetos de datos más simples que podemos manejar, se
conocen también como tipos de datos atómicos R
• En R hay 5 tipos de datos atómicos:
• Carácter (character)
• Reales (double)
• Enteros (integer)
• Complejos (complex)
• Booleanos (logical)
Tipo de objetos en R
• Vectores: Variable unidimensional, todos los valores del mismo tipo;
• Matrices: Vector organizado en filas y columnas;
• Arrays: Es una generalización mutidimensional del vector
• (elementos del mismo tipo)
• Listas: lista de objetos que pueden ser de diferentes tipos y longitudes
• Data frames: conjunto de datos organizado en columnas de la misma
longitud, pero puede tener diferente tipo y filas
Practica 1: R como
calculadora(Tipo de
variables)
• Construir un proyecto para el curso:
• Se recomienda primero fijar el directorio de trabajo:
• setwd("C:/Users/Gustavo/Desktop/output R/C_Calidad")
• Abrir un nuevo archivo de tipo “script”
• Trabajar en el programa, al finalizar guardar el script
Tabla símbolos básicos
Tabla de funciones de distribución
Tabla funciones básicas
Practica 2: Tipo de objetos
• En esta práctica se identifican los tipos de objetos (vectores,
matrices, listas y data frames.
• Se muestra cómo puede construirse, manipularse y realizar
operaciones con los distintos tipos de objetos
Datos:
U. S. State Public-School
Expenditures
• Description: The Anscombe data frame has 51 rows and 4 columns. The observations are
the U. S. states plus Washington, D. C. in 1970.
• This data frame contains the following columns:
• Education: Per-capita education expenditures, dollars.
• Income: Per-capita income, dollars.
• Young: Proportion under 18, per 1000.
• Urban: Proportion urban, per 1000.
• Source: Anscombe, F. J. (1981) Computing in Statistical Science Through APL. Springer-
Verlag.