UNIVERSIDAD NACIONAL DEL CALLAO
FACULTAD DE CIENCIAS ADMINISTRATIVAS
R
PROJECT
INTEGRANTES:
MAGUIÑA OBISPO, GIANMARCO GARY
CANTORAL RIPAS, JESÚS MIGUEL
DOCENTE:MARTINEZ
PONCE FLORES, JHONNY HENRY
SULBARAN
Curso: Estadistica II
MONTES VIDALON, JOSÉ LUIS
HECTOR ENRIQUE
CONTENIDO:
01 LA PRUEBA DE HIPOTESIS.
COMANDOS PARA LAS FUNCIONES DE
02 DISTRIBUCIONES.
COMO FUNCIONA EL EDITOR DE
03 DATOS.
04 COMANDOS ESPECIFICOS:
05 EJEMPLOS DE COMANDOS.
06 COMANDO PARA ANOVA.
07 OTROS COMANDOS .
PRUEBA DE HIPOTESIS
R ofrece una amplia gama de pruebas de
hipótesis para diferentes tipos de análisis y
modelos estadísticos. Por ello se tiene que
cumplir los siguientes pasos:
Formular las hipótesis: Se establecen una
hipótesis nula (H0) y una hipótesis
alternativa (H1).
Seleccionar un nivel de significancia: Se
elige un nivel de significancia (alfa).
Realizar el cálculo estadístico: Utilizando
las funciones y paquetes estadísticos de
R.
Interpretar los resultados: Se analizan
los resultados obtenidos y se toma una
decisión sobre la hipótesis nula.
PRUEBA DE HIPOTESIS
Usaremos las siguientes funciones que hay disponible en R para
realizar la prueba de hipótesis:
Por ejemplo, si se desea comparar medias de dos grupos, se puede
utilizar la función t.test(). que tiene la siguiente estructura:
PRUEBA DE HIPOTESIS
Argumentos del t. test
Ejemplo:
Datos:
grupo1 <- c(15, 18, 20, 22, 17)
grupo2 <- c(12, 16, 19, 21, 14)
Realizar la prueba de hipótesis:
resultado <- t.test(grupo1, grupo2)
Mostrar resultados:
print(resultado)
FUNCIONES DE DISTRIBUCIONES
Discreta Para cada distribución discreta se tienen 4 funciones:
dxxx(x, ...) # Función de masa de probabilidad, f(x)
pxxx(q, ...) # Función de distribución acumulada hasta q,
F(x)
qxxx(p, ...) # Cuantil para el cual P(X <= q) = p
rxxx(n, ...) # Generador de números aleatorios.
Para cada distribución continua se tienen 4 funciones:
Continua
dxxx(x, ...) # Función de densidad de probabilidad, f(x)
pxxx(q, ...) # Función de distribución acumulada hasta q,
F(x)
qxxx(p, ...) # Cuantil para el cual P(X <= q) = p
rxxx(n, ...) # Generador de números aleatorios.
FUNCIONES DE DISTRIBUCIONES
Discreta En el lugar de las letras xxx se de debe colocar el nombre
de la distribución en R:
binom # Binomial
geo # Geométrica
nbinom # Binomial negativa
pois # Poisson
En el lugar de las letras xxx se de debe colocar el nombre
Continua
de la distribución en R:
cauchy # Cauchy
lnorm # log-normal
norm # normal
weibull # Weibull
EJEMPLOS
Generar una muestra aleatoria de
la distribución binomial negativa:
Generar una muestra aleatoria de la
distribución binomial negativa:
set.seed(123)
datos_nbinom <- rnbinom(1000, size = 10,
prob = 0.3)
Graficar el histograma de la muestra:
hist(datos_nbinom, breaks = 30, col =
"lightyellow", main = "Distribución Binomial
Negativa")
EJEMPLOS
Generar una muestra aleatoria de
la distribución de Cauchy:
Generar una muestra aleatoria de la
distribución de Cauchy:
muestra_cauchy <- rcauchy(100, location
= 0, scale = 1)
Graficar la muestra:
plot(density(muestra_cauchy), main =
"Distribución Cauchy - Gráfico de
Densidad")
EJEMPLOS
Generar una muestra aleatoria de
la distribución log-normal
Generar una muestra aleatoria de la
distribución log-normal:
muestra_lognormal <- rlnorm(1000,
meanlog = 1, sdlog = 0.5)
Crear un histograma de la muestra
log-normal:
hist(muestra_lognormal, breaks = 30, col =
"lightblue", xlab = "Valores", ylab =
"Frecuencia", main = "Distribución Log-
Normal")
EJEMPLOS
EDITOR DE DATOS
El editor de datos en R Project funciona
como una interfaz gráfica que permite
interactuar con los conjuntos de datos de
manera visual.
1. Apertura del editor: Puedes abrir el
editor de datos utilizando el comando
edit().
2. Visualización de los datos: Muestra los
datos en forma de tabla.
3. Edición de los datos: Puedes cambiar los
valores existentes, agregar o eliminar
valores.
4. Transformación de los datos: Puedes
aplicar funciones o expresiones
matemáticas a columnas específicas.
EJEMPLO
Modificar una distribución binomial
negativa:
Agregar o quitar datos dentro de la Graficar el nuevo histograma de la
consola de editar: muestra:
Ejecutamos el comando: edit(). Borramos hist(datos_nbinom, breaks = 30, col = "lightyellow",
o agregamos datos. main = "Distribución Binomial Negativa")
4.- LOS COMANDOS:
Los comandos en el lenguaje de
programación R se utilizan para
realizar diversas tareas
relacionadas con el análisis de
datos, la manipulación, la
visualización y el modelado
estadístico.
MENCIONARÉ ALGUNOS DE LOS COMANDOS MÁS
UTILIZADOS:
Manipulación de datos: - `read.csv().
Importa datos desde un archivo CSV. - `head().
Muestra las primeras filas de un conjunto de datos. - `subset().
Filtra filas o selecciona columnas específicas según una condición. -
`merge().
Combina conjuntos de datos requeridos en columnas comunes. -
`aggregate().
Calcular la conexión entre variables y realizar pruebas de conexión. -
`anova().
COMANDOS ESPESIFICOS:
Max Min Rango Median
Donde xpuede ser un Donxpuedemin()devuel valor_minimo <- Es importante tener en
vector vexy lo asigna range(datos)[1] cuenta que la función
nummax()devuelvexy aminimo. valor_maximo valor<- median()calcula la
lomaximo. range(datos)[2] print mediana utilizando la
aguamax(): print(valor_minimo) interpolación
print(valor_maximo)
Cov Var (x,y) Cov (x,y) Cor (x,y)
utilizamos la función cov(x, y)en R sexe yen La función cor permite
se utiliza para calcular calcular el coeficiente de
cov para calcular la un conjunto de datos.
var(x, y). correlación de Pearson,
covarianza entre dos La
En resumen, elvar(x)se Kendall o Spearman para dos
vectores o columnas cov()en R para calcular
utiliza enx, variables cuantitativas. La
de un data. la covarianza X,Y.
estructura de la función es la
siguiente. Los parámetos de
la función son: x, y : vectores
cuantitativos.
4.1 EJEMPLOS :
OPERACIONES FUNCION CONTROL DE GRIPE
4.2 Comandos: Función sample() de R para
generar números enteros de
modo aleatorio. Desgranemos
los atributos del comando
sort y a ORDENAR en sample: 1:30 = significa que el
R Vectores, Listas o intervalo de datos va a estar
SORT Data Frames en orden SAMPLE comprendido entre ambos
números (1 y 30 inclusive). 10 =
Ascendente,
significa el número de números
Descendente o aleatorios que quieres salgan
Alfabético. del intervalo anterior.
TABLE ROUND (X,N) Nos devuelve un valor
numérico redondeado a los
La función table sirve para dígitos que le digamos. Es
construir tablas de frecuencia
lo que podríamos llamar el
de una vía, a continuación la
redondeo clásico, a partir
estrctura de la función. Los
de . 5, redondea hacia
parámetros de la función son: ...
arriba, y hasta abajo.
espacio para ubicar los
nombres de los objetos
(variables o vectores) para los
cuales se quiere construir la
tabla.
ANOVA
El Análisis de la Varianza (ANOVA) es una técnica estadística que se utiliza para
comparar la media de tres o más grupos y determinar si existen diferencias
significativas entre ellas
En otras palabras, ANOVA te ayuda a saber si hay una diferencia significativa en
la media entre los grupos que estás comparando o si cualquier diferencia que
hayas observado se debe simplemente al azar.
EJEMPLO
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial,
comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se
distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento,
al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco
a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas
de los 25 sujetos al finalizar los tratamientos son:
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
La tabla de anova es:
Fuente
GL SS MS F
de variación
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y
concluimos que los resultados de los tratamientos son diferentes.
CUSTOMERS
Que incluye también el “valor p” asociado al contraste.
CUSTOMERS
OTRO COMANDOS
Anova unifactorial
Dureza vs. Pintura
Método Hipótesis nula Todas las medias son iguales Hipótesis alterna No todas las medias son
iguales Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Información del factor Factor Niveles Valores Pintura 4 Mezcla 1, Mezcla 2, Mezcla 3, Mezcla 4
Análisis de Varianza Fuente GL SC Ajust. MC Ajust. Valor F Valor p Pintura 3 281.7 93.90 6.02
0.004 Error 20 312.1 15.60 Total 23 593.8
Resumen del modelo R-cuad. R-cuad. S R-cuad. (ajustado) (pred) 3.95012 47.44% 39.56%
24.32%
Medias Pintura N Media Desv.Est. IC de 95% Mezcla 1 6 14.73 3.36 (11.37, 18.10) Mezcla 2 6 8.57
5.50 ( 5.20, 11.93) Mezcla 3 6 12.98 3.73 ( 9.62, 16.35) Mezcla 4 6 18.07 2.64 (14.70, 21.43)
Desv.Est. agrupada = 3.95012
Comparaciones en parejas de Tukey
Agrupar información utilizando el método de Tukey y una confianza de 95% Pintura N Media
Agrupación Mezcla 4 6 18.07 A Mezcla 1 6 14.73 A B Mezcla 3 6 12.98 A B Mezcla 2 6 8.57 B Las
medias que no comparten una letra son significativamente diferentes.
(ANOVA FACTORIAL > COVARIABLES)
Este ejemplo muestra cómo llevar a cabo e interpretar un análisis de covarianza.
Vamos a averiguar si las diferencias observadas en salario (salario actual) entre los
distintos subgrupos definidos por las variables catlab (categoría laboral) y minoría
(minoría) se mantienen al controlar el efecto (al introducir como covariables) de las
variables expprev (experiencia previa) y tiempemp (tiempo desde el contrato).
Para ello:
| En el cuadro de diálogo Univariante), trasladar la variable salario al cuadro
Dependiente y las variables catlab y minoría a la lista Factores fijos.
| Trasladar las variables expprev y tiempemp a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la información que recoge
la tabla
Suma
de cuadrados tipo Media
Fuente
III
gl
cuadrática
F Sig.
Modelo corregido 92046574962,811a 7 13149510708,973 133,588 ,000
Intersección 6558230692,616 1 6558230692,616 66,626 ,000
TIEMPEMP 1210038517,568 1 1210038517,568 12,293
EXPPREV 492908058,490 1 492908058,490 5,008 ,026
CATLAB 27203135908,843 2 13601567954,422 138,181 ,000
MINORÍA 299670835,005 1 299670835,005 3,044 ,082
CATLAB * MINORÍA 1091353984,818 2 545676992,409 5,544 ,004
Error 45869920473,528 466 98433305,737
Total 699467436925,000 474
Total corregido 137916495436,340 473
ASPECTO DESCRIPCION
R es un lenguaje de programación de alto nivel y orientado a objetos,
Lenguaje
diseñado específicamente para el análisis estadístico y la visualización de
de programación
datos.
R cuenta con una comunidad activa de desarrolladores, analistas de
Comunidad
datos y científicos que contribuyen con nuevos paquetes y
y ecosistema
funcionalidades.
R cuenta con miles de paquetes disponibles en el Comprehensive R
Paquetes
Archive Network (CRAN) que cubren diversas áreas, como
y funcionalidades
estadísticas, aprendizaje automático y visualización de datos.
R ofrece herramientas poderosas para la visualización de datos, como el
Visualización
paquete ggplot2, que permite crear gráficos de alta calidad y
de datos
personalizables.
Integración R se puede integrar con otros lenguajes y herramientas, permitiendo la
y interoperabilidad interoperabilidad con Python, SQL y otros entornos.
R cuenta con el paquete Shiny, que facilita la creación de aplicaciones
Desarrollo
web interactivas sin necesidad de conocimientos avanzados de
web y aplicaciones interactivas
desarrollo web.
R ofrece una amplia gama de paquetes para el aprendizaje automático y
Aprendizaje
el análisis predictivo, permitiendo la construcción y evaluación de
automático y análisis predictivo
modelos predictivos.
Robert Gentleman y Ross Ihaka son los fundadores del proyecto R,
Fundadores quienes iniciaron el desarrollo en 1993 en la Universidad de Auckland,
Nueva Zelanda.
CONCLUSION
el proyecto R ha experimentado un crecimiento significativo desde su inicio en
1993. Ha evolucionado para convertirse en uno de los lenguajes de
programación más populares y ampliamente utilizados en el ámbito de la
estadística y la ciencia de datos.
En resumen, el proyecto R ha demostrado ser una herramienta poderosa y
versátil para el análisis estadístico y la ciencia de datos.