0% encontró este documento útil (0 votos)
20 vistas29 páginas

R Project

Este documento proporciona información sobre comandos y funciones estadísticas en R. Explica cómo realizar pruebas de hipótesis, utilizar funciones de distribución, editar datos y usar comandos específicos como max(), min(), range(), median(), cov(), var(), cor(), sample() y sort(). También incluye ejemplos de cómo generar muestras aleatorias de diferentes distribuciones y manipular los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
20 vistas29 páginas

R Project

Este documento proporciona información sobre comandos y funciones estadísticas en R. Explica cómo realizar pruebas de hipótesis, utilizar funciones de distribución, editar datos y usar comandos específicos como max(), min(), range(), median(), cov(), var(), cor(), sample() y sort(). También incluye ejemplos de cómo generar muestras aleatorias de diferentes distribuciones y manipular los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE CIENCIAS ADMINISTRATIVAS

R
PROJECT
INTEGRANTES:
MAGUIÑA OBISPO, GIANMARCO GARY
CANTORAL RIPAS, JESÚS MIGUEL
DOCENTE:MARTINEZ
PONCE FLORES, JHONNY HENRY
SULBARAN
Curso: Estadistica II
MONTES VIDALON, JOSÉ LUIS
HECTOR ENRIQUE
CONTENIDO:

01 LA PRUEBA DE HIPOTESIS.

COMANDOS PARA LAS FUNCIONES DE


02 DISTRIBUCIONES.

COMO FUNCIONA EL EDITOR DE


03 DATOS.

04 COMANDOS ESPECIFICOS:

05 EJEMPLOS DE COMANDOS.

06 COMANDO PARA ANOVA.

07 OTROS COMANDOS .
PRUEBA DE HIPOTESIS
R ofrece una amplia gama de pruebas de
hipótesis para diferentes tipos de análisis y
modelos estadísticos. Por ello se tiene que
cumplir los siguientes pasos:

Formular las hipótesis: Se establecen una


hipótesis nula (H0) y una hipótesis
alternativa (H1).
Seleccionar un nivel de significancia: Se
elige un nivel de significancia (alfa).
Realizar el cálculo estadístico: Utilizando
las funciones y paquetes estadísticos de
R.
Interpretar los resultados: Se analizan
los resultados obtenidos y se toma una
decisión sobre la hipótesis nula.
PRUEBA DE HIPOTESIS
Usaremos las siguientes funciones que hay disponible en R para
realizar la prueba de hipótesis:

Por ejemplo, si se desea comparar medias de dos grupos, se puede


utilizar la función t.test(). que tiene la siguiente estructura:
PRUEBA DE HIPOTESIS
Argumentos del t. test

Ejemplo:
Datos:
grupo1 <- c(15, 18, 20, 22, 17)
grupo2 <- c(12, 16, 19, 21, 14)
Realizar la prueba de hipótesis:
resultado <- t.test(grupo1, grupo2)
Mostrar resultados:
print(resultado)
FUNCIONES DE DISTRIBUCIONES

Discreta Para cada distribución discreta se tienen 4 funciones:


dxxx(x, ...) # Función de masa de probabilidad, f(x)
pxxx(q, ...) # Función de distribución acumulada hasta q,
F(x)
qxxx(p, ...) # Cuantil para el cual P(X <= q) = p
rxxx(n, ...) # Generador de números aleatorios.

Para cada distribución continua se tienen 4 funciones:


Continua
dxxx(x, ...) # Función de densidad de probabilidad, f(x)
pxxx(q, ...) # Función de distribución acumulada hasta q,
F(x)
qxxx(p, ...) # Cuantil para el cual P(X <= q) = p
rxxx(n, ...) # Generador de números aleatorios.
FUNCIONES DE DISTRIBUCIONES

Discreta En el lugar de las letras xxx se de debe colocar el nombre


de la distribución en R:
binom # Binomial
geo # Geométrica
nbinom # Binomial negativa
pois # Poisson

En el lugar de las letras xxx se de debe colocar el nombre


Continua
de la distribución en R:
cauchy # Cauchy
lnorm # log-normal
norm # normal
weibull # Weibull
EJEMPLOS
Generar una muestra aleatoria de
la distribución binomial negativa:

Generar una muestra aleatoria de la


distribución binomial negativa:
set.seed(123)
datos_nbinom <- rnbinom(1000, size = 10,
prob = 0.3)

Graficar el histograma de la muestra:


hist(datos_nbinom, breaks = 30, col =
"lightyellow", main = "Distribución Binomial
Negativa")
EJEMPLOS
Generar una muestra aleatoria de
la distribución de Cauchy:

Generar una muestra aleatoria de la


distribución de Cauchy:
muestra_cauchy <- rcauchy(100, location
= 0, scale = 1)

Graficar la muestra:
plot(density(muestra_cauchy), main =
"Distribución Cauchy - Gráfico de
Densidad")
EJEMPLOS
Generar una muestra aleatoria de
la distribución log-normal

Generar una muestra aleatoria de la


distribución log-normal:
muestra_lognormal <- rlnorm(1000,
meanlog = 1, sdlog = 0.5)

Crear un histograma de la muestra


log-normal:
hist(muestra_lognormal, breaks = 30, col =
"lightblue", xlab = "Valores", ylab =
"Frecuencia", main = "Distribución Log-
Normal")
EJEMPLOS
EDITOR DE DATOS
El editor de datos en R Project funciona
como una interfaz gráfica que permite
interactuar con los conjuntos de datos de
manera visual.

1. Apertura del editor: Puedes abrir el


editor de datos utilizando el comando
edit().
2. Visualización de los datos: Muestra los
datos en forma de tabla.
3. Edición de los datos: Puedes cambiar los
valores existentes, agregar o eliminar
valores.
4. Transformación de los datos: Puedes
aplicar funciones o expresiones
matemáticas a columnas específicas.
EJEMPLO
Modificar una distribución binomial
negativa:

Agregar o quitar datos dentro de la Graficar el nuevo histograma de la


consola de editar: muestra:
Ejecutamos el comando: edit(). Borramos hist(datos_nbinom, breaks = 30, col = "lightyellow",
o agregamos datos. main = "Distribución Binomial Negativa")
4.- LOS COMANDOS:
Los comandos en el lenguaje de
programación R se utilizan para
realizar diversas tareas
relacionadas con el análisis de
datos, la manipulación, la
visualización y el modelado
estadístico.

MENCIONARÉ ALGUNOS DE LOS COMANDOS MÁS


UTILIZADOS:
Manipulación de datos: - `read.csv().
Importa datos desde un archivo CSV. - `head().
Muestra las primeras filas de un conjunto de datos. - `subset().
Filtra filas o selecciona columnas específicas según una condición. -
`merge().
Combina conjuntos de datos requeridos en columnas comunes. -
`aggregate().
Calcular la conexión entre variables y realizar pruebas de conexión. -
`anova().
COMANDOS ESPESIFICOS:
Max Min Rango Median

Donde xpuede ser un Donxpuedemin()devuel valor_minimo <- Es importante tener en


vector vexy lo asigna range(datos)[1] cuenta que la función
nummax()devuelvexy aminimo. valor_maximo valor<- median()calcula la
lomaximo. range(datos)[2] print mediana utilizando la
aguamax(): print(valor_minimo) interpolación
print(valor_maximo)

Cov Var (x,y) Cov (x,y) Cor (x,y)

utilizamos la función cov(x, y)en R sexe yen La función cor permite


se utiliza para calcular calcular el coeficiente de
cov para calcular la un conjunto de datos.
var(x, y). correlación de Pearson,
covarianza entre dos La
En resumen, elvar(x)se Kendall o Spearman para dos
vectores o columnas cov()en R para calcular
utiliza enx, variables cuantitativas. La
de un data. la covarianza X,Y.
estructura de la función es la
siguiente. Los parámetos de
la función son: x, y : vectores
cuantitativos.
4.1 EJEMPLOS :
OPERACIONES FUNCION CONTROL DE GRIPE
4.2 Comandos: Función sample() de R para
generar números enteros de
modo aleatorio. Desgranemos
los atributos del comando
sort y a ORDENAR en sample: 1:30 = significa que el
R Vectores, Listas o intervalo de datos va a estar
SORT Data Frames en orden SAMPLE comprendido entre ambos
números (1 y 30 inclusive). 10 =
Ascendente,
significa el número de números
Descendente o aleatorios que quieres salgan
Alfabético. del intervalo anterior.

TABLE ROUND (X,N) Nos devuelve un valor


numérico redondeado a los
La función table sirve para dígitos que le digamos. Es
construir tablas de frecuencia
lo que podríamos llamar el
de una vía, a continuación la
redondeo clásico, a partir
estrctura de la función. Los
de . 5, redondea hacia
parámetros de la función son: ...
arriba, y hasta abajo.
espacio para ubicar los
nombres de los objetos
(variables o vectores) para los
cuales se quiere construir la
tabla.
ANOVA

El Análisis de la Varianza (ANOVA) es una técnica estadística que se utiliza para


comparar la media de tres o más grupos y determinar si existen diferencias
significativas entre ellas

En otras palabras, ANOVA te ayuda a saber si hay una diferencia significativa en


la media entre los grupos que estás comparando o si cualquier diferencia que
hayas observado se debe simplemente al azar.
EJEMPLO
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial,
comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se
distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento,
al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco
a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas
de los 25 sujetos al finalizar los tratamientos son:

Grupo

1 2 3 4 5

180 172 163 158 147

173 158 170 146 152

175 167 158 160 143

182 160 162 171 155

181 175 170 155 160


La tabla de anova es:

Fuente
GL SS MS F
de variación

Tratamiento 4 2010,64 502,66 11,24

Error 20 894,4 44,72

Total 24 2905,04
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y
concluimos que los resultados de los tratamientos son diferentes.

CUSTOMERS
Que incluye también el “valor p” asociado al contraste.

CUSTOMERS
OTRO COMANDOS
Anova unifactorial
Dureza vs. Pintura
Método Hipótesis nula Todas las medias son iguales Hipótesis alterna No todas las medias son
iguales Nivel de significancia α = 0.05

Se presupuso igualdad de varianzas para el análisis.


Información del factor Factor Niveles Valores Pintura 4 Mezcla 1, Mezcla 2, Mezcla 3, Mezcla 4
Análisis de Varianza Fuente GL SC Ajust. MC Ajust. Valor F Valor p Pintura 3 281.7 93.90 6.02
0.004 Error 20 312.1 15.60 Total 23 593.8
Resumen del modelo R-cuad. R-cuad. S R-cuad. (ajustado) (pred) 3.95012 47.44% 39.56%
24.32%

Medias Pintura N Media Desv.Est. IC de 95% Mezcla 1 6 14.73 3.36 (11.37, 18.10) Mezcla 2 6 8.57
5.50 ( 5.20, 11.93) Mezcla 3 6 12.98 3.73 ( 9.62, 16.35) Mezcla 4 6 18.07 2.64 (14.70, 21.43)
Desv.Est. agrupada = 3.95012

Comparaciones en parejas de Tukey


Agrupar información utilizando el método de Tukey y una confianza de 95% Pintura N Media
Agrupación Mezcla 4 6 18.07 A Mezcla 1 6 14.73 A B Mezcla 3 6 12.98 A B Mezcla 2 6 8.57 B Las
medias que no comparten una letra son significativamente diferentes.
(ANOVA FACTORIAL > COVARIABLES)

Este ejemplo muestra cómo llevar a cabo e interpretar un análisis de covarianza.


Vamos a averiguar si las diferencias observadas en salario (salario actual) entre los
distintos subgrupos definidos por las variables catlab (categoría laboral) y minoría
(minoría) se mantienen al controlar el efecto (al introducir como covariables) de las
variables expprev (experiencia previa) y tiempemp (tiempo desde el contrato).

Para ello:
| En el cuadro de diálogo Univariante), trasladar la variable salario al cuadro
Dependiente y las variables catlab y minoría a la lista Factores fijos.
| Trasladar las variables expprev y tiempemp a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la información que recoge
la tabla
Suma
de cuadrados tipo Media
Fuente
III
gl
cuadrática
F Sig.

Modelo corregido 92046574962,811a 7 13149510708,973 133,588 ,000

Intersección 6558230692,616 1 6558230692,616 66,626 ,000

TIEMPEMP 1210038517,568 1 1210038517,568 12,293

EXPPREV 492908058,490 1 492908058,490 5,008 ,026

CATLAB 27203135908,843 2 13601567954,422 138,181 ,000

MINORÍA 299670835,005 1 299670835,005 3,044 ,082

CATLAB * MINORÍA 1091353984,818 2 545676992,409 5,544 ,004

Error 45869920473,528 466 98433305,737

Total 699467436925,000 474

Total corregido 137916495436,340 473


ASPECTO DESCRIPCION

R es un lenguaje de programación de alto nivel y orientado a objetos,


Lenguaje
diseñado específicamente para el análisis estadístico y la visualización de
de programación
datos.

R cuenta con una comunidad activa de desarrolladores, analistas de


Comunidad
datos y científicos que contribuyen con nuevos paquetes y
y ecosistema
funcionalidades.

R cuenta con miles de paquetes disponibles en el Comprehensive R


Paquetes
Archive Network (CRAN) que cubren diversas áreas, como
y funcionalidades
estadísticas, aprendizaje automático y visualización de datos.

R ofrece herramientas poderosas para la visualización de datos, como el


Visualización
paquete ggplot2, que permite crear gráficos de alta calidad y
de datos
personalizables.

Integración R se puede integrar con otros lenguajes y herramientas, permitiendo la


y interoperabilidad interoperabilidad con Python, SQL y otros entornos.

R cuenta con el paquete Shiny, que facilita la creación de aplicaciones


Desarrollo
web interactivas sin necesidad de conocimientos avanzados de
web y aplicaciones interactivas
desarrollo web.

R ofrece una amplia gama de paquetes para el aprendizaje automático y


Aprendizaje
el análisis predictivo, permitiendo la construcción y evaluación de
automático y análisis predictivo
modelos predictivos.

Robert Gentleman y Ross Ihaka son los fundadores del proyecto R,


Fundadores quienes iniciaron el desarrollo en 1993 en la Universidad de Auckland,
Nueva Zelanda.
CONCLUSION
el proyecto R ha experimentado un crecimiento significativo desde su inicio en
1993. Ha evolucionado para convertirse en uno de los lenguajes de
programación más populares y ampliamente utilizados en el ámbito de la
estadística y la ciencia de datos.
En resumen, el proyecto R ha demostrado ser una herramienta poderosa y
versátil para el análisis estadístico y la ciencia de datos.

También podría gustarte