0% encontró este documento útil (0 votos)
66 vistas14 páginas

Trabajo

Este documento presenta un análisis estadístico realizado sobre datos de un hospital. Se estimó un modelo de regresión para predecir el riesgo de infección basado en 5 variables. La regresión resultó significativa y 3 de los parámetros fueron significativos individualmente. El modelo sugiere que una mayor duración de estadía, número de camas y censo promedio diario se asocian con un mayor riesgo de infección.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
66 vistas14 páginas

Trabajo

Este documento presenta un análisis estadístico realizado sobre datos de un hospital. Se estimó un modelo de regresión para predecir el riesgo de infección basado en 5 variables. La regresión resultó significativa y 3 de los parámetros fueron significativos individualmente. El modelo sugiere que una mayor duración de estadía, número de camas y censo promedio diario se asocian con un mayor riesgo de infección.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Trabajo 1

Estudiantes

Rivera Bedoya Marhia Camila


Sanchez Vivas Harold Jhoan
Valderrama Posada Mateo
Tora Arroyave Oscar Julian

Docente

Francisco Javier Rodriguez Cortes

Asignatura

Estadística II

Sede Medellín
25 de Marzo de 2023
Índice
1. Pregunta 1 2
1.1. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Significancia de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Significancia de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2
1.5. Coeficiente de determinación múltiple R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Pregunta 2 4
2.1. Planteamiento prueba de hipotesis y modelo reducido . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Estadístico de prueba y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3. Pregunta 3 5
3.1. Prueba de hipótesis y prueba de hipótesis matricial . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2. Estadístico de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

4. Pregunta 4 5
4.1. Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.1. Normalidad de los residuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.2. Media 0 y Varianza constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2. Observaciones extremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2.1. Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2.2. Puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.3. Puntos influenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Índice de figuras
1. Gráfico cuantil-cuantil y normalidad de los residuales . . . . . . . . . . . . . . . . . . . . . . . 6
2. Gráfico residuales estudentizados vs valores ajustados . . . . . . . . . . . . . . . . . . . . . . 7
3. Identificación de datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4. Identificación de puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5. Criterio distancias de Cook para puntos influenciales . . . . . . . . . . . . . . . . . . . . . . . 10
6. Criterio Dffits para puntos influenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Índice de tablas
1. Tabla de valores de los coeficientes estimados . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Tabla anova significancia de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3. Resumen de los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4. Resumen de todas las regresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5. Tabla de puntos de Balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6. Tabla del criterio DFFITS para encontrar puntos influenciales . . . . . . . . . . . . . . . . . . 11

2
2

1. Pregunta 1
Estime un modelo de regresión lineal múltiple que explique el riesgo de infección en términos de las variables
restantes (actuando como predictoras) Analice la significancia de la regresión y de los parámetros individuales.
Interprete los parámetros estimados. Calcule e interprete el coeficiente de determinación múltiple R2
Teniendo en cuenta la base de datos asignada a nuestro equipo, la cual es Equipo45.txt, las variables para
el modelo son
Y RI Riesgo de infección en porcentaje: Probabilidad promedio estimada de adquirir infección en el hospital.
X1 DE Duración de la estadía en días: Duración promedio de la estadía de todos los pacientes en el hospital.
X2 RC Rutina de cultivos: Razón del número de cultivos realizados en pacientes sin síntomas de infección
hospitalaria, por cada 100 pacientes.
X3 NCP Número de camas: Promedio de camas en el hospital durante el periodo del estudio.
X4 CPD Censo promedio diario: Número promedio de pacientes en el hospital por día durante el periodo
del estudio.
X5 ENF Número de enfermeras: Promedio de enfermeras, equivalentes a tiempo completo, durante el periodo
del estudio.
El modelo que se propone es:
iid
RIi = β0 + β1 DEi + β2 RCi + β3 N CPi + β4 CP Di + β5 EN Fi + εi , εi ∼ N (0, σ 2 )

1.1. Modelo de regresión


Al ajustar el modelo de regresion para el riesgo de infeccion de una enfermedad en un hospital, se obtienen
los siguientes coeficientes:

Tabla 1: Tabla de valores de los coeficientes estimados

Valor del parámetro


βˆ0 -1.68786
βˆ1 0.19317
βˆ2 0.03430
βˆ3 0.04258
βˆ4 0.01994
βˆ5 0.00069

Por lo que el modelo con los respectivos valores de los parametos es:
c i = −1.68786+0.19317DESi +0.0343RC+0.04258N Ci +0.01994CP Di +6.9×10−4 N EN Fi +εi , εi iid
RI ∼ N (0, σ 2 )
Donde las variables se mueven deacuerdo 1 ≤ i ≤ 60

1.2. Significancia de la regresión


Se Plantea el siguiente Juego de Hipotesis
(
H0 : β 1 = β 2 = β 3 = β 4 = β 5 = 0
Ha : Algún βj ̸= 0 para j = 1, 2, 3, 4, 5
3

Se utilizará la siguiente tabla ANOVA para evaluar la significancia de la regresión:

Tabla 2: Tabla anova significancia de la regresión

Sumas de cuadrados g.l Cuadrado medio F0 Valor-P


Modelo de regresión 67.3216 5 13.46431 11.8112 9.69569e-08
Error 61.5578 54 1.13996

Los resultados obtenidos de la Tabla Anova indican que la hipótesis nula debe ser rechazada de lo cual
podemos concluir que el modelo al menos alguna de las variables es significativa

1.3. Significancia de los parámetros

(
H0 : β j = 0
Ha : Algún βj ̸= 0 para j = 1, 2, 3, 4, 5

La tabla a continuación muestra los criterios utilizados para evaluar la significancia de los parámetros de
forma individual:

Tabla 3: Resumen de los coeficientes

Estimación βj se(βˆj ) T0j Valor-P


β0 -1.6879 1.8239 -0.9254 0.3589
β1 0.1932 0.0846 2.2832 0.0264
β2 0.0343 0.0354 0.9698 0.3365
β3 0.0426 0.0147 2.8922 0.0055
β4 0.0199 0.0082 2.4384 0.0181
β5 0.0007 0.0008 0.8141 0.4192

Los resultados de las pruebas: valor del estadístico de prueba y el valor p para la prueba se obtiene en las
dos últimas columnas de la tabla de los parámetros estimados.
Con un nivel de significanciaα = 0.05 se concluye que los parámetros individuales β1 ,β3 ,β4 son significativos
cada uno en presencia de los demás parametros Por el contrario los parametros β0 ,β2 ,β5 individualmente no
son significativos en presencia de los demas parametros

1.4. Interpretación de los parámetros

A continuacion se hara la interpretacion de los parametros que son significativos, ya que los otros parametros
no tiene interpretacion y no aportan al modelo:

βˆ1 = 0.19317:Si todas las demás variables predictoras se mantienen iguales, un aumento de un día en
la Duración de la estancia en el hospital daría como resultado un aumento esperado en el promedio del
Riesgo de infección en un porcentaje determinado por el valor de0.19317 %.
βˆ3 = 0.04258:Si el número promedio de camas en el hospital durante el periodo de estudio aumenta
en una unidad, manteniendo constantes las demás variables predictoras, se espera que el promedio del
Riesgo de infección se incremente en un 0.04258 %
4

βˆ4 = 0.01994: si el número censo del promedio Diario del paciente en el hospital durante el periodo de
estudio se incrementa en una unidad, cuando las demas variables se mantienen constantes, se espera
que el promedio del Riesgo de infección aumenta en un 0.01994 %

1.5. Coeficiente de determinación múltiple R2

El modelo tiene un R2 de 0.5224 lo cual significa que aproximadamente el 52.24 % de la variabilidad total
en el porcentaje de Riesgo de infeccion es explicado por el modelo RLM

1.6. Comentarios

En el modelo de regresión, se puede notar que las variables que contribuyen significativamente son la Duración
de la estadía en el hospital, el Censo promedio diario de pacientes en el hospital y el número de camas. Esto
se refleja en la importancia de los parámetros.

2. Pregunta 2
Use la tabla de todas las regresiones posibles, para probar la significancia simultánea del subconjunto de
tres variables con los valores p más grandes del punto anterior. Según el resultado de la prueba es posible
descartar del modelo las variables del subconjunto? Explique su respuesta.

2.1. Planteamiento prueba de hipotesis y modelo reducido

Los parametros cuyos valores P fueron los más altos corresponden a β2 con VP=0.3365, β5 con VP= 0.4192,
β1 con VP= 0.02634. Por tanto, se plantea la siguiente prueba de hipótesis:
(
H0 : β 1 = β 2 = β 5 = 0
Ha : Algún βj ̸= 0 para j = 1, 2, 5

El modelo completo es el definido en la sección 1.1, y el modelo reducido es:


iid
MR: Rinfi = β0 + β3 N CPi + βC P D4i + εi , εi ∼ N (0, σ 2 )

Se presenta la siguiente tabla con el resumen de todas las regresiones para plantear el estadístico de prueba:

Tabla 4: Resumen de todas las regresiones

SSE Covariables en el modelo


Modelo completo 61.558 X1 X2 X3 X4 X5
Modelo reducido 73.462 X3 X4

2.2. Estadístico de prueba y conclusiones

Se construye el estadístico de prueba como:

(SSR(β0 , β3 , β4 |β0 , β1 , β2 , β3 , β4 , β5 /2 H0
F0 = ∼ f2,54
M SE(M F )
5

(SSE(β0 , β3 , β4 ) − SSE(β0 , β1 , β2 , β3 , β4 , β5 ))/2 H0


F0 = ∼ f2,54
M SE(β0 , β1 , β2 , β3 , β4 , β5 )
(73.462 − 61.558)/2
= = 5.2212
61.558/54

Cuando comparamos F0 con f0.05,2,54 = 3.168246 a un nivel de significancia de α = 0.05, y usamos un valor
p de 0.0084527, vemos que el valor p es pequeño, lo que sugiere que debemos rechazar la hipótesis nula H0 .
Por lo tanto, llegamos a la conclusión de que no se puede descartar este subconjunto de datos del modelo.

3. Pregunta 3
Plantee una pregunta donde su solución implique el uso exclusivo de una prueba de hipótesis lineal general
de la forma H0 : Lβ = 0 (solo se puede usar este procedimiento y no SSextra). Especifique claramente la
matriz L, el modelo reducido y la expresión para el estadístico de prueba (no hay que calcularlo).

3.1. Prueba de hipótesis y prueba de hipótesis matricial

Se plantea la siguiente prueba de hipótesis:


(
H0 : β4 = β5 , β2 = β3
Ha : Alguna de las desigualdades no se cumple

Reescribendo matricialmente: (
H0 : Lβ = 0
Ha : Lβ ̸= 0
Donde L está dada por:  
0 0 0 1 −1
L=
0 1 −1 0 0
Donde el modelo reducido está dado por:
iid
RI = β0 + β1 (DESi ) + β2 (RCi + N CPi ) + β4 (CP Di + EN Fi ) + εi , εi ∼ N (0, σ 2 )

3.2. Estadístico de prueba

El estadístico de prueba F0 está dado por:

(SSE(M R) − SSE(M F ))/2 H0


F0 = ∼ f2,54
M SE(M F )

Obteniendo esto podemos definir la region de rechazo de la hipotesis nula como F0 >F0.05,2,54 = 3.168246 y
con valor p:P(F2,54 >|F0 |)

4. Pregunta 4
Realice una validación de los supuestos en los errores y examine si hay valores atípicos, de balanceo e
influenciales. Qué puede decir acerca de la validez de éste modelo?. Argumente su respuesta.
6

4.1. Supuestos del modelo

4.1.1. Normalidad de los residuales

Para la validación de este supuesto, se plantea la siguiente prueba de hipótesis (shapiro wilk)
(
H0 : εi ∼ N (µ, σ 2 )
Ha : εi ≁ N (µ, σ 2 )

acompañado de un grafico cuantil-cuantil:

Normal Q−Q Plot of Residuals

2 Shapiro−Wilk Test
W = 0.9853
P value = 0.6863
Cuantiles muestrales

−1

−2

−2 −1 0 1 2

Cuantiles teóricos
Figura 1: Gráfico cuantil-cuantil y normalidad de los residuales

Dado que el valor de p es alto, se puede concluir que no hay suficiente evidencia para rechazar la hipótesis
nula H0 . Por lo tanto, se puede inferir que el modelo es consistente con la suposición de que los residuos
siguen una distribución normal.

4.1.2. Media 0 y Varianza constante

En esta prueba se quiere probar

H0 : V[εi ] = σ 2 vs V[εi ] ̸= σ 2
7

Media de los residuales


3

2
Valores ajustados

−1

−2

−3

2 3 4 5 6 7 8

Residuales estudentizados

Figura 2: Gráfico residuales estudentizados vs valores ajustados

Se puede observar que la línea punteada roja, que representa la media de los errores, se encuentra cerca o
en cero, lo que sugiere que los errores tienen una media cercana a cero. Además, al examinar los residuos,
no se puede detectar ningún patrón y se ven uniformemente distribuido, lo que indica que la varianza de los
errores es constante a través de todo el rango de los valores observados.
8

4.2. Observaciones extremas

4.2.1. Datos atípicos

2
Residuales

−2

−4

0 10 20 30 40 50 60

Observación

Figura 3: Identificación de datos atípicos

Notese que segun este criterio no existen puntos atipicos que deban ser investigados
9

4.2.2. Puntos de balanceo

0.8

0.6
Valor hii

0.4

0.2

0.0

0 10 20 30 40 50 60

Observación

Figura 4: Identificación de puntos de balanceo

Tabla 5: Tabla de puntos de Balanceo

Errores Estudentizados D.Cook Valor hii DFFITS


2 -1.6907 0.1419 0.2356 -0.9385
9 -1.1425 0.2204 0.5047 -1.1533
12 -0.7858 0.0347 0.2509 -0.4547
19 1.3664 0.1264 0.2921 0.8777
37 -0.2592 0.0041 0.2645 -0.1555
51 -0.5936 0.0150 0.2011 -0.2978
52 -1.6214 0.2356 0.3565 -1.2067

Es importante destacar que hay 7 datos datos que deben ser estudiados en términos de su impacto en el
ajuste del modelo y sus propiedades. Estos datos corresponden a los puntos 2, 9, 12, 19, 37, 51 y 52, ya que
son mayores al criterio 2p
n . Estos puntos de balanceo pueden tener una gran influencia en el modelo

4.2.3. Puntos influenciales

Bajo el criterio de Cook, se hace la siguiente gráfica:


10

1.5
Distancia de Cook

1.0

0.5

0.0

0 10 20 30 40 50 60

Observación

Figura 5: Criterio distancias de Cook para puntos influenciales

Bajo el criterio de cook, se obtuvo la anterior gráfica. A partir de la gráfica podemos concluir que no existen
puntos influenciales bajo este criterio
11

1.5

1.0

0.5
Dffit

0.0

−0.5

−1.0

−1.5

0 10 20 30 40 50 60

Observación

Figura 6: Criterio Dffits para puntos influenciales

Tabla 6: Tabla del criterio DFFITS para encontrar puntos influenciales

Errores Estudentizados D.Cook Valor hii DFFITS


2 -1.6907 0.1419 0.2356 -0.9385
9 -1.1425 0.2204 0.5047 -1.1533
18 2.0287 0.1005 0.1341 0.7985
19 1.3664 0.1264 0.2921 0.8777
52 -1.6214 0.2356 0.3565 -1.2067

Usando el criterio de Dffits, se ha generado el gráfico anterior, el cual sugiere que hay varios valores influyentes
en el modelo. Específicamente, las observaciones 2, 9, 18, 19 y 62 que pueden tener un impacto significativo
en el modelo y deben ser investigadas con más detalle.

4.3. Conclusiones

El modelo cumple con los supuestos básicos de regresión lineal de que la media de los residuos es cercana a
cero y la varianza es constante. Sin embargo, se observó una gran cantidad de datos de balanceo y puntos
influenciales, lo que sugiere la necesidad de investigar si estos datos afectan significativamente el modelo y sus
supuestos, incluida la normalidad de los residuos. En resumen, aunque el modelo cumple con los supuestos
subyacentes, no podemos decir si el modelo es adecuado para hacer predicciones, y se requieren análisis
12

adicionales para evaluar el impacto de los datos de equilibrio e influencia para determinar si el modelo es un
modelo preciso

También podría gustarte