0% encontró este documento útil (0 votos)
25 vistas14 páginas

Análisis de Regresión en Estadística II

Este documento presenta el análisis de un modelo de regresión múltiple donde la variable dependiente es el riesgo de infección y las independientes son la duración de la estadía, rutina de cultivos, número de camas, censo promedio diario y número de enfermeras. Se encontró que la duración de la estadía, número de camas y número de enfermeras tienen una relación significativa con el riesgo de infección. El modelo explica aproximadamente el 52% de la variabilidad total.

Cargado por

ecoralg
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
25 vistas14 páginas

Análisis de Regresión en Estadística II

Este documento presenta el análisis de un modelo de regresión múltiple donde la variable dependiente es el riesgo de infección y las independientes son la duración de la estadía, rutina de cultivos, número de camas, censo promedio diario y número de enfermeras. Se encontró que la duración de la estadía, número de camas y número de enfermeras tienen una relación significativa con el riesgo de infección. El modelo explica aproximadamente el 52% de la variabilidad total.

Cargado por

ecoralg
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Trabajo 1

Estudiantes

Equipo 50
Docente

Asignatura

Estadística II

Sede Medellín
5 de octubre de 2023
Índice
1. Pregunta 1 3
1.1. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Significancia de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Significancia de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Coeficiente de determinación múltiple R2 . . . . . . . . . . . . . . . . . . . . 5

2. Pregunta 2 5
2.1. Planteamiento pruebas de hipótesis y modelo reducido . . . . . . . . . . . . 5
2.2. Estadístico de prueba y conclusión . . . . . . . . . . . . . . . . . . . . . . . 6

3. Pregunta 3 6
3.1. Prueba de hipótesis y prueba de hipótesis matricial . . . . . . . . . . . . . . 6
3.2. Estadístico de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4. Pregunta 4 7
4.1. Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.1. Normalidad de los residuales . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.2. Varianza constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Verificación de las observaciones . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.1. Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.2. Puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.3. Puntos influenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Índice de figuras
1. Gráfico cuantil-cuantil y normalidad de residuales . . . . . . . . . . . . . . . 8
2. Gráfico residuales estudentizados vs valores ajustados . . . . . . . . . . . . . 9
3. Identificación de datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4. Identificación de puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . 11
5. Criterio distancias de Cook para puntos influenciales . . . . . . . . . . . . . 12
6. Criterio Dffits para puntos influenciales . . . . . . . . . . . . . . . . . . . . . 13

Índice de cuadros
1. Tabla de valores coeficientes del modelo . . . . . . . . . . . . . . . . . . . . . 3
2. Tabla ANOVA para el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Resumen de los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4. Resumen tabla de todas las regresiones . . . . . . . . . . . . . . . . . . . . . 6
5. Tabla de puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6. Tabla de puntos influenciables . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3

1. Pregunta 1
Teniendo en cuenta la base de datos brindada, donde hay 5 variables regresoras dadas por el
siguiente modelo de regresión lineal multiple:

iid
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + β4 X4i + β5 X5i + εi , εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
Donde:
Y: Riesgo de infección
X1 :Duración de la estadía [días]
X2 :Rutina de cultivos [por cada 100]
X3 :Numero de camas
X4 :Censo promedio diario
X5 :Numero de enfermeras

1.1. Modelo de regresión


Al ajustar el modelo, se obtienen los siguientes coeficientes:

Cuadro 1: Tabla de valores coeficientes del modelo

Valor del parámetro


β0 -1.2506
β1 0.1842
β2 0.0250
β3 0.0646
β4 0.0124
β5 0.0017

Por lo tanto, el modelo de regresión ajustado es:

Ŷi = −1.2506 + 0.1842X1i + 0.025X2i + 0.0646X3i + 0.0124X4i + 0.0017X5i ; 1 ⩽ i ⩽ 64

1.2. Significancia de la regresión


Para analizar la significancia de la regresión, se plantea el siguiente juego de hipótesis:
(
H0 : β1 = β2 = β3 = β4 = β5 = 0
Ha : Algún βj distinto de 0 para j=1, 2,..., 5

Cuyo estadístico de prueba es:


4

M SR H0
F0 = ∼ f5,58 (1)
M SE
Ahora, se presenta la tabla Anova:

Cuadro 2: Tabla ANOVA para el modelo

Sumas de cuadrados g.l. Cuadrado medio F0 P-valor


Regresión 63.4148 5 12.68296 12.4881 3.0654e-08
Error 58.9052 58 1.01561

De la tabla Anova, se observa que bajo un nivel de significacia del 5 %, valor p =3.0654e-08
< α = 0.05, por lo que se rechaza la hipótesis nula en la que βj = 0 con 1 ⩽ j ⩽ 5, lo que
signifca que entonces al menos un parametro del modelo de regresión mútiple es diferente de
0, es decir, la regresión es globalmente significativa.

1.3. Significancia de los parámetros


Primero observemos el juego de hipotesis para la prueba individual de la significancia de los
parametros.

(
H0 : βj = 0
Ha : βj ̸= 0 con 0 ⩽ j ⩽ 5

En el siguiente cuadro se presenta información de los parámetros, la cual permitirá determinar


cuáles de ellos son significativos.

Cuadro 3: Resumen de los coeficientes

βˆj SE(βˆj ) T0j P-valor


β0 -1.2506 1.6154 -0.7742 0.4420
β1 0.1842 0.1105 1.6679 0.1007
β2 0.0250 0.0298 0.8407 0.4040
β3 0.0646 0.0168 3.8418 0.0003
β4 0.0124 0.0077 1.6059 0.1137
β5 0.0017 0.0008 2.2145 0.0307

Los P-valores presentes en la tabla permiten concluir que con un nivel de significancia
α = 0.05, los parámetros β1 , β3 y β5 son significativos, pues sus P-valores son menores a α.
5

1.4. Interpretación de los parámetros


Lo primero es identificar aquellos parámetros susceptibles de interpretación, esto es, solo se
podrán interpretar los que vimos significativos, en esto caso son:
βˆ1 :
Indica que por cada unidad de aumento en la duración de la estadía, el promedio de riesgo
de infección en el hospital aumenta en 0.1842, cuando las demás variables predictoras se
mantienen fijas.
βˆ3 :
Indica que por cada unidad de aumento en el número de camas, el promedio de riesgo
de infección en el hospital aumenta en 0.0646, cuando las demás variables predictoras se
mantienen fijas.
βˆ5 :
Indica que por cada unidad de aumento en el número de enfermeras, el promedio de riesgo
de infección en el hospital aumenta en 0.0017, cuando las demás variables predictoras se
mantienen fijas.

1.5. Coeficiente de determinación múltiple R2


Extrayendo valores de la tabla ANOVA, tenemos que:

SSR 63.4148
R2 = = = 0.5184336
SST (63.4148 + 58.9052)
Es decir, el 51.843 % de la variabilidad total de la probabilidad promedio de adquirir
infección en el hospital es explicado por el modelo propuesto.
Simultaneamente, el 48.15 % de la variabilidad total de la probabilidad promedio de
adquirir infección en el hospital es explicado por el error del modelo.

2. Pregunta 2
2.1. Planteamiento pruebas de hipótesis y modelo reducido
Las covariable con el P-valor más bajos en el modelo fueron X1 , X3 y X5 , por lo tanto a
través de la tabla de todas las regresiones posibles se pretende hacer la siguiente prueba de
hipótesis:

(
H0 : β1 = β3 = β5 = 0
H1 : Algun βj distinto de 0 para j = 1, 3, 5
6

Cuadro 4: Resumen tabla de todas las regresiones

SSE Covariables en el modelo


Modelo completo 58.905 X1 X2 X3 X4 X5
Modelo reducido 94.581 X2 X4

Luego un modelo reducido para la prueba de significancia del subconjunto es:

iid
Yi = β0 + β2 X2i + β4 X4i + ε; εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64

2.2. Estadístico de prueba y conclusión


Se construye el estadístico de prueba como se muestra a continuación:

(SSE(β0 , β2 , β4 ) − SSE(β0 , · · · , β5 ))/3 H0


F0 = ∼ f3,58
M SE(β0 , · · · , β5 )
94.581 − 58.905/3 (2)
=
1.01561
= 11.70922

Ahora, comparando el F0 con f0.95,3,58 = 2.7636, se puede ver que F0 > f0.95,3,58 entonces se
rechaza la hipotesis nula, y concluimos que al menos un βj es distinto de cero con j=1,3,5.
Por lo que no podemos descartar el subconjunto dado que al menos uno de los parametros
aportan significativamente al modelo.

3. Pregunta 3
3.1. Prueba de hipótesis y prueba de hipótesis matricial
Se hace la pregunta si β3 = 6β1 ; β2 = 2β5 por consiguiente se plantea la siguiente prueba de
hipótesis:

(
H0 : β1 = 6β3 ; β2 = 2β5
H1 : Alguna de las desigualdades no se cumple
Lo que es equivalente a lo siguiente:
(
H0 : β1 − 6β3 = 0; β2 − 2β5 = 0
H1 : Al menos una de las desigualdades no se cumple
Reescribiendo matricialmente: (
H0 : Lβ = 0
H1 : Lβ ̸= 0
7

Con L dada por:


" #
0 1 0 −6 0 0
L=
0 0 1 0 0 −2
El modelo completo esta dado por:
iid
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + β4 X4i + β5 X5i + εi , εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64

El modelo reducido está dado por:

∗ ∗ iid
Yi = βo + β4 X4i + β3 X3i + β5 X5i + εi ; εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
Donde:
∗ ∗
X3i = 6X1i + X3i y X5i = 2X2i + X5i

3.2. Estadístico de prueba


El estadístico de prueba F0 está dado por:

(SSE(M R) − SSE(M F ))/2 H0


F0 = ∼ f2,58 (3)
M SE(M F )

Al reemplazar con los valores conocidos, se encuentra lo siguiente:

(SSE(M R) − 58.905)/2 H0
F0 = ∼ f2,58 (4)
1.01561

4. Pregunta 4
4.1. Supuestos del modelo
4.1.1. Normalidad de los residuales
Para la validación de este supuesto, se planteará el siguiente test de Shapiro-Wilk que se
utiliza para determinar si un conjunto de datos puede distribuirse mediante la distribucción
normal , acompañada de un gráfico cuantil-cuantil:
(
H0 : εi ∼ Normal
H1 : εi ≁ Normal
8

Normal Q−Q Plot of Residuals

Shapiro−Wilk Test
2

W = 0.993
P value = 0.9754
Cuantiles muestrales

1
0
−1
−2

−2 −1 0 1 2

Cuantiles teóricos

Figura 1: Gráfico cuantil-cuantil y normalidad de residuales

Al ser el P-valor aproximadamente igual a 0.9754 y teniendo en cuenta que el nivel de


significancia α = 0.05, el P-valor es mucho mayor y por lo tanto, no se rechazaría la hipótesis
nula, es decir que los datos distribuyen normal con media µ y varianza σ 2 , lo cual es
rectificadopor el analisis del grafico de comparacion de cuantiles donde se observa claramente,
que un buen ajuste de los datos al rededor de la recta, de lo cual podemos deducir que los
residuales se distribuyen normal

4.1.2. Varianza constante

H0 : V[εi ] = σ 2 vs Ha : V[εi ] ̸= σ 2
9

Residuales Estudentizados vs Valores Ajustados


2
Residuales Estudentizados

1
0
−1
−2

3 4 5 6 7

Valores Ajustados

Figura 2: Gráfico residuales estudentizados vs valores ajustados

En el gráfico de residuales estudentizados vs valores ajustados se puede observar que no hay


patrones muy marcados en los que la varianza aumente, decrezca ni un comportamiento que
permita descartar una varianza constante, al no haber evidencia suficiente en contra de este
supuesto se acepta como cierto. Además es posible observar media 0.
10

4.2. Verificación de las observaciones


4.2.1. Datos atípicos

Residuales estudentizados
4
2
Residuales

0
−2
−4

0 10 20 30 40 50 60

Observación

Figura 3: Identificación de datos atípicos

Como se puede observar en la gráfica anterior, no hay datos atípicos en el conjunto de datos
pues ningún residual estudentizado sobrepasa el criterio de |restud | > 3.

4.2.2. Puntos de balanceo


Se puede apreciar en la siguiente tabla que hay 7 datos del conjunto que son puntos de
balanceo según el criterio bajo el cual hii > 2 np = 0.1875, los cuales son los presentados en la
tabla.
11

Cuadro 5: Tabla de puntos de balanceo

res.stud Cooks.D hii.value Dffits


2 -2.0963 0.2231 0.2335 -1.1931
12 -0.6619 0.0238 0.2462 -0.3764
22 0.4499 0.0148 0.3047 0.2958
27 -0.1710 0.0012 0.2006 -0.0849
34 0.9432 0.0699 0.3204 0.6469
39 -0.7786 0.0267 0.2092 -0.3991
56 0.0671 0.0002 0.2176 0.0351

Gráfica de hii para las observaciones


0.4
0.2
Valor hii

0.0
−0.2

0 10 20 30 40 50 60

Observación

Figura 4: Identificación de puntos de balanceo

Al observar la gráfica de observaciones vs valores hii , donde la línea punteada roja representa
el valor hii = 2 np = 0.1875, se puede apreciar que existen 7 datos del conjunto que son puntos
p=6
de balanceo según el criterio bajo el cual hii > 2 n=64 , los cuales son los presentados en la
tabla.
12

Cuadro 6: Tabla de puntos influenciables

res.stud Cooks.D hii.value Dffits


2 -2.0963 0.2231 0.2335 -1.1931
18 1.9270 0.1235 0.1664 0.8821
34 0.9432 0.0699 0.3204 0.6469
50 -2.2409 0.0820 0.0893 -0.7278

4.2.3. Puntos influenciales


Para los puntos influenciales tenemos dos criterios. El primero es la distacia de Cook que
dice que la observación i será influencial si su Di > 1

Gráfica de distancias de Cook


1.5
1.0
Distancia de Cook

0.5
−0.5
−1.5

0 10 20 30 40 50 60

Observación

Figura 5: Criterio distancias de Cook para puntos influenciales

Podemos observar graficamente que por el criterio distancia de Cook no hay ninguna observa-
ción influencial.
También queda verificado con la tabla que hicimos para los datos atípicos.
En la tabla podemos ver claramente que las observaciones 2, 18, 34 y 50 son influenciales con
por el criterio de Dffits.
13

Gráfica de observaciones vs Dffits


1.0
0.0
Dffit

−1.0
−2.0

0 10 20 30 40 50 60

Observación

Figura 6: Criterio Dffits para puntos influenciales

Graficamente confirmamos lo visto en la anterior tabla donde hay 4 puntos q influenciales


según el criterio Dffits, el cual dice que para cualquier punto cuyo |Df f it | > 2 np , es un punto
influencial. Cabe destacar también que con el criterio de distancias de Cook, en el cual para
cualquier punto cuya Di > 1, es un punto influencial, ninguno de los datos cumple con serlo.

4.3. Conclusión
Teniendo en cuenta que el supuesto de varianza se cumple y el de normalidad no, concluimos
que el modelo no es valido, cabe resaltar que los supuestos cumplidos y no pueden estar siendo
afectados por los puntos de balanceo o influenciales, también como se puede ver afectados los
resumenes estadísticos como el R2 entre otros a pesar de que no encontramos datos atípicos.
Se recomienda investigar los puntos de balanceo a ver si se pueden descartar o están en una
escala diferente, cualquier problema con esos puntos se debe intentar resolver antes de utilizar
el modelo.

También podría gustarte