Trabajo 1
Estudiantes
Equipo 50
Docente
Asignatura
Estadística II
Sede Medellín
5 de octubre de 2023
Índice
1. Pregunta 1 3
1.1. Modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Significancia de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Significancia de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Interpretación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Coeficiente de determinación múltiple R2 . . . . . . . . . . . . . . . . . . . . 5
2. Pregunta 2 5
2.1. Planteamiento pruebas de hipótesis y modelo reducido . . . . . . . . . . . . 5
2.2. Estadístico de prueba y conclusión . . . . . . . . . . . . . . . . . . . . . . . 6
3. Pregunta 3 6
3.1. Prueba de hipótesis y prueba de hipótesis matricial . . . . . . . . . . . . . . 6
3.2. Estadístico de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4. Pregunta 4 7
4.1. Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.1. Normalidad de los residuales . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.2. Varianza constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Verificación de las observaciones . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.1. Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.2. Puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2.3. Puntos influenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Índice de figuras
1. Gráfico cuantil-cuantil y normalidad de residuales . . . . . . . . . . . . . . . 8
2. Gráfico residuales estudentizados vs valores ajustados . . . . . . . . . . . . . 9
3. Identificación de datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4. Identificación de puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . 11
5. Criterio distancias de Cook para puntos influenciales . . . . . . . . . . . . . 12
6. Criterio Dffits para puntos influenciales . . . . . . . . . . . . . . . . . . . . . 13
Índice de cuadros
1. Tabla de valores coeficientes del modelo . . . . . . . . . . . . . . . . . . . . . 3
2. Tabla ANOVA para el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Resumen de los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4. Resumen tabla de todas las regresiones . . . . . . . . . . . . . . . . . . . . . 6
5. Tabla de puntos de balanceo . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6. Tabla de puntos influenciables . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3
1. Pregunta 1
Teniendo en cuenta la base de datos brindada, donde hay 5 variables regresoras dadas por el
siguiente modelo de regresión lineal multiple:
iid
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + β4 X4i + β5 X5i + εi , εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
Donde:
Y: Riesgo de infección
X1 :Duración de la estadía [días]
X2 :Rutina de cultivos [por cada 100]
X3 :Numero de camas
X4 :Censo promedio diario
X5 :Numero de enfermeras
1.1. Modelo de regresión
Al ajustar el modelo, se obtienen los siguientes coeficientes:
Cuadro 1: Tabla de valores coeficientes del modelo
Valor del parámetro
β0 -1.2506
β1 0.1842
β2 0.0250
β3 0.0646
β4 0.0124
β5 0.0017
Por lo tanto, el modelo de regresión ajustado es:
Ŷi = −1.2506 + 0.1842X1i + 0.025X2i + 0.0646X3i + 0.0124X4i + 0.0017X5i ; 1 ⩽ i ⩽ 64
1.2. Significancia de la regresión
Para analizar la significancia de la regresión, se plantea el siguiente juego de hipótesis:
(
H0 : β1 = β2 = β3 = β4 = β5 = 0
Ha : Algún βj distinto de 0 para j=1, 2,..., 5
Cuyo estadístico de prueba es:
4
M SR H0
F0 = ∼ f5,58 (1)
M SE
Ahora, se presenta la tabla Anova:
Cuadro 2: Tabla ANOVA para el modelo
Sumas de cuadrados g.l. Cuadrado medio F0 P-valor
Regresión 63.4148 5 12.68296 12.4881 3.0654e-08
Error 58.9052 58 1.01561
De la tabla Anova, se observa que bajo un nivel de significacia del 5 %, valor p =3.0654e-08
< α = 0.05, por lo que se rechaza la hipótesis nula en la que βj = 0 con 1 ⩽ j ⩽ 5, lo que
signifca que entonces al menos un parametro del modelo de regresión mútiple es diferente de
0, es decir, la regresión es globalmente significativa.
1.3. Significancia de los parámetros
Primero observemos el juego de hipotesis para la prueba individual de la significancia de los
parametros.
(
H0 : βj = 0
Ha : βj ̸= 0 con 0 ⩽ j ⩽ 5
En el siguiente cuadro se presenta información de los parámetros, la cual permitirá determinar
cuáles de ellos son significativos.
Cuadro 3: Resumen de los coeficientes
βˆj SE(βˆj ) T0j P-valor
β0 -1.2506 1.6154 -0.7742 0.4420
β1 0.1842 0.1105 1.6679 0.1007
β2 0.0250 0.0298 0.8407 0.4040
β3 0.0646 0.0168 3.8418 0.0003
β4 0.0124 0.0077 1.6059 0.1137
β5 0.0017 0.0008 2.2145 0.0307
Los P-valores presentes en la tabla permiten concluir que con un nivel de significancia
α = 0.05, los parámetros β1 , β3 y β5 son significativos, pues sus P-valores son menores a α.
5
1.4. Interpretación de los parámetros
Lo primero es identificar aquellos parámetros susceptibles de interpretación, esto es, solo se
podrán interpretar los que vimos significativos, en esto caso son:
βˆ1 :
Indica que por cada unidad de aumento en la duración de la estadía, el promedio de riesgo
de infección en el hospital aumenta en 0.1842, cuando las demás variables predictoras se
mantienen fijas.
βˆ3 :
Indica que por cada unidad de aumento en el número de camas, el promedio de riesgo
de infección en el hospital aumenta en 0.0646, cuando las demás variables predictoras se
mantienen fijas.
βˆ5 :
Indica que por cada unidad de aumento en el número de enfermeras, el promedio de riesgo
de infección en el hospital aumenta en 0.0017, cuando las demás variables predictoras se
mantienen fijas.
1.5. Coeficiente de determinación múltiple R2
Extrayendo valores de la tabla ANOVA, tenemos que:
SSR 63.4148
R2 = = = 0.5184336
SST (63.4148 + 58.9052)
Es decir, el 51.843 % de la variabilidad total de la probabilidad promedio de adquirir
infección en el hospital es explicado por el modelo propuesto.
Simultaneamente, el 48.15 % de la variabilidad total de la probabilidad promedio de
adquirir infección en el hospital es explicado por el error del modelo.
2. Pregunta 2
2.1. Planteamiento pruebas de hipótesis y modelo reducido
Las covariable con el P-valor más bajos en el modelo fueron X1 , X3 y X5 , por lo tanto a
través de la tabla de todas las regresiones posibles se pretende hacer la siguiente prueba de
hipótesis:
(
H0 : β1 = β3 = β5 = 0
H1 : Algun βj distinto de 0 para j = 1, 3, 5
6
Cuadro 4: Resumen tabla de todas las regresiones
SSE Covariables en el modelo
Modelo completo 58.905 X1 X2 X3 X4 X5
Modelo reducido 94.581 X2 X4
Luego un modelo reducido para la prueba de significancia del subconjunto es:
iid
Yi = β0 + β2 X2i + β4 X4i + ε; εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
2.2. Estadístico de prueba y conclusión
Se construye el estadístico de prueba como se muestra a continuación:
(SSE(β0 , β2 , β4 ) − SSE(β0 , · · · , β5 ))/3 H0
F0 = ∼ f3,58
M SE(β0 , · · · , β5 )
94.581 − 58.905/3 (2)
=
1.01561
= 11.70922
Ahora, comparando el F0 con f0.95,3,58 = 2.7636, se puede ver que F0 > f0.95,3,58 entonces se
rechaza la hipotesis nula, y concluimos que al menos un βj es distinto de cero con j=1,3,5.
Por lo que no podemos descartar el subconjunto dado que al menos uno de los parametros
aportan significativamente al modelo.
3. Pregunta 3
3.1. Prueba de hipótesis y prueba de hipótesis matricial
Se hace la pregunta si β3 = 6β1 ; β2 = 2β5 por consiguiente se plantea la siguiente prueba de
hipótesis:
(
H0 : β1 = 6β3 ; β2 = 2β5
H1 : Alguna de las desigualdades no se cumple
Lo que es equivalente a lo siguiente:
(
H0 : β1 − 6β3 = 0; β2 − 2β5 = 0
H1 : Al menos una de las desigualdades no se cumple
Reescribiendo matricialmente: (
H0 : Lβ = 0
H1 : Lβ ̸= 0
7
Con L dada por:
" #
0 1 0 −6 0 0
L=
0 0 1 0 0 −2
El modelo completo esta dado por:
iid
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + β4 X4i + β5 X5i + εi , εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
El modelo reducido está dado por:
∗ ∗ iid
Yi = βo + β4 X4i + β3 X3i + β5 X5i + εi ; εi ∼ N (0, σ 2 ); 1 ⩽ i ⩽ 64
Donde:
∗ ∗
X3i = 6X1i + X3i y X5i = 2X2i + X5i
3.2. Estadístico de prueba
El estadístico de prueba F0 está dado por:
(SSE(M R) − SSE(M F ))/2 H0
F0 = ∼ f2,58 (3)
M SE(M F )
Al reemplazar con los valores conocidos, se encuentra lo siguiente:
(SSE(M R) − 58.905)/2 H0
F0 = ∼ f2,58 (4)
1.01561
4. Pregunta 4
4.1. Supuestos del modelo
4.1.1. Normalidad de los residuales
Para la validación de este supuesto, se planteará el siguiente test de Shapiro-Wilk que se
utiliza para determinar si un conjunto de datos puede distribuirse mediante la distribucción
normal , acompañada de un gráfico cuantil-cuantil:
(
H0 : εi ∼ Normal
H1 : εi ≁ Normal
8
Normal Q−Q Plot of Residuals
Shapiro−Wilk Test
2
W = 0.993
P value = 0.9754
Cuantiles muestrales
1
0
−1
−2
−2 −1 0 1 2
Cuantiles teóricos
Figura 1: Gráfico cuantil-cuantil y normalidad de residuales
Al ser el P-valor aproximadamente igual a 0.9754 y teniendo en cuenta que el nivel de
significancia α = 0.05, el P-valor es mucho mayor y por lo tanto, no se rechazaría la hipótesis
nula, es decir que los datos distribuyen normal con media µ y varianza σ 2 , lo cual es
rectificadopor el analisis del grafico de comparacion de cuantiles donde se observa claramente,
que un buen ajuste de los datos al rededor de la recta, de lo cual podemos deducir que los
residuales se distribuyen normal
4.1.2. Varianza constante
H0 : V[εi ] = σ 2 vs Ha : V[εi ] ̸= σ 2
9
Residuales Estudentizados vs Valores Ajustados
2
Residuales Estudentizados
1
0
−1
−2
3 4 5 6 7
Valores Ajustados
Figura 2: Gráfico residuales estudentizados vs valores ajustados
En el gráfico de residuales estudentizados vs valores ajustados se puede observar que no hay
patrones muy marcados en los que la varianza aumente, decrezca ni un comportamiento que
permita descartar una varianza constante, al no haber evidencia suficiente en contra de este
supuesto se acepta como cierto. Además es posible observar media 0.
10
4.2. Verificación de las observaciones
4.2.1. Datos atípicos
Residuales estudentizados
4
2
Residuales
0
−2
−4
0 10 20 30 40 50 60
Observación
Figura 3: Identificación de datos atípicos
Como se puede observar en la gráfica anterior, no hay datos atípicos en el conjunto de datos
pues ningún residual estudentizado sobrepasa el criterio de |restud | > 3.
4.2.2. Puntos de balanceo
Se puede apreciar en la siguiente tabla que hay 7 datos del conjunto que son puntos de
balanceo según el criterio bajo el cual hii > 2 np = 0.1875, los cuales son los presentados en la
tabla.
11
Cuadro 5: Tabla de puntos de balanceo
res.stud Cooks.D hii.value Dffits
2 -2.0963 0.2231 0.2335 -1.1931
12 -0.6619 0.0238 0.2462 -0.3764
22 0.4499 0.0148 0.3047 0.2958
27 -0.1710 0.0012 0.2006 -0.0849
34 0.9432 0.0699 0.3204 0.6469
39 -0.7786 0.0267 0.2092 -0.3991
56 0.0671 0.0002 0.2176 0.0351
Gráfica de hii para las observaciones
0.4
0.2
Valor hii
0.0
−0.2
0 10 20 30 40 50 60
Observación
Figura 4: Identificación de puntos de balanceo
Al observar la gráfica de observaciones vs valores hii , donde la línea punteada roja representa
el valor hii = 2 np = 0.1875, se puede apreciar que existen 7 datos del conjunto que son puntos
p=6
de balanceo según el criterio bajo el cual hii > 2 n=64 , los cuales son los presentados en la
tabla.
12
Cuadro 6: Tabla de puntos influenciables
res.stud Cooks.D hii.value Dffits
2 -2.0963 0.2231 0.2335 -1.1931
18 1.9270 0.1235 0.1664 0.8821
34 0.9432 0.0699 0.3204 0.6469
50 -2.2409 0.0820 0.0893 -0.7278
4.2.3. Puntos influenciales
Para los puntos influenciales tenemos dos criterios. El primero es la distacia de Cook que
dice que la observación i será influencial si su Di > 1
Gráfica de distancias de Cook
1.5
1.0
Distancia de Cook
0.5
−0.5
−1.5
0 10 20 30 40 50 60
Observación
Figura 5: Criterio distancias de Cook para puntos influenciales
Podemos observar graficamente que por el criterio distancia de Cook no hay ninguna observa-
ción influencial.
También queda verificado con la tabla que hicimos para los datos atípicos.
En la tabla podemos ver claramente que las observaciones 2, 18, 34 y 50 son influenciales con
por el criterio de Dffits.
13
Gráfica de observaciones vs Dffits
1.0
0.0
Dffit
−1.0
−2.0
0 10 20 30 40 50 60
Observación
Figura 6: Criterio Dffits para puntos influenciales
Graficamente confirmamos lo visto en la anterior tabla donde hay 4 puntos q influenciales
según el criterio Dffits, el cual dice que para cualquier punto cuyo |Df f it | > 2 np , es un punto
influencial. Cabe destacar también que con el criterio de distancias de Cook, en el cual para
cualquier punto cuya Di > 1, es un punto influencial, ninguno de los datos cumple con serlo.
4.3. Conclusión
Teniendo en cuenta que el supuesto de varianza se cumple y el de normalidad no, concluimos
que el modelo no es valido, cabe resaltar que los supuestos cumplidos y no pueden estar siendo
afectados por los puntos de balanceo o influenciales, también como se puede ver afectados los
resumenes estadísticos como el R2 entre otros a pesar de que no encontramos datos atípicos.
Se recomienda investigar los puntos de balanceo a ver si se pueden descartar o están en una
escala diferente, cualquier problema con esos puntos se debe intentar resolver antes de utilizar
el modelo.