UPM
Escuela Técnica Superior de Ingeniería A gronómica, Alimentaria y de
Biosistemas (ETSIAAB)
Elementos de Inferencia
Estadística
Trabajo de métodos estadísticos Practica 3
Natalia vallejo Eguiguren de 3º de ingeniería
agroambiental
0
Para:[Link]
Día: 2/11/2024
1. Estima el modelo de regresión lineal múltiple que relaciona la variable
respuesta Y con las 4 variables explicativas. Indica la estimas del
coeficiente de regresión parcial y su error estándar para cada una de las
variables explicativas.
2. Explica como interpretas la estima del coeficiente de regresión que
multiplica a la variable X2.
El coeficiente de regresión que multiplica a la variable X2 describe como al
mantener constantes el resto de las variables explicativas, es decir, X1, X3,
X4 . Si aumentamos en una unidad la variable X2 nuestra variable Y se verá
incrementada en 0,55 unidades en el valor medio de Y
3. Plantea el test de hipótesis de que dicho coeficiente de regresión es cero
- H0 : β2 =0
- H1 : al menos un β2 ̸= 0
4. Indica el estadístico que utilizarás para resolver el test de hipótesis anterior
(la expresión matemática).
𝑏2
o 𝑇=
√𝑀𝑆𝐸22
5. ¿Qué distribución en el muestreo tiene el estadístico T si H0 es cierta?
o Cuando H0 es cierta, el estadístico seguirá una distribución t de
Student con n− p – 1(77-4-1=72) grados de libertad.
1
o T∈ t72
6. Indica el valor del estadístico observado y el pval. ¿Rechazas H0?. Indica
porque
o T =9,83
o pval = 0.0000000135
Existen existen evidencias para rechazar la H0
7. Construye la tabla ANOVA asociada al modelo de regresión estimado.
Fuente de G. Libertad Sum. Cuad. Medios F Pr(>F)
Variación Cuadrados
Regresión 1 SSR =722952 MSR=722952 22.928 0.00000873
4629
Regresión 1 SSR=1293869 MSR=1293869 41.034 0.00000001
3504
Regresión 1 SSR = 1457127 MSR=1457127 46.212 0.00000000
2601
Regresión 1 SSR = 707213 MSR=707213 22.429 0.00001064
0518
Residual 72 SSE = 2270275 MSE = 31531,597
Total 73 SST =6451436
8. ¿Cómo interpretas el valor del estadístico F y su p-value?. ¿A qué
conclusión llegas?
- Estadístico F: Mide qué tan bien nuestro modelo explica los datos.
Un valor alto indica un buen ajuste.
Valor p: Nos dice si los resultados de nuestro modelo son
significativos. Un valor bajo (por debajo de un nivel de significancia,
usualmente 0.05) sugiere que es poco probable que los resultados
se deban al azar.
o F alto + p bajo: El modelo es bueno y las variables son
importantes.
9. Calcula el coeficiente de determinación. ¿Cómo lo interpretas?.
𝑆𝑆𝑅 𝑆𝑆𝐸
o R2 = 𝑆𝑆𝑇 = 1 − 𝑆𝑆𝑇 →0.843
Cuanto más alto sea el coeficiente de determinación más útiles serán las
predicciones que hagamos. En nuestro caso nuestro valor de R2=0.648 tan
solo explica el 84% de la variación en nuestra variable Y. Esto es debido a
2
que R2 es la proporción en la variabilidad de la variable respuesta Y que es
explicada por el modelo de regresión múltiple estimado. Por tanto, uno
tendería a pensar que tan solo debemos aumentar el nº de variables
explicativas para aumentar el valor de la R2. Sin embargo, uno de los
problemas que del coeficiente de determinación múltiple es que aumenta
según incorporamos variables explicativas en el modelo de regresión.
De hecho, es posible obtener un R2 = 1 si utilizamos n − 1 variables
explicativas.
Para corregir este problema, utilizamos el coeficiente de determinación
ajustado, en nuestro caso R2=0.8343 , que tiene en cuenta el número de
variables explicativas y el número de observaciones utilizadas para estimar
el modelo de regresión múltiple, y se interpreta de la misma manera que el
coeficiente de determinación múltiple.
SSE
n−p−1 (𝑛 − 1)
𝑅2𝑎 = 1 − 𝑆𝑇𝑇 = 1 − (1 − 𝑅 2 ) 𝑛 − 𝑝 − 1=0.8343
(𝑛 − 1)
De tal modo, que ahora si, al aumentar nuestro nº de variables explicativas y
estudiando a la R2 ajustada podremos ir obteniendo valores más altos, y por
tantas más precisas
10. Plantea el test de hipótesis de que los dos coeficientes de regresión que
multiplican a las variables X3 y X4 son cero.
H0: β3=β4=0
H1: β3=β4≠0
3
11. Indica el estadístico que utilizarás para resolver el test de hipótesis anterior
(la expresión matemática).
𝑆𝑆𝐸𝑟𝑒𝑑 – 𝑆𝑆𝐸𝑐𝑜𝑚𝑝𝑙 𝑏2𝑗
o 𝐹 = = = 37.51
𝑀𝑆𝐸 𝑀𝑆𝐸 𝑐𝑗𝑗
12. ¿Qué distribución en el muestreo tiene el estadístico F si H0 es cierta?
o F ∈→ F0.95(1,n−p−1)
- el valor observado del estadístico F =37.51, debería ser la realización de
una F de Fisher-Snedecor con 2 y 72 grados de libertad.
13. Indica el valor del estadístico observado y el pval. ¿Rechazas H0?. Indica
porque.
- F =37.51
- pval = 6.895e-12
como es menor que el nivel de signicación 0.05 y por tanto, podemos
rechazamos la hipótesis nula
14. Indica la suma de cuadrados parcial de cada una de las variables
explicativas en el modelo estimado
4
15. ¿Cómo interpretas la columna Sum Sq para cada una de las variables?.
¿Qué relación existe entre los valores de la columna F value y los valores de
la columna t value de las estimas de los coeficientes de regresión?.
T value F value
X1 4.788 22.928
X2 6.406 41.034
X3 6.798 46.212
X4 4.736 22.429
La columna Sum Sq muestra la suma de cuadrados parcial y se interpreta
como
la reducción de la suma de cuadrados residual por incorporar la variable
explicativa Xj a un modelo que contiene a todas la variables explicativas
excepto al variable Xj.
La relación entre los valores de F y T es que los valores de la F value son los
valores de la T value elevados al cuadrado.