Econometría
Trabajo U2 Econometría
Alumna: Catalina Robinson G.
Docente: Marjorie Daphne Caldera Calvert.
UNIACC Ingeniería Comercial
Junio 2024
“Usando el modelo de regresión simple.”
1
Econometría
I. Instrucciones:
Construye un modelo de regresión lineal múltiple (se te sugieren tres o más
variables), y procede a estudiar si en él se mantiene o se rompen los
supuestos principales del modelo de regresión (autocorrelación de errores,
multicolinealidad y heterocedasticidad). Finalmente, desarrolla las
conclusiones sobre el modelo estudiado.
1. Selección y descripción de las variables.
He decidido desarrollar un modelo predictivo que estime la tasa de ocupación
hotelera. Para ello, seleccione variables independientes que influyeran
significativamente en esta métrica. A continuación, describo las variables
seleccionadas para este modelo:
Temporada (alta/baja): Descripción: Esta variable categoriza los períodos del
año en temporada alta o baja, basándose en patrones de viaje habituales,
festividades y vacaciones escolares. La temporada alta generalmente coincide con
incrementos en la demanda de alojamiento debido a vacaciones y eventos
significativos, mientras que la temporada baja puede experimentar una menor
afluencia de visitantes. Tipo de variable: Categórica (Alta, Baja).
Eventos locales: Descripción: Los eventos locales incluyen conferencias,
conciertos, festivales culturales, y competencias deportivas que pueden atraer a
un número significativo de visitantes a la zona. Esta variable se cuantifica según la
magnitud y la proximidad de eventos programados durante el período en cuestión.
Tipo de variable: Numérica (número de eventos importantes por mes).
Tarifa promedio por noche: Descripción: Representa el costo promedio de una
habitación por noche. Las fluctuaciones en las tarifas pueden influir en la decisión
de los potenciales clientes de reservar en un hotel específico, afectando
directamente la tasa de ocupación. Tipo de variable: Numérica (valor monetario).
2
Econometría
Variable dependiente - Tasa de ocupación hotelera: Descripción: Esta es la
proporción de habitaciones ocupadas en relación al total de habitaciones
disponibles en el hotel durante un período específico. Es un indicador clave de
rendimiento en la industria hotelera. Tipo de variable: Numérica (porcentaje).
Justificación de la selección de variables: La elección de estas variables se
basa primero en mi pasión por el turismo y segundo en el impacto directo y
comprobado de estas sobre la ocupación hotelera. La temporada influye en la
demanda de alojamiento, los eventos locales aumentan temporalmente la
población de visitantes y la tarifa promedio por noche puede hacer que un hotel
sea más o menos atractivo dependiendo de la elasticidad precio-demanda de los
consumidores. Al modelar estas variables conjuntamente, se puede obtener una
estimación precisa de la ocupación futura, permitiendo a los administradores de
hoteles planificar mejor sus recursos y estrategias de marketing.
2. Construcción del modelo.
El presente modelo de regresión lineal múltiple fue creado en Excel usando un
conjunto de datos inventados. Se supone que cuento con datos de un hotel sobre
la tasa de ocupación, y las variables independientes son la temporada (alta o
baja), el número de eventos locales y la tarifa promedio por noche.
Interpretación de resultados.
3
Econometría
(Esta en inglés porque mi computador está en inglés)
Estadísticas de regresión.
- Multiple R (Coeficiente de correlación múltiple): 0.9784. Esto indica una
fuerte correlación positiva entre las variables independientes combinadas y
la variable dependiente (tasa de ocupación hotelera).
- R square (R cuadrado): 0.9572. Esto sugiere que aproximadamente el
95.72% de la variabilidad en la tasa de ocupación hotelera puede ser
explicada por las variables independientes en el modelo. Es un valor
bastante alto, lo que implica que el modelo tiene un buen ajuste.
- Adjusted R square (R cuadrado ajustado): 0.9359. Este valor ajusta el R
cuadrado basado en el número de variables en el modelo y el número de
observaciones. Sigue siendo alto, lo que respalda la eficacia del modelo.
- Standard error (Error estándar): 3.8661. Este valor representa la
dispersión promedio de las predicciones del modelo de la tasa de
ocupación real.
- Observations (Observaciones): 10. El modelo fue construido con 10
datos.
ANOVA (Análisis de varianza).
- F-Statistic (Estadístico F): 44.78. Este valor es significativamente alto y,
junto con un valor de Significance F muy bajo (0.000168), indica que el
modelo es estadísticamente significativo.
4
Econometría
Coeficientes del modelo.
- Intercepto: 35.6251. Esto significa que cuando todas las variables
independientes son cero, la tasa de ocupación esperada es
aproximadamente del 35.63%.
- Temporada (Alta=1, Baja=0): Coeficiente de 9.4338 con un p-value de
0.1183. Aunque el coeficiente sugiere que la temporada alta aumenta la
tasa de ocupación en un 9.43%, el p-value indica que esta variable no es
estadísticamente significativa al nivel convencional del 5% (a mi criterio
debido al pequeño tamaño de la muestra).
- Eventos locales: Coeficiente de 2.9593 con un p-value de 0.0256. Esto
implica que, por cada evento local adicional, la tasa de ocupación aumenta
aproximadamente en un 2.96%, y es estadísticamente significativa.
- Tarifa promedio por noche: Coeficiente de 0.2575 con un p-value de
0.0140. Esto sugiere que por cada incremento de un dólar en la tarifa
promedio por noche, la tasa de ocupación aumenta en un 0.26%, y es
estadísticamente significativa.
5
Econometría
Análisis de autocorrelación de errores.
Para realizar el análisis de autocorrelación de errores en mi modelo de regresión,
utilice el estadístico de Durbin-Watson, que es comúnmente usado para detectar
la presencia de autocorrelación de primer orden en los residuos de un modelo de
regresión. Primero, calcule los residuos de le modelo. Luego, utilice estos residuos
para calcular el estadístico de Durbin-Watson usando la fórmula:
n
DW =∑ ¿ ¿ ¿ ¿
t =2
Estos residuos son la diferencia entre los valores observados de la tasa de
ocupación real y los valores predichos por el modelo de regresión.
Ya teniendo los valores de los residuos del modelo, el siguiente paso fue calcular
el estadístico de Durbin-Watson. En este caso, el valor es aproximadamente
2.071. Este valor está muy cercano a 2, lo cual es un indicio de que
probablemente no hay autocorrelación significativa de primer orden en los
residuos del modelo.
Dado este resultado, puedo inferir que mi modelo de regresión no sufre de
problemas significativos de autocorrelación de errores, lo cual es positivo para la
validez de las inferencias estadísticas.
Análisis de multicolinealidad.
Primero calcule la matriz de correlación en Excel
6
Econometría
Luego calcule el Factor de inflación de la varianza (VIF). Para este cálculo, calcule
la regresión lineal de cada variable independiente sobre las otras variables
independientes:
Los valores de VIF para "Temporada" y "Tarifa promedio por noche" sugieren una
multicolinealidad moderada, lo cual puede afectar la estabilidad de los coeficientes
de estas variables en el modelo de regresión. La multicolinealidad no impide que
el modelo sea insesgado, pero puede hacer que los tests de significancia sean
menos fiables y que los coeficientes sean más sensibles a cambios en el modelo.
Análisis de heterocedasticidad.
Para realizar un análisis de heterocedasticidad se pueden seguir varios enfoques.
En esta ocasión decidí utilizar uno de los métodos más conocidos, el Test de
Breusch-Pagan, que se utiliza frecuentemente para detectar la presencia de
heterocedasticidad en los errores del modelo de regresión.
1. Estimación del modelo original: A partir los datos entregado en las
respuestas anteriores, se ha estimado un modelo que relaciona la tasa de
ocupación hotelera con las variables de temporada alta, eventos locales y
tarifa promedio por noche.
2. Cálculo de los residuos cuadrados: Se calculan los residuos del modelo
estimado y luego se elevan al cuadrado. Estos residuos cuadrados se
utilizarán como una nueva variable dependiente en el siguiente paso.
3. Regresión de los residuos cuadrados: Realice una nueva regresión lineal
utilizando los residuos cuadrados como variable dependiente y las mismas
variables independientes del modelo original.
Resultados de la regresión:
7
Econometría
R-squared: 0.094. Este valor indica que solo el 9.4% de la variabilidad en
los residuos cuadrados puede ser explicada por las variables
independientes, lo cual es bastante bajo.
Adjusted R-squared: -0.360. Este valor ajustado, siendo negativo, sugiere
un ajuste pobre del modelo a los datos.
F-statistic: 0.2064 con un Prob (F-statistic) de 0.888. El valor F es bajo y el
p-value es alto, indicando que el modelo no es estadísticamente
significativo.
Coeficientes: Intercepto: 18.8139 (p-value = 0.439)
Temporada: 5.9351 (p-value = 0.704)
Eventos locales: -2.1769 (p-value = 0.479)
Tarifa promedio por noche: -0.0715 (p-value = 0.752)
Dado que el modelo de regresión de los residuos cuadrados no es
significativo (el p-value del F-statistic es muy alto), no hay evidencia
suficiente para afirmar la presencia de heterocedasticidad basada en este
test. Esto implica que no hay suficientes pruebas para rechazar la hipótesis
de que los errores en el modelo original son homocedásticos (varianza
constante).
Sin embargo, es importante considerar que el tamaño de la muestra es muy
pequeño (solo 10 observaciones), lo que probablemente esta limitando la
capacidad del test para detectar heterocedasticidad.
4. Test estadístico: El test se basa en el resultado de esta segunda
regresión. Se calcula el estadístico de prueba utilizando el de esta
segunda regresión y el número de observaciones: BP=n ∙ R 2
2
Donde n es el número de observaciones y R es el coeficiente de
determinación de la regresión de residuos cuadrados.
El estadístico de prueba Breusch-Pagan (BP) para detectar
heterocedasticidad en mi modelo es aproximadamente 0.9354.
Comparando este valor con el valor crítico de la distribución chi-cuadrado
para 3 grados de libertad al nivel de significancia del 5%, que es 7.815,
observo lo siguiente:
8
Econometría
BP Statistic: 0.9354
Critical Value (Chi-square con 3 grados de libertad al 5%): 7.815
Dado que el estadístico BP es menor que el valor crítico, no rechaza la
hipótesis nula de homocedasticidad. Esto implica que no hay evidencia
suficiente de heterocedasticidad en el modelo de regresión dado, según el
Test de Breusch-Pagan. Esto significa que los errores del modelo parecen
tener varianza constante, y, por tanto, el supuesto de homocedasticidad no
se viola de forma significativa en este caso.
Interpretación final
En este trabajo, se ha realizado una serie de análisis detallados sobre un modelo
de regresión lineal múltiple diseñado para predecir la tasa de ocupación hotelera
basándose en variables como la temporada (alta o baja), el número de eventos
locales y la tarifa promedio por noche. Los resultados obtenidos han demostrado
que el modelo es altamente efectivo y significativo, con un ajuste robusto indicado
por un R cuadrado ajustado de 0.9359.
Además, se ha verificado la autocorrelación de los errores mediante el estadístico
de Durbin-Watson, que con un valor cercano a 2, sugiere que no hay
autocorrelación significativa en los residuos del modelo. Esto es crucial porque
asegura que los errores en el modelo son independientes entre sí, reforzando la
validez de las pruebas estadísticas empleadas.
En cuanto a la multicolinealidad, se han identificado indicaciones de una
multicolinealidad moderada en algunas variables, lo que podría afectar la
estabilidad de estos coeficientes, aunque no invalida el modelo.
Por último, el análisis de heterocedasticidad mediante el Test de Breusch-Pagan
ha mostrado que no hay evidencia suficiente para afirmar la presencia de
heterocedasticidad en los errores del modelo. Esto implica que los errores tienen
varianzas constantes, cumpliendo con uno de los supuestos clave para la
aplicación de mínimos cuadrados ordinarios (MCO).
Referencias.
Gallardo, F. (2019 ). Rompimiento de supuestos. Apunte de clase unidad 2,
Econometría, Universidad UNIACC.