0% encontró este documento útil (0 votos)
72 vistas121 páginas

Introducción a Modelos de Pronósticos

Este documento introduce los modelos de pronósticos. Explica que los pronósticos son estimaciones cuantitativas o cualitativas de factores futuros basadas en información actual o pasada. Describe métodos cuantitativos como series de tiempo y regresión, así como métodos cualitativos como juicio experto. Finalmente, explica componentes comunes en series de tiempo como tendencia, cíclico, estacional e irregular.

Cargado por

Lopez Alexis
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Temas abordados

  • coeficientes de regresión,
  • series de tiempo,
  • predicciones de ventas,
  • métodos de suavización,
  • desestacionalización,
  • pronóstico,
  • tasa de desempleo,
  • homocedasticidad,
  • autocorrelación,
  • modelos econométricos
0% encontró este documento útil (0 votos)
72 vistas121 páginas

Introducción a Modelos de Pronósticos

Este documento introduce los modelos de pronósticos. Explica que los pronósticos son estimaciones cuantitativas o cualitativas de factores futuros basadas en información actual o pasada. Describe métodos cuantitativos como series de tiempo y regresión, así como métodos cualitativos como juicio experto. Finalmente, explica componentes comunes en series de tiempo como tendencia, cíclico, estacional e irregular.

Cargado por

Lopez Alexis
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Temas abordados

  • coeficientes de regresión,
  • series de tiempo,
  • predicciones de ventas,
  • métodos de suavización,
  • desestacionalización,
  • pronóstico,
  • tasa de desempleo,
  • homocedasticidad,
  • autocorrelación,
  • modelos econométricos

“Introducción a los Modelos de Pronósticos”

Dra. Fernanda
Villarreal

Universidad Nacional del Sur- Departamento de Matemática


Septiembre 2016 - fvillarreal@[Link]
Introducción
• Planeación futuro, un aspecto relevante en
del cualquier
organización.
• El éxito a largo plazo depende de cuán bien la gerencia anticipa
el futuro y elabora las estrategias apropiadas.

• El buen juicio, la intuición y tener conciencia del estado de la


economía pueden dar a un gerente una idea aproximada o
“intuición” de lo que es probable que suceda en el futuro.

• Sin embargo, es difícil convertir esta intuición en un número que


pueda usarse, como el volumen de ventas del siguiente trimestre
o el costo de la materia prima por unidad para el año próximo.
Pronóstico
“Es una estimación cuantitativa o cualitativa de uno
o varios factores (variables) que conforman un
evento futuro, con base en información actual o del
pasado”.
• La estimación de pronósticos del volumen de ventas
trimestrales para un producto en particular durante el año
próximo afectará los programas de producción, los planes de
compra de materias primas, las políticas de inventarios y las
cuotas de ventas.

• En consecuencia, los malos pronósticos pueden dar como


resultado un incremento en los costos de la empresa. ¿Cómo
debemos proceder para proporcionar los pronósticos
trimestrales del volumen de ventas?

• Revisar los datos históricos, con frecuencia ayuda a


comprender mejor el patrón de las ventas pasadas, lo que
conduce a mejores predicciones de las ventas futuras del
producto.
• Los datos históricos de ventas forman una serie de tiempo.

• Una serie de tiempo es un conjunto de observaciones de


una variable medida en puntos sucesivos en el tiempo o a
lo largo de periodos sucesivos.

• En este curso se presentan varios procedimientos para


analizar las series de tiempo.

• El objetivo de estos análisis es proporcionar buenos


pronósticos o predicciones de los valores futuros de la
serie de tiempo.
Métodos de elaboración de
pronósticos
• Los métodos de elaboración de pronósticos se clasifican como
cuantitativos o cualitativos.

• Los métodos cuantitativos se utilizan cuando:


– se dispone de información pasada sobre la variable que se pronosticará
– la información puede cuantificarse
– es razonable suponer que el patrón del pasado seguirá ocurriendo en el
futuro. En estos casos puede elaborarse un pronóstico con un método de
series de tiempo o un método causal.
• Si los datos históricos se restringen a valores pasados de la
variable que tratamos de pronosticar, el procedimiento de
elaboración de pronósticos se llama método de serie de
tiempo.

• El objetivo de los métodos de serie de tiempo es descubrir un


patrón en los datos históricos y luego extrapolarlo hacia el
futuro; el pronóstico se basa sólo en valores pasados de la
variable que tratamos de pronosticar o en errores pasados.

• En este curso se explican tres métodos de series de tiempo:


suavización (promedios móviles, promedios móviles
ponderados y exponencial), proyección
tendencias suavización de de tendencias
influencia estacional.
y ajustada por
proyección
• Los métodos de elaboración de pronósticos causal se basan en
el supuesto de que la variable que tratamos de pronosticar
exhibe una relación de causa y efecto con una o más variables.

• En este curso se presenta el uso del análisis de regresión


como un método de elaboración de pronósticos causal. Por
ejemplo, los gastos de publicidad influyen en el volumen de
ventas de muchos productos, de manera que el análisis de
regresión puede utilizarse para desarrollar una ecuación que
muestre cómo se relacionan estas dos variables.

• Utilizar un método de series de tiempo para elaborar el


pronóstico en este ejemplo, implica que no se considerarían los
gastos de publicidad; es decir, un método de serie de tiempo
basaría el pronóstico sólo en las ventas pasadas.
• Los métodos cualitativos por lo general involucran el uso
del juicio experto para elaborar pronósticos. Una ventaja
de los procedimientos cualitativos es que pueden aplicarse
cuando la información sobre la variable que se está
pronosticando no puede cuantificarse o son escasos.

• Método Delphi
• Juicio experto
• Redacción de escenarios
• Enfoques intuitivos
PATRONES O COMPONENTES DE
UNA SERIE DE TIEMPO
• El patrón o comportamiento de los datos en una serie de
tiempo tiene varios componentes. El supuesto usual es que
cuatro componentes separados: tendencia, cíclico, estacional e
irregular, se combinen para proporcionar valores específicos
de la serie de tiempo.

• TENDENCIA: componente de muy largo plazo


• CICLICO: componente de largo plazo
• ESTACIONAL: componente de corto plazo
• IRREGULAR: componente de muy corto plazo
• En el análisis de las series de tiempo, las mediciones pueden hacerse cada
hora, diario, a la semana, cada mes, anualmente o en cualquier otro intervalo
regular de tiempo. Aunque los datos de las series de tiempo suelen mostrar
fluctuaciones aleatorias, las series de tiempo también muestran un
desplazamiento o movimiento gradual hacia valores relativamente altos o
bajos a través de un lapso largo. A este desplazamiento gradual de la serie de
tiempo se le conoce como la tendencia de la serie de tiempo.
• Este desplazamiento o tendencia suele deberse a factores de largo plazo como
variaciones en las características demográficas de la población, en la
tecnología o en las preferencias del público.
Otros patrones de tendencia
posibles
Aunque una serie de tiempo puede tener una tendencia a través de lapsos largos,
no todos los valores futuros de la serie de tiempo caerán exactamente sobre la
línea de tendencia. Las series de tiempo suelen mostrar secuencias de puntos que
caen de manera alternante arriba y abajo de la línea de tendencia. Toda sucesión
recurrente de puntos que caiga abajo y arriba de la línea de tendencia y que dure
más de un año puede atribuirse al componente cíclico de la serie de tiempo. En
la figura las observaciones son anuales.
• Patrón de cambio que se repite año con
año en el mismo número de períodos.

FUERZAS QUE AFECTAN Y EXPLICAN


ESTACIONALIDAD:
180

• períodos escolares 160

• períodos vacacionales 140

• productos de estación 120

estaciones del año


100

80

60
81 82 83 84 85 86 87 88
89 90
MURPHY
Componente irregular
Mide la variabilidad de una serie los
cuando componentes se han eliminado o no demás
existen.
FUERZAS QUE AFECTAN Y EXPLICAN ALEATORIEDAD

• cambios climáticos
• desastres naturales
• huelgas
• hechos fortuitos
Este componente representa la variabilidad aleatoria en las series de tiempo y es resultado de factores a
corto plazo, imprevistos y no recurrentes que afectan a la serie de tiempo. Como este componente
representa la variabilidad aleatoria en las series de tiempo, es impredecible; no podemos intentar
predecir su impacto en las series de tiempo.
Métodos de suavización
• En esta primera parte se presentan tres métodos
elaboración
de de pronósticos: promedios móviles,
promedios móviles ponderados y suavización
exponencial.

• El objetivo de cada uno de estos métodos es


“suavizar” las fluctuaciones aleatorias causadas por el
componente irregular de las series de tiempo, por lo
que se conocen como métodos de suavización.
• Este tipo de métodos es apropiado para una serie de tiempo
estable, es decir, una que no exhibe efectos significativos de
tendencia, cíclicos o estacionales.

• Los métodos de suavización son fáciles de usar y por lo


general proporcionan un alto nivel de precisión para
pronósticos de corto alcance como un pronóstico para el
siguiente periodo.

• Uno de los métodos, la suavización exponencial, tiene


requisitos de datos mínimos y por tanto es un buen método
para usar cuando se requieren pronósticos para cantidades
grandes de artículos.
Promedios móviles
(simples de orden k)
Yt
Ft+1 = + Yt-1 +……+ Yt-k+1
k
El método de los promedios móviles utiliza el promedio de los k
valores de datos más recientes en la serie de tiempo como el
pronóstico para el siguiente periodo.
El término móvil indica que, mientras se dispone de una nueva
observación para la serie de tiempo, reemplaza a la observación más
antigua de la ecuación anterior y se calcula un promedio nuevo.
Como resultado, el promedio cambiará, o se moverá, conforme surjan
nuevas observaciones.
Yt : observación en el período t Ft: pronóstico para el período t
Promedios móviles
(simples de orden 3)
Yt
Ft+1 = + Yt-1 + Yt-2
3

• se promedian solo las últimas observaciones


• el orden se determina a priori

• un orden grande elimina los picos (suaviza)


•un orden pequeño permite seguir muy cerca los
de cambios de corto plazo
Promedios móviles
(simples de orden 2)
1000

800

600

400

200

0
85 86 87 88 89 90 91 92 93

ACME
MA(2)
PROMEDIO MÓVIL DE
ORDEN 3
1000
800

600

400

200

85 86 87 88 89 90 91 92 93

ACME
MA(3)
Promedios móviles
(simples de orden 4)
1000

800

600

400

200

0
85 86 87 88 89 90 91 92 93

ACME
MA(4)
Ejemplo
Litros de nafta vendidos por semana (en miles)

Gráfico Secuencias Cronológicas

30

20

10

0
0 2 4 6 8 10 12
semana
Ejemplo

El pronóstico para la semana 13 es 19.

et= Yt - Ft : residuo (error de pronóstico) en el período t

Precisión del pronóstico. Una consideración importante en la selección de un método de elaboración


de pronósticos es la precisión del pronóstico. Desde luego, queremos pronosticar que los errores sean
menores. Las últimas dos columnas de la tabla que contienen los errores de pronóstico y los errores de
pronóstico al cuadrado, se pueden utilizar para desarrollar medidas de la precisión del pronóstico.
Medidas de error
ei identifica sesgo
•Error Medio (Me) : ME =
n
•Error Medio MAD ei | distancia promedio
n
Absoluto: =
•Error Medio Cuadrático (Mse): penaliza errores grandes
ei)2
MSE = n

•Error Medio Absoluto Porcentual: proporción del


error ei / y |
MAPE = n
MAPE proporciona una indicación de cuan grande son los errores de pronostico en comparación con los valores reales de la serie.
Promedios móviles ponderados
• En el método de promedios móviles, cada
observación en el cálculo recibe el mismo peso.

• Una variación, conocida como promedios móviles


ponderados, consiste en seleccionar diferentes
pesos para cada valor de datos y luego calcular un
promedio ponderado de los k valores de datos más
recientes como el pronóstico.
• En la mayoría de los casos la observación más reciente recibe el
mayor peso, y el peso disminuye para los valores de datos más
antiguos. Por ejemplo, para la serie de tiempo de las venta de
nafta semanal el cálculo de un promedio móvil ponderado de tres
semanas, donde la observación más reciente recibe un peso del
triple del peso dado a la observación más antigua y la siguiente
observación más antigua recibe un peso doble que
del observación más antigua. la
• Para la semana 4 el cálculo es:
3/6*19+2/6*21+1/6*17=19.33

En general, si creemos que el pasado reciente es un mejor


pronosticador del futuro que el pasado distante, los pesos más
grandes deben darse a las observaciones más recientes.
Suavización exponencial
= Yt + ( 1- ) Ft 0
Ft+1
La suavización exponencial utiliza un promedio ponderado de valores de series de tiempo
pasadas como pronóstico.

La formula muestra que el pronóstico para el periodo t+1 es un promedio ponderado del valor
real en el periodo t y el pronóstico para el periodo t.

Es un caso especial del método de promedios móviles ponderados en el cual seleccionamos


sólo un peso, el peso para la observación más reciente.

Los pesos para los demás valores se calculan de forma automática y se vuelven cada vez más
pequeños a medida que las observaciones se alejan en el pasado.
Podemos demostrar que el pronóstico de la suavización exponencial para cualquier periodo
también es un promedio ponderado de todos los valores reales previos.
Por ejemplo para una serie de tiempo que consta de tres periodos de
datos: Y1, Y2 y Y3. Comenzamos F1=Y1
F2 1 + (1- 1
= 1 + (1- 1
= Y1
Por lo tanto, el pronóstico de suavización exponencial para el
periodo dos es igual al valor real de la serie de tiempo en el periodo
1.
Para el periodo 3 el pronóstico es:

F3 2 + (1- F2= 2 + 1
(1-
Por ultimo al sustituir esta expresión para F3 en la expresión para F4, se obtiene:

F4 + (1- 3=
3 3 + (1- 2 + (1- 1]
= 3 + (1- Y2 + (1- 2Y
1
Por consiguiente F4 es un promedio ponderado de los primeros tres
valores de la serie de tiempo.
Constante suavización =0.2
¿Qué valor de

?
Si la variabilidad aleatoria de la serie de tiempo es considerable, es
preferible un valor pequeño para la constante de suavización. La razón
de esta elección es que, dado que gran parte del error de pronóstico se
debe a la variabilidad aleatoria, no queremos reaccionar de forma
exagerada y ajustar los pronósticos demasiado rápido. Para una serie
de tiempo con relativamente poca variabilidad, los valores más grandes
de la constante de suavización tienen la ventaja de ajustar rápidamente
los pronósticos cuando ocurren errores de pronóstico y por ende
permiten que el pronóstico reaccione más rápido a las condiciones
cambiantes.
• Elegimos el valor de que minimiza el error de pronostico.
Observar como los pronósticos “suavizan”
las fluctuaciones irregulares de la serie de tiempo.
Proyección de la tendencia
• En este punto se muestra cómo pronosticar los valores de
una serie de tiempo que exhibe una tendencia lineal a largo
plazo. El tipo de series de tiempo para las cuales el
método de proyección de tendencias es aplicable, muestra
un incremento o disminución constante en el tiempo.
Debido a que este tipo de serie de tiempo no es estable, los
métodos de suavización descritos en la sección anterior no
son aplicables.
Ejemplo

La serie de tiempo para el número


de bicicletas vendidas parece tener
un incremento general o una
tendencia ascendente.
Para una tendencia lineal, el volumen de ventas
estimado expresado como una función del tiempo.

Tt = valor de tendencia para las ventas de bicicletas en el periodo t

Las ecuaciones para calcular b1 y b0 son


Ecuación para el componente de tendencia lineal para las
series de tiempo de ventas de bicicletas.

Tt=20.4 + 1.1t

La pendiente de 1.1 en la ecuación de tendencia indica que


durante los 10 años pasados la empresa ha experimentado
crecimiento medio en las un ventas de de 1100
alrededor unidades por año.
La proyección de tendencia del año siguiente,

T11=20.4 + 1.1* 11=32.5


Componentes de tendencia y
estacional
¿cómo pronosticar los valores de una serie de tiempo que
tiene tanto un componente de tendencia como uno
estacional?

La eliminación del efecto estacional de una serie de


tiempo se conoce como desestacionalización de la serie de
tiempo. Después de hacerlo, las comparaciones periodo a
periodo son más significativas y pueden ayudar a
identificar si existe una tendencia.
El enfoque que seguimos en este punto es apropiado en
situaciones cuando sólo están presentes los efectos
estacionales o en situaciones en que se dan tanto el
componente estacional como el de tendencia.

El primer paso es calcular los índices estacionales y


utilizarlos para desestacionalizar los datos.

Luego, si es evidente una tendencia en los datos


desestacionalizados, utilizamos el análisis de regresión sobre
los datos desestacionalizados para estimar la tendencia.
Modelo multiplicativo
• Además de un componente de tendencia T
y un componente estacional S, asumimos
la serie
que tiempotambién tiene un
de irregular I. El componente
componente
irregular representa los efectos aleatorios de
la serie de tiempo que no pueden explicarse
por medio de los componentes de tendencia
y estacional.
• Con Tt , St e It para identificar los componentes de tendencia, estacional e
irregular en el tiempo t, suponemos que el valor de la serie de tiempo real,
denotado por Yt, puede describirse por el modelo multiplicativo de series de
tiempo.

Tt es la tendencia medida en unidades del elemento que se


pronostica. Sin embargo, los componentes St e It se miden en
términos relativos, con valores por encima de 1.00, lo que indica
efectos por encima de la tendencia, y valores por debajo de 1.00
que denotan efectos por debajo de la tendencia.
Las ventas menores en el
son trimestre de
cadasegundo
año, seguidas por los
niveles de ventas más altos en los trimestres
3 y 4. Por tanto, concluimos que existe un
patrón estacional para las ventas de
televisores.
• Comenzamos el procedimiento de cálculo utilizado para identificar la influencia
estacional de cada trimestre.
• Con el fin de medir la variación estacional, es común usar el “método de razón de
promedio móvil”. Esta técnica proporciona un índice que describe el grado de variación
estacional.
• Los valores del promedio móvil centrado tienden a “suavizar” las fluctuaciones tanto
estacional como irregular en la serie de tiempo. Los valores del promedio móvil
calculados para cuatro trimestres de datos no incluyen las fluctuaciones debidas a
influencias estacionales porque el efecto estacional se ha promediado. Cada punto en el
promedio móvil centrado representa cuál sería el valor de la serie de tiempo sin
influencias estacionales o irregulares.
Total móvil promedio móvil valores estacionales-
Año trimestre Ventas(miles) (1) promedio móvil centrado irregulares índice estacional
1 1 4,8

2 4,1
21,4 5,35
3 6 5,475 1,096
22,4 5,6
4 6,5 5,7375 1,133
23,5 5,875
1 5,8 5,975 0,971 0,93 1 trimestre
2 24,3 6,075
2 5,2 6,1875 0,840 0,84 2 trimestre
25,2 6,3
3 6,8 6,325 1,075 1,09 3 trimeste
25,4 6,35
4 7,4 6,4 1,156 1,14 4 trimestre
25,8 6,45
3 1 6 6,5375 0,918
26,5 6,625
2 5,6 6,675 0,839
26,9 6,725
3 7,5 6,7625 1,109
27,2 6,8
4 7,8 6,8375 1,141
27,5 6,875
4 1 6,3 6,9375 0,908
28 7
2 5,9 7,075 0,834
28,6 7,15
3 8

4 8,4

(1)Un total móvil se asocia con el dato que ocupa el lugar del medio
del conjunto de valores del cual fue calculado
• Al dividir cada observación de la serie de tiempo entre el valor del
promedio móvil centrado correspondiente, podemos identificar el
efecto estacional-irregular en la serie de tiempo. Por ejemplo, el tercer
trimestre del año 1 muestra 6.0/5.475=1.096 como el componente
estacional-irregular combinado. La tabla anterior resume los valores
estacionales-irregulares resultantes para toda la serie de tiempo.
• Considere el tercer trimestre. Los resultados de los años 1, 2 y 3
muestran valores del tercer trimestre de 1.096, 1.075 y 1.109,
respectivamente. Por tanto, en todos los casos el
estacional-irregular parece tener una componente influencia
encima del
promedio en el tercer trimestre. Las fluctuaciones por durante los tres años
pueden atribuirse al componente irregular, por lo que podemos
promediar los valores calculados para eliminar la influencia irregular y
obtener una estimación de la influencia estacional del tercer trimestre
igual a 1,09. Índice estacional
0,93 1 trimestre

0,84 2 trimestre

1,09 3 trimestre

1,14 4 trimestre
Índice estacional
0,93 1 trimestre

0,84 2 trimestre

1,09 3 trimestre

1,14 4 trimestre

• El trimestre de mejores ventas es el cuarto, con


ventas que promedian 14% por encima del valor
medio trimestral.
• El trimestre con peores ventas, o más lento, es el
segundo, con un índice estacional de 0.84, que
muestra que las ventas promediaron 16% por
debajo de las ventas medias trimestrales.

Verificar: El modelo multiplicativo requiere que el índice


estacional medio sea igual 1.00.
Desestacionalización de las series
de tiempo
• El propósito de determinar índices
estacionales es precisamente eliminar los
efectos estacionales de una serie de tiempo.
Este proceso se conoce como
desestacionalización de las series de tiempo.
La serie de tiempo parece tener una tendencia
lineal ascendente. Para identificar esta
tendencia, utilizamos el método de proyección
de la tendencia; en este caso, los datos
utilizados son los valores de las ventas
trimestrales desestacionalizadas.
Tt=5.101 + 0.148 t
La pendiente de 0.148 indica que durante los 16 trimestres
anteriores la empresa ha experimentado un crecimiento
desestacionalizado medio en las ventas de aproximadamente 148
televisores por trimestre. Si suponemos que la tendencia de los 16
trimestres pasados en datos de ventas es un indicador
razonablemente bueno del futuro, podemos utilizar esta ecuación
para proyectar el componente de tendencia de la serie de tiempo
para los 4 próximos trimestres del año 5.
proyección El paso final en el desarrollo del pronóstico, cuando tanto el componente de
de tendencia.
t (en miles)
tendencia como el estacional están presentes, es utilizar el índice estacional
17 7,617 para ajustar la proyección de tendencia.
18 7,765
19 7,913
20 8,061
Observación importante
• En esta primera parte se utilizó la regresión lineal simple para ajustar una
tendencia lineal a las series de tiempo de ventas de bicicletas y también para el
caso de venta de televisores.

• Aquí obtuvimos una ecuación lineal que vinculaba dichas ventas con el periodo.
Pero el número de bicicletas vendidas en realidad no se relaciona de manera causal
con el tiempo, más bien el tiempo es un sustituto de las variables con que se
relaciona en realidad el número de bicicletas vendidas, desconocidas o demasiado
difíciles o costosas de medir.

• Por lo cual, el uso del análisis de regresión para la proyección de la tendencia no


es un método de elaboración de pronósticos causal debido a que sólo se utilizaron
los valores pasados de ventas, es decir, la variable que se pronostica.

• Cuando utilizamos el análisis de regresión para relacionar las variables que


queremos pronosticar con otras variables que se supone influyen en la variable o la
explican, se vuelve un método de elaboración de pronósticos causal.
Análisis de Regresión

• El Análisis de Regresión tiene como objetivo estudiar la


relación entre variables. Permite expresar dicha relación en
términos de una ecuación que conecta una variable de
respuesta Y, con una o más variables explicativas X1,X2,
…,Xk.
Finalidad:
Determinación explícita del funcional querelaciona
las variables. (Predicción)
Comprensión por parte del analista de las
interrelaciones entre las variables que intervienen en el
análisis.
Datos de corte transversal

• Una base de datos de corte transversal consiste en una muestra de


individuos, hogares, empresas, ciudades, estados, países u otras
unidades, tomada en algún punto dado en el tiempo. Algunas veces no
todos los datos de estas unidades corresponden exactamente a un
mismo momento.
• Por ejemplo, puede ser que, un conjunto de familias sea entrevistado
durante diferentes semanas de un año. En un análisis de corte
transversal puro, diferencias menores de tiempo en la recolección de
los datos son ignoradas. Aun cuando un conjunto de familias haya sido
entrevistado en semanas distintas de un mismo ano, se considerara
como una base de datos de corte transversal.
• Se quiere estudiar la relación entre ROE (medida de desempeño
de una empresa) y el pago que reciben los CEO.

• Relación entre salario y años de educación.

• Relación entre salario, años de educación y experiencia laboral

• Relación entre precio de una vivienda y metros


cuadrados, cantidad de habitaciones, etc.
•A pesar de que el análisis de regresión tiene que ver con la
dependencia de una variable respecto a otras variables, esto no
implica causalidad necesariamente. La misma viene dada por
consideraciones a priori o teóricas.

•A diferencia del análisis de correlación, en donde el principal


objetivo es medir el grado de asociación lineal entre dos
variables, aquí estamos interesados en estimar o predecir el
valor promedio de una variable sobre la base de valores fijos de
otras variables.
Análisis de regresión lineal simple

El análisis de regresión se relaciona en gran medida


con la estimación y/o predicción de la media (de la
población) o valor promedio de la variable
dependiente, con base en los valores conocidos o
fijos de las variables explicativas.
Población total de 60 familias de una comunidad hipotética.
Ingreso semanal (X) y gasto de consumo semanal (Y ), en
dólares.

Las 60 familias se dividen en 10 grupos de ingresos (de $80 a


$260). Se tienen 10 valores fijos de X y los correspondientes valores
de Y para cada uno de los valores X; así que hay 10 subpoblaciones Y
A estos valores medios se les
Se tienen 10 valores denomina valores esperados
condicionales, en vista de que
medios para las 10 dependen de los valores dados a
subpoblaciones de Y. la variable condicional
X. Se denota por E(Y/X)

Resulta importante distinguir dichos valores condicionales


esperados del valor esperado incondicional del gasto de
consumo semanal, E(Y).

E(Y)=7272/60=121,2
Es incondicional en el sentido de que para obtener esta cifra se
omiten los niveles de ingresos de las diversas familias
¿Cuál es el valor esperado de del gasto de consumo semanal
una familia?

La media incondicional: $121,20

¿Cuál es el valor esperado del gasto de consumo semanal de una


familia cuyo ingreso semanal es $100 ,La media condicional: $77

Saber el nivel de ingreso nos permite predecir mejor el valor


medio del gasto de consumo.
Se puede observar en él gráfico de dispersión, al unir las
medias condicionales la recta de regresión poblacional (RRP). ( o
regresión de Y sobre X).
El adjetivo “poblacional “ se debe al hecho de que en este
ejemplo se consideró una población de 60 familias.
Gráfico de dispersión
Gasto de consumo v/s Ingreso
200

180 A pesar de la
160
variabilidad del
140
gasto para cada
ingreso, en
120
promedio el
100
consumo semanal
80
se incrementa en la
60 misma medida que
40
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280
el ingreso
Ingreso semanal
Curva de regresión poblacional
Desde el punto de vista geométrico, una curva de regresión
poblacional es simplemente el lugar geométrico de las medias condicionales
de la variable dependiente para los valores fijos de la (s) variables explicativa(s).

Es la curva que conecta las medias


de las subpoblaciones de Y que
corresponden a los valores del
regresor X.
Concepto de función de regresión poblacional (FRP)
Es claro que cada media condicional E(Y/Xi) es función de Xi, donde Xi es
un valor dado de X.

E(Y/Xi)=f(Xi) y f(Xi) denota alguna función de la variable explicativa X.

¿Qué forma toma la función f(Xi)?

En una situación real no tenemos la totalidad de la población para efectuar el


análisis.
La forma funcional de la FRP es, una pregunta empírica, aunque en casos
específicos la teoría puede tener algo que decir. Por ejemplo, un economista
podría plantear que el gasto de consumo está relacionado linealmente con el
ingreso.
Por tanto, como una primera aproximación podemos suponer que la FRP es una
función lineal de Xi
E(Y / X i )
1 2 Xi
1 y 2 son parámetros no conocidos pero fijos que se denominan coeficientes de
regresión
• Función de Regresión Poblacional

E Y Xi f Xi
El valor esperado de la distribución de Y esta funcionalmente
relacionado con Xi, pero...
Xi
¿Qué forma funcional toma f ?

Lineal No Lineal
El término regresión “lineal” siempre significará una regresión
lineal en los parámetros.
•Entre otras las formas funcionales lineales se destacan:

Y .X
Y .X
Y .
exp( X)
• La primer ecuación es lineal

•La segunda ecuación se puede trasformar en:

log Y log
log X
La tercer ecuación se puede transformar en

log Y X
• Veamos la interpretación de cada coeficiente
Ecuación de regresión poblacional FRP

Ecuación de
E(Y / X i ) regresión
1 2Xi
poblacional FRP

Donde 1 y 2 son parámetros no conocidos pero fijos que se

denominan coeficientes de regresión.

En el análisis de regresión el interés es estimar la FRP, es decir


estimar los valores de 1 y 2 no conocidos con base en las
observaciones de Y y X
Especificación estocástica de la FRP

¿Qué podemos decir sobre la relación entre el gasto de consumo de una


familia individual y un nivel dado de ingresos?
Se observa en la figura , que dado el nivel de ingresos de Xi, el gasto de
consumo de una familia individual está agrupado alrededor del consumo
promedio de todas las familias en ese nivel de Xi, esto es, alrededor de su
esperanza condicional. Por consiguiente, podemos expresar la desviación de
un Yi individual alrededor de su valor esperado de la siguiente manera:

Yi E(Y / X i ) o ui Yi E(Y /
ui Xi )
Donde la desviación ui es una variable aleatoria no observable que toma
valores positivos o negativos. Técnicamente , ui es conocida como
perturbación estocástica o término de error estocástico.
Especificación estocástica de la FRP

Se puede decir que el gasto de una familia individual, dado


su nivel de ingresos, puede ser expresado como la suma de
dos componentes

Yi E(Y / X i ) ui
La media del gasto de
consumo de todas las Componente aleatorio .
familias con el Es un sustituto para todas aquellas
mismo nivel de variables que son omitidas del
ingresos. modelo pero que colectivamente
afectan a Y
Especificación estocástica de la FRP

Yi E(Y / X i ) ui ui
1 2Xi

La ecuación plantea que el gasto de consumo de una familia está relacionado


linealmente con su ingreso, más el término de perturbación. Así los gastos de
consumo individual, dado X=$80, pueden ser expresados como

Así, el supuesto
de que la
Y1 55 1 2 80 u2 recta de pasa a través
regresión
Y2 1 2 80 de las medias
60 u2 condicionales de Y
1 2
implica los
Y3 65 80 u43
1 2
que valores media
Y4 1 2 80 u de
condicional lade ui
70 80 u5 son cero.
Y5
Especificación estocástica de la FRP

La especificación estocástica

Yi E(Y / X i ) ui
1 2Xi
ui
Tiene la ventaja que muestra claramente otras variables además del ingreso,
que afectan el gasto de consumo y que un gasto de consumo de familias
individuales no puede ser explicado en su totalidad solamente por la(s)
variable(s) incluida(s) en el modelo de regresión.
Función de regresión muestral (FRM)
En la práctica lo que se tiene al alcance no es más que una muestra de valores
de Y que corresponden a algunos valores fijos de X. Por consiguiente la labor
ahora es estimar la FRP con base en información muestral.
Supóngase que no se conocía la población de la tabla 1 y que la única
información que se tenía era una muestra de valores de Y seleccionada
aleatoriamente para valores dados de X tal como se presenta en la tabla 2

De la muestra de la tabla 2,
¿se puede predecir el gasto de consumo semanal
promedio Y para la población
correspondiente a los valores de X
seleccionados?

¿Se puede estimar la forma FRP a partir de la


información muestral?
Función de regresión muestral (FRM)
Consideremos otra muestra tomada de la población de la tabla.
Las rectas de la figura se conocen como rectas de regresión muestral. En
general, se podrían obtener N FRM diferentes para N muestras diferentes
y estas FRM no necesariamente son iguales
Ahora, en forma análoga a la FRP en la cual se basa la recta de regresión
poblacional, se puede desarrollar el concepto de función de regresión muestral.
La contraparte muestral puede escribirse como:

Yi
1 2 Xi Es la contraparte de
Donde
Yi estimador de E(Y / X i )
1 2Xi
E(Y/X)
1 estimador 1
de
2 estimador de 2

Atención!: que un estimador, conocido también como estadístico


(muestral), no es más que una regla, fórmula o método para estimar el parámetro
poblacional a partir de la información suministrada por la muestra disponible. Un
valor numérico particular obtenido por el estimador en un análisis se conoce
como estimación. Cabe señalar que un estimador es aleatorio, pero una
estimación no.
Función de regresión muestral (FRM)
en su forma estocástica
La FRM en su forma estocástica se puede expresar como

Yi
1 2 Xi i

Donde denota el término residual


i
Conceptualmente (muestral)
es análogo a µi y puede ser considerado como
un estimación de µ i

El objetivo principal en el análisis de regresión


es estimar la FRP
Yi 1 2 Xi i

Con base en la FRM Yi


1 2 Xi i
Rectas de regresión muestral y poblacional

Debido a fluctuaciones muestrales, la estimación de la FRP basada en la FRM


es, en el mejor de los casos, una aproximación.
Rectas de regresión muestral y poblacional

Para X=Xi, se tiene una observación muestral Y=Yi. En términos de la


FRM, la Yi observada puede ser expresada como

Yi i
Yi
Y en términos de la FRP, puede ser expresada como

Yi E(Y / X i ) i

Dado que la FRM es apenas una aproximación de la FRP, ¿se puede


diseñar un método que haga que esta aproximación sea lo más ajustada
posible?
Función de regresión simple: problema de
estimación
La tarea consiste en estimar la función de regresión poblacional
(FRP) con base en la función de regresión muestral (FRM) en la
forma más precisa posible.
Los dos métodos de estimación que suelen utilizarse son:

1) Los mínimos cuadrados ordinarios (MCO)


2) La máxima verosimilitud (MV).

El método de MCO es el que más se emplea en el análisis de


regresión.
Método de mínimos cuadrados ordinarios (MCO)
El método MCO se atribuye a Carl Friedrich Gauss un matemático
alemán. Bajo ciertos supuestos el método tiene algunas propiedades
estadísticas muy atractivas que lo han convertido en uno de los más
eficaces y populares del análisis de regresión.

Primero se estima ui 1 2 Xi
Yi
que muestra que los residuos son simplemente las diferencias
entre los valores observados y los estimados de Y.
Ahora, dados n pares de observaciones de Y y X, se está
interesado en determinar la FRM de tal manera que esté lo
más cerca posible a la Y observada.
Método de mínimos cuadrados ordinarios (MCO)
Con este fin se puede adoptar el siguiente criterio: seleccionar la
FRM de tal manera que la suma de los residuos :
ui Yi
Yi
sea la menor posible.
Este criterio, no es muy bueno
porque a todos los residuos se les da
la misma importancia sin considerar
qué tan cerca o qué tan dispersas
estén las observaciones individuales
de la FRM. Debido a lo anterior, es
muy posible que la suma algebraica
de los residuos sea pequeña (aun

cero) a pesar de que las ui están


bastante dispersas alrededor de
FRM.
Método de mínimos cuadrados ordinarios (MCO)

Se puede evitar este problema si se adopta el criterio de mínimos


cuadrados, el cual establece que la FRM puede determinarse en forma
tal que

2 2 2
ui Yi Y i
2 Xi
Yi 1

sea la menor posible. Este método da más peso a los residuos


tales como u1 y u4 que a los residuos u2 y u3

El procedimiento de MCO genera las siguientes ecuaciones para estimar


1 y 2 donde n es el tamaño de la muestra
Método de mínimos cuadrados ordinarios (MCO)

Yi 1 2 Xi Ecuaciones
n normales
Yi X i 1 Xi 2 X i2

Resolviendo las ecuaciones normales simultáneamente se obtiene

x i yi Estimadores
2 1 Y- 2 X de mínimos
x i2 cuadrados
• Los estimadores obtenidos se conocen como estimadores de
mínimos cuadrados, pues se derivan del principio de mínimos
cuadrados. Estos estimadores tienen propiedades numéricas por
haber sido obtenidos con el método de MCO: “Propiedades
numéricas son las que se mantienen como consecuencia del uso
de mínimos cuadrados ordinarios, sin considerar la forma
como se generaron los datos”.

• Existen también las propiedades estadísticas de los estimadores


MCO, es decir, propiedades “que se mantienen sólo con ciertos
supuestos sobre la forma como se generaron los datos”.
• Si deseamos estimar sólo 2, basta el método MCO
1 y presentado de la sección
anterior.

• Por consiguiente, mientras no se especifique la forma como se


crean o se generan Xi y u i no hay manera de hacer
inferencia
alguna estadística sobre Yi, ni tampoco, sobre 1 y 2.

• Así, los supuestos sobre la(s) variable(s) Xi y el término de


error son relevantes para lograr una interpretación válida de
los valores estimados de la regresión.
Modelo clásico de regresión lineal
supuestos detrás del método MCO
El modelo de Gauss, modelo clásico o estándar de regresión lineal
(MCRL) el cual es el cimiento de la mayor parte de la teoría
econométrica, plantea 9 supuestos.
Supuesto 1: Modelo de regresión lineal
El modelo de regresión es lineal en los parámetros

Yi modelo simple
1 2 Xi i

Supuesto 2: Los valores de X son fijos en muestreo


repetido.
Significa que el análisis de regresión es un análisis de regresión
condicional, esto es, condicionado a los valores dados del (los)
regresor X.
Supuesto 3: El valor medio de la perturbación ui es igual
a cero.
Dado el valor de X, el valor esperado del término aleatorio de
perturbación ui es cero.
E(ui / X i ) 0

Nótese que el supuesto


E(ui/Xi)=0 implica que
E(Y / X i )
1 2Xi
Supuesto 4: Homocedasticidad o igual varianza de ui.
Dado el valor de X, la varianza de ui es la misma para todas las
observaciones, es decir, las varianzas condicionales de ui
son idénticas. 2
var(ui /
Xi)

Homocedasticidad Heterocedasticidad
Homocedasticidad
Homocedasticidad
Supuesto 5: No existe auto correlación entre las
perturbaciones.
Dados dos valores cualquiera de X, Xi y Xj , la correlación entre dos
ui y uj es cero.
cov(ui, uj / Xi, X j ) 0
Supuesto 6: La covarianza entre ui y Xi es cero o E(uiXi)=0

cov(ui, X i ) 0

Supuesto 7: El número de observaciones n debe ser mayor


que el número de parámetros por estimar.

Supuesto 8: Variabilidad en los valores de X.


No todos los valores de X en una muestra dada deben ser
iguales.
var(X ) 0

Supuesto 9: No hay sesgo de especificación


El supuesto de normalidad: El modelo clásico de
regresión lineal normal

Recordemos que con los supuestos vistos anteriormente los


estimadores de MCO ,
1 , 2
2
satisfacían diferentes propiedades
estadísticas muy deseables, tales como insesgamiento y varianza mínima . Si
nuestro objetivo es únicamente la estimación puntual el método de MCO
será suficiente, sin embargo la estimación puntual
es sólo la formulación de un aspecto de la inferencia estadística.

Nuestro interés no consiste solamente en estimar la función muestral de


regresión (FRM), sino también en utilizarla para obtener inferencias respecto
a la función de regresión poblacional (FRP).
El supuesto de normalidad: El modelo clásico de
regresión lineal normal

La regresión lineal normal clásica supone que cada ui, está


normalmente distribuida con

Media : E(ui )
Varianza : 0E u E(u ) 2 E(ui 2
i i

E(ui ) u ) E(u j )
2
Cov(ui , u E ui E(uiu j ) 0 i
j
j) :
j
Estos supuestos pueden expresarse en forma más compacta como

ui ~ N(0, 2
)
Normalidad
Prueba de hipótesis para 2

gl.
•La bondad de ajuste de la recta de regresión
es equivalente a determinar cuán bien se ajusta
la recta de regresión a los datos muestrales.
Como medida de esto surge el coeficiente de
determinación muestral (ó r2):

•Verbalmente, mide la proporción o


r2
porcentaje
el de la variación total en Y explicada
por el modelo de regresión.

Dos propiedades de r2:


1. Es una cantidad no negativa.
2. Sus límites son 0 r2 1. Un r2 de 1 significa un ajuste perfecto. Por otra parte,
un r2 de cero significa que no hay relación alguna entre la variable regresada y la
variable regresora, es decir, la mejor predicción de cualquier valor de Y es
simplemente el valor de su media. En esta situación, por consiguiente, la línea de
regresión será horizontal al eje X.
REGRESION LINEAL MULTIPLE

Generalizando la función de regresión poblacional (FRP) de dos


variables se puede escribir la FRP de tres variables así:

Yi
1 2 X 1i 3 X 2i i

donde Y es la variable dependiente, X1 y X2 las variables


explicativas (o regresoras). ui es el término de perturbación
estocástica, e i la iésima observación.
Los coeficientes se denominan coeficientes de regresión parcial

Se continúa operando dentro del marco del modelo clásico de


regresión lineal (MCRL).
Modelo de tres variables
Supuestos
Específicamente. se supone lo siguiente
Valor medio de ui, igual a cero

E ( u i / X 1i , X 2i ) 0 para cada i

No correlación serial

cov( ui,u j) 0
i j
Homocedasticidad 2
var( u
i )
Supuestos
Covarianza entre ui y cada variable X igual a cero

cov( u i , X 1i ) cov( u i , X 2i ) 0

No hay sesgo de especificación


El modelo está especificado correctamente
No hay colinealidad exacta entre las variables X

No hay relación lineal exacta entre X1 y


X2

Adicionalmente, se supone que el modelo de regresión múltiple es


lineal en los parámetros, que los valores de las regresoras son fijos en
muestreos repetido y que hay suficiente variabilidad en dichos valores.
Interpretación de la ecuación de regresión múltiple
Dados los supuestos del modelo de regresión clásico, se cumple que, al
tomar la esperanza condicional de Y a ambos lados de
Yi
se obtiene 1 2X 1i 3 X 2i i

E(Yi / X 1i , X 2 i )
1 2 X1i 3 X 2i
Expresado en palabras, de la expresión anterior se obtiene la media condicional
o el valor esperado de Y condicionado a los valores dados o fijos de las variables
X1 y X2. Por consiguiente, igual que en el caso de dos variables, el análisis de
regresión múltiple es el análisis de regresión condicional, sobre los valores fijos
de las variables explicativas, y lo que obtenemos es el valor promedio o la media
de Y, o la respuesta media de Y a valores dados de las regresoras X.
Nota: Las propiedades de los estimadores MCO del modelo de regresión
múltiples son similares a aquellas del modelo con dos variables
Significado de los coeficientes de regresión parcial

Los coeficientes de regresión 2 3 se denominan


y coeficientes de regresión parcial.

2 mide el cambio en el valor de la media de Y, E(Y) por


unidad de cambio en X1 permaneciendo X2 constante.
3 mide el cambio en el valor medio de Y, E(Y) por unidad de
cambio en X2 cuando el valor de X1 se conserva constante.
Prueba de la significación global de la regresión

La significación global de la regresión se puede probar con la relación de


la varianza explicada a la varianza no explicada: Esta sigue una
distribución F con k-1 y n-k grados de libertad, donde n es el número de
observaciones y k es el número de parámetros
estimados. R 2 /(k
Fk 1,n k
(1 1)R 2 ) /(n
k)
Si la relación F calculada excede el valor tabulado de F al nivel
especificado de significación y grados de libertad, se acepta la
hipótesis de que los parámetros de la regresión no son todos
iguales a cero y que R cuadrado es significativamente diferente de
cero.
H0 : 1 2 3 .... n
0
H1 : No todas las son
cero
Chequear Supuestos
1. Normalidad de los residuos
2. No autocorrelación
3. Homocedasticidad
4. Linealidad
5. No multicolinealidad
Por ejemplo Normalidad de los
residuos
Gráficos: Histograma, gráfico probabilístico normal

Gráfico P-P normal de regresión Residuo


Histogram tipificado
10 a 1.00
0

80 .75

60
.50

Prob acum esperada


40
.25

20
D
Frecuencia

0.00

0 M 0.00 .50 .75 1.0


N .2 0
5
Residuo tipificad Prob acum observada
o
No autocorrelación

El caso e) indica que no hay un


patrón sistemático, apoyando
el supuesto de no
autocorrelación de los
residuos.
El primer gráfico (arriba-izq) nos estaría diciendo que no habría
heteroscedasticidad. Sin embargo los otros gráficos muestran
patrones definidos.
Linealidad

• Se observan los gráficos de regresión parcial. Para


examinar la relación entre la variable dependiente
y cada una de las independientes por separado.
No Multicolinealidad
• FIV>10 se dice que la variable es altamente
colineal.
• IC( índice de condición) si esta entre 10 y 30
existe multicolinealidad entre moderada y
fuerte y si excede 30, existe multicolinealidad
severa.
• Al enfrentar el problema de multicolinealidad
severa, una de las soluciones mas simples
consiste en omitir del modelo una de las
variables colineales.
Pruebas formales

Homocedasticidad: Prueba de Goldfeld-


Quant, prueba de White.

Incorrelación de los errores: Prueba de


Durbin- Watson, prueba de rachas.

Normalidad de los errores: Pruebas de


Shapiro- Wilks, prueba de Anderson Darling
Ejemplo
Analizar la relación existente entre el grado de
estrés de los trabajadores Y a partir del
tamaño de la empresa en que trabajan X1, el
número de año que llevan en el puesto de
trabajo actual X2 , salario anual percibido X3 y
la edad del trabajador X4.
X1 X2 X3 X4 Y
obs tamaño Años puesto Salario anual edad gradodee
1 812 15 30 38 101
2 334 8 20 52 60
3 377 5 20 27 10
4 303 10 54 36 27
5 505 13 52 34 89
6 401 4 27 45 60
7 177 6 26 50 16
8 598 9 52 60 184
9 412 16 34 44 34
10 127 2 28 39 17
11 601 8 42 41 78
12 297 11 84 58 141
13 205 4 31 51 11
14 603 5 38 63 104
15 484 8 41 30 76

Una vez hallada la relación pedida entre las variables, evaluar la


capacidad predictiva del modelo y hallar predicciones del grado de
estrés de los trabajadores para los valores siguientes de las variables
independientes: x1 x2 x3 x4
302 9 44 42
351 8 65 62
381 9 52 53
Análisis de regresión con Datos
de Series de tiempo
En términos formales, a una secuencia de variables aleatorias indexadas
en el tiempo se le llama proceso estocástico o proceso de series de tiempo
(“estocástico” es sinónimo de aleatorio). Cuando se conforma una base de
datos de series de tiempo, se obtiene un resultado posible, o realización,
del proceso estocástico. Únicamente se puede ver una sola realización, ya
que no es posible retroceder en el tiempo y empezar de nuevo el proceso.
(Esto es análogo al análisis de corte transversal en el que únicamente se
puede reunir una sola muestra aleatoria.) No obstante, si ciertas
condiciones históricas fueran distintas, por lo general se obtendría una
realización diferente para el proceso estocástico y es por ello que los datos
de series de tiempo se consideran como el resultado de variables
aleatorias.
Datos para regresión múltiple con
series de tiempo

Yt valor de la serie de tiempo en el periodo t


x1t = valor de la variable independiente 1 en el periodo t
= valor de la variable independiente 2 en el periodo
x2t
t Ecuación regresión estimada con
Yt 2 variables independientes.
1 2 X 1t 3 X 2t
Condiciones para utilizar análisis estadístico
inferencial con datos de series de tiempo
• Un proceso estocástico es estacionario en sentido estricto o fuerte
cuando la distribución de probabilidad conjunta de la serie es
invariante con respecto al tiempo.
• Un proceso estocástico es estacionario en el sentido débil si su
media y su varianza son constantes en el tiempo y si el valor de la
covarianza entre dos periodos depende sólo de la distancia o rezago
entre estos dos periodos, y no del tiempo en el cual se calculó la
covarianza.
• Ergodicidad: Las observaciones muy lejanas en el tiempo no están
correlacionadas. Es necesaria para poder contar con suficientes
observaciones independientes para estimar los parámetros del
modelo.
• Una serie no estacionaria tendrá media y/o varianza
que cambian en el tiempo
• Si unaserie es no estacionaria se puede estudiar
su comportamiento sólo durante el período de
observación.
• Cada conjunto de datos pertenecerá a un
episodio particular
• No puede generalizarse
• Tienen poco valor práctico

Por tanto, las series de tiempo estacionarias y


débilmente dependientes son ideales para el análisis de
regresión múltiple.
COINTEGRACION

• La regresión de una variable de serie de tiempo sobre una


o mas variables de serie de tiempo, frecuentemente puede
dar resultados sin sentido o espurios. Este fenómeno se
conoce como regresión espuria.
• Una forma de protegerse de esta es establecer si las series
de tiempo están cointegradas.
• Cointegración significa que a pesar de no ser estacionarias
a nivel individual, una combinación lineal de dos o mas
series de tiempo puede ser estacionaria.
Ejemplo
Gasto en consumo personal contra Ingreso
disponible CPt = IDt + ut
Se puede expresar
ut = CPt -
IDt

• Se somete el ut estimado a un test de raíz unitaria


(para probar estacionariedad)
• Si es estacionaria la regresión de consumo contra
ingreso sería cointegrada. Existe una relación de
equilibrio o largo plazo
Ejemplo final
• La novak corporation desea desarrollar un
modelo de pronostico para la proyección de
la ventas futura. Ya que la corporación tiene
tiendas a lo largo de una extensa región se
eligen los ingresos personales disponibles
(x1) como variable explicativa posible. A
continuación se presentan los siguientes
datos anuales desde 2000 a 2016:
ingreso personal tasa
fila año ventas(millones) (millones) desempleo(%)
1 2000 8 336,1 5,5
2 2001 8,2 349,4 5,5
3 2002 8,5 362,9 6,7
4 2003 9,2 383,9 5,5
5 2004 10,2 402,8 5,7
6 2005 11,4 437 5,2
7 2006 12,8 472,2 4,5
8 2007 13,6 510,4 3,8
9 2008 14,6 544,5 3,8
10 2009 16,4 588,1 3,6
11 2010 17,8 630,4 3,5
12 2011 18,6 685,9 4,9
13 2012 20 742,8 5,9
14 2013 21,9 801,3 5,6
15 2014 24,9 903,1 4,9
16 2015 27,3 983,6 5,6
17 2016 29,1 1076,7 8,5
Yt 0.014 0.03X1t 0.35X 2t

El modelo final estimado incorpora la tasa de desempleo.

La función Yt 0.014 0.03X 1t 0.35X puede utilizarse


para predecir las
2t ventas ya que se cumplen todos los supuestos.

Datos de expertos se utilizan para estimar el ingreso personal y la


tasa de desempleo para la región para generar un pronostico de
las ventas de Novak para 2017.
Si x1 (1185) y x2 (7,8) El pronostico de ventas esperado para
2017 es 32,8 millones.
Yt 0.014 0.03X 1t 0.35X
• En otro tipo de 2tmodelo de pronóstico basado en la regresión, las variables
independientes son todos los valores anteriores de la misma serie de tiempo. Por
ejemplo, si los valores de la serie de tiempo se denotan Y1, Y2, ..., Yn, y la
variable independiente es Yt, se trata de hallar una ecuación de regresión
estimada que relacione Yt con los valores más recientes de la serie de tiempo Yt-
1, Yt-2, etc. Si se emplean como variables independientes los tres periodos más
recientes, la ecuación estimada de regresión será

Yt
1 2 Yt 1 3 Yt 2 4 Yt 3
• A los modelos de regresión que tienen variables independientes con los valores
anteriores de la serie de tiempo se les conoce como modelos autorregresivos.
Bibliografía de referencia
• Anderson R., Sweeney D., Williams T., Camm J. y Cochran J. (2015), “Quantitative
Methods for Business” Cengage Learning. USA.
• Anderson D., Sweeney D. y Williams T. (2008), “Estadística para Administración y
Economía”. 10º edición. Ed. Thomson. México.
• Canavos, G. (2003), “Probabilidad y Estadística. Teoría y aplicaciones”. Mc Graw Hill.
Interamericana de México.
• Enders, W. (2008), “Applied Econommetric Time Series”. Editorial Wiley. Inglaterra.
• Guisande Gonzalez, C., Vaamonde Liste, A. y Barreiro Felpeto, A. (2011), “Tratamiento de
datos con R, Statistica y SPSS”. Ed. Díaz de Santos. España.
• Gujarati, D. y Porter D. (2010), “Econometría” 5° Edición. Mc Graw Hill. México.
• Hanke, J. and Wichern, D. (2006). “Pronósticos en los negocios”. Editoral Pearson. México.
• Levine D., Stephan D, Krehbiel T., and Berenson M. (2008). “Statistics for Managers”.
Pearson New Jersey.

Software: Statgraphics - QM for Windows (Pearson)

Common questions

Con tecnología de IA

La especificación estocástica de una función de regresión incorpora un término de error o perturbación estocástica, que representa las variables no incluidas en el modelo que afectan a la variable dependiente. Este término de error es aleatorio y se supone que tiene una media de cero, lo que permite que la función de regresión poblacional (FRP) pase por las medias condicionales de Y . Este tipo de especificación es crucial para interpretar los resultados de regresión, ya que destaca que la variable dependiente no puede ser explicada completamente por las variables incluidas en el modelo, y que las observaciones individuales tienden a desviarse de la media condicional . Además, al utilizar la función de regresión muestral (FRM) para aproximar la FRP, la presencia del término estocástico se traduce en residuos en el análisis muestral, los cuales son utilizados para mejorar la precisión de las inferencias sobre la población .

El análisis de regresión en los métodos de pronóstico causal se utiliza para establecer y cuantificar la relación causa-efecto entre una variable dependiente y una o más variables explicativas. Este enfoque se aplica cuando la variable que queremos pronosticar presenta una relación directa con factores explicativos, permitiendo modelar y prever su comportamiento futuro . Los coeficientes en un modelo de regresión son cruciales para interpretar los efectos individuales de las variables explicativas en la variable dependiente. Cada coeficiente de regresión parcial muestra el cambio esperado en el valor medio de la variable dependiente por un cambio de una unidad en la correspondiente variable explicativa, manteniendo constantes las demás variables . En consecuencia, el análisis de regresión no sólo permite hacer predicciones, sino que también proporciona una comprensión detallada de cómo las variables están interrelacionadas .

Para series de tiempo no estables, los promedios móviles, que basan el pronóstico en el promedio de los valores más recientes, pueden ser inapropiados debido a la influencia de tendencias fuertes. En cambio, la suavización exponencial, siendo más dinámica al ponderar más los datos recientes, puede proporcionar pronósticos más representativos, aunque también es limitada al no manejar bien las series con fuerte tendencia o estacionalidad. Ambos métodos buscan 'suavizar' las series, pero son menos efectivos cuando hay grandes fluctuaciones .

La desestacionalización de datos en el análisis de series de tiempo implica eliminar los efectos estacionales para obtener una representación más clara de las tendencias subyacentes. Esto se logra calculando índices estacionales para cada periodo y dividiendo los datos originales por estos índices, lo cual ajusta la serie eliminando las variaciones estacionales . Este proceso permite identificar tendencias más significativas a lo largo del tiempo al hacer comparaciones periodo a periodo sin la interferencia de patrones estacionales recurrentes . Una vez desestacionalizados los datos, se pueden aplicar análisis como la proyección de tendencias para prever futuros comportamientos basados en las tendencias identificadas .

La ventaja principal de la suavización exponencial sobre los promedios móviles es su capacidad de utilizar un promedio ponderado de valores pasados donde los pesos decrecen automáticamente con el tiempo, lo cual permite que el modelo reaccione más rápidamente a los cambios recientes en la serie de tiempo . Además, la suavización exponencial requiere menos datos, ya que solo necesita el dato más reciente y el pronóstico anterior para calcular el nuevo pronóstico, lo cual es ventajoso cuando se manejan grandes cantidades de artículos . En cambio, los promedios móviles requieren múltiples valores anteriores y un orden determinado a priori, lo que limita su capacidad de adaptación a cambios recientes .

Para asegurar la validez del modelo clásico de regresión lineal, se deben mantener varios supuestos: 1. Linealidad: El modelo debe ser lineal en los parámetros . 2. Supuesto de normalidad: Los errores están normalmente distribuidos . 3. Media del error cero: El valor esperado de las perturbaciones (errores) dado cualquier regresor es cero . 4. Homocedasticidad: La varianza de los errores es constante a lo largo de las observaciones . 5. No autocorrelación: No hay correlación entre los errores de diferentes observaciones . 6. No multicolinealidad perfecta: No debe existir una relación lineal exacta entre las variables explicativas . 7. Los valores de las variables explicativas (regresores) son fijos y no aleatorios en múltiples muestreos . 8. Variabilidad en los valores de las variables explicativas . 9. No hay sesgo de especificación: El modelo está correctamente especificado . Mantener estos supuestos es crucial para que los estimadores obtenidos sean insesgados, eficientes y consistentes.

El componente cíclico en el análisis de series de tiempo se refiere a las fluctuaciones que duran más de un año, implicando patrones de cambio económico que no son estrictamente regulares como las temporadas . Este componente refleja movimientos en la serie que son de largo plazo y tienden a represar las fases de auge y recesión en una economía . Por otro lado, el componente estacional es un patrón que se repite en igual periodo cada año, influenciado por factores como estaciones del año, feriados o ciclos de producción . La diferencia principal radica en la temporalidad: el ciclo tiene un horizonte mayor a un año, mientras que el estacional se repite dentro de un año .

Los métodos cualitativos pueden suplir la falta de datos cuantitativos en la elaboración de pronósticos mediante el uso del juicio experto, la intuición y el conocimiento sobre las condiciones económicas actuales. Estos métodos incluyen técnicas como el juicio experto, la técnica Delphi y la redacción de escenarios, que permiten hacer predicciones en situaciones donde no se dispone de suficiente información cuantificable o donde los datos históricos son insuficientes . A diferencia de los métodos cuantitativos que requieren datos pasados cuantificables para proyectar patrones al futuro, los métodos cualitativos se basan en evaluaciones subjetivas y análisis cualitativos de las tendencias así como en factores emergentes que pueden no estar reflejados en datos históricos .

El modelo multiplicativo de series de tiempo es útil para tratar datos que contienen componentes irregulares y estacionales al considerar que el valor de la serie de tiempo en un periodo es el producto de tres componentes: tendencia (Tt), estacionalidad (St) e irregularidad (It). Este enfoque permite representar el valor de la serie Yt como Yt = Tt * St * It, lo cual es práctico para análisis donde los efectos estacionales e irregulares son significativos, ya que el componente estacional mide los cambios regulares y repetitivos dentro de un año, mientras que el componente irregular captura factores imprevistos y aleatorios . Al multiplicar estos componentes, se puede ajustar el modelo para reflejar fluctuaciones reales de la serie temporal, utilizando la desestacionalización cuando sea necesario para aislar o analizar específicamente la tendencia subyacente .

El coeficiente de determinación, o "r²", es crucial en la regresión lineal porque mide la proporción de la variación total de la variable dependiente que es explicada por el modelo de regresión. Su valor varía entre 0 y 1, donde 1 indica un ajuste perfecto del modelo a los datos y 0 significa que el modelo no explica ninguna variabilidad en la variable dependiente, siendo la predicción igual a la media . Un valor de r² cercano a 1 implica que el modelo puede predecir los resultados de manera confiable con base en las variables explicativas, mientras que un valor cercano a 0 sugiere que el modelo tiene poca capacidad predictiva .

También podría gustarte