0% encontró este documento útil (0 votos)
20 vistas24 páginas

Tema 5 Modificado

El documento aborda los conceptos de regresión y correlación en estadística, explicando cómo se utilizan para modelar relaciones entre variables y predecir comportamientos. Se presentan métodos de regresión lineal simple y múltiple, así como la interpretación de coeficientes y la bondad del ajuste. Además, se discuten las diferencias entre regresión y correlación, enfatizando la importancia de medir la intensidad de la relación entre variables.

Cargado por

Jaime Turrión
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
20 vistas24 páginas

Tema 5 Modificado

El documento aborda los conceptos de regresión y correlación en estadística, explicando cómo se utilizan para modelar relaciones entre variables y predecir comportamientos. Se presentan métodos de regresión lineal simple y múltiple, así como la interpretación de coeficientes y la bondad del ajuste. Además, se discuten las diferencias entre regresión y correlación, enfatizando la importancia de medir la intensidad de la relación entre variables.

Cargado por

Jaime Turrión
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 5:

REGRESIÓN Y
CORRELACIÓN
Estadística Juan A. Núñez-Serrano
Descriptiva Jaime Turrión
[Link]ón.
[Link]ón: Introducción a los métodos de
ajuste.
[Link]ón lineal simple.
a) Regresión de Y/X
b) Regresión de X/Y
[Link]ón lineal múltipel
a) Interpretación de los coeficientes
[Link]ón y bondad en el ajuste
a) Coeficiente de determinación
b) Coeficiente de correlación
[Link] residual, de la regresión y total
Como se dijo en el tema anterior, uno de los objetivos del investigador
(economista) es encontrar relaciones entre distintos sucesos (Variables).
Para ello normalmente se hace a través de relaciones funcionales.
y  f ( x1 , x2 ,..., xn )
Bien sea por el desconocimiento sobre la verdadera estructura de la
relación, bien porque esa dependencia no es exactamente matemática, el
tratamiento que necesita esa modelización requiere un análisis
estadístico.

Los enfoques para abordar este problema son dos:

• Determinación de la estructura de dependencia que mejor exprese el tipo de


relación de la variable Y con las demás.
• Grado de dependencia existente entre las variables – Teoría de la Correlación
 La Regresión tiene por objeto poner de manifiesto, a partir de la información
de que se disponga, la estructura de dependencia que mejor explique el
comportamiento de la variable Y (variable dependiente o explicada) a través
de todo el conjunto de variables X1, X2, ...,Xp.

 Normalmente se denomina a:
• Y= Variable dependiente (o var. a explicar o endógena)
• X= Variable independiente (o var. Explicativa o exógena)

 Así, uno de los objetivos de un investigador (economista) es encontrar relaciones


entre distintas variables, normalmente a través de relaciones funcionales.
 Además, una vez que se sabe si dos variables tienen algún tipo de relación, nos
puede interesar predecir algunas situaciones. (ej. Salario y antigüedad)
Salarios
Supongamos que para una X\Y 1000 2000 3000 4000 [Link]
empresa disponemos de medios

Antigüedad
información sobre los salarios y
sobre la antigüedad de los 10 15 10 5 0 30 1667
trabajadores, y queremos 20 10 15 10 0 35 2000
predecir cual es el salario que
percibirá un trabajador que 30 0 10 15 10 35 3000
lleve 30 años de antigüedad. n.j 25 35 30 10 100 2250
¿Cómo lo haríamos?
Una forma sería ver el salario medio condicionado a que
4500
X=30 (Regresión de tipo I). Problema: Se necesitaría saber 4000

las medias para cada antigüedad (media condicionada), y si 3500


3000
hay muchos datos es laborioso.
2500
¿Cómo se soluciona el problema? 2000
1500
Aproximando a la nube de puntos de nuestra distribución
1000
bidimensional una función que refleje la relación entre las 500

variables. IMPORTANTE: ¿Qué tipo de relación existe entre 0


0 10 20 30 40
las dos variables?
¿Qué tipo de relaciones pueden existir? Imaginemos que después de analizar la nube de
puntos de nuestros datos decidimos que la relación
que existe entre ellos es lineal.

y *  a  bxi
De este modo lo que se pretende es buscar aquella
línea recta que mejor ajuste la nube de puntos.
¿Cuál es esa recta? Aquella que hace mínimo el
error cometido al reemplazar la nube de puntos
por esa recta.
4500
y = 50x + 1333,3
4000

a) Relación lineal decreciente 3500


3000
2500
b) Relación exponencial creciente 2000
1500
1000
c) Relación lineal creciente 500
0
d) Sin relación (lineal) 0 10 20 30 40
 El salario predicho por nuestra recta estimada sería el punto que pasa por la recta
(valor teórico, y*), y el salario real para cada empleado sería cada punto (valor
observado, yj). Por tanto, la diferencia entre el punto y la recta sería el error
cometido (e).

e j  y j  y *j y*j Así, la mejor forma de calcular dicha relación


yj entre las dos variables sería hacer mínimo el error
cometido para el conjunto de observaciones.

MÉTODO DE LOS MÍNIMOS CUADRADOS


ORDINARIOS

 Así, si tomamos la suma de todos estos residuos (errores):

 e n   ( y  y )n
i j
j ij
i j
j
*
j ij 0
 Como se ha visto anteriormente la mejor forma para estimar la recta que recoge
toda la información de la distribución, es la ecuación estimada a partir de la
minimización de los errores cometidos al cuadrado.
REGRESIÓN DE Y SOBRE X
 ¿Cómo se estima dicha recta? Realmente es un problema de minimización (de
dichos errores). Así, partiendo de la función objetivo: Error al cuadrado
   e 2j nij   ( y j  y *j ) 2 nij para que no se anule

Se minimiza: i j i j
Si la relación es
Min    ( y j  y ) nij   y j  a  bxi  nij NO LINEAL se
* 2 2
j hace aquí
i j i j
 Así, esta función depende de dos parámetros a y b, que son la ordenada en el
origen y la pendiente de la recta. Resolviendo el sistema:

a
 
 2 y j  a  bxi (1)nij  0
i j


b
 
 2 y j  a  bxi ( xi )nij  0
i j
Estimación por MCO

Divido entre (2) :


 y a  bx n
i j
j i ij  0   y j nij a  nij  b xi nij
i j i j i j

 y a  bx x n
i j
j i i ij  0   xi y j nij a  xi nij  b xi2 nij
i j i j i j

Resolviendo se obtienen las ecuaciones normales


y n
j
j ·j aN  b xi ni·
i

 i j ij  i i·  i ni·
i
x y n a
j
x n  b x 2

i i

Dividiendo por N y expresándolo en función de los momentos


a01  a  b  a10 multiplico por  a10  a01   a  a10  b  a102
-a10
a11  a  a10  b  a20 a11  a  a10  b  a20
Estimación por MCO

Si sumamos las dos expresiones anteriores:


S
a11  a10 a01  b  ( a20  a102 )  m11  bm20  b  m11  xy2
m20 S x
Además, como sabemos que:

S xy S xy
a01  a  b  a10  a  a01  b  a10  a  a01  2
 a10  a  y  2
 x  y b x
S x S x

Por tanto, la recta de regresión de Y sobre X, en función de los


momentos quedará:
S xy S xy S xy
y  a  bx  y  y  x  x y y   (x  x)  b  (x  x)
S 2
x S 2
x S x2
Estimación por MCO

Por analogía, la recta de regresión de X sobre Y, será:

S xy
xx  2
 ( y  y )  b'( y  y )
S y

Donde,
m11 S xy S xy
b'   2 a'  x  2
 y  x  b' y
m02 S y S y

Las dos rectas se cortan en ( x , y ) que es el CENTRO DE GRAVEDAD de


la distribución
Coeficientes de regresión

 Los coeficientes de regresión lineal son las pendientes de las rectas de regresión. Así, el
coeficiente de regresión de Y sobre X será:
S xy
b
S x2
 Pero b  tg  x por lo que nos mide la tasa de incremento de Y para variaciones
de X. y
 Es decir, b indica la variación de la variable Y para un incremento unitario de X.

El signo de b nos lo da la covarianza.


Regresión No Lineal

 Si recordáis hemos visto que cuando pretendemos ajustar una función puede que ésta
no sea necesariamente una línea recta. Sin embargo, su ajuste es muy sencillo cuando se
trata de los siguientes casos:

Función a ajustar Transformación


1
yx  b  y  b 1
Ajuste x x*   y  a  bx*
hiperbólico 1 x
y  ab
x

Ajuste potencial y  ax b log y  log a  b log x  y *  a '  bx*

Ajuste
y  ae bx log y  log a  b  x  y *  a '  bx
exponencial
Utilidades

 La regresión (lineal o no lineal) nos permite conocer la relación existente entre las
variables y la intensidad con la que esta existe (si existe). (Impacto)
 Además, es muy útil cuando se quiere predecir que le ocurrirá a una variable (Y)
cuando la otra (X) toma un determinado valor. (Ojo, hay que tener cuidado con la
predicción cuando nos alejamos mucho del rango de los datos originales)

Ejemplo de Predicción:
Y=Salario X=Antigüedad Recta de regresión de Y/X y  0,856  0,068 x
Un trabajador con 40 años de antigüedad quiere pedir una subida salarial, ¿según su
antigüedad que salario le correspondería?
yˆ  0,856  0,068 * 40  3,576 euros
Si se dispusiera del salario y quisiera predecir su antigüedad,
no podría usar esta regresión, sino que emplearía la de X/Y
 Evidentemente el método de regresión que hemos visto anteriormente se puede
generalizar al caso de n variables independientes (x) donde cada una de ellas
puede explicar algo de la dependiente (y). (Ejemplo: La cantidad demandada
de un bien (Y) no sólo depende de su precio (x1) sino que también puede
depender de la renta de los compradores (x2), de la publicidad que se realice
(x3), etc.)
y  f ( x1 , x2 ,..., xn )
 Este caso lo estudiareis con detenimiento en ECONOMETRÍA, pero es
interesante conocer ciertas cosas.
 La interpretación de los coeficientes es similar al caso de la regresión simple:
el coeficiente de cada variable independiente mide el efecto separado que
esta variable tiene sobre la variable dependiente.
Ejemplo: “The Demand for New Automobiles in the United States,” Review of Economics and
Statistics, 40 (1958)

Y = Ventas de Automóviles Nuevos (millones de unidades).


X1 = Índice del Precio Real de Automóviles Nuevos
X2 = Ingreso Disponible Real (en miles de millones de dólares)
X3 = Automóviles en Circulación al principio de cada año (millones de unidades)

Con estos datos, podemos estimar la siguiente regresión doble-log:

log(Y) = b0 + b1log(X1) + b2log(X2) + b3log(X3)

Puesto que todas las variables se expresan en términos de logaritmos, los coeficientes de regresión son
estimaciones de las elasticidades de Y respecto de las variables independientes. La regresión estimada
fue la siguiente:

Ventas = –1,580 –1,422 Precio +3.216 Renta –1.479 Aut. circulación

En base a estos resultados, se puede concluir que la elasticidad-precio de la demanda de automóviles


nuevos en este período era de aproximadamente –1.4 (un incremento del precio del 1% disminuirá en
un 1,42% las ventas), con una elasticidad-ingreso de aproximadamente 3,2 (un incremento de un 1% de
la renta, incrementará las ventas en un 3,21%).
 En el tema anterior, vimos que la covarianza nos proporciona información
sobre el tipo de relación lineal existente entre dos variables. Sin embargo,
sería interesante conocer el grado de dependencia entre las dos variables.

 Así, mientras la regresión estudia la posible predicción de los valores de una


variable a partir de la otra, la correlación estudia el tipo de dependencia que
existe entre ambas variables. El problema por lo tanto, es la medición de la
intensidad con la que dos variables puedan estar relacionadas.

 De este modo, si todos los puntos de la nube estuvieran sobre la función


estimada, la dependencia sería funcional, por lo que el grado de
dependencia sería el máximo posible. Por otro lado, cuanto más se alejen los
puntos de dicha función, mayores serán los residuos (errores), y por tanto la
dependencia será menor.
 Pues bien, la media de todos los residuos elevados al cuadrado se le denomina
VARIANZA RESIDUAL
 ( y j  y *j ) 2 nij (y j  y *j ) 2 n· j
S ry2  
i j j

N N
 Esta varianza nos indicará en cierto modo el grado de dependencia entre las
dos variables.

• Varianza residual grande errores grandes, poca dependencia

• Varianza residual pequeña errores pequeños, gran dependencia

 Problema: Unidad de medida NO permite comparar entre variables


Coeficiente de correlación
lineal

 El concepto de correlación está íntimamente ligado al de regresión, ya que


siempre se habla de correlación según una determinada curva de regresión.

 Así, la correlación, particularizada para el caso lineal, se mide a través del


COEFICIENTE DE CORRELACIÓN LINEAL (r). Que determina el grado de
ajuste entre una nube de puntos y una recta de regresión.

S xy S xy S xy
r  b  b' 
S x2 S y2

S ySx
1  r  1

 Propiedad de r: El coeficiente de correlación lineal es invariante ante


cambios de origen y de escala.
Interpretación

• r=1  S2ry=0: Dependencia funcional. Correlación lineal perfecta positiva.


Esto indica que todos los valores teóricos coinciden con los observados, es decir,
todos los puntos de la nube están sobre la función lineal.

• r=0  Sxy=0 Sin dependencia. Correlación nula. No se consigue ninguna


explicación de la variable Y al relacionarla con X, por lo que no están
asociadas.

• r=-1  S2ry=0: Dependencia funcional. Correlación lineal perfecta negativa.


(en este caso obsérvese que la covarianza sería negativa).

• -1<r<0  Correlación negativa. Más intensa cuanto más próxima a -1

• 0<r<1  Correlación positiva. Más intensa cuanto más próxima a 1.


Coeficiente de determinación

 Sabemos que el error medio de la regresión es 0, pero eso no quiere decir


que las predicciones o el ajuste que hagamos sea bueno. Sabemos, que
cuanto más alejados estén los puntos de la función a estimar (cuanto mayores
sean los errores o residuos) peor va a ser el ajuste. Pero,

¿CÓMO MEDIMOS SI EL AJUSTE ES BUENO O MALO?

 Para esto necesitamos encontrar un medio que mida la BONDAD DEL


AJUSTE o la BONDAD DE LA PREDICCIÓN.

Coeficiente de S xy2
Determinación r2  0  r2 1
LINEAL S y2 S x2
 Sabemos que:
• yj=Valores observados de y
• yj*=Valores teóricos asignados a cada xi
• ej= residuos o errores que genera la regresión
k

Valor medio de la yj y n
j 1
j ·j

y
N
nij nij
Valor medio de los residuos ej e   e j   ( y j  y *j ) 
N N
e 0
i j i j

  S xy  nij nij S xy nij


   y j   y  2 ( xi  x )     ( y j  y)  2  ( xi  x ) 0
i j   Sx  N i j N Sx i j N

Valor medio de los valores teóricos yj*


 y n *
 ( y  e j )nij
y*  y  e  y
j ij j

y  
* i j i j

N N
 Sabiendo esto tenemos que:

VARIANZA TOTAL: nij


S   ( y j  y )
2
y
2

i j N

VARIANZA RESIDUAL nij


(de los residuos) S   ( y j  y )
2
ry
* 2
j  S y2 (1  r 2 )
i j N

VARIANZA DEBIDA A 2 nij nij


S R   ( y *j  y * ) 2   ( y *j  y ) 2  r 2  S y2
LA REGRESIÓN i j N i j N

 Luego tenemos que,

S S S
2
y
2
R
2
ry
 De este modo sabemos que podemos descomponer la varianza total
(de y) como la suma de la varianza residual (de e) y la varianza de la
regresión (de y*).

 Así, si dividimos la expresión anterior entre la varianza total:

% de la variación S 2
S ry2 % de la variación de Y que
1  2
R
NO es explicada por la
de Y que explica S 2
Sy
la regresión
y regresión

 Si se despeja el % que explica la regresión tenemos que:

S2
S ry2 Por tanto el r2 mide el grado de acierto de la
R
2
 1 2  r2 utilización de la regresión, o el % de variabilidad
Sy Sy de Y que queda explicada por la regresión

También podría gustarte