Regresión Logarítmica Simple
1. INTRODUCCION:
Este modelo de regresión es una alternativa cuando el modelo lineal no logra un coeficiente de
determinación apropiado, o cuando el fenómeno en estudio tiene un comportamiento que puede
considerarse potencial o logarítmico. La forma más simple de tratar de establecer la tendencia es a
través de un diagrama de dispersión o nube de puntos, tal como la siguiente:
Este modelo también es conocido como potencial, Cobb-Douglas de primer grado o exponencial inverso.
2. Ecuación característica
La función que define el modelo es la siguiente:
Yi=A*XBi* E
En la cual:
Yi: Variable dependiente, iésima observación
A, B: Parámetros de la ecuación, que generalmente son
desconocidos
E: Error asociado al modelo
Xi: Valor de la í-esima observación de la variable
independiente
Al sustituir los parámetros por estimadores, el modelo adopta la siguiente forma:
yi=a*xbi
la ecuación se transforma aplicando logaritmos de ambos lados, con lo cual se convierte a una forma
lineal:
Ln yi= Ln a +b*Ln xi
3. Tabla de datos
Para el ajuste de un conjunto de datos al modelo geométrico de regresión, se construye la siguiente tabla
de datos:
X Y Ln x Ln y (ln x)2 (ln y)2 Ln X*ln y
.. .. .. .. .. ..
Σln x Σln y Σ(ln x)2 Σ(lny)2 ΣLnx*lny
Debido a las propiedades de los logaritmos, ningún valor de x ni de y puede ser negativo. En tal caso, lo
que se hace es definir un valor de x o de y muy pequeño (Ej: 0.00000001)
Se puede trabajar con logaritmos naturales o logaritmos base 10.
4. Estimadores del modelo
los estimadores para el ajuste del modelo se calculan de la siguiente manera:
b = (Σlnx * Iny - (Σln x * Σln y/n))/ (Σlnx)^2 – (Σlnx)^2/n
Ln a = (Σlny – b * Σlnx )/ n
Será necesario utilizar antilogaritmos para obtener el valor final de a
5. Análisis de varianza para la regresión
Con el objeto de determinar si el modelo explica o no el fenómeno en estudio, se realiza el análisis de
varianza, que se calcula de la siguiente manera
Fuente de Grados de Suma de cuadrados Cuadrado F calculada F
Variación libertad medio tabulada
Regresión 1 b* (ΣLnxlny- S.C. Reg/1 [Link]/[Link]
Σ(Lnx)*Σ(lny)/n)
Error n-2 S.C. Total- S.C. Regresión S.C. Error/(n-2)
Total n-1 Σ(lny)2-(Σlny)2 /n n-1
Ho: El modelo no explica el fenómeno en estudio
Ha: El modelo sí explica el fenómeno en estudio
Para buscar en la tabla la F tabulada, se usan el el numerador los grados de libertad de
regresión y en el denominador, de acuerdo al nivel de significancia escogido (los más usuales son al 5%
y al 1%)
Si el valor de F calculada es mayor que el de F tabulada, se rechaza Ho, en caso contrario se
acepta
6. Grado de ajuste del modelo
Para determinar el grado de ajuste del modelo, se calcula el coeficiente de determinación, de la siguiente
manera
r^2 = b*(ΣLnx * Iny – (ΣLnx * ΣLny)/n ) / Σ(Lny)^2 – (ΣLny)^2/n
El valor de r2 tiene un rango entre 0 y 1. No puede obtenerse valores negativos
7. Pruebas de Hipótesis para el modelo
7.1 Para el coeficiente b
Para probar la hipótesis de que el coeficiente b es igual a un valor b´, ser igual a cero, se procede de la
siguiente manera:
i) Se plantea la hipótesis Ho:b=b´ y la alternativa Ha: b≠ b´
ii) Se calcula el estadístico:
t= (b-b’) / Sb
Sb es conocido como el error standard de b y se calcula de la siguiente manera:
Sb = √ Cuadrado medio del error) / √ / Σ(Lnx)^2 – (Σ(Lnx)^2 /n)
El cuadrado medio del error se obtiene del anàlisis de varianza.
iii) Se busca en la tabla de t de student el valor tabulado para los siguientes datos:
n-2 grados de libertad y un nivel α/2
iv) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso
contrario, se acepta.
7.2 Para el coeficiente a
Se puede probar la hipótesis de que el coeficiente a es igual a un valor a´, para lo
cual se sigue el siguiente procedimiento:
i) Se define la hipótesis: Ho: a=a´ y la alternativa Ha: a≠a´
ii) Se calcula el error standard para a con la siguiente fórmula:
Sa = √ (Cuadrado medio del error * Σ(Lnx)^2)/ n*( Σ(Lnx)^2- Σ(Lnx)^2/n)
El cuadrado medio del error se obtiene del análisis de varianza
iii) Se calcula el estadístico de prueba:
t= (Ln a – Ln a’) / Sa
iv) Se obtiene en la tabla de t de student el estadístico comparador, con los siguientes datos: n-2 grados de
libertad y nivel α/2
v) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso contrario, la hipótesis se
acepta
8. Intervalos de confianza
8.1 Para el coeficiente b
El intervalo de confianza para el coeficiente b se calcula así:
IC: b +- t * √ cuadrado medio del error / √Σ(Lnx)^2) -( Σ(Lnx)^2 /n)
El cuadrado medio del error se obtiene del análisis de varianza
El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un
nivel α/2
8.2 Para el coeficiente a
El intervalo de confianza para el coeficiente a se calcula así:
Ln a +- t* √Cuadrado medio del error * Σ(Lnx)^2 / √n* (Σ(Lnx)^2- Σ(Lnx)^2/n)
El cuadrado medio del error se obtiene del análisis de varianza
El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un
nivel α/2
8.3 para la media de y
Un intervalo de confianza para la respuesta media de y, dado x 0 sería:
Ln y +- t * √Cuadrado medio del error * √1/n + (Ln x0 – Lnxn) ^2/ (Σ(Lnx)^2- Σ(Lnx)^2/n)
El cuadrado medio del error se obtiene del análisis de varianza
El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un
nivel α/2
El valor de xm que aparece en la fórmula es el promedio de valores de los logaritmos de x
8.4 para la estimación de y
El intervalo de confianza para la estimación de y, dado un valor de x 0 se obtiene de la siguiente manera:
Ln y +- t * √Cuadrado medio del error * √1 + 1/n + (Ln x0 – Lnxn) ^2/ (Σ(Lnx)^2- Σ(Lnx)^2/n)
El cuadrado medio del error se obtiene del análisis de varianza
El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un
nivel α/2
El valor de xm que aparece en la fórmula es el promedio de valores de x
9. Cálculo de estimadores, coeficiente de determinación y análisis de varianza mediante el uso de
matrices
Un método alternativo para realizar los cálculos es el uso de matrices. En este caso, el procedimiento es
el siguiente:
i) formar la matriz x: (matriz de variable independiente), agregando la primera columna formada por unos:
1 Ln x1
1 Ln x2
... .....
1 Ln xn
ii) Formar el vector de logaritmos de y
Ln y1
Ln y2
.....
Ln yn
iii) Formar la matriz x transpuesta ( x´)
1 1 ... 1
Ln x1 Ln x2 ... Ln xn
iv) Calcular el producto matricial x´x
V) Calcular la inversa del producto [ o sea (x´x)-1]
vi) Calcular el producto x´y
vii) Calcular el producto (x´x)-1*(x´y)=b
El resultado de esta operaciòn es el vector de coeficientes de regresiòn (el primero es el logaritmo de a y
el segundo es b). El valor de b sale directamente, mientras que el de a está en forma logarìtmica, de
modo que para formar la ecuaciòn original se obtiene el antilogaritmo.
viii) Para el càlculo del anàlisis de varianza, se tienen las siguientes operaciones
matriciales:
Fuente de Grados de Suma de cuadrados Cuadrado F calculada F
Variación libertad medio tabulada
Regresión 1 S.C. Reg/1 [Link]/[Link] *
b´(x´ )(y)- nym2
Error n-2 y´y-b(x´ )(y) S.C. Error/(n-2)
Total n-1 2 n-1
y´y- ny m
El valor de ym que aparece en las fórmulas es el promedio de los logaritmos de y
ix) Finalmente, el coeficiente de determinación por matrices se obtiene de la
siguiente manera:
r2= {b´(x´) (y)- nym2}/(y´y- nym2)
Ejemplos:
Ejercicio 1
Se realizó un estudio comparativo del nivel de ruido (en decibeles) producido por discotecas rodantes, se
procedió a evaluar diferentes niveles de potencia (en vatios). Los datos finales fueron:
POTENCI DECIBELES
A
100 60
500 80
1000 90
5000 99
10000 120
En base a los datos anteriores:
a) Construya un diagrama de dispersión
b) Efectúe la estimaciòn del modelo logarítmico
c) Determine el grado de ajuste e interprételo
d) Elabore el análisis de varianza y discútalo
e) Qué lectura se obtendría con una potencia de 3000 vatios?
f) Pruebe la hipòtesis que b=1 con un 99% de confianza
g) Calcule intervalo de confianza al 95% para a y b
h) Efectùe la estimaciòn del modelo, el andeva y obtenga el coeficiente de determinaciòn por medio de
matrices.
a) Diagrama de Dispersión
140
120
100
80
60
40
20
0
0 2000 4000 6000 8000 10000 12000
El diagrama de dispersión muestra una tendencia logarítmica, pues aunque hay incrementos fuertes de
potencia, los niveles de ruido no crecen excesivamente.
b) Estimadores del modelo
i) Tabla de Datos:
x y Ln x Ln y (ln x)2 (ln y)2 Lnx*Lny
100 60 4.6052 4.0943 21.2076 16.7637 18.8552
500 80 6.2146 4.3820 38.6214 19.2022 27.2326
1000 90 6.9078 4.4998 47.7171 20.2483 31.0836
5000 99 8.5172 4.5951 72.5426 21.1151 39.1375
10000 120 9.2103 4.7875 84.8304 22.9201 44.0944
SUMAS: 35.4551 22.3588 264.9190 100.2493 160.4033
ii) Estimadores del modelo
b= (160.4033 – (35.4551*+ 22.3588)/5) / 264.919 – (35.4551)^2/5
b= 0.1374
Lna = 22.3588-0.1274*35.4551/5 = 3.497
a= e^3.497 = 33.0164
Ecuación Final = yi= 33.0164 * Xi ^ 0.1374
c) Grado de ajuste del modelo
El coeficiente de determinación se calcula así:
r^2 = 0.1374 * ( 160.4033- 35.4551-22.3588/5)/100.2493-(22.3588)^2/5
r^2 = 0.9586
Se puede concluir que el grado de ajuste del modelo es alto, por lo que el modelo es confiable para
hacer predicciones.
d) Análisis de varianza del modelo
i) Suma de cuadrados de regresión:
0.1374*(160.4033-35.4551*22.3855/5)= 0.255
ii) Suma de cuadrados total
100.2493-(22.3588)^2/5 = 0.2661
iii) Suma de cuadrados del error : 0.2661-0.255= 0.0111
iv) Grados de libertad de regresion=1
v) Grados de libertad totales= 5-1=4
vi) Grados de libertad del error=5-2=3
vii) Cuadrado medio de regresión= 0.255/1=0.255
viii) Cuadrado medio del error= 0.0111/3=0.0037
ix) F Calculada=0.255/0.0037=68.91
x) F Tabulada (1,3,0.01)= 34.12
xi) Tabla de Andeva:
Fuente de Grados de Suma de cuadrados Cuadrado F F
Variación libertad medio calculada tabulada
Regresión 1 0.2550 0.255 68.91 34.12*
Error 4 0.0111 0.0037
Total 5 0.2661
Debido a que F calculada es mayor que F tabulada, se rechaza la Ho y se acepta la Ha, con lo cual se
concluye que el modelo sì explica el fenòmeno en estudio y que los resultados obtenidos no se deben a
la casualidad.
e) Què lectura en decibeles se obtiene al aplicar una potencia de 3,000 vatios?
Para esto, simplemente se utiliza la ecuaciòn anteriormente encontrada por estimaciòn, sustituyendo el
valor de x por 3,000
y= 33.164*(3000)0.1374=99.63
se puede aplicar la operaciòn equivalente por medio de los logaritmos de los estimadores:
Ln y= 3.497+0.1374*Ln(3,000)=4.59707
Finalmente, y=e4.59707=99.63
f) Pruebe la hipòtesis de que b=1 con un 99% de confianza
Inicialmente se plantea Ho: b=1 y su alterna Ha: b≠1
A continuaciòn se obtiene el error standard de b:
Sb = √0.0037/264919- (35.445) ^2/5 = 0.0165
El valor de t de student de calcula de la siguiente manera: (el logaritmo de 1 es cero)
t = 1-0.1374 / 0.0655= 13.169
El valor de t se obtiene en la tabla de t de student, con 5-2=3 grados de libertad y (1-.99)/2=0.005 de α,
siendo el valor igual a 5.841
Finalmente, dado que t calculada es mayor que la tabulada, se concluye al 99% que el coeficiente b no
es igual a 1.
g) Calcule intervalos de confianza al 95% para a y b
El valor de t de student al 95% con 3 grados de libertad es= 3.182
Intervalo de confianza para b:
0.1374+- 3.182 * √ 0.0037 / 264.919 – (35.4551) ^2/5 = 0.1374 +- 0.5266
El intervalo final será entonces el siguiente: -0.3892< B< 0.664
Intervalo de confianza para a:
3.497 +- 3.182 * √ 0.0037* 264.919 / 5* (264.919 - (35.4551) ^2/5)
El intervalo final para el logaritmo de a sería: 3.1137< Ln A <3.8803
i) Ajuste del modelo y análisis de varianza mediante matrices:
Matriz x: Matriz x transpuesta ( x´ )
1 1 1 1 1
4.605 6.2146 6.9078 8.5172 9.2103
2
Vector y: 4.09430
4.3820
4.4998
4.5595
4.7875
Producto x´x:
5 35.4551
35.4551 264.9191
Matriz inversa de x´x:
3.9228 -0.5250
-0.5250 0.07403
Producto x ´ y
22.8231
163.5535
Producto Final b=(x´x)-1* (x ´ y)
3.6644
0.1269
Análisis de varianza
Suma de cuadrados de regresión= b´x´y- nym2= 0.255
ym= 22.3588/5=4.47176
Suma de cuadrados total=y´y- nym2=0.2661
4.09430
4.3820
(4.0943 4.382 4.4998 4.5595 4.7875) 4.4998 -5(4.47176)2= 0.2661
4.5595
4.7875
Suma de cuadrados del error =: 0.2661-0.255=0.0111
Grados de libertad de regresión=1
Grados de libertad totales= 5-1=4
Grados de libertad del error=5-2=3
Cuadrado medio de regresión= 0.255/1=0.255
Cuadrado medio del error= 0.0111/3=0.0037
F Calculada=0.255/0.0037=68.91
F Tabulada (1,3,0.01) = 34.12
Análisis de Varianza Final:
Fuente de Grados de Suma de cuadrados Cuadrado F F
Variación libertad medio calculada tabulada
Regresión 1 0.255 0.255 68.91 34.12*
Error 3 0.0111 0.0037
Total 4 0.2661
Ejercicio 2
A partir de las siguientes observaciones para 5 años de las variables X e Y, ajústese el modelo de
regresión logarítmica de Y en función del X más idóneo.
Donde,
Y: producción nacional de un subsector industrial, en millones de toneladas.
X: tiempo
Año X Y
1995 1 1,25
1996 2 5
1997 3 11,25
1998 4 20
1999 5 30,5
En primer lugar linealizamos: lnY* = lna + b lnX V* = A + b U
X Y U=lnX V=lnY U2 UV Y* e=Y-Y* e2
1 1,25 0 0,2231 0 0 1,2557 -0,0057 0,0000
2 5 0,6931 1,6094 0,4803 1,1156 4,9888 0,0112 0,0001
3 11,25 1,0986 2,4203 1,2069 2,6590 11,18 0,0697 0,0049
4 20 1,3863 2,9957 1,9215 4,1530 19,82 0,1799 0,0324
5 30,5 1,6094 3,4177 2,5901 5,5006 30,901 -0,4012 0,1610
15 68 4,7875 10,666 6,1988 13,428 68,146 -0,1461 0,1984
1/5 3 13,6 0,9575 2,1332 1,2397 2,6856 13,629 -0,0292 0,0397
e0
S UV 1/5 ∑ UV- { Ū V̄ 2,6856-0,9575×2,1332
b= = = =1,9902 ¿
S 2U 1/5 ∑ U 2 −Ū 2 1,2397−0,95752
A=V̄ -b { Ū= 2,1332- 1,9902×0,9575 = 0,2277 ¿
Deshacemos el cambio efectuado: a= anti lna = anti ln 0,2277 = 1,2557
Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902
Bondad del Ajuste:
2
ECM =
∑ e
=0,0397
3
N
Nótese que al haber transformado la variable dependiente ya no se minimiza ∑ e2 sino
∑ (lnY-lnY¿ )2 , de ahí que ∑ e≠0 .