0% encontró este documento útil (0 votos)
345 vistas13 páginas

Análisis de Multicolinealidad en Datos Longley

Este documento presenta datos económicos de Estados Unidos entre 1947 y 1962 con el objetivo de predecir el número de personas empleadas (Y) en base a seis variables independientes (X1 a X6). Se realizan varias pruebas estadísticas que sugieren la presencia de multicolinealidad entre las variables, incluyendo altos coeficientes de correlación, valores R2 muy elevados en las regresiones auxiliares, y el rechazo de la hipótesis nula en la prueba de Farrar-Glauber. Para corregir este problema
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
345 vistas13 páginas

Análisis de Multicolinealidad en Datos Longley

Este documento presenta datos económicos de Estados Unidos entre 1947 y 1962 con el objetivo de predecir el número de personas empleadas (Y) en base a seis variables independientes (X1 a X6). Se realizan varias pruebas estadísticas que sugieren la presencia de multicolinealidad entre las variables, incluyendo altos coeficientes de correlación, valores R2 muy elevados en las regresiones auxiliares, y el rechazo de la hipótesis nula en la prueba de Farrar-Glauber. Para corregir este problema
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Datos Longley

Obs. y x1 x2 x3 x4 x5 Tiempo
1947 60323 830 234289 2356 1590 107608 1
1948 61122 885 259426 2325 1456 108632 2
1949 60171 882 258054 3682 1616 109773 3
1950 61187 895 284599 3351 1650 110929 4
1951 63221 962 328975 2099 3099 112075 5
1952 63639 981 346999 1932 3594 113270 6
1953 64989 990 365385 1870 3547 115094 7
1954 63761 1000 363112 3578 3350 116219 8
1955 66019 1012 397469 2904 3048 117388 9
1956 67857 1046 419180 2822 2857 118734 10
1957 68169 1084 442769 2936 2798 120445 11
1958 66513 1108 444546 4681 2637 121950 12
1959 68655 1126 482704 3813 2552 123366 13
1960 69564 1142 502601 3931 2514 125368 14
1961 69331 1157 518173 4806 2572 127852 15
1962 70551 1169 554894 4007 2827 130081 16

Se quiere predecir Y (variable dependiente) en base a seis variables X (independientes):

 Y = Número de personas con trabajo (en miles)


 X1= índice implícito de deflación de precios para el PBI
 X2= PBI (en millones de dólares)
 X3= Números de desempleados (en miles)
 X4= Número de personas enlistadas en las fuerzas armadas
 X5= Población no institucionalizada mayor de 14 años de edad.
 X6= Año (igual 1 para 1947, 2 para 1948 y así sucesivamente).
1.- Mediante el software Eviews obtenemos los siguientes resultados de la regresión
Los resultados, en general, sugieren una sospecha de multicolinealidad; pues el R2 es alto
(0.995479), y además existen algunas variables independientes, en cuanto al estadístico t,
que no son significativas (pudiéndoselas retirar y por tanto, no considerar). Las mismas que
son X1, X2 y X5, pues sus estadísticos en términos de valor absoluto no son mayores o iguales
a dos. Por otro lado, el estadístico F, es alto. Entonces, nos encontramos con indicios que
sugieren que podría existir multicolinealidad.

2.- Lo siguiente para detectar la existencia o sospecha de multicolinealidad es presentar


la Matriz de correlación.
Ello entendiéndose como asociación.

Esta matriz está midiendo el grado de asociación entre las seis regresoras. Por
ejemplo, en la primera fila 0.991589 es la correlación entre X1 y X2; 0.991149 es
la correlación entre x1 y x6. En la fila n° 5, 0.991090 es la correlación entre x5 y
x2; 0.993953 es la correlación entre x5 y x6, y así sucesivamente en las filas n° 2
y 6.

La correlación más resaltante es la que hay entre las variables x2 y x6, lo que
significaría que la relación existente entre las dos es de 0.995273; es decir, entre
esas dos variables hay una estrecha asociación.

Como se puede observar varias de estas correlaciones son muy altas, lo que
sugiere que haya sospecha de multicolinealidad.

3.- Para ser aún más claros con la existencia de multicolinealidad se aplicarán las
Regresiones auxiliares.
En otras palabras, la regresión de cada variable X sobre las demás. Todo ello se podrá
efectuar en el software Eviews.
A) LS X1 C X2 X3 X4 X5 X6

Se puede ver que en el caso del estadístico t, hay muchas


regresoras que tienen valores cercanos a dos o inferiores,
lo que sugiere que no son significativos. Por otro lado, el R2
(la representatividad) es 0.992622 lo que demuestra que
es muy alto. Por lo tanto, hay sospecha de
multicolinealidad.
B) LS X2 C X1 X3 X4 X5 X6

Los valores del estadístico t, en su


mayoría, son significativos. Sin
embargo, el R2 es muy alto
(0.999441).

C) LS X3 C X1 X2 X4 X5 X6

Aunque el valor absoluto del


estadístico t, de todas las variables
está por encima de dos, existen
algunos que se acercan a dos. Por
otro, el R2 ha disminuido con respecto
al modelo inicial.
D) LS X4 C X1 X2 X3 X5 X6

En este caso, el estadístico t, de las variables


en general no son significativos porque son
inferiores o cercanos a dos. Sin embargo, se
nota que el R2 ha disminuido notablemente.

E) LS X5 C X1 X2 X3 X4 X6

Los estadísticos de las variables son


cercanos a dos. Y el R2 (0.997495) ha subido
en relación a la inicial.
F) LS X6 C X1 X2 X3 X4 X5

Aunque los valores del estadístico t,


en su mayoría son mayores que dos
no lo son por mucho. A su vez, el R2 ha
aumentado (0.998682).

Entonces, en general, al observar los valores R2 de las regresiones auxiliares notamos


que estos son muy altos, con excepción de X4. Además, existen tres valores que exceden
el valor de la regresión original (entre “Y” y las variables “X”), el mismo que es 0.9954.
Por todo ello, se presume de la existencia de multicolinealidad en los datos de Longley.
4.- También podemos aplicar logaritmos a estas variables regresoras para comprobar la
evidencia posible de multicolinealidad. De esa forma, hallamos la Matriz de correlación
en términos de logaritmos.
Entonces, con Eviews.
Ahora la Matriz de correlación:

Se nota que existe el problema de la multicolinealidad. Por lo tanto, tendrá que hacer
medidas correctivas para solucionarlo.
5.- Entonces para comprobar y eliminar la sospecha de multicolinealidad se realiza la
Prueba de Farrar y Glauber.

H0: No existe significativa multicolinealidad


H1: Existe significativa multicolinealidad

A) X2 calculado:
2𝑘+5
X2Calculado = − (𝑛 − 1 − ) ∗ ln(𝑑)
6

= -(16-1-(2*6+5) /6) *ln(d)


= - 73/6 *ln(d)

B) Grado de libertad
X2 g.l = 𝑘(𝑘 − 1)/2
= 6(6-1) /2
=15
Con ayuda del Eviews hallamos la determinante
A) sym mcorrel=@cor(tablavxn)
B) scalar detcor=@det(mcorrel)

Resultando: 1.579615486247646e-08
Entonces X2 cal =218.555908

C) X tabla:
Por otro lado, el valor X tabla:

Tabla 4. Distribución de ji-cuadrado

Probabilidad de un valor superior


Grados de
0,1 0,05 0,025 0,01 0,005
libertad
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,30
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 Con un
29,14
alfa de 0.05 31,32
0 un intervalo de
15 22,31 25,00 27,49 30,58confianza32,80
al 95%
16 23,54 26,30 28,85 32,00 34,27
17 24,77 27,59 30,19 33,41 35,72
18 25,99 28,87 31,53 34,81 37,16
19 27,20 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40,00
21 29,62 32,67 35,48 38,93 41,40
22 30,81 33,92 36,78 40,29 42,80
23 32,01 35,17 38,08 41,64 44,18
24 33,20 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,50 71,42 76,15 79,49
60 74,40 79,08 83,30 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,30
100 118,50 124,34 129,56 135,81 140,17

Así: X tabla es 25.


En consecuencia
Se rechaza la hipótesis nula; pues Xcal cae en la zona de rechazo. Por lo tanto, se
comprueba de la existencia significativa de multicolinealidad.
5.- Se realiza las medidas correctivas para reorganizar el modelo original
a) El PBI puede ser expresado en términos reales; es decir convertir el PBI nominal
considerando la inflación
b) No consideramos la variable x6 (tiempo).
c) También se desecha X3 (número de desempleados), se sugiere que pudo ser más
conveniente un índice de ello.

Obs. y PBIreal x4 x5
1947 60323 282.275904 1590 107608
1948 61122 293.136723 1456 108632
1949 60171 292.578231 1616 109773
1950 61187 317.987709 1650 110929
1951 63221 341.969854 3099 112075
1952 63639 353.719674 3594 113270
1953 64989 369.075758 3547 115094
1954 63761 363.112 3350 116219
1955 66019 392.755929 3048 117388
1956 67857 400.745698 2857 118734
1957 68169 408.458487 2798 120445
1958 66513 401.214801 2637 121950
1959 68655 428.689165 2552 123366
1960 69564 440.105954 2514 125368
1961 69331 447.859118 2572 127852
1962 70551 474.67408 2827 130081

6.- En Eviews
Finalmente, el valor estadístico t, de cada regresora, es significativa, aunque hay dos
valores que se aproximan a dos. Por otro lado, es cierto que r2 ha disminuido, pero aún
sigue siendo alto.

También podría gustarte