La multicolinealidad
En el capítulo 10 de libro introducción a la econometría del escritor Jefrey
Wooldrigde lo cual hace referencia a la multicolinealidad explicaremos a fondo los
temas destacados de la multicolinealidad, temas de bastante importancia en nuestro
proceso de formación. pero primero definiremos que es la multicolinealidad. El
problema de relaciones lineales múltiples involucra la existencia de relaciones
lineales entre dos o más variables independientes desde un modelo lineal simple
hasta múltiples ecuaciones. Dependiendo de la naturaleza de esta relación lineal,
hablaremos de la relación lineal múltiple.perfecto o aproximado Las principales
causas de multilinealidad en el modelo son:La relación causal entre las variables
explicativas del modelo.Poco cambio en las observaciones de las variables
independientes. Tamaño de muestra pequeño.En resumen, la multicolinealidad es a
menudo un problema de muestreo. normalmente sobre datos con una configuración
de serie temporal. Así, por ejemplo, la edad y la experiencia tienden a formar una
fuerte relación Porque ambos envejecen juntos: cuanto mayor te
haces,directamente. Por esta razón, será difícil separar el efecto de cada tipo en.
Las variables dependientes y multilineales ocurren debido a la causalidad entre
estas variables (series de tiempo).
Una de las hipótesis del modelo de regresión lineal múltiple establece que no existe relación
lineal exacta entre los regresores, o, en otras palabras, establece que no existe
multicolinealidad perfecta en el modelo. Esta hipótesis es necesaria para el cálculo del vector
de estimadores mínimos cuadráticos, ya que en caso contrario la matriz X'X será no singular.
La multicolinealidad perfecta no se suele presentar en la práctica, salvo que se diseñe mal el
modelo como veremos en el epígrafe siguiente. En cambio, sí es frecuente que entre los
regresores exista una relación aproximadamente lineal, en cuyo caso los estimadores que se
obtengan serán en general poco precisos, aunque siguen conservando la propiedad de
lineales, insesgados y óptimos. En otras palabras, la relación entre regresores hace que sea
difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, lo que
determina que las varianzas de los estimadores sean elevadas. Cuando se presenta una
relación aproximadamente lineal entre los regresores, se dice que existe multicolinealidad no
perfecta. Es importante señalar que el problema de multicolinealidad, en mayor o menor
grado, se plantea porque no existe información suficiente para conseguir una estimación
precisa de los parámetros del modelo. El problema de la multicolinealidad hace referencia, en
concreto, a la existencia de relaciones aproximadamente lineales entre los regresores del
modelo, cuando los estimadores obtenidos y la precisión de éstos se ven seriamente
afectados. Para analizar este problema, vamos a examinar la varianza de un estimador. En el
modelo de regresión lineal múltiple, el estimador de la varianza de un coeficiente cualquiera
– por ejemplo, de ˆ β j - se puede formular de la siguiente forma: n 2 2 2 ˆ ˆ var( ) (1 ) j T RS j
j σ β = − (1) donde 2 Rj es el coeficiente de determinación obtenido al efectuar la regresión
de Xj sobre el resto de los regresores del modelo. 2 j S es la varianza muestral del regresor Xj
Como se deduce de la expresión anterior, el estimador de la varianza viene afectado por los
siguientes factores: a) Cuanto mayor es 2 σˆ , es decir, cuanto mayor es la dispersión de los
datos en modelo ajustado, mayor será la varianza del estimador
Ahora supongamos que tenemos una encuesta que tenemos que evaluar Las siguientes
afirmaciones están en una escala del 1 al 5, donde 1 significa que estamos Totalmente en
desacuerdo y 5 totalmente de acuerdo: Estoy bastante seguro de que sacaré un 10 en
econometría. No me gusta la econometría. Para el primer comando, la variable la llamaremos
´X, tendremos los valores Concéntrese en aproximadamente 1, mientras que en el segundo,
que llamaremos Y,obtendremos valores en torno a 5. Así, tendremos una dependencia lineal
Dado que p ∼ = 5 x. Estas variables se pueden usar en un modelo donde la variable
dependiente es la nota obtenida en la asignatura de econometría: ´ X puede ser El índice de
nivel pronosticado y la correlación de material Y. Como puede verse, la relación lineal
múltiple en este ejemplo se debe a problemas con las observaciones disponibles (baja
varianza o tamaño pequeño).de la muestra). Entonces, si podemos mejorar estos problemas
de muestreo se evitará una relación lineal múltiple entre estas variables.
Una relación lineal múltiple exacta o completa indica que existe una relación lineal
exacta entre dos o más variables independientes. Este tipo de relación lineal
múltiple hace que uno de los archivos falle Supuestos Básicos del Modelo de
Ecuaciones Múltiples Simples: La matriz X no tiene rango.columna completa, es
decir, rg(X) <k. el<="" b=""> incumplimiento de este supuesto no permite invertir la
matriz ́ X amigo entonces del sistema habitual X amigo Xβ=amigo Compatibilidad
indefinida, es decir, no se puede obtener una solución 'única'Porqueβb (hay
infinitos). ¿Qué haces en esta situación? Evidentemente, sería imposible estimar Sin
embargo, el coeficiente de las variables independientes, si se pueden estimar
Combinación lineal de ellos. En tal caso, no garantizamos que pueda recuperar
estimaciones de parámetros de Un nativo.</k.>
La relación polinomial aproximada indica que existe una relación aproximación lineal
entre dos o más variables independientes. En este caso, la suposición básica es
que la matriz X es completar por columna(amor(X) =k), por lo que puede invertir ´ X
amigo x y obtener Estimación por mínimos cuadrados ordinarios. Sin embargo, el
factor decisivo subordinar X amigoS estará muy cerca de 0, entonces (X amigoS)-
1 tendrá valores de ́ .alto. Por lo tanto, cuando hay un problema de relación lineal
múltiple incompleta Se producen los siguientes problemas:La varianza en los dos
estimadores es muy grande. Al realizar pruebas de significancia individuales,
La hipótesis nula, al realizar pruebas de correlación sí. Los coeficientes estimados
serán muy sensibles a pequeños cambios en datos. Alto coeficiente de
determinación.Con base en los síntomas anteriores para detectar varios La
colinealidad no es una medida fiable porque es subjetiva. Por esta razón, para
encontrar la relación polineal, usaremos el método número de país ́ Factor de
amplificación de contraste. El número condicional, ´ k (x), se define como la raíz
cuadrada del cociente Entre el valor propio máximo de XtX y max y el mínimo ~
λmin. Eso es todo: k(X) = rλmax λmin. Si el número de dichas condiciones toma un
valor entre 20 y 30, estamos en una situación Puede ocurrir un problema de relación
polilineal y se considera seguro si supera los 30.
Algunas de las posibles soluciones al problema polineal son:Optimice el plan de
muestreo extrayendo la máxima información de la varianza Se notaron lesiones.
Excluya las variables de las que se sospeche que están en el origen de la relación
lineal múltiple. Si hay pocas notas, sube el volumen para saborear. Utilice una
relación de submuestra para poder establecer una relación entre Parámetros (pre-
información) que ayudan a estimar el modelo en El cuadrado más pequeño está
restringido. Por otro lado, algunos autores proponen resolver el problema de la
relación lineal múltiple de forma puramente mecánica y computacional proponiendo
una técnica bien conocida. Como una retracción con flecos. Sin embargo, esta
técnica tiene dos problemas principales. Tantes: Obtención de estimaciones
arbitrarias e inexplicables. ´
Incluido en el formulario de información. Plan de muestreo no experimental
A menudo son responsables de estos defectos. pero,Los enfoques cuantitativos de
los conceptos teóricos pueden no ser exhaustivos,Provocó la reproducción aleatoria
de términos para absorber errores.Determinar. Aquí hay algunas soluciones
sugeridas.Resolver el problema de relaciones lineales múltiples. eliminar variables
La relación polilineal se puede minimizar si las funciones de regresión son
Más influenciado por la relación polilineal. El problema con esta solución es que las
estimaciones del nuevo modelo estarán sesgadas si el modelo original es correcto.
Para esta pregunta, es apropiado después de pensar. El investigador quiere que el
estimador sea preciso (es decir, decir que no hay sesgo o es demasiado pequeño) y
con contraste reducir proporcionalmente. El error cuadrático medio (MCE) registra
ambos tipos de factores. Así que para él estimadorβj, el ECM se define como:2 () ()
() ECM Bias Var β j jj = β β (7) Si el coeficiente de regresión se elimina del modelo,
el estimador de regresión su mantenimiento (ej.β j) estaría sesgado, pero no
obstante, NO Puede ser inferior al correspondiente al modelo original, ya que
Eliminar una variable puede reducir la varianza lo suficientes estimado. En resumen,
incluso si la variable no se eliminan Las prácticas que se recomiendan, en principio,
pueden ser bajo ciertas condiciones Justifícalo porque ayuda a bajar el ECM.
Aumentar el tamaño de la muestra Teniendo en cuenta implícitamente un cierto
grado de linealidad Problema cuando la muestra es diferente Estimadores, las
soluciones deben apuntar a reducir esta varianza. Hay dos formas: por un lado, el
cambio se puede aumentar juntos Longitud de muestra para regresión lineal al
proporcionar retroalimentación Agregar. Esta solución no siempre es posible, porque
los datos se utilizan En las pruebas empíricas, suelen provenir de fuentes
estadísticas.Diversificación, involucrando al investigador varias veces en el grupo
Información. Por otro lado, cuando se trata de diseños experimentales, pueden
aumentar la volatilidad de la regresión sin aumentar el tamaño de la muestra.
Finalmente, no debemos olvidar que el término shuffle no debe contener ningún
elemento que sea realmente relevante para la interpretación. Variables de regresión
para reducir al máximo la varianza del término trastorno. Usar información de
formulario adicional Otra posibilidad es utilizar información adicional de la muestra,
Estableciendo restricciones en los parámetros del modelo, o Aproveche las
estimaciones de otros estudios. Establecer restricciones de parámetros del modelo
Reducir el número de parámetros a estimar y así reducir el riesgo Lagunas en la
información de la muestra. .
En general, la desventaja de este método es que la significación atribuida al
estimador obtenido a partir de los datos de la sección transversal es muy diferente a
los datos obtenidos a partir de los datos temporales. A veces estos tasadores
Pueden ser realmente “ajenas” o ajenas al tema de estudio. Aarón En parte, al
estimar diferencias para estimadores obtenidos por segundo Regresión, se debe
tener en cuenta la estimación anterior. Usar métricas clave Si en lugar de la
regresión y regresión del modelo original, puede usar proporciones para las
pendientes lineales más superpuestas Lo que conduce a una menor correlación
entre la regresión del modelo. Este tipo de solución es muy atractiva, debido a la
sencillez de la aplicación. Sin embargo, las transformaciones de las variables
originales del modelo El uso de proporciones puede causar otros tipos de
problemas. Asumo Presenta las hipótesis básicas relacionadas con los trastornos
primarios.Del modelo, esta transformación modificará completamente las
propiedades.Del modelo, como la perturbación del modelo transformado.
El uso de la escala no será un desorden uniforme, sino Cambios de contraste.
Alto grado de interconexión lineal
es difícil obtener variables explicativas o regresivas en un modelo de regresión No
muestra alguna correlación con la muestra. La fuente de varias líneas, si no es
perfecta, puede Considere un problema cuando la correlación entre la regresión es
tan alta que se vuelve aproximada Los efectos individuales de cada uno no se
pueden estimar con precisión. Si la correlación entre las variables explicativas es
alta, los siguientes síntomas son comunes: Pequeños cambios en los datos o
especificaciones conducen a grandes cambios en estimación de coeficientes. Las
estimaciones de transacciones a menudo tienen marcas diferentes de las estimadas
y Cantidades irrazonables. El peor efecto de tener un alto grado de correlación
lineal es Incrementar la varianza de los coeficientes estimados por MCO. Esto
significa que es difícil Estimar los efectos marginales o individuales de cada variable
explicativa por separado, por lo que se estiman con poca precisión.2 Como
resultado, el valor de Las estadísticas para la prueba de significación simple tienden
a ser pequeñas y Aumenta la probabilidad de que no se rechace la hipótesis nula,
por lo que tendemos a concluir que las variables no tienen significado individual. La
varianza no es estadísticamente precisa, pero debido a que no hicimos una
estimación completa Detalles de estos efectos individuales. Se obtiene un valor alto
de R2 incluso si la estadística t significativa individual tiene un valor bajo. El
problema es determinar el efecto. Individualmente para cada variable explicativa, no
como un todo. Entonces, si esto se hace una prueba de significancia de variables
explicativas, siendo el resultado habitual rechazar la hipótesis nula para que tengan
sentido común. Aunque cada uno de ellos por separado no lo es. Si estos síntomas
están presentes, uno puede sospechar el problema de la linealidad múltiple
influyen en nuestros resultados, especialmente infiriendo los efectos individuales de
cada variable explicativa. Sin embargo, es importante analizar e interpretar
Resultados precisos obtenidos sin saltar a conclusiones