TRABAJO DE INVESTIGACION DE REGRECION LINEAL
ALUMNO: SOLEDAD JHILKA CADIMA BLANCO
DOCENTE: DARLEN DANITZA PAIVA GOMEZ
En estadística, la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia entre
una variable dependiente , variables
independientes con y un término aleatorio . Este modelo
puede ser expresado como:
donde:
• es la variable dependiente o variable de respuesta.
• son las variables explicativas, independientes o regresoras.
• son los parámetros del modelo, miden la influencia que las
variables explicativas tienen sobre el regrediendo.
el término es la intersección o término "constante",
las son los parámetros respectivos a cada variable
independiente, y es el número de parámetros independientes
a tener en cuenta en la regresión. La regresión lineal puede ser
contrastada con la regresión no lineal.
EL MODELO DE REGRECION LINEAL
El modelo lineal relaciona la variable dependiente con variables
regresoras con o cualquier transformación de éstas que generen
un hiperplano de parámetros desconocidos:
Donde ᵋ es una variable aleatoria que recoge todos aquellos factores
de la realidad no controlables u observables y que por tanto se
asocian con el azar, y es la que confiere al modelo su
carácter estocástico. En el caso más sencillo, con una sola variable
explícita, el hiperplano es una recta:
El problema de la regresión consiste en elegir
unos valores determinados para los parámetros desconocidos , de
modo que la ecuación quede completamente especificada. Para ello
se necesita un conjunto de observaciones o una muestra proveniente
de este modelo. En una observación -ésima cualquiera, se registra el
comportamiento simultáneo de la variable dependiente y las
variables explícitas (las perturbaciones aleatorias se suponen no
observables)
Los valores escogidos como estimadores de los parámetros , son
los coeficientes de regresión sin que se pueda garantizar que
coincidan con parámetros reales del proceso generador. Por tanto, en
Los valores son por su parte estimaciones o errores de la
perturbación aleatoria.
Hipótesis del modelo de regresión lineal clásico[editar]
1. Media cero: . Para cada valor de la perturbación tomará
distintos valores de forma aleatoria, pero no tomará
sistemáticamente valores positivos o negativos, sino que se
supone tomará algunos valores mayores que cero y otros
menores que cero, de tal forma que su valor esperado sea cero.
2. Homocedasticidad: para todo . Todos los términos de la
perturbación tienen la misma varianza que es desconocida. La
dispersión de cada en torno a su valor esperado es siempre la
misma.
3. Incorrelación o independencia: para todo . Las covarianzas
entre las distintas pertubaciones son nulas, lo que quiere decir
que no están correlacionadas. Esto implica que el valor de la
perturbación para cualquier observación muestral no viene
influenciado por los valores de las perturbaciones
correspondientes a otras observaciones muestrales.
4. Regresores estocásticos. Los sistemas de ecuaciones
simultáneas describen el comportamiento de un vector de
variables endógenas en función de un vector de variables
exógenas. Los regresores estocásticos surgen del hecho de que
la variable endógena de una ecuación puede entrar en otra
como variable explicativa.
5. Independencia lineal. No existen relaciones lineales exactas
entre los regresores.
6. . Suponemos que no existen errores de especificación en el
modelo, ni errores de medida en las variables explicativas.
7. Normalidad de las perturbaciones:
Tipos de modelos de regresión lineal
Existen diferentes tipos de regresión lineal que se clasifican de
acuerdo a sus parámetros:
Regresión lineal simple
Este modelo sólo está conformado por dos variables estadísticas
llamadas y . Para la regresión lineal simple, se asume que y se
relacionan mediante la relación funcional:
donde son constantes desconocidas llamadas coeficientes de
regresión.
Estimación de los parámetros
Dado que los parámetros y son constantes desconocidas, estas
deben estimarse mediante los datos de la muestra, supóngase que
se tiene datos , se estimarán los parámetros utilizando el método
de mínimos cuadrados.
Se estiman y tal que la suma de los cuadrados de las diferencias
entre las observaciones y la recta de regresión sea mínima, esto
es, buscamos minimizar la función error cuadrático dada por
La función de error cuadrático alcanza un mínimo en el punto
tal que
entonces derivando respecto a y , evaluando en y e igualando a
cero, obtenemos el siguiente sistema de ecuaciones
estas dos ecuaciones son conocidas como ecuaciones normales la
solución de dicho sistema de ecuaciones está dada por:
La interpretación del parámetro medio es que un incremento en Xi
de una unidad, Yi incrementará en . Luego el modelo ajustado de
regresión lineal simple es
Regresión lineal múltiple
La regresión lineal permite analizar la relación entre dos o más
variables a través de ecuaciones, lo que se denomina regresión
múltiple o regresión lineal múltiple.
Constantemente en la práctica de la investigación estadística, se
encuentran variables que de alguna manera están relacionadas entre
sí, por lo que es posible que unas de las variables puedan
relacionarse matemáticamente en función de otra u otras variables.
Este modelo cuenta con varias variables regresoras, por lo que
cuenta con varios parámetros, para la regresión lineal múltiple, se
asume que la variable de respuesta se relaciona con las variables
regresoras mediante la relación funcional:
donde los parámetros son llamados coeficientes del modelo de
regresión múltiple
Supongamos que se tiene una muestra de tamaño dada
por con donde denota el -ésimo valor observado en el
regresor y denota la -ésima observación de entonces el modelo
toma la forma
donde es el error asociado a la -ésima medición del valor y
sigue los supuestos usuales de modo que (media
cero, varianza constante e igual a y con ).
Estimación de los parámetros
Para estimar los parámetros del modelo, se puede utilizar el método
de mínimos cuadrados, en este caso, la función de error cuadrático
está dada por
la cual deseamos minimizar.
Los estimadores por mínimos cuadrados denotados por deben
satisfacer
para . Resolver este sistema con ecuaciones de forma analítica es
complicado por lo que se recurre a escribir el modelo de regresión
lineal múltiple
en forma matricial como
siendo
donde y .
En forma matricial, la función de error cuadrático puede ser escrita
como
Los estimadores por mínimos cuadrados deben satisfacer
donde denota el vector que contiene a los estimadores y denota un
vector con ceros.
Puede verificarse que la condición anterior se reduce a
Si la matriz inversa existe entonces el estimador por mínimos
cuadrados está dado por
Por lo que el modelo ajustado de regresión está dado por
Rectas de regresión
Las rectas de regresión son las rectas que mejor se ajustan a la nube
de puntos (o también llamado diagrama de dispersión) generada por
una distribución conjunta. Matemáticamente, son posibles dos rectas
de máximo ajuste.