Trabajo I Teórico
Introducción a la regresión lineal,
Según Douglas C. Montgomery, Elizabeth A. Peck, y G. Geoffrey Vining
en su libro Introduction to Linear Regression Analysis" La regresión lineal
es una técnica estadística ampliamente utilizada que permite modelar y
analizar la relación entre una variable dependiente y una o más variables
independientes. En su forma más simple, asume una relación lineal entre
estas variables y busca encontrar la mejor línea recta que se ajuste a los datos
observados. Sin embargo, su aplicabilidad va más allá de la simple relación
lineal; es una herramienta poderosa en el análisis de datos y se aplica en
diversos campos, desde la economía y las ciencias sociales hasta la medicina
y la ingeniería. (2012)
ejemplos simples de regresión lineal:
Por ejemplo, en el campo de la economía, la regresión lineal se utiliza para
analizar cómo las variables económicas, como el ingreso, el precio y la
demanda, se relacionan entre sí.
1. Predicción de la altura en función de la edad: Supongamos que tienes
datos de la altura de niños y niñas en diferentes edades. Puedes usar la
regresión lineal para predecir la altura de un niño dado su edad. En este caso,
la variable independiente sería la edad y la variable dependiente sería la
altura.
2. Estimación de ventas en función del gasto en publicidad: Imagina que
tienes datos sobre el gasto mensual en publicidad y las ventas mensuales de
un producto. Puedes utilizar la regresión lineal para entender cómo el gasto
en publicidad afecta a las ventas. Aquí, el gasto en publicidad sería la
variable independiente y las ventas serían la variable dependiente.
3. Relación entre la temperatura y el consumo de electricidad: Si tienes
datos históricos de la temperatura exterior y el consumo de electricidad de
una casa, puedes usar la regresión lineal para modelar la relación entre la
temperatura y el consumo de electricidad. En este caso, la temperatura sería
la variable independiente y el consumo de electricidad sería la variable
dependiente.
4. Predicción del precio de una casa en función de sus características:
Supongamos que tienes datos sobre el precio de venta de casas y características como el
tamaño, el número de habitaciones, la ubicación, etc. Puedes utilizar la regresión lineal
para predecir el precio de venta de una casa en función de estas características. Aquí, las
características de la casa serían las variables independientes y el precio de venta sería la
variable dependiente.
El modelo de regresión lineal simple (RLS)
Según Douglas C. Montgomery, Elizabeth A. Peck, y G. Geoffrey Vining.
(El modelo de Regresión Lineal Simple (RLS) en su libro "Introduction to
Linear Regression Analysis" es2012) Explica que en estadística,
la regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable
dependiente variables independientes con y un término aleatorio . Este
método es aplicable en muchas situaciones en las que se estudia la relación
entre dos o más variables o predecir un comportamiento, algunas incluso sin
relación con la tecnología.
En caso de que no se pueda aplicar un modelo de regresión a un estudio, se
dice que no hay correlación entre las variables estudiadas. Este modelo puede
ser expresado como:
• es la variable dependiente o variable de respuesta.
• son las variables explicativas, independientes o regresoras.
• son los parámetros del modelo, miden la influencia que las variables
explicativas tienen sobre el regrediendo.
El término es la intersección o término "constante" las son los parámetros
respectivos a cada variable independiente, y es el número de parámetros
independientes a tener en cuenta en la regresión. La regresión lineal puede
ser contrastada con la regresión no lineal
Para otros usos de este término, véase Función lineal (desambiguación).
Ejemplo de una regresión lineal con una variable dependiente y una variable
independiente.
Historia
La primera forma de regresión lineal documentada fue el método de los
mínimos cuadrados que fue publicada por Legendre en 1805, Gauss publicó
un trabajo en donde desarrollaba de manera más profunda el método de los
mínimos cuadrados,1 y en donde se incluía una versión del teorema de
Gauss-Márkov.
El término regresión se utilizó por primera vez en el estudio
de variables antropométricas: al comparar la estatura de padres e hijos,
donde resultó que los hijos cuyos padres tenían una estatura muy superior
al valor medio, tendían a igualarse a este, mientras que aquellos cuyos padres
eran muy bajos tendían a reducir su diferencia respecto a la estatura media;
es decir, "regresaban" al promedio.2 La constatación empírica de esta
propiedad se vio reforzada más tarde con la justificación teórica de ese
fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas
de regresión, que emplean modelos basados en cualquier clase de función
matemática. Los modelos lineales son una explicación simplificada de la
realidad, mucho más ágiles y con un soporte teórico mucho más extenso por
parte de la matemática y la estadística.
Pero bien, como se ha dicho, se puede usar el término lineal para distinguir
modelos basados en cualquier clase de aplicación
El modelo de regresión lineal será aplicado en aquellos casos en los que la
variable independiente Y sea continua. El modelo lineal relaciona la variable
dependiente con variables regresoras con o cualquier transformación de
éstas que generen un hiperplano de parámetros desconocidos: donde es
una variable aleatoria que recoge todos aquellos factores de la realidad no
controlables u observables y que por tanto se asocian con el azar, y es la que
confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explícita, el hiperplano es una recta:
El problema de la regresión consiste en elegir unos valores determinados
para los parámetros desconocidos de modo que la ecuación quede
completamente especificada. Para ello se necesita un conjunto de
observaciones o una muestra proveniente de este modelo. En una
observación -ésima cualquiera, se registra el comportamiento simultáneo de
la variable dependiente y las variables explícitas (las
perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parámetros son
los coeficientes de regresión sin que se pueda garantizar que coincidan con
parámetros reales del proceso generador. Por tanto, en los valores son por
su parte estimaciones o errores de la perturbación aleatoria. Ei es el residuo
e indica la bondad del ajuste realizado para cada punto. Se calcula de la
siguiente forma:
Una vez se ha obtenido la recta de regresión, es necesario comprobar la
bondad del ajuste realizado mediante el siguiente análisis
ANOVA:
n= número de datos. Se compara F0 con valor F crítico (tabla F de
Scnedecor) con valor de significación α, 1, y n-2 grados de libertad
concluyendo: Si F0< Ft, el modelo es apropiado, Si F0> Ft, el modelo
utilizado no es apropiado.
Hipótesis del modelo de regresión lineal clásico
1. Media cero: Para cada valor de la perturbación tomará distintos
valores de forma aleatoria, pero no tomará sistemáticamente valores
positivos o negativos, sino que se supone tomará algunos valores
mayores que cero y otros menores que cero, de tal forma que su valor
esperado sea cero.
2. Homocedasticidad: para todo Todos los términos de la perturbación
tienen la misma varianza que es desconocida. La dispersión de
cada en torno a su valor esperado es siempre la misma.
3. Incorreción o independencia: para todo Las covarianzas entre las
distintas perturbaciones son nulas, lo que quiere decir que no están
correlacionadas. Esto implica que el valor de la perturbación para
cualquier observación muestral no viene influenciado por los valores
de las perturbaciones correspondientes a otras observaciones
muestrales.
4. Regresores estocásticos. Los sistemas de ecuaciones simultáneas
describen el comportamiento de un vector de variables endógenas en
función de un vector de variables exógenas. Los regresores
estocásticos surgen del hecho de que la variable endógena de una
ecuación puede entrar en otra como variable explicativa.
5. Independencia lineal. No existen relaciones lineales exactas entre los
regresores.
6. Suponemos que no existen errores de especificación en el modelo, ni
errores de medida en las variables explicativas.
7. Normalidad de las perturbaciones:
Tipos de modelos de regresión lineal
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus
parámetros:
Regresión lineal simple El modelo de regresión lineal simple sólo está
conformado por dos variables estadísticas llamadas y Considera una única
variable Según Cecon et al. (2012), la regresión lineal simple (RLS) permite
determinar, a través de estimaciones de parámetros, como una variable
independiente (xi ), también llamado predictor, ejerce (o parece ejercer)
influencia sobre otra variable, llamada variable dependiente o de respuesta
(yi ). La ecuación representativa del modelo RLS viene dada por:
yi=b0+b1xi+ei i=1,... n
en que β0 y β1 son parámetros del modelo y εi representa errores aleatorios.
Para establecer este modelo son necesarios algunos supuestos: (a) la relación
entre las variables predictoras y de respuesta es lineal; (b) los errores son
independientes con media nula; (c) la varianza del error es constante
(homocedasticidad); y (d) los errores se distribuyen normalmente (Gujarati
y Porter, 2011). Además, según Cecon et al. (2012), para ajustar un RLS, es
necesario tener al menos tres observaciones.
El método habitual para obtener las estimaciones de los parámetros del
modelo RLS es el método de Mínimos Cuadrados Ordinarios (MCO), que
consiste en adoptar los valores que minimizan la suma de cuadrados de las
desviaciones. Así, a partir de cálculos algebraicos, como indican Gujarati y
Porter (2011), se pueden obtener las siguientes estimaciones:
b0=y-b1x
En cuanto a la interpretación de estos parámetros, β0 representa la respuesta
media de la variable predictora cuando x = 0. Sin embargo, esta
interpretación solo se puede realizar cuando el valor 0 pertenece al rango en
el que se evaluó la variable independiente. El parámetro β1 representa el
aumento promedio esperado para la variable de respuesta cuando la variable
predictora aumenta en una unidad (Gujarati y Porter, 2011).
Para evaluar la calidad del ajuste obtenido, se puede utilizar el coeficiente
de determinación (R2 ). Esta estadística, según Bussab y Morettin (2017),
indica la calidad de la variabilidad en los datos que se explica por el modelo
de regresión ajustado y se puede calcular, de acuerdo con la siguiente
ecuación:
r2/c= (n-1).r2- sobre n-
En resumen, valores altos de R2
revelan una fuerte interacción entre las variables. Sin embargo, estos valores
pueden verse afectados por el tamaño de las observaciones en la muestra
analizada. Para sortear esta situación, según Cecon et al. (2012) se puede
calcular el coeficiente de determinación corregido , obtenido mediante la
siguiente ecuación:
en que n representa el número de observaciones de la muestra.
También de acuerdo con Cecon et al. (2012), valores superiores a 0.40 para
el coeficiente de determinación ajustado indican que el modelo tiene un
ajuste aceptable.
La raíz cuadrada de esta estadística representa el coeficiente de correlación
(R), que representa el grado de asociación lineal entre los valores observados
y estimados por el modelo. Según Callegari-Jacques (2009), los valores
superiores a 0.6 para R representan una fuerte correlación entre ellos.
3. Metodología
Se trata de un estudio correlacional, realizado en el primer semestre de 2020,
que usa datos referentes al ITCD e IGC de 40 IES vinculadas a la Red
Federal, involucrando a todos los Institutos Federales Brasileños (38) y
Centros de Educación Tecnológica Federal (2). Como fuentes se adoptó el
portal electrónico SETEC ([Link]
educacao-profissional-e-tecnologica) y la Plataforma Nilo Peçanha
([Link]
Para la representación inicial de los datos se utilizó estadística descriptiva,
mediante el cálculo de medias y desviaciones estándar, así como la
construcción de gráficos de distribución de frecuencias. Luego, se ajustó un
modelo de regresión lineal simple, utilizando el método de mínimos
cuadrados para explicar el IGC (variable dependiente) de la ITCD (variable
dependiente) de las unidades. Para el análisis diagnóstico de este modelo se
preséntalo siguiente:
El gráfico Residuals vs Fitted de dispersión entre los residuos y los valores
estimados, para evaluar los supuestos de linealidad entre las variables;
El gráfico Normal Q-Q, para evaluar el supuesto de normalidad de los
residuos, mediante la aproximación entre la distribución normal teórica y la
distribución de los residuos observados;
El gráfico Scale-Location que evalúa el supuesto de homocedasticidad de
varianzas, tomando como referencia residuos estandarizados;
El gráfico Residuals vs Leverage para verificar la existencia de valores
atípicos en la variable de respuesta, a través de la proximidad entre los puntos
y la línea determinada por la distancia de Cook.
También se presenta el coeficiente de determinación corregido del ajuste
lineal, para evaluar la calidad del ajuste y el coeficiente de correlación R.
D.J.M. Soares, T. E.A. Soares, R. Stieg y W. Santos REXE 22(48) (2023),
207-221 215
4. Resultados
Considerando la estadística descriptiva, para la variable ITCD se obtuvo un
promedio de 3.99 y una desviación estándar de 0.24, resultando en un
coeficiente de variación de aproximadamente 6%, indicando baja
variabilidad en las observaciones de la muestra, de acuerdo a la clasificación
propuesta por Gomes (1985)3 En cuanto a la variable IGC, la media fue de
2.8 y la desviación estándar de 0.33, lo que da como resultado un coeficiente
de variación de aproximadamente el 12%, que a su vez recibe una
calificación promedio
Mínimos cuadrados y el modelo ajustado
Según Montgomery, Douglas C.; Runger, George C.; Hubele, Norma F.
En su libro: "Engineering Statistics"
Año 2019 "Mínimos cuadrados" es un método estadístico utilizado para
encontrar la mejor línea de ajuste a través de un conjunto de puntos de datos.
El objetivo es encontrar una línea que minimice la suma de los cuadrados de
las diferencias entre los valores observados y los valores predichos por la
línea de ajuste.
El modelo ajustado utilizando el método de mínimos cuadrados puede variar
dependiendo del contexto y la aplicación específica. Sin embargo, uno de los
ejemplos más comunes es el ajuste de una línea recta a través de puntos de
datos bidimensionales, lo que resulta en una ecuación de la forma y=mx+b,
donde m es la pendiente de la línea y b es la intersección en el eje y.
Aquí hay una referencia de un libro que cubre el tema de mínimos cuadrados
y modelos ajustados:
En el método de Mínimos Cuadrados deseamos minimizar la discrepancia
entre los datos observados x[n] y la señal original s[n]. Esta señal se genera
a través de un modelo que depende un conjunto de parámetros de interés
agrupados en el vector θ. Aunque s[n] es completamente determinista la
presencia de inexactitudes en el modelo o ruido en los sensores hace que las
observemos una versión perturbada de ésta que denotamos por x[n]. A lo
largo del tema preferiremos utilizar la notación vectorial por su mayor
simplicidad y claridad a la hora de permitir visualizar los resultados. 6 6
Mínimos Cuadrados Determinista Objetivo:
*Método de aproximación: no utiliza hipótesis probabilísticas sobre los
datos, sólo su modelo de generación Buscar la mejor aproximación del
sistema
El objetivo del método de Mínimos Cuadrados Determinista (MCD) es el
de elegir el parámetro θ que mejor aproxima la señal original s[n] a los datos
observados x[n]. El criterio de proximidad que se aplica en este caso es el
que resulta de considerar una función de coste o discrepancia J(θ) que se
forma con la norma al cuadrado del error. Así, el estimador de mínimos
cuadrados es aquel que minimiza esta función de coste.
Es importante destacar que MCD es un método de aproximación pues no
utiliza hipótesis probabilísticas sobre los datos, sólo su modelo de
generación. El caso más sencillo se da cuando asumimos que la dependencia
de la señal con los parámetros es lineal. La matriz por la que se multiplican
los parámetros para generar la señal recibe el nombre de matriz de
observación y sus columnas jugarán un importante papel en este método.
Encontrar los parámetros que dan la solución al problema, cuando las
columnas de la matriz de observación son linealmente independientes, es
muy simple. Basta con calcular la derivada y la matriz Hessiana para
observar que ésta última es siempre estrictamente definida positiva, lo cual,
garantiza que la función de coste J(θ) es estrictamente convexa y, por tanto,
existe un único mínimo. Este se obtiene simplemente buscando el único
punto crítico de la función. Un razonamiento cualitativo conduce al mismo
resultado. Basta observar que J(θ) es una función positiva con una
dependencia cuadrática sobre los parámetros, por tanto, su grafo traza un
hiperparaboloide p-dimensional que tiene un único mínimo y cuyas curvas
de nivel son, en el caso más general, hiper-elipsoides. Una vez obtenidos los
parámetros que dan la mejor aproximación, ¿cómo podemos obtener nuestra
mejor estima para la señal?… Sólo hace falta sustituir éstos en el modelo de
señal para encontrar la respuesta.
Encontrar los parámetros que dan la solución al problema, cuando las
columnas de la matriz de observación son linealmente independientes, es
muy simple. Basta con calcular la derivada y la matriz Hessiana para
observar que ésta última es siempre estrictamente definida positiva, lo cual,
garantiza que la función de coste J(θ) es estrictamente convexa y, por tanto,
existe un único mínimo. Este se obtiene simplemente buscando el único
punto crítico de la función. Un razonamiento cualitativo conduce al mismo
resultado. Basta observar que J(θ) es una función positiva con una
dependencia cuadrática sobre los parámetros, por tanto, su grafo traza un
hiperparaboloide p-dimensional que tiene un único mínimo y cuyas curvas
de nivel son, en el caso más general, hiper-elipsoides. Una vez obtenidos
los parámetros que dan la mejor aproximación, ¿cómo podemos obtener
nuestra mejor estima para la señal?… Sólo hace falta sustituir éstos en el
modelo de señal para encontrar la respuesta.
Propiedades de los estimadores de mínimos cuadrados
Según Wooldridge, Jeffrey [Link] su libro: "Introductory Econometrics: A
Modern Approach(2019) Las propiedades de los estimadores de mínimos
cuadrados se refieren a las características deseables que poseen estos
estimadores en el contexto de la regresión lineal. Algunas de estas
propiedades incluyen la insesgadez, la eficiencia y la consistencia. Aquí está
una referencia de un libro que trata sobre este tema:
Como se mencionó anteriormente, dados los supuestos del modelo clásico
de regresión lineal, los valores estimados de mínimos cuadrados poseen
algunas propiedades ideales u óptimas. estas propiedades están contenidas
en el muy conocido teorema Gauss-Markov. Para entender este teorema, se
necesita considerar la propiedad por la cual un estimador se considera el
mejor estimador lineal insesgado. Como se explico en el apéndice A, se dice
que un estimador, es decir, el estimador MCO β2, es un mejor estimador
lineal insesgado (MELI) de β2 si se cumple lo siguiente.
1. Es lineal, es decir, función lineal de una variable aleatoria, tal como la
variable dependiente Y en el modelo de regresión.
2. Es insesgado, es decir, su valor promedio o esperado, E(β2), es igual al
valor verdadero, β2.
3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados; un estimador insesgado con varianza mínima es conocido como
un estimador eficiente.
En el contexto de regresión puede probarse que los estimadores MCO son
MELI. Esta es la clave del famoso teorema Gauss-Markov,
Los estimadores de mínimos cuadrados (EMC) son una técnica ampliamente
utilizada en la estadística y la econometría para estimar los parámetros de un
modelo matemático, minimizando la suma de los cuadrados de las
diferencias entre los valores observados y los valores predichos por el
modelo. Aquí están algunas propiedades importantes de los estimadores de
mínimos cuadrados:
1. Insensibilidad a errores aleatorios: Los estimadores de mínimos cuadrados
son robustos frente a errores aleatorios en los datos, lo que significa que si
hay errores aleatorios en los datos, los estimadores de mínimos cuadrados
siguen siendo imparciales y eficientes.
2. Eficiencia: Los estimadores de mínimos cuadrados son eficientes bajo
condiciones ideales, lo que significa que tienen la menor varianza entre todos
los estimadores lineales insesgados.
3. Optimalidad Gauss-Markov: Bajo ciertas condiciones, como linealidad del
modelo, errores con media cero, homocedasticidad y ausencia de
multicolinealidad, los estimadores de mínimos cuadrados son los mejores
estimadores lineales insesgados (BLUE, por sus siglas en inglés), lo que
implica que tienen la varianza mínima entre todos los estimadores lineales
insesgados.
4. Propiedad de insesgadez: Los estimadores de mínimos cuadrados son
insesgados, lo que significa que en promedio, su valor estimado se acerca al
valor verdadero del parámetro poblacional.
5. Normalidad asintótica: Bajo ciertas condiciones, como un tamaño de
muestra grande, los estimadores de mínimos cuadrados siguen una
distribución normal asintóticamente.
6. Independencia de los errores: Los estimadores de mínimos cuadrados
requieren que los errores sean independientes entre sí.
7. Consistencia: Los estimadores de mínimos cuadrados son consistentes, lo
que significa que a medida que el tamaño de la muestra tiende al infinito, el
estimador converge en probabilidad al verdadero valor del parámetro.
8. Linealidad en parámetros: Los estimadores de mínimos cuadrados son
lineales en los parámetros del modelo, lo que significa que si el modelo es
lineal en los parámetros, entonces los estimadores también son lineales.
Estas son algunas de las propiedades más importantes de los estimadores de
mínimos cuadrados, que los hacen una herramienta poderosa y ampliamente
utilizada en la inferencia estadística y en la estimación de parámetros en
modelos lineales.
Inferencias sobre los coeficientes de regresión
Según Chandan Sengupta, en su libro Regression Analysis:
Understanding and Building Business and Economic Models Using
Excel" (2016). proporciona una guía práctica para la construcción y el
análisis de modelos de regresión en Excel, incluyendo la interpretación de
los coeficientes y la realización de inferencias sobre ellos.
El primer paso en inferencia para la regresión es estimar los parámetros
desconocidos α, β y σ. Cuando el modelo de regresión describe nuestros
datos y calculamos la recta mínimo-cuadrática yˆ = a + bx, la pendiente b de
la recta mínimo-cuadrática es un estimador insesgado de la verdadera
pendiente β, y la ordenada en el origen a de la recta mínimo-cuadrática es un
estimador insesgado de la verdadera ordenada en el origen α.
Los datos se ajustan bastante bien al modelo de regresión, que supone que se
encuentran distribuidos a lo largo de una recta imaginaria. La recta mínimo-
cuadrática es yˆ = 91,27 + 1,493x. La pendiente es particularmente
importante. Una pendiente es una tasa de cambio. La verdadera pendiente β
nos indica en cuánto aumenta como media el CI cuando el número de picos
de lloro aumenta en una unidad. Debido a que b = 1,493 es una estimación
de la β desconocida, estimamos que, como media, el CI es 1,5 puntos mayor,
por cada pico de lloro adicional.
Necesitamos la ordenada en el origen a = 91,27 para dibujar la recta, aunque
de todas formas en este ejemplo no tiene ningún significado estadístico.
Ningún bebé tuvo menos de 9 picos de lloro; por tanto, no tenemos datos
cerca de x = 0. Sospechamos que todos los niños normales llorarían al
pellizcarlos, en consecuencia, nunca observaremos x = 0.
El parámetro que queda del modelo es la desviación típica σ, que describe la
variabilidad de la respuesta y respecto a la verdadera recta de regresión. La
recta mínimo-cuadrática estima la verdadera recta de regresión.
En consecuencia, los Residuos residuos estiman en cuánto varía y con
relación a la verdadera recta de regresión. Recuerda que los residuos son las
desviaciones verticales de los puntos respecto a la recta de regresión mínimo-
cuadrática. Residuo = y observada − y predicha = y − yˆ Hay n residuos, uno
para cada punto. Debido a que σ es la desviación típica de las respuestas con
relación a la recta de regresión, la estimamos a partir de una desviación típica
muestral de residuos.
Llamamos a esta desviación típica muestral error típico para recalcar que se
ha estimado a partir de los datos. Los “moore” 2002/1/31 page 693
Inferencia para regresión (c.11) / 693 residuos de una recta mínimo-
cuadrática siempre tienen media cero. Esto simplifica su error típico■
Para simplificar llamaremos s al error típico de una recta de regresión, ya
que se utiliza muy a menudo en inferencia para la regresión. Fíjate en que s
2 es la suma de los cuadrados de las desviaciones de los puntos respecto a
la recta, dividido por n − 2, el número de puntos menos 2. Resulta que si
conocemos n − 2 de los n residuos, los restantes dos están determinados. En
consecuencia, n − 2 son los grados de libertad de s. Encontramos por primera
vez la idea de grados de liber- Grados de libertad tad cuando calculábamos
la desviación típica muestral ordinaria de n observaciones, que tenía n − 1
grados de libertad. Ahora observamos dos variables en lugar de una y los
grados de libertad apropiados son n − 2 en lugar de n − 1. s 2 es una varianza.
El cálculo de s es laborioso. Tienes que hallar la respuesta predicha para cada
x de tu conjunto de datos, luego los residuos y finalmente s. En la práctica
utilizarás un ordenador que hace estos cálculos al instante. De todas formas,
he aquí un ejemplo para estar seguros de que comprendes lo que es s.
EJEMPLO
11.3. Residuos y error típico La tabla 11.1 muestra que el primer bebé
estudiado presentó 10 picos de lloro y posteriormente un CI de 87. El valor
del CI predicho para x = 10 es yˆ = 91,27 + 1,493x = 91,27 + 1,493(10) =
106,2
Una recta de regresión con pendiente 0 es horizontal. Es decir, la media de y
no cambia en absoluto cuando cambia x. En consecuencia, esta H0 indica
que no existe una verdadera relación lineal entre x e y. Dicho de otra manera,
H0 indica que la dependencia lineal de y sobre x no es de utilidad para
predecir y. Todavía se puede expresar de otra manera: H0 indica que no
existe una correlación lineal entre x e y en la población de la cual obtuvimos
nuestros datos. Puedes utilizar la prueba de que la pendiente es 0 para
contrastar la hipótesis de que la correlación entre dos variables cuantitativas
cualquiera sea cero. Se trata de un truco útil.
Fíjate que el contraste sobre la correlación sólo tiene sentido si las
observaciones son una muestra aleatoria. Ésta no es la situación habitual,
cuando los investigadores dan a x unos determinados valores de interés para
los investigadores.
El estadístico de contraste se expresa como la estandarización de la pendiente
mínimo-cuadrática b. Es otro estadístico t. He aquí los detalles.
Las inferencias sobre los coeficientes de regresión son procedimientos
estadísticos utilizados para hacer afirmaciones sobre los parámetros que
describen la relación entre las variables predictoras y la variable de respuesta
en un modelo de regresión. Aquí hay algunas técnicas comunes para realizar
inferencias sobre estos coeficientes:
1. Pruebas de hipótesis: Se utilizan para determinar si un coeficiente de
regresión es significativamente diferente de cero. La hipótesis nula (H0) es
que el coeficiente es cero, lo que implica que no hay relación entre la variable
predictora correspondiente y la variable de respuesta. Se utilizan estadísticas
de prueba como el estadístico t de Student o el estadístico F para evaluar la
significancia de los coeficientes individuales o de grupos de coeficientes,
respectivamente.
2. Intervalos de confianza: Los intervalos de confianza proporcionan un rango
plausible de valores para los coeficientes de regresión. Estos intervalos
muestran la incertidumbre asociada con la estimación de los coeficientes y
permiten hacer inferencias sobre el valor verdadero del parámetro. Los
intervalos de confianza generalmente se calculan alrededor de los estimados
de los coeficientes y se basan en la distribución de muestreo de los
estimadores.
3. Análisis de varianza (ANOVA): En el contexto de la regresión lineal, el
análisis de varianza se utiliza para evaluar la significancia global del modelo
de regresión. Esto implica comparar la varianza explicada por el modelo
(sumas de cuadrados del modelo) con la varianza no explicada (sumas de
cuadrados del error). Si el modelo es significativo en términos globales,
entonces se puede inferir que al menos una de las variables predictoras tiene
un efecto significativo sobre la variable de respuesta.
4. Diagnósticos de regresión: Antes de realizar inferencias sobre los
coeficientes de regresión, es importante verificar los supuestos del modelo
de regresión. Esto incluye la verificación de la linealidad, homocedasticidad,
normalidad de los residuos y ausencia de multicolinealidad. Si estos
supuestos no se cumplen, las inferencias basadas en el modelo pueden ser
poco fiables.
5. Bootstrap: En algunos casos, especialmente cuando los supuestos de
normalidad o homocedasticidad no se cumplen, se puede recurrir al método
de bootstrap para realizar inferencias sobre los coeficientes de regresión. El
bootstrap es una técnica de remuestreo que permite estimar la distribución
de los estimadores de forma empírica, lo que puede proporcionar intervalos
de confianza más robustos.
Estas son algunas de las técnicas comunes utilizadas para realizar inferencias
sobre los coeficientes de regresión en un modelo de regresión lineal. La
elección de la técnica adecuada dependerá del contexto específico del
problema y de la naturaleza de los datos disponibles.
Predicción
Según Gareth James, Daniela Witten, Trevor Hastie, y Robert Tibshirani en
su libro "An Introduction to Statistical Learning: with Applications in
R" (2013). los autores describen la predicción como el proceso de usar un
modelo estadístico para predecir el valor de una variable de interés basada
en otras variables predictoras.
La predicción en estadística se refiere al proceso de hacer estimaciones o
pronósticos sobre valores futuros o desconocidos basados en datos
observados y modelos estadísticos. Aquí hay algunas definiciones de
predicción en estadística proporcionadas por autores y sus respectivos libros,
junto con el año de publicación:
Definición de estadísticas predictivas
El análisis predictivo es el proceso de usar los datos para prever los
resultados futuros. El proceso usa análisis estadísticos, aprendizaje
automático, inteligencia artificial y modelos estadísticos para encontrar
patrones que puedan predecir el comportamiento futuro. Las organizaciones
pueden usar datos históricos y actuales para prever tendencias y
comportamientos en segundos, días o años hacia el futuro con una gran
precisión.
¿Cómo funcionan las estadísticas predictivas?
Los científicos de datos usan modelos predictivos para identificar
correlaciones entre diferentes elementos de los conjuntos de datos
seleccionados. Una vez que se completa la recopilación de datos, se formula
un modelo estadístico, se lo entrena y se lo modifica para generar
predicciones precisas
El flujo de trabajo para compilar marcos de trabajo de estadísticas predictivas
sigue cinco pasos básicos:
1. Define el problema: Una predicción comienza con una buena tesis y un
conjunto de requisitos. Por ejemplo, ¿puede un modelo de estadísticas
predictivas detectar fraudes? ¿Determinar los niveles de inventario óptimos
para la temporada de compras de las festividades? ¿Identificar posibles
niveles de inundación debido al clima extremo? Un problema diferente que
resolver ayudará a determinar qué método de análisis predictivo se debe usar.
2. Adquirir y organizar datos: Una organización puede tener décadas de datos
para aprovechar o un flujo continuo de datos de interacciones del cliente.
Antes de que se puedan desarrollar modelos de análisis predictivo, se deben
identificar los flujos de datos y, luego, los conjuntos de datos se pueden
organizar en un repositorio, como un almacén de datos, por
ejemplo, BigQuery.
3. Procesamiento previo de datos: Los datos sin procesar solo son
nominalmente útiles. A fin de preparar los datos para los modelos de
estadísticas predictivas, debes limpiarlos a fin de quitar anomalías, los puntos
de datos faltantes o valores atípicos extremos, los que pueden ser el resultado
de errores en el ingreso o la medición.
4. Desarrolla modelos predictivos: Los científicos de datos tienen una
variedad de herramientas y técnicas para desarrollar modelos predictivos en
función del problema que se debe resolver y la naturaleza del conjunto de
datos. El aprendizaje automático, los modelos de regresión y los árboles de
decisión son algunos de los tipos más comunes de modelos predictivos.
5. Valida e implementa los resultados: Verifica la exactitud del modelo y
realiza los ajustes necesarios. Una vez que obtengas resultados aceptables,
haz que estén disponibles para las partes interesadas a través de una app, un
sitio web o un panel de datos.
¿Qué son las técnicas de análisis predictivo?
En general, hay dos tipos de modelos de estadísticas predictivas: de
clasificación y de regresión. Los modelos de clasificación intentan colocar
objetos de datos (como clientes o resultados potenciales) en una categoría u
otra. Por ejemplo, si un minorista tiene una gran cantidad de datos de
diferentes tipos de clientes, es posible que intenten predecir qué tipos de
clientes estarán dispuestos a recibir correos comerciales. Los modelos de
regresión intentan predecir los datos continuos, como la cantidad de ingresos
que generará el cliente durante su relación con la empresa.
Las estadísticas predictivas suelen realizarse mediante tres tipos principales
de técnicas:
Análisis de regresión
La regresión es una técnica de análisis estadístico que calcula las relaciones
entre las variables. La regresión es útil para determinar patrones en conjuntos
de datos grandes a fin de determinar la correlación entre las entradas. Se
recomienda usarlos en datos continuos que siguen una distribución conocida.
La regresión se suele usar para determinar cómo una o más variables
independientes afectan a otra, por ejemplo, cómo un aumento de precios
afectará la venta de un producto.
Árboles de decisión
Los árboles de decisión son modelos de clasificación que ubican los datos en
diferentes categorías según distintas variables. Es mejor usar este método
cuando se intenta comprender las decisiones de una persona. El modelo se
parece a un árbol, y cada rama representa una opción potencial, mientras que
la hoja representa el resultado de la decisión. Por lo general, los árboles de
decisión son fáciles de comprender y funcionan bien cuando a un conjunto
de datos le faltan varias variables.
Redes neuronales
Las redes neuronales son métodos de aprendizaje automático que son útiles
en el análisis predictivo cuando se modelan relaciones muy complejas. En
esencia, son motores potentes de reconocimiento de patrones. Las redes
neuronales se usan mejor para determinar las relaciones no lineales en los
conjuntos de datos, en especial cuando no existe una fórmula matemática
conocida para analizar los datos. Las redes neuronales se pueden usar para
validar los resultados de los árboles de decisión y los modelos de regresión.
Referencias
Introducción a la regresión lineal Douglas C. Montgomery, Elizabeth A.
Peck, y G. Geoffrey Vining. Libro Introduction to Linear Regression
Analysis"(2012)
El modelo de regresión lineal simple (RLS) Douglas C. Montgomery,
Elizabeth A. Peck, y G. Geoffrey Vining. (El modelo de Regresión Lineal
Simple (RLS) Libro "Introduction to Linear Regression Analysis"
(2012)
Mínimos cuadrados y el modelo ajustado Montgomery, Douglas C.;
Runger, George C.; Hubele, Norma F.
En su libro: "Engineering Statistics"
Año 2019
Propiedades de los estimadores de mínimos cuadrados Wooldridge,
Jeffrey [Link] su libro: "Introductory Econometrics: A Modern
Approach(2019)
Inferencias sobre los coeficientes de regresión Según Chandan Sengupta,
en su libro Regression Analysis: Understanding and Building Business
and Economic Models Using Excel" (2016).
Predicción Según Gareth James, Daniela Witten, Trevor Hastie, y
Robert Tibshirani en su libro "An Introduction to Statistical Learning:
with Applications in R" (2013).