FACULTAD DE INGENIERÍA
ELÉCTRICA Y
Estadística y
ELECTRÓNICA
probabilidades
Semana
13:
MÉTODO DE MÍNIMOS
CUADRADOS CORRELACIÓN Y
REGRESIÓN LINEAL
[Link]
Mínimos cuadrados
Cuando varias personas miden la misma cantidad, generalmente no obtienen los mismos
resultados. De hecho, si la misma persona mide la misma cantidad varias veces, los resultados
variarán.
¿Cuál es la mejor estimación
para la verdadera medición?
El método de mínimos cuadrados proporciona
una forma de encontrar la mejor estimación,
suponiendo que los errores sean aleatorias e
imparciales.
¿Qué son los mínimos
cuadrados?
Es un procedimiento de análisis numérico en la que, dados un
conjunto de datos, se intenta determinar la función continua que
mejor se aproxime a los datos, proporcionando una
demostración visual de la relación entre los puntos de los
mismos.
En su forma más simple, busca minimizar la suma
de cuadrados de las diferencias ordenadas entre los
puntos generados por la función y los
correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio a fin de expresar su comportamiento de manera lineal y
así minimizar los errores de la información tomada.
La creación del método de mínimos
cuadrados generalmente se le acredita al
matemático alemán Carl Friedrich
Gauss, quien lo planteó en 1794 pero no
lo publicó sino hasta 1809. El
matemático francés Andrien-Marie
Legendre fue el primero en publicarlo
en 1805, este lo desarrolló de forma
independiente.
Definición:
Su expresión general se basa en la ecuación de una recta y = mx + b.
Donde m es la pendiente y b el punto de corte, y vienen expresadas de la
siguiente manera:
Σ es el símbolo sumatoria de todos los términos, mientas (x,
y) son los datos en estudio y n la cantidad de datos que existen.
El método de mínimos cuadrados calcula a partir de los N pares
de datos experimentales (x, y), los valores m y b que mejor
ajustan los datos a una recta. Se entiende por el mejor ajuste
aquella recta que hace mínimas las distancias d de los puntos
medidos a la recta.
Teniendo una serie de datos (x, y), mostrados en un gráfico o
gráfica, si al conectar punto a punto no se describe una recta,
debemos aplicar el método de mínimos cuadrados, basándonos
en su expresión general:
Ejemplo del método de mínimos
cuadrados
Para entender con claridad la aplicación del método veamos un ejemplo:
Encontrar la recta que mejor se ajusta a los siguientes datos:
Necesitamos encontrar una recta y =
mx + b. Debemos aplicar el método
de mínimos cuadrados. Como ya
sabemos entonces, primero
centraremos el valor (x ∙ y):
Segundo por las expresiones de m y b
debemos encontrar el valor x²:
Ahora podemos obtener los valores de las sumatorias de cada columna:
Sustituimos en cada una de las expresiones:
La recta obtenida con el método de los mínimos cuadrados es la siguiente:
Observemos el gráfico:
Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Por lo tanto, si
queremos saber dónde corta en el eje x igualamos la ecuación y = 0:
Despejamos x:
CORRELACIÓN
LINEAL
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de
parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que
indica el grado de variación conjunta de dos variables aleatorias.
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es
comparable entre distintos pares de variables.
Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente
de Pearson, Rho de Spearman y Tau de Kendall.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación
negativa perfecta.
Se emplean como medida de fuerza de asociación (tamaño del efecto):
0: asociación nula.
0.1: asociación pequeña.
0.3: asociación mediana.
0.5: asociación moderada.
0.7: asociación alta.
0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación
son:
La correlación La correlación La correlación
de Pearson de Spearman de Kendall
Funciona bien con variables Se emplea cuando los datos son Es otra alternativa no
cuantitativas que tienen una ordinales, de intervalo, o bien paramétrica para el estudio de
distribución normal. En el libro cuando no se satisface la la correlación que trabaja con
Handbook of Biological condición de normalidad para rangos. Se emplea cuando se
Statatistics se menciona que variables continuas y los datos dispone de pocos datos y
sigue siendo bastante robusto a se pueden transformar a rangos. muchos de ellos ocupan la
pesar de la falta de normalidad. Es un método no paramétrico. misma posición en el rango, es
Es más sensible a los valores decir, cuando hay muchas
extremos que las otras dos ligaduras.
alternativas.
REGRESIÓN LINEAL
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una
recta) para explicar la relación lineal entre dos variables. A la variable dependiente o
respuesta se le identifica como YY y a la variable predictora o independiente como XX.
De acuerdo a la ecuación:
Siendo βo la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último
representa la diferencia entre el valor ajustado por la recta y el valor real.
En la gran mayoría de casos, los
valores β0β0 y β1β1 poblacionales son desconocidos, por lo que, a
partir de una muestra, se obtienen sus estimaciones β^0y β^1.
Estas estimaciones se
conocen como coeficientes
de regresión, ya que toman
los valores que minimizan
la suma de cuadrados
residuales, dando lugar a la
recta que pasa más cerca de
todos los puntos.
Una recta de regresión puede emplearse para diferentes
propósitos y dependiendo de ellos es necesario
satisfacer distintas condiciones. En caso de querer medir
la relación lineal entre dos variables, la recta de
regresión lo va a indicar de forma directa. Sin embargo,
en caso de querer predecir el valor de una variable en
función de la otra, no solo se necesita calcular la recta,
sino que además hay que asegurar que el modelo sea
bueno.
CONDICIONES PARA LA REGRESIÓN LINEAL
1. Linealidad: La relación entre 2. Distribución Normal de
ambas variables debe ser lineal. Para los residuos: Los residuos se
comprobarlo se puede recurrir a: tiene que distribuir de forma
1. Graficar ambas variables a la normal, con media igual a 0.
vez (scatterplot o diagrama de Esto se puede comprobar con
dispersión), superponiendo la un histograma, con la
recta del modelo generado por distribución de cuantiles
regresión lineal. (qqnorm() + qqline()) o con
2. Calcular los residuos para cada un test de hipótesis de
observación acorde al modelo normalidad. Los valores
generado y graficarlos extremos suelen ser una causa
(scatterplot). Deben distribuirse frecuente por la que se viola
de forma aleatoria en torno al la condición de normalidad.
valor 0.
3. Varianza de residuos 4. Valores atípicos y 5. Independencia,
constante de alta Autocorrelación: Las
(homocedasticidad): La influencia: Hay que observaciones deben ser
varianza de los residuos estudiar con independientes unas de otras.
ha de ser detenimiento los Esto es importante tenerlo en
aproximadamente valores atípicos o cuenta cuando se trata de
constante a lo largo del extremos ya que mediciones temporales.
eje X Se puede pueden generar una Puede detectarse estudiando
comprobar mediante falsa correlación que si los residuos siguen un
gráficos (scatterplot) de realmente no existe, patrón o tendencia. Otro caso
los residuos de cada u ocultar una frecuente es el de tener varias
observación (formas existente. (Ver mediciones para un mismo
cónicas son un claro descripción detallada sujeto. En estos casos,
indicio de falta de en la sección de primero se obtiene la media
homocedasticidad) o apuntes varios). de cada uno y después se
mediante contraste de ajusta el modelo empleando
hipótesis mediante el test las medias.
EJEMPLO 1:
Una compañía X representa la renta nacional en
desea hacer millones de euros y Y representa las
predicciones del ventas de la compañía en miles de euros
valor anual de sus en el período que va desde 1990 hasta
ventas totales en 2000 (inclusive ambos). Calcular:
cierto país a partir A- La recta de regresión de Y sobre X.
de la relación de B- El coeficiente de correlación lineal e
estas y la renta interprétalo.
nacional. Para C- Si en 2001 la renta nacional del país
investigar la fue de 325 millones de euros. ¿Cuál será
relación cuenta con la predicción para las ventas de la
los siguientes compañía en este año?
datos.
A. La recta de regresión de Y sobre X
B. El coeficiente de correlación lineal e
interprétalo
C. Si en 2001 la renta nacional del país
fue de 325 millones de euros. ¿Cuál
será la predicción para las ventas de la
compañía en este año?
Es un coeficiente de
correlación positivo y cercano
a uno, por lo que la correlación
EJEMPLO 2:
Los valores de dos variables X e Y se distribuyen según la tabla
siguiente:
Se pide:
A- Calcular la covarianza.
B- Obtener e interpretar el coeficiente de correlación
lineal.
C- Ecuación de la recta de regresión de Y sobre X.
A. Calcular la covarianza:
Convertimos la tabla de doble
entrada en una tabla simple.
[Link] e interpretar el
coeficiente de correlación
C. Ecuación de la recta de
regresión de Y sobre X.
lineal
Es una correlación negativa
débil.
GRACIAS