0% encontró este documento útil (1 voto)
466 vistas18 páginas

Regresión y Correlación Lineal en Estadística

Este documento trata sobre regresión lineal y correlación. Explica que la regresión lineal determina una relación funcional entre una variable dependiente y una independiente para predecir valores, mientras que la correlación mide el grado de asociación entre variables. También cubre conceptos como diagrama de dispersión, covarianza, coeficiente de correlación, estimación de modelo de regresión usando mínimos cuadrados, y coeficiente de determinación. Finalmente, presenta ejemplos numéricos para ilustrar estos conceptos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (1 voto)
466 vistas18 páginas

Regresión y Correlación Lineal en Estadística

Este documento trata sobre regresión lineal y correlación. Explica que la regresión lineal determina una relación funcional entre una variable dependiente y una independiente para predecir valores, mientras que la correlación mide el grado de asociación entre variables. También cubre conceptos como diagrama de dispersión, covarianza, coeficiente de correlación, estimación de modelo de regresión usando mínimos cuadrados, y coeficiente de determinación. Finalmente, presenta ejemplos numéricos para ilustrar estos conceptos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA

INFERENCIAL
Semana 14 - Sesión 01
LOGRO DE LA SESIÓN

Al finalizar la sesión de aprendizaje el estudiante conoce y


aplica los conceptos de regresión lineal y correlación en
diferentes contextos de la vida real.
Análisis de regresión y correlación
Existen dos métodos distintos pero relacionadas para determinar si existe
algún tipo de relación entre dos variables. El primer método consiste en
determinar el grado o nivel de asociación entre las variables que se
estudian. Este método se denomina análisis de correlación. El segundo
método consiste en determinar una relación funcional de la variable
dependiente Y con respecto a una variable independiente X con el fin de
predecir valores de Y . Este método, es el análisis de regresión. Los
métodos de regresión y correlación entre variables se clasifican de acuerdo
al numero de variables independientes, se denomina simple si hay una sola
variable independiente y se denomina múltiple si hay dos o más variables
independientes.
Diagrama de dispersión
Sean (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ), n valores de la variable bidimensional (X,Y ), observados en una muestra,
donde los 𝑥𝑖 son los valores de la variable X y los 𝑦𝑖 son los valores de la variable Y . Se denomina diagrama
de dispersión o nube de puntos, a la representación gráfica de los distintos valores (𝑥𝑖 , 𝑦𝑖 ) de las variables X
e Y en el mismo sistema cartesiano.
Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y con respecto a
sus medias respectivas 𝑥, 𝑦 .
La covarianza de n valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 )de una variable bidimensional (X,Y ) es dado por:

Coeficiente o índice de correlación


El coeficiente de correlación lineal de Pearson de n pares de valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ) de la
variable bidimensional (X,Y ), es denotado por “r” y es dado por:
donde, 𝑠𝑋𝑌 es la covarianza de X e Y , 𝑠𝑋 es la desviación estándar de X y 𝑠𝑌 es la desviación
estándar de Y . El coeficiente de correlación r es un número comprendido entre -1 y 1, esto es,
−1 ≤ r ≤ 1.

Interpretación: Si r = 1, se dice que hay una correlación perfecta positiva. Si r = −1, se dice que
hay una correlación perfecta negativa. Si r = 0, se dice que no hay correlación lineal entre las
dos variables.
Estimación del modelo de regresión lineal
Dado (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),··· , (𝑥𝑛 , 𝑦𝑛 ), una muestra de tamaño n de una variable bidimensional (X,Y ), el
modelo de regresión lineal simple de Y (variable dependiente) con respecto de X (variable independiente),
consiste en determinar la ecuación de la recta:
𝑌 = 𝑎 + 𝑏𝑋
que mejor se ajuste a los datos de la muestra, con el fin de predecir o estimar Y a partir de X. El valor 𝑦
denominado valor estimado o predecido, representa un valor de Y calculado de la ecuación Y = a +bX
cuando X = 𝑥𝑖 . Para determinar dicha ecuación de regresión utilizaremos el método de mínimos
cuadrados.
Método de mínimos cuadrados
Cuando se considera la ecuación de regresión lineal muestral, cada dato (𝑥𝑖 , 𝑦𝑖 ) de la muestra, satisface
la ecuación:

en donde 𝑒𝑖 = 𝑦𝑖 -𝑦𝑖 se denomina error o residuo y describe el error en el ajuste del modelo de regresión
muestral en el punto i de los datos. Consideremos la suma de cuadrados de errores:

Determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de tal
manera que SCE sea mínimo. Derivando SCE con respecto a a y con respecto a b y luego igualando a
cero se obtiene las siguientes ecuaciones:
Resolviendo el sistema de ecuaciones se obtiene:

es equivalente a:

Interpretación:
Si b > 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X se tiene
mayores valores de Y .
Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X se tiene
menores valores de Y .
Si b = 0, se dice que no hay regresión muestral.
Coeficiente de determinación
El coeficiente de determinación mide el porcentaje de variación en la variable respuesta, explicada por
la variable independiente, es denotada por 𝑟 2 y se define por:

es equivalente a:

Donde, las sumas de los cuadrados:

son respectivamente

SCT : Suma de cuadrados total.


SCE : Suma de cuadrados de los errores.
SCR : Suma de cuadrados debido a la regresión.
Cuanto mayor es el valor de 𝑟 2 menor es la dispersión y mayor el ajuste de la recta
de regresión a los datos.
Ejercicios explicativos
Jensen Tire & Auto está por decidir si firma un contrato de mantenimiento para su nueva
máquina de alineamiento y balanceo de neumáticos. Los gerentes piensan que los gastos
de mantenimiento deberán estar relacionados con el uso y recolectan los datos siguientes
sobre uso semanal (horas) y gastos anuales de mantenimiento (en cientos de dólares).

a. Realice el diagrama de dispersión, e indicar la tendencia de los datos.

Se tiene una tendencia de


datos lineal positiva
b. Calcular la recta de regresión con el fin de predecir los gastos anuales en mantenimiento e
interprete la pendiente de la regresión.
𝑌 = 𝑎 + 𝑏𝑋 𝑋: Uso semanal (horas) de la máquina de alineamiento y balanceo de neumáticos
𝑌 : gastos anuales de mantenimiento (en cientos de dólares )
a =10.528 𝑌 = 10.528 + 0.9534 𝑋
b =0.9534
b > 0 a mayor uso semanal (horas) de la máquina mayores serán los gastos anuales de
mantenimiento
c. Estime el gasto anual en mantenimiento, si la máquina se usa 35 horas a la semana
𝑌 = 10.528 + 0.9534 𝑋
Y= 10.528+0.9534 (35)
Y= 43.897 en cientos de dólares

d. Si el gasto anual en mantenimiento para una de estas máquinas fue de cinco mil dólares, ¿cuántas horas a la
semana se usó la máquina?
𝑌 = 10.528 + 0.9534 𝑋
50=10.528+0.9534 𝑋
𝑋= 41.4013 horas de uso
e. Determine e interprete el coeficiente de correlación.

R= 0.9253 existe una correlación fuerte positiva entre uso semanal (horas) de la
máquina y gastos anuales de mantenimiento (en cientos de dólares )

f. Determine e interprete el coeficiente de determinación

𝑟 2 =0.8562
El 85.62% de la variabilidad de gastos anuales de mantenimiento (en cientos de
dólares ) es explicada por la variabilidad del uso semanal (horas) de la máquina
Ejercicios explicativos
Se han estudiado las calificaciones de 20 alumnos en dos asignaturas: Matemática (X) y Estadística
(Y ), obteniéndose los siguientes resultados:

Además se sabe que el coeficiente de correlación lineal entre ambas variables es r = 0.90. ¿Qué nota
se puede predecir en la asignatura de Estadística, para un alumno que ha obtenido 14 en Matemática?
Solución
𝑆𝑥𝑦 𝑆𝑥𝑦
𝑟=𝑆 0.9 = 𝑆𝑥𝑦 =2.7
𝑥 𝑆𝑦 2 1.5
𝑆𝑥𝑦 2.7
b= = =0.675
𝑆𝑥2 4
𝑎 =𝑦 − 𝑏𝑥 ; 𝑎 =15-0.675(13)=6.225
𝑌 = 𝑎 + 𝑏𝑥
𝑌 = 6.225 + 0.675𝑋
𝑌 = 6.225 + 0.675 (14)
𝑌 = 15.675 = 16 La nota que se puede predecir en la asignatura de Estadística es de 16
Regresión y correlación lineal
TAREA DOMICILIARIA

Resuelve los ejercicios de la tarea domiciliaria


del archivo S14.s1 – Teoría y práctica y adjunta a
tu archivo en la tarea S14.s1 – Resolver
ejercicios.

También podría gustarte