UNIDAD II
ANÁLISIS DE REGRESIÓN
LINEAL, ANALISIS DE
CORRELACIÓN Y
PROBABILIDADES.
Análisis de regresión y correlación.
Se deben resolver problemas que contienen un conjunto de
variables y que se sabe existe alguna asociación entre ellas. En
este conjunto de variables se tiene una sola variable dependiente
(o respuesta) , que depende de una o más variables
independientes (o de regresión) 𝑋1 , 𝑋2 , 𝑋3 , … 𝑋𝑛 como por
ejemplo:
X Y
Ejemplos
Estudiar como influye la estatura del padre sobre la estatura del hijo
Estimar el precio de una vivienda en función de su área m2
Predecir el peso de un niño de acuerdo a su estatura
Aproximar la calificación obtenida en una materia según el número de
horas de estudio semanal.
El salario (Y) de una persona depende de:
Años de experiencia.
Cargo que ocupa.
Horas de trabajo
Categoría laboral
El rendimiento académico (Y) depende de:
Horas de asistencia a clase
Horas de estudio fuera de clase
Métodos de estudio
Estilos de aprendizaje
Análisis de regresión
El análisis de regresión consiste en emplear métodos que
permitan determinar la mejor relación funcional entre la variable
dependiente Y con respecto a la variable independiente X con el
fin de predecir el valor de Y si se conoce los valores de la otra
variable asociada.
Diagrama de Dispersión.
Se denomina diagrama de dispersión o nube de puntos; a la
representación gráfica de puntos dispersos sobre el plano
cartesiano.
El conjunto de observaciones xi , yi , tal que xi X , yi Y
forma el diagrama de dispersión.
TIPOS DE DIAGRAMA DE DISPERSIÓN
Existe una relación lineal
positiva entre las dos
variables . También se le
conoce como relación
directa o tendencia
creciente.
Existe una relación lineal
negativa entre las dos
variables . También se le
conoce como relación
inversa o tendencia
decreciente
Existe una relación no
lineal entre las dos
variables .
No existe ninguna
relación entre las
dos variables
estudiadas
El problema de ajustar una curva a una serie de datos consiste
en primer término determinar la familia de curvas que mejor
escribe el fenómeno (diagrama de dispersión). Posteriormente
realizada esta decisión se procederá a encontrar los parámetros
de la curva correspondiente.
Consideremos una variable dependiente (o respuesta) Y con
una sola variable independiente(o variable independiente) X.
Modelo de regresión lineal simple
La regresión lineal simple es la función lineal por medio del cual se desea saber el
grado de dependencia de dos variables, es decir en qué grado las variaciones de una
característica provocan variaciones en la magnitud de la otra variable
El modelo matemático es:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖
Los estimadores de los parámetros son calculados a través de una muestra
aleatoria de tamaño n, utilizando el método de mínimos cuadrados, el cual
consiste en minimizar la suma de cuadrados de los errores
Estimación de parámetros por el método de mínimos
cuadrados.
Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los
siguientes supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión
poblacional.
2. Las varianzas de los errores son las mismas en todos los valores de X
(Homocedasticidad) en caso contrario se tiene (Heterocedasticidad).
3. Los errores o residuos son independientes: No se muestra algún patrón definido.
n n
Donde: n
n xi y i
n
xi y i
n
y i x i
b
SPXY
i 1 i 1 i 1
2 a i 1
b i 1
y bx
SCX n
n
n n
n xi 2 xi
i 1 i 1
Interpretación de los parámetros estimados:
El valor (a) de la ecuación de regresión es la ordenada en el origen es
decir el punto en que la recta se intercepta con el eje .
El valor (b) es el coeficiente de regresión mide el cambio promedio en
cuando cambia una unidad de medición.
- Si entonces, la tendencia es lineal creciente, es decir a mayores valores de le
corresponden mayores valores de , también a menores valores de le
corresponden menores valores de .
- Si entonces, la tendencia es Lineal Decreciente, es decir a mayores valores
de le corresponden menores valores de , también a menores valores de le
corresponden mayores valores de .
- Si entonces, es decir permanece estacionario para cualquier valor de , por
consiguiente no hay regresión.
Nota:
•El coeficiente de regresión (b). Pendiente de la recta de regresión,
representa la tasa de cambio de la respuesta Y al cambio de una
unidad en X.
•Si b=0, se dice que no existe relación lineal entre las dos variables.
•Esta recta que mejor se ajusta a los datos de la muestra, sirve para
. estimar o predecir los valores de y sobre x.
Es decir:
y a b xi
y : Es el valor ajustado o pronosticado de y cuando x = xi
Estimación de la varianza de la regresión lineal simple
Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, La utilidad
principal es predecir valores de Y para determinados valores de X. Si se hace una
predicción nos interesa saber, que tan buena o confiable es esa predicción. La respuesta a
esta pregunta depende de la variabilidad de los valores de Y con respecto a la recta de
regresión.
Una medida que indica el grado de variabilidad o dispersión en torno a la línea de regresión
es la Varianza de la regresión, para su cálculo se utiliza la siguiente expresión:
La raíz cuadrada de la Varianza es la desviación estándar de
la regresión. Este valor también se le conoce como error
estándar de estimación. Cuanto más pequeño sea la
Varianza o desviación estándar, más cercanos a la línea de
regresión estarán los valores de la variable .
Ejemplos:
1.- Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe
de medio semestre (x) y en el examen final (y):
x 77 50 71 72 81 94 96 99 67
y 82 66 78 34 47 85 99 99 68
•Estime la recta de regresión lineal.
•Calcule la calificación final de un estudiante que obtuvo 85 de calificación en el
informe de medio semestre.
2.- En un departamento de producción se desea examinar la relación entre el número
de trabajadores y el número de unidades producidas. A continuación se presenta el
conjunto completo de pares de observaciones.
Producción en una
Cantidad de
hora
empleados
(unidades)
2 15
4 25
1 10
5 40
3 30
a) Cuál es la variable dependiente, y cual la independiente?
b) Trace el diagrama de dispersión.
c) Determinar la ecuación de regresión lineal.
ANÁLISIS DE CORRELACIÓN
El análisis de correlación es un conjunto de técnicas estadísticas
empleado para medir la intensidad de la asociación entre dos
variables. El concepto de correlación está estrechamente
vinculado al concepto de regresión.
Coeficiente de correlación lineal
El coeficiente de correlación lineal de Pearson mide el grado de
intensidad o el grado de relación entre las variables X e Y, se
calcula aplicando la siguiente fórmula:
n n n
n xi y i xi y i
Cov xy
r i 1 i 1 i 1
S x Sy n 2 n
n n
2
n xi ( xi ) n y i ( y i )
2 2
i 1 i 1 i 1 i 1
Se utiliza también la siguiente relación:
Propiedades del coeficiente de correlación
[Link] coeficiente de correlación lineal es un número real
comprendido entre los valores de: −1 y 1. Esto es: −1 ≤ r ≤ 1
2. El signo del coeficiente de correlación es el mismo que el de
la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. Si r = 1, se dice que hay una correlación lineal perfecta
positiva.
4. Si r = - 1, se dice que hay una correlación lineal perfecta
negativa.
5. Si r = 0, se dice que no hay una correlación entre las dos
variables.
Coeficiente de determinación (R2)
Es la variación explicada por la recta de regresión, es decir en
qué porcentaje la variable independiente X explica la
variabilidad en la variable dependiente Y, su ecuación es:
R2 = r2 x 100%
Ejemplos:
[Link] inventor de un nuevo material aislante quiere determinar la
magnitud de la compresión (y) que se producirá en una pieza de
2 pulgadas de espesor cuando se somete a diferentes cantidades
de presión (x). para ello prueba 5 piezas de material bajo
diferentes presiones. Los pares de valores observados (x, y) se
muestran en la siguiente tabla:
Pieza Presión(x) Compresión(y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
a)Calcule el coeficiente de correlación.
b)Calcule el coeficiente de determinación.
2. Se está estudiando la relación entre el número de años que una
persona está afiliada al seguro social y el nivel de satisfacción con
la actuación de dicho seguro. Para esto se elige 7 individuos
tomados aleatoriamente de personas aseguradas, obteniéndose:
Años 8 7 10 3 6 13 4
Satisfacción 7 5 8 5 9 9 3
a)Calcule el coeficiente de correlación.
b)Calcule el coeficiente de determinación.