REGRESIÓN Y
CORRELACIÓN
INTRODUCCIÓN
Se estudiará el comportamiento de poblaciones bivariadas teniendo en
cuenta los siguientes tópicos principales:
¿Existe relación entre las dos variables que forman una población?
De existir relación entre las dos variables, ¿es posible expresar esta
relación mediante una ecuación?
Al establecer dicha ecuación ¿qué valor toma la variable
dependiente?
¿Qué error cometemos en dicha estimación?
Establecemos intervalos de confianza para dicha estimación
Sólo expresan el grado de
CORRELACIÓN asociación de ambas variables
sin tener en cuenta la
naturaleza de las mismas
Investigar la cantidad de la
relación existente entre ambas
ANÁLISIS DE variables, y de estimar o
REGRESIÓN predecir una de las variables
(dependiente) en función del
conocimiento de la otra
(independiente).
ANÁLISIS DE CORRELACIÓN
Reportar la asociación entre dos variables: variable
independiente: es aquella que proporciona la base
para la estimación, se representa en el eje “x” y
variable dependiente: es la variable que se predice o
estima, se ubica en el eje “y”. El primer paso habitual
es trazar los datos en un diagrama de dispersión
DIAGRAMA DE DISPERSIÓN
Es una representación gráfica de la relación entre dos
variables.
Colocando en el eje horizontal la variable independiente (x)
y en el vertical la dependiente (y).
DIAGRAMA DE DISPERSIÓN
CORRELACIÓN Y aumenta claramente con X
FUERTE POSITIVA
CORRELACIÓN Y disminuye claramente con X
FUERTE NEGATIVA
CORRELACIÓN DÉBIL
POSITIVA Y aumenta algo con X
CORRELACIÓN DÉBIL Y disminuye algo con X
NEGATIVA
CORRELACIÓN Y parece relacionarse con X pero
COMPLEJA no de un modo lineal
CORRELACIÓN NULA No hay relación entre X e Y
DIAGRAMA DE DISPERSIÓN
Correlación directa Correlación inversa
Correlación Débil Correlación Alta Correlación Débil Correlación Alta
Positiva Positiva Negativa Negativa
COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación creado por Pearson alrededor de 1900,
describe la fuerza de la relación entre dos conjuntos de variables en escala
de intervalo o de razón.
El coeficiente de correlación de la muestra se identifica por la letra minúscula r.
Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en
escala de intervalo o en escala de razón.
Varía de -1 hasta +1 inclusive.
Un valor cercano a 0 indica que hay poca asociación entre las variables.
Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
Un valor cercano a -1 indica una asociación inversa entre las variables.
COEFICIENTE DE CORRELACIÓN
Coeficiente de correlación lineal de Pearson:
Donde:
Cálculo de covarianza
Desvío de : Desvío de :
COEFICIENTE DE DETERMINACIÓN
Proporción de la variación total en la variable
dependiente Y que se explica, por la variación
en la variable dependiente X.
Coeficiente de determinación:
Se calcula como r2
ANÁLISIS DE REGRESIÓN
Objetivo: encontrar la ecuación de una recta que mejor describe
la relación entre las dos variables. Esta ecuación permitirá hacer
predicciones sobre la variable respuesta.
COEFICIENTES DE LA RECTA
b: coeficiente de la pendiente.
Es una variación de y por cada aumento unitario de x.
Donde:
b=r r: es el coeficiente de correlación.
Sy: es la desviación estándar de Y (variable dependiente)
Sx: es la desviación estándar de X (variable independiente)
a: coeficiente de la ordenada al origen.
Valor de y cuando x = 0
Donde:
: es la media de Y (variable dependiente)
: es la media de X (variable independiente)
¿QUÉ ES EL ERROR?
Es la distancia entre el valor observado de y y el valor pronosticado
por la recta.
Su promedio es cero y tiene distribución normal.
Ejercicio
La cátedra de matemática de la Facultad de Bioquímica está
analizando las encuestas de fin de curso a sus estudiantes. Como
parte del análisis, se proponen estimar la nota final del alumno a
partir de las horas totales de estudio de la asignatura declarados
por los estudiantes. Una muestra aleatoria de 8 encuestas arroja
la siguiente información
Hs totals de estudio: 40 50 30 60 90 85 82 55
Nota final de curso: 6 7 6 8 10 9 10 6
a) Calcule la recta de regresión.
b) Encuentre la nota estimada si la dedicación al estudio disponible es de 70 horas.
c) Determine el coeficiente de determinación y el coeficiente de correlación. Interprete.
d) Grafique el diagrama de dispersión y la recta de regresión
Diagrama de dispersión
12
Nota final de curso
10
0
0 20 40 60 80 100
Hs totals de estudio
a) Calcule la recta de regresión
Y (La variable dependiente): Nota final de curso.
X (La variable independiente): Hs totales de estudio
Cantidad de datos: 8
Cálculos para determinar la
Variables a relacionar covarianza y los desvíos
Hs totals de estudio Nota final de curso
Encuestas x y (x- )*(y- ) (x- )2 (y- )2
1 40 6 37,625 462,25 3,0625
2 50 7 8,625 132,25 0,5625
3 30 6 55,125 992,25 3,0625
4 60 8 -0,375 2,25 0,0625
5 90 10 64,125 812,25 5,0625
6 85 9 29,375 552,25 1,5625
7 82 10 46,125 420,25 5,0625
8 55 6 11,375 42,25 3,0625
61,5 7,75 252 3416 21,5
Media aritmética de x; y
a) Calcule la recta de regresión
La ecuación de regresión lineal
Se sabe que la ecuación de una recta es del tipo:
Y=a+bX
b)Encuentre la nota estimada si la dedicación al estudio disponible es de 70 horas.
c) Determine el coeficiente de determinación y el coeficiente de correlación. Interprete.
d)Grafique el diagrama de dispersión y la recta de regresión
Gráfico de Dispersión con recta de regresión
12
10
Nota final de curso
0
0 10 20 30 40 50 60 70 80 90 100
Hs totals de estudio
y = 0,0738x + 3,2131
R² = 0,8647