REPÚBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DEL PODER POPULAR PARA LA DEFENSA
VICEMINISTERIO DE EDUCACIÓN PARA LA DEFENSA
UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA
FUERZA ARMADA NACIONAL BOLIVARIANA
Análisis de
correlación y
regresión
Docente Estudiante:
Johan González Carlos Medina Jiménez
Catia la Mar, 30 de Junio de 2025
Introducción
En el campo de la estadística, el análisis de correlación y regresión son herramientas
fundamentales para entender y cuantificar la relación entre variables. Nos permiten ir más
allá de la simple descripción de los datos para explorar cómo se comportan en conjunto y,
en muchos casos, predecir el valor de una variable basándonos en otra.
La correlación se enfoca en medir la fuerza y la dirección de la relación lineal entre
dos variables. Imagina que quieres saber si a mayor cantidad de horas de estudio, mejores
calificaciones obtienes; la correlación nos diría qué tan fuerte es esa conexión y si es una
relación directa (ambas aumentan o disminuyen juntas) o inversa (mientras una aumenta, la
otra disminuye). Sin embargo, es crucial recordar que una correlación fuerte no implica
necesariamente una relación de causa y efecto.
Por otro lado, la regresión lineal va un paso más allá. Si la correlación nos dice que
existe una relación, la regresión nos permite modelar esa relación para poder predecir
valores. Utilizando la información de una variable (independiente), podemos estimar el
valor de otra variable (dependiente). Por ejemplo, si encontramos una correlación
significativa entre las horas de estudio y las calificaciones, la regresión nos permitiría
construir una ecuación que prediga la calificación esperada de un estudiante basándose en
el número de horas que dedicó a estudiar.
Correlación
La correlación es una medida estadística que cuantifica la fuerza y la dirección de la
relación lineal entre dos variables numéricas. Nos permite entender si, y en qué medida, los
cambios en una variable tienden a estar asociados con los cambios en otra. Es una de las
primeras herramientas que se utilizan en el análisis de datos para explorar posibles
conexiones entre fenómenos.
1. Gráfico de Dispersión (o Nube de Puntos)
Antes de realizar cualquier cálculo, la primera y más importante herramienta para
visualizar la relación entre dos variables es el gráfico de dispersión. Este diagrama
representa cada par de observaciones (xi,yi) como un punto en un plano cartesiano. La
disposición de estos puntos nos ofrece una visión intuitiva de la correlación:
Correlación Positiva (Directa): Si los puntos tienden a agruparse a lo largo de una
línea ascendente de izquierda a derecha. Esto indica que a medida que una variable
aumenta, la otra también tiende a aumentar.
o Ejemplo visual: Puntos que suben diagonalmente.
Correlación Negativa (Inversa): Si los puntos tienden a agruparse a lo largo de
una línea descendente de izquierda a derecha. Esto indica que a medida que una
variable aumenta, la otra tiende a disminuir.
o Ejemplo visual: Puntos que bajan diagonalmente.
Sin Correlación (Nula): Si los puntos están dispersos de forma aleatoria y no
muestran ningún patrón lineal discernible. Esto sugiere que no hay una relación
lineal clara entre las variables.
o Ejemplo visual: Puntos distribuidos de manera uniforme, como una nube.
2. Coeficiente de Correlación de Pearson (r)
Aunque el gráfico de dispersión es excelente para una primera inspección, necesitamos
una medida numérica que nos indique la fuerza y dirección exacta de la relación lineal. El
coeficiente de correlación de Pearson (también conocido como coeficiente de correlación
producto-momento de Pearson) es la medida más comúnmente utilizada para este
propósito.
Definición: El coeficiente de Pearson, denotado por r, es un valor que oscila entre -
1 y +1.
o r=+1: Indica una correlación positiva perfecta (los puntos forman una línea
recta ascendente).
o r=−1: Indica una correlación negativa perfecta (los puntos forman una línea
recta descendente).
o r=0: Indica que no existe una relación lineal entre las variables.
o Valores cercanos a +1 o -1 indican una correlación lineal fuerte.
o Valores cercanos a 0 indican una correlación lineal débil o inexistente.
Fórmula (Concepto): Aunque el cálculo manual puede ser laborioso para grandes
conjuntos de datos, la fórmula conceptual del coeficiente de Pearson implica la
covarianza de las dos variables dividida por el producto de sus desviaciones
estándar. Esto estandariza la medida para que sea independiente de las unidades de
las variables.
r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)
Donde:
o xi y yi son los valores individuales de las variables X e Y.
o xˉ y yˉ son las medias de las variables X e Y.
3. Interpretación Crítica de la Correlación
Es fundamental comprender que la correlación no implica causalidad. El hecho de que
dos variables estén altamente correlacionadas no significa necesariamente que una cause la
otra. Podrían existir varias razones para una correlación observada:
Causalidad Directa: X causa Y.
Causalidad Inversa: Y causa X.
Variable Latente (Confundidora): Una tercera variable no observada influye tanto
en X como en Y, creando una correlación aparente entre ellas. Por ejemplo, las
ventas de helados y los ahogamientos en piscinas suelen estar correlacionados
positivamente. Sin embargo, ninguno causa el otro; la variable subyacente es la
temperatura ambiente (en verano, la gente compra más helados y más gente va a
nadar).
Casualidad o Coincidencia: La correlación puede ser puramente aleatoria.
Regresión Lineal Simple
Mientras que la correlación nos indica si dos variables se mueven juntas y con qué
fuerza, la regresión lineal simple busca establecer una ecuación matemática que describa
cómo una variable (la dependiente) puede ser predicha a partir de otra (la independiente).
Es decir, nos permite modelar la relación lineal observada entre las variables para hacer
estimaciones o pronósticos.
1. El Modelo de Regresión Lineal Simple
El modelo básico para la regresión lineal simple se expresa mediante la siguiente ecuación:
Y=β0+β1X+ϵ
Donde:
Y (Variable Dependiente o de Respuesta): Es la variable cuyo valor queremos
predecir o explicar. En nuestro ejemplo anterior, sería la Calificación Final.
X (Variable Independiente o Predictora): Es la variable que utilizamos para
predecir o explicar Y. En nuestro ejemplo, serían las Horas de Estudio.
β0 (Beta Cero - Intercepto o Constante): Representa el valor promedio esperado
de Y cuando X es igual a cero. En algunos contextos, su interpretación directa
puede no tener sentido práctico (por ejemplo, una calificación cuando se estudian 0
horas, si el rango de estudio observado no incluye el cero).
β1 (Beta Uno - Pendiente o Coeficiente de Regresión): Indica cuánto se espera
que cambie Y por cada unidad de aumento en X. Si β1 es positivo, Y aumenta con
X; si es negativo, Y disminuye con X. Es una medida de la relación lineal entre X y
Y.
ϵ (Épsilon - Término de Error o Residuo): Es una variable aleatoria que
representa la parte de la variabilidad de Y que no puede ser explicada por la relación
lineal con X. Incluye el efecto de todas las otras variables no consideradas en el
modelo y el ruido aleatorio.
2. La Ecuación de la Recta de Regresión Estimada
Dado un conjunto de datos muestrales, el objetivo de la regresión es estimar los
valores de β0 y β1 para obtener una "línea de mejor ajuste" que minimice la distancia entre
los puntos de datos reales y la línea predicha. Esta línea estimada se denota como:
Y^=b0+b1X
Donde:
Y^ (Y-sombrero): Es el valor predicho de la variable dependiente para un valor
dado de X.
b0: Es la estimación del intercepto β0 obtenida de los datos de la muestra.
b1: Es la estimación de la pendiente β1 obtenida de los datos de la muestra.
3. Método de Mínimos Cuadrados Ordinarios (MCO)
Para encontrar los valores de b0 y b1 que definen la "mejor" recta de regresión, se
utiliza el Método de Mínimos Cuadrados Ordinarios (MCO). La idea central de MCO es
simple: encontrar la recta que minimice la suma de los cuadrados de las diferencias
verticales entre los valores observados de Y y los valores predichos por la recta (Y^). Estas
diferencias se conocen como residuos.
Residuo (ei): Para cada observación, el residuo es la diferencia entre el valor real
observado de Yi y el valor predicho Y^i: ei=Yi−Y^i.
Objetivo de MCO: Minimizar ∑i=1nei2=∑i=1n(Yi−Y^i)2=∑i=1n(Yi−(b0+b1Xi
))2.
Este método produce las siguientes fórmulas para b0 y b1:
b1=n∑X2−(∑X)2n∑XY−(∑X)(∑Y)b0=Yˉ−b1Xˉ
Donde:
n: número de observaciones.
∑XY: suma de los productos de cada par X e Y.
∑X, ∑Y: sumas de los valores de X e Y respectivamente.
∑X2: suma de los cuadrados de los valores de X.
Xˉ, Yˉ: medias de X e Y.
4. Coeficiente de Determinación (R2)
Una vez que hemos ajustado la recta de regresión, necesitamos saber qué tan bien
explica nuestro modelo la variabilidad de la variable dependiente. Para esto, utilizamos el
coeficiente de determinación, denotado como R2.
Definición: R2 mide la proporción de la varianza total de la variable dependiente
(Y) que es explicada por la variable independiente (X) a través del modelo de
regresión lineal. En regresión lineal simple, R2 es simplemente el cuadrado del
coeficiente de correlación de Pearson (r2).
Rango de Valores: R2 siempre toma valores entre 0 y 1 (o 0% y 100%).
o R2=1 (o 100%): Indica que el modelo de regresión explica el 100% de la
variabilidad de Y. Todos los puntos de datos caen exactamente sobre la recta
de regresión.
o R2=0 (o 0%): Indica que el modelo no explica ninguna parte de la
variabilidad de Y. La variable independiente X no tiene ninguna capacidad
predictiva lineal sobre Y.
o Valores intermedios: Por ejemplo, un R2=0.75 (o 75%) significa que el
75% de la variación en Y se puede explicar por la variación en X mediante
nuestro modelo de regresión, y el 25% restante se debe a factores no
incluidos en el modelo o al error aleatorio.
Interpretación: Un R2 más alto generalmente indica un mejor ajuste del modelo a
los datos, lo que significa que las predicciones del modelo serán más precisas.
5. Supuestos del Modelo de Regresión Lineal Simple
Para que las inferencias y predicciones del modelo de regresión sean válidas y
confiables, se deben cumplir ciertos supuestos sobre el término de error (ϵ):
1. Linealidad: La relación entre X y Y debe ser lineal. Esto se puede verificar
visualmente con el gráfico de dispersión.
2. Independencia de los Errores: Los errores de las observaciones individuales
deben ser independientes entre sí. Esto es crucial en datos de series de tiempo,
donde los errores de un período podrían afectar a los del siguiente.
3. Homocedasticidad: La varianza de los errores debe ser constante para todos los
niveles de la variable independiente X. Es decir, la dispersión de los puntos
alrededor de la recta de regresión debe ser similar a lo largo de todo el rango de X.
Si la varianza de los errores cambia, hablamos de heterocedasticidad.
4. Normalidad de los Errores: Los errores deben estar distribuidos normalmente con
una media de cero. Esto es importante para las pruebas de hipótesis y la
construcción de intervalos de confianza. Se puede verificar con gráficos de
probabilidad normal de los residuos.
La violación de estos supuestos puede llevar a estimaciones sesgadas o ineficientes, y a
inferencias incorrectas sobre la significancia del modelo.
6. Predicción e Interpretación
Una vez que se ha calculado la ecuación de la recta de regresión (Y^=b0+b1X), podemos
utilizarla para:
Predecir el valor de Y para un nuevo valor de X (dentro del rango observado de los
datos).
Interpretar los coeficientes b0 y b1 en el contexto del problema.
Conclusión
El análisis de correlación y regresión son pilares fundamentales en la estadística,
ofreciéndonos herramientas poderosas para desentrañar las relaciones entre variables y para
hacer predicciones informadas. La correlación nos permite cuantificar la fuerza y la
dirección de la asociación lineal entre dos variables, dándonos una primera pista sobre
cómo se mueven juntas. Es esencial recordar, sin embargo, que una fuerte correlación, por
sí sola, nunca debe interpretarse como una prueba de causalidad; simplemente indica una
relación estadística.
Por otro lado, la regresión lineal simple va un paso más allá. Nos proporciona un
modelo matemático, representado por una línea de mejor ajuste, que nos permite predecir el
valor de una variable dependiente basándonos en el valor de una variable independiente.
Mediante el Método de Mínimos Cuadrados Ordinarios (MCO), obtenemos una ecuación
que minimiza el error entre los valores observados y los predichos, y el coeficiente de
determinación (R2) nos indica qué tan bien nuestro modelo explica la variabilidad en los
datos.
En conjunto, estas técnicas no solo facilitan la comprensión de fenómenos
complejos, sino que también son cruciales para la toma de decisiones en una vasta gama de
campos. Desde la economía, prediciendo el comportamiento del mercado, hasta la
medicina, analizando la relación entre dosis de medicamentos y efectos, o en las ciencias
sociales, comprendiendo factores que influyen en el comportamiento humano, la
correlación y la regresión son indispensables para transformar datos en conocimiento y, en
última instancia, en acciones estratégicas.
Bibliografía
Laerd Statistics. (s.f.). Linear Regression Analysis in SPSS Statistics.
[Link]
Towards Data Science. (2018, marzo 12). Understanding Correlation and Regression
Analysis. [Link]
analysis-1f6c5b55e0b8