UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
FACULTAD CIENCIAS ADMINISTRATIVAS
NOMBRE:
KARLA STEFANÍA LÓPEZ DELGADO
CURSO:
TERCER SEMESTRE “A”
CARRERA:
ADMINISTRACIÓN DE EMPRESAS
MATERIA:
ESTADÍSTICA APLICADA
PROFESORA:
ING. ANA PALMA
TEMAS:
- ¿QUÉ ES EL ANALÍSIS DE CORRELACIÓN?
COFEICIENTE DE CORRELACIÓN
- EJERCICIOS
- PRUEBA DE IMPORTANCIA DEL COEFICIENTE DE CORRELACIÓN
- EJERCICIOS
- ERROR ESTÁNDAR ESTIMACIÓN - INTERVALO DE CONFIANZA DE
PREDICCIÓN.
- ALGO MÁS ACERCA DEL COEFICIENTE DE CORRELACIÓN
- RELACIÓN ENTRE COEFICIENTE DE DETERMINACIÓN Y ERROR DE
ESTÁNDAR DE ESTIMACIÓN.
2020 (1)
INTRODUCCIÓN
La correlación es una técnica estadística usada para determinar la relación entre dos o más
variables.
Un diagrama de dispersión se emplea cuando existe una variable bajo el control del
experimentador. El primer paso para analizar una serie de tiempo es graficarla, esto permite
identificar la tendencia, la estacionalidad, las variaciones irregulares (componente aleatoria).
¿QUÉ ES EL ANÁLISIS DE CORRELACIÓN?
Cuando se estudia la relación entre dos variables en escala de intervalo (o de razón), es
usual comenzar con un diagrama de dispersión. Este proceso proporciona una representación
visual de la relación entre las variables. El siguiente paso suele ser calcular el coeficiente de
correlación, que brinda una medida cuantitativa de la fuerza de la relación entre dos variables.
(Lind , Marchal , & Wathen, Análisis de correlación, 2012)
La idea básica del análisis de correlación es reportar la asociación entre dos variables. Por
lo general, el primer paso es trazar los datos en un diagrama de dispersión (Lind , Marchal , &
Wathen, Análisis de correlación, 2012)
Como, por ejemplo, suponga que el gerente selecciona una muestra aleatoria de 10
representantes de ventas y determina el número de llamadas que hizo cada uno el mes pasado y el
número de copiadoras que vendió. (Lind , Marchal , & Wathen, Análisis de correlación, 2012)
Representantes de ventas Llamadas de ventas (X) Copiadoras vendidas (Y)
Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Ramírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70
EJEMPLO
Copier Sales of America vende copiadoras a empresas de todos los tamaños en
Estados Unidos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al puesto de
gerente nacional de ventas de todo el país. Ella desea descartar la importancia de hacer una
última llamada de ventas y el número de copiadoras vendidas. Por ello, selecciona una
muestra aleatoria de 10 representantes y determina el número de llamadas que hicieron en
el mes pasado y el número de copiadoras que vendieron. La información muestral se reporta
en la tabla ¿Qué observaciones cabe hacer respecto de la relación entre el número de
llamadas de ventas y el número de copiadoras vendidas? Elabore un diagrama de dispersión
para representar la información. (Lind , Marchal , & Wathen, Análisis de correlación, 2012)
SOLUCIÓN
Con base en la información de la tabla, la señora Bancer sospecha que hay una relación
entre el número de llamadas de ventas hecha en un mes y el número de copiadoras vendidas. Soni
Jones vendió más copiadoras que el mes anterior, y fue una de las tres representantes que hicieron
30 llamadas o más. Por otro lado, Susan Welch y Carlos Ramírez sólo hicieron 10 llamadas de
venta durante el mes anterior. La señora Welch, junto con otros dos, tuvo el número menor de
copiadoras vendidas entre los representantes muestreados. (Lind , Marchal , & Wathen, Análisis
de correlación, 2012)
La implicación es que el número de copiadoras vendidas se relaciona con el número de
llamadas de ventas. Conforme aumenta el número de llamadas de venta, parece que el número de
copiadoras vendidas también lo hace. De este modo, el número de llamadas de ventas se considera
variable independiente, y el de copiadoras, variable dependiente. (Lind , Marchal , & Wathen,
Análisis de correlación, 2012)
La variable independiente proporciona la base para la estimación. Es la variable predictora.
Por ejemplo, digamos que se desea predecir el número esperado de copiadoras que se venderán si
un representante realiza 20 llamadas de ventas. Observe que elegimos este valor. La variable
independiente no es un número aleatorio. (Lind , Marchal , & Wathen, Análisis de correlación,
2012)
La variable dependiente es la variable que se desea predecir o estimar. También puede ser
descrita como el resultado de un valor conocido de la variable independiente, existen muchos
posibles resultados para la variable dependiente. En este ejemplo, note que cinco representantes
de ventas hicieron 20 llamadas de ventas. El resultado de realizar esta cantidad de llamadas se
traduce en tres valores distintos de variable dependiente. (Lind , Marchal , & Wathen, Análisis de
correlación, 2012)
Es práctica común situar la variable dependiente (copiadoras vendidas) en el eje vertical o
Y y la variable independiente (número de llamadas de ventas) en el eje horizontal o X. Para
elaborar un diagrama de dispersión de la información de Copier Sales of America, inicie con el
primer representante de ventas, Tom Keller, quien hizo 20 llamadas en el mes anterior y vendió
30 copiadoras, por lo cual X = 20 y Y = 30. Para trazar esta información, a partir del origen vaya
por el eje horizontal hasta el valor X = 20, después haga lo mismo en el eje vertical hasta Y = 30
y marque un punto de intersección. Continúe con este proceso hasta que trace todos los datos
pareados como se muestra en la gráfica. (Lind , Marchal , & Wathen, Análisis de correlación,
2012)
El diagrama de dispersión muestra en forma gráfica que los representantes hacen más
llamadas tienen a vender más copiadoras. Es razonable que la señora Bancer, gerente nacional de
ventas en Copier Sales of America, diga que sus vendedores que, entre más llamadas de ventas
hagan, se espera que vendan más copiadoras. Observe que, aunque parece haber una relación
positiva entre las dos variables, no todos los puntos se encuentran en una recta. (Lind , Marchal ,
& Wathen, Análisis de correlación, 2012)
COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación creado por Karl Pearson alrededor de 1900, describe la fuerza
de la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa con la
letra r, y con frecuencia se lo conoce como r de Pearson y el coeficiente de correlación producto
– momento de -1.00 o bien de +1.00 indica una correlación perfecta. (Lind, Marchal, & Wather ,
Coeficiente de correlación, 2012)
CARACTERÍSTICAS DEL COEFICIENTE DE CORRELACIÓN
1. El coeficiente de correlación de la muestra se identifica con la letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de
intervalo o escala de razón.
3. Varia de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables. (Lind,
Marchal, & Wather , Coeficiente de correlación, 2012)
EJERCICIOS
¿Cómo se determina el coeficiente de correlación? Como ejemplo, emplee los datos de Copier Sales
of America, que se reportan en la tabla 13-2. Inicie con un diagrama de dispersión, similar a la gráfica 13-
2. Se traza una recta vertical con los valores de datos en la media de los valores X y una horizontal en la
media de los valores Y. En la gráfica 13-4 se agregó una recta en 22.0 llamadas(𝑥̅ = 𝛴𝑥 ∕ 𝑛 = 220 ∕ 10 =
22) una recta horizontal en 45.0 copiadoras(𝑌̅, 𝑛 = 450 ∕ 10 = 45.0). Estas rectas pasan por el “centro”
de los datos y dividen el diagrama de dispersión en cuatro cuadrantes. Considere mover el origen de (0,0)
a (22,45) (Lind, Marchal, & Wathen, Ejercicio de coeficiente de correlación, 2012)
Representantes de ventas Llamadas de ventas (X) Copiadoras vendidas (Y)
Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Ramírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70
Total 220 450
Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está
por arriba de la media y el número de llamadas de ventas también se encuentra arriba de la media.
Estos puntos aparecen el cuadrante superior derecho (cuadrante I) de la gráfica 13-4. De manera
similar, cuando el número de copiadoras vendidas es menor que la media, también lo es el número
de llamadas de ventas. Estos puntos se encuentran en el cuadrante inferior izquierdo de la gráfica
13-4 (cuadrantes III). Por ejemplo, la última persona de la lista de la tabla 13-2, Soni Jones, hizo
30 llamadas y vendió 70 copiadoras. Estos valores se encuentran arriba de sus medias respectivas,
por lo que este punto se ubica en el cuadrante I, que es el cuadrante superior derecho. Soni hizo 8
(𝑥 − 𝑥̅ = 30 − 22) más llamadas de ventas que la media y vendió 25 (𝑌 − 𝑌̅ = 70 − 45) más
copiadoras que la media. Tom Keller, el primer nombre de la lista de la tabla 13-2, hizo 20 llamadas
y vendió 15 copiadoras menos que las medias respectivas. Las deviaciones del número de los 10
representantes de ventas se resumen en la tabla 13-3. La suma de los productos de las desviaciones
de las medias respectivas es 900. Es decir, el término ∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅) = 900. (Lind, Marchal,
& Wathen, Ejercicio de coeficiente de correlación, 2012)
Representante de ventas Llamadas, X Ventas, Y ̅
𝑿−𝑿 ̅
𝒀−𝒀 ̅ )(𝒀 − 𝒀
(𝑿 − 𝑿 ̅)
Tom Keller 20 30 -2 -15 30
Jeff Hall 40 60 18 15 270
Brian Virost 20 40 -2 -5 10
Greg Fish 30 60 8 15 120
Susan Welch 10 30 -12 -15 180
Carlos Ramírez 10 40 -12 -5 60
Rich Niles 20 40 -2 -5 10
Mike Kiel 20 50 -2 5 -1
Mark Reynolds 20 30 -2 -15 30
Soni Jones 30 70 8 25 200
900
En los cuadrantes superior derecho e inferior izquierdo, el producto de (𝑋 − 𝑋̅)(𝑌 − 𝑌̅) es
positivo debido a que los dos factores tienen el mismo signo, en el ejemplo, esto sucede con todos
los representantes, excepto Mike Kiel. Por lo tanto, se espera que el coeficiente de correlación
tenga un valor positivo. (Lind, Marchal, & Wathen, Ejercicio de coeficiente de correlación, 2012)
Si las dos variables tienen una relación inversa, una variable estará arriba y otra debajo de
la media. En este caso, la mayoría de los puntos se ubican en los cuadrantes superior izquierdo e
inferior derecho, es decir, em los cuadrantes II y IV. Ahora (𝑋 − 𝑋̅) 𝑦 (𝑌 − 𝑌̅ ) tendrán signos
opuestos, y su producto será negativo. El coeficiente de relación resultante es negativo. (Lind,
Marchal, & Wathen, Ejercicio de coeficiente de correlación, 2012)
¿Qué sucede si no hay una relación lineal entre las dos variables? Los puntos en el diagrama
de dispersión aparecerán en los cuatros cuadrantes. Los productos negativos en el diagrama de
dispersión aparecerán en los cuatro cuadrantes. Los productos negativos de (𝑋 − 𝑋̅)(𝑌 − 𝑌̅ )
equilibran los productos positivos, por lo cual la suma es cero. Esto lleva al coeficiente de
correlación cercano a cero. De esta manera, el término ∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅). Conduce la fuerza y el
signo de la relación entre las dos variables. (Lind, Marchal, & Wathen, Ejercicio de coeficiente de
correlación, 2012)
Es necesario también que el coeficiente de correlación no sea afectado por las unidades de
las dos variables. Por ejemplo, si se hubieran empleado cientos de copiadoras vendidas en el lugar
del número vendido, el coeficiente de correlación sería el mismo. El coeficiente de correlación es
independiente de la escala empleada si se divide el término ∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅ ) entre las deviaciones
estándares muestrales. También se independiza el tamaño muestral y es acotado por los valores
+1.00 y -1.00 si se divide entre (𝑛 − 1). (Lind, Marchal, & Wathen, Ejercicio de coeficiente de
correlación, 2012)
Este razonamiento conduce a la siguiente fórmula:
∑(𝑥 − 𝑥 )(𝑦 − 𝑦)
𝑟=
(𝑛 − 1)𝑆𝑥 𝑆𝑦
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE DE CORRELACIÓN
EJERCICIO
Recuerde que la gerente de ventas de Copier Sales of America determinó que la correlación
entre el número de llamadas de ventas y el número de copiadoras vendidas era 0.759, lo que
indicaba una asociación fuerte entre ambas variables. Sin embargo, en la muestra había sólo 10
vendedores. ¿Puede ser la correlación entre la población sea 0? Esto significaría que la correlación
de 0.759 se debió a la casualidad. Este ejemplo, la población es todo el personal de ventas de la
empresa. (Lind , Marchal, & Wathen, Prueba de la importancia del coeficioente de correlación -
Ejercicio, 2012)
Resolver este dilema requiere una prueba para responder a pregunta obvia: ¿puede haber
una correlación cero entre la población de la cual se seleccionó la muestra? En otras palabras,
¿proviene el valor r calculado de una población de observaciones pareadas con correlación cero?
Para continuar la convención de usar letras griegas para representar un parámetro poblacional, p
(se pronuncia “rho”) representará la correlación entre la población. (Lind , Marchal, & Wathen,
Prueba de la importancia del coeficioente de correlación - Ejercicio, 2012)
Continuaremos con el ejemplo de las llamadas de ventas y copiadoras vendidas, para
emplear las mismas pruebas de hipótesis descritas en el capítulo 10. La hipótesis nula y la hipótesis
alternativa son: (Lind , Marchal, & Wathen, Prueba de la importancia del coeficioente de
correlación - Ejercicio, 2012)
𝐻0 = 𝑝 ≠ 0 (La correlación entre la población es cero)
𝐻1 = 𝑝 ≠ 0 (La correlación entre la población es diferente a cero)
Por la forma en la que se formula H1, se sabe que la prueba es de dos colas.
La prueba para t es:
𝑟√𝑛 − 2
𝑡= Con n − 2 grados de libertad
√1 − 𝑟 2
Con un nivel de significancia de 0.05, la regla de decisión en este caso indica que si el valor
calculado de t se encuentra en el área entre + 2,306 y – 2.306, entonces no se rechaza la hipótesis
nula. Para ubicar el valor crítico de 2.306, consulte con el apéndice B.2 para gl = n – 2 = 10 – 2 =
8. (Lind , Marchal, & Wathen, Prueba de la importancia del coeficioente de correlación - Ejercicio,
2012)
.
Si aplica la fórmula (13-2) al ejemplo de la relación entre el número de llamadas de ventas
y unidades vendidas: (Lind , Marchal, & Wathen, Prueba de la importancia del coeficioente de
correlación - Ejercicio, 2012)
𝑟√𝑛 − 2 . 759√10 − 2
𝑡= = − − 3.297
√1 − 𝑟2 √1 −. 7592
El valor de t calculado se encuentra en la región de rechazo. Por ello H0 se rechaza con un
nivel de significancia de 0.05. Esto significa que la correlación entre a población no es cero. Desde
un punto de vista práctico, esto indica a la gerente de ventas que hay una correlación entre el
número de llamadas de venta y el número de copiadoras vendidas en la población de vendedores.
(Lind , Marchal, & Wathen, Prueba de la importancia del coeficioente de correlación - Ejercicio,
2012)
La prueba de hipótesis también se interpreta en términos de valores p. Un valor p es la
probabilidad de determinar un valor estadístico de prueba más extremo que el calculado, cuando
H0 es verdadera. Para determinar el valor p, consulte la distribución t en el apéndice B.2 y ubique
la gila de 8 grados de libertad. El valor estadístico de prueba es 3.297; por lo tanto, en la fila de 8
grados de libertad y una prueba de dos colas se encuentra el valor más cercano a 3.297. En una
prueba de dos colas con un nivel de significancia de 0.02, el valor crítico es 2.896, y el valor crítico
con un nivel de significancia de 0.01, 3.355. Como 3.297 se encuentra entre 2.896 y 3.355, se
concluye que el valor p está entre 0.01 y 0.02. (Lind , Marchal, & Wathen, Prueba de la importancia
del coeficioente de correlación - Ejercicio, 2012)
ERROR ESTÁNDAR DE ESTIMACIÓN – INTERVALO DE CONFIANZA DE
PREDICCIÓN
Los resultados del análisis de regresión de Copier Sales of America muestran una relación
significativa entre el número de llamadas de ventas y el número de ventas que se concretó. Al
sustituir el nombre de las variables en la ecuación, ésta puede ser escrita como (Lind , Marchal, &
Wathen, Error de estándar de estimación, 2012)
Número de copiadoras vendidas = 18.9476 + 1.1842 (Número de llamadas de venta)
La ecuación puede ser usada para estimar el número de copiadoras vendidas por cada
“número de llamadas de ventas” dentro del rango de los datos. Por ejemplo, si el número de
llamadas de ventas es de 30, se puede predecir el número de copiadoras vendidas. Es 54.4736,
determinado por 18.9476 + 1.1842(30). Sin embargo, los datos muestran dos representantes con
ventas de 60 y 70 copiadoras. ¿La ecuación de regresión es un buen predictor del “Número de
copiadoras vendidas”? (Lind , Marchal, & Wathen, Error de estándar de estimación, 2012)
En realidad, el pronóstico perfecto, que implica encontrar el resultado exacto, es imposible
en economía y negocios. Por ejemplo, los ingresos anuales de las ventas de gasolina (Y) con base
en el número de registro de automóviles (X) desde una cierta fecha, sin duda que se podrían
calcular con cierta precisión, pero el pronóstico no sería exacto hasta el dólar más cercano, o tal
vez ni siquiera hasta los miles de dólares más cercanos. Incluso, en ocasiones, los pronósticos de
resistencia a la tensión de varillas de acero con base en los diámetros exteriores de las varillas son
inexactos debido a las ligeras diferencias en la composición del acero. (Lind , Marchal, & Wathen,
Error de estándar de estimación, 2012)
Por ello, es necesario contar con una medida para describir cuán preciso es el pronóstico
con de Y con base en X, o a la inversa, qué tan inexacta puede ser la estimación. Esta medida se
denomina error estándar de estimación. El error estándar del estimado está simbolizado por sy.x.
El subíndice y. x se interpreta como el error estándar de y para un valor dado de x. Es el mismo
concepto que el de la desviación estándar que se analizó en el capítulo 3. La desviación estándar
mide la dispersión respecto a la media. El error estándar de estimación mide la dispersión respecto
de la recta de regresión. (Lind , Marchal, & Wathen, Error de estándar de estimación, 2012)
Error estándar de estimación. Medida de la dispersión de los valores observados respecto
de la recta de regresión para un valor dado de X. (Lind , Marchal, & Wathen, Error de estándar de
estimación, 2012)
el error estándar de estimación se determina con la fórmula (13-7)
∑(𝑦 − 𝑦̂)2
𝑠𝑦⋅𝑥 = √
𝑛−2
El cálculo del error estándar de estimación requiere de la suma de las diferencias al
cuadrado entre cada valor observado de Y y el valor predicho de Y, que identifica como 𝑌̂ en el
numerador. Este cálculo se ilustra en la hoja de cálculo de la página 484. Observe la celda G13 de
la hoja de cálculo. Es un valor muy importante. Es el numerador en el cálculo del error estándar
de estimación. (Lind , Marchal, & Wathen, Error de estándar de estimación, 2012)
∑(𝑦 − 𝑦̂)2 784.211
𝑠𝑦⋅𝑥 = √ =√ = 9.901
𝑛−2 10 − 2
EL COEFICIENTE DE DETERMINACIÓN
El error estándar de estimación proporciona una medida relativa de la capacidad de
predicción de una ecuación de regresión. Es una proporción de la variación total de la variable
dependiente Y que se explica, o contabiliza, por la variación de la de la variable dependiente X.
(Lind, Marchal, & Whaten, Coeficiente de determinación, 2012)
El coeficiente de determinación es fácil de calcular. Es el coeficiente de correlación al
cuadrado. Por lo tanto, también se usa el término R al cuadrado. En el caso de Copier Sales of
América, el coeficiente de correlación de la relación entre el número de copiadoras vendidas y el
número de llamadas de ventas es 0.759. Si calculamos (0.756)2, el coeficiente es 0.576. (Lind,
Marchal, & Whaten, Coeficiente de determinación, 2012)
¿Con cuánta exactitud predice la ecuación de regresión el número de copiadoras vendidas
mediante el número de llamadas de ventas realizadas? Si fuera posible hacer predicciones
perfectas, el coeficiente de determinación sería de 100%. Esto significaría que la variable
independiente, el número de llamadas de ventas, explica o representa, toda la variación del número
de copiadoras vendidas. Un coeficiente de determinación de 100% se asocia con un coeficiente de
correlación de +1.0 o – 1.0. Consulte la gráfica13-2, que muestra que una predicción perfecta se
asocia con una perfecta relación lineal, donde todos los puntos de los datos forman una recta
perfecta en un diagrama de dispersión. Nuestro análisis muestra que sólo 57.6% de la variación
del número de copiadoras vendidas se explica por la variación del número de llamadas de venta
que se realizó. Es claro que estos datos no forman una línea perfecta. En vez de eso, los datos se
diseminan alrededor de l recta de regresión de mínimos cuadrados que mejor se ajusta, habrá un
error en las predicciones. (Lind, Marchal, & Whaten, Coeficiente de determinación, 2012)
RELACIÓN ENTRE EL COEFICIENTE DE CORRELCIÓN, EL COEFICIENTE
DE DETERMINACIÓN Y EL ERRO ESTÁNDAR DE ESTIMACIÓN
En la sección 13-7 se analizó el error estándar de estimación, el cual mide la cercanía entre
los valores reales y la recta de regresión. Cuando el estándar es pequeño, las dos variables están
muy relacionadas. En el cálculo de error de estándar, el término clave es (Lind , Marchal, &
Wathen, Relaciones entre el entre el coeficiente de correlación, el coeficiente de determinación y
error estándar de estimación, 2012)
2
∑(𝑌 − 𝑌̂ )
Si el valor de este término es pequeño, el error estándar también lo será.
El coeficiente de correlación mide la fuerza de la asociación lineal entre dos variables.
Cuando los puntos del diagrama de dispersión aparecen cerca de la recta, se observa que el
coeficiente de correlación tiende a ser grande. Todo aquello indica que el error estándar de
estimación y el coeficiente de correlación están inversamente relacionados. A medida que aumenta
la fuerza de la relación lineal entre dos variables, aumente el coeficiente de correlación disminuye
el erro estándar de estimación. (Lind , Marchal, & Wathen, Relaciones entre el entre el coeficiente
de correlación, el coeficiente de determinación y error estándar de estimación, 2012)
También se hizo notar que el cuadrado de coeficiente de correlación es el coeficiente de
determinación, que mide el porcentaje de la variación de Y que explica por la variación de X. (Lind
, Marchal, & Wathen, Relaciones entre el entre el coeficiente de correlación, el coeficiente de
determinación y error estándar de estimación, 2012)
Un medio conveniente para mostrar la relación entre estas tres medidas es una tabla de
ANOVA. Observe la porción resaltada en amarillo en la hoja de cálculo. Esta tabla es similar al
análisis de la tabla de varianza que se desarrolló en el capítulo 12, En ese capítulo, la variación
total se dividió en dos componentes: la debida a los tratamientos y la debida al error aleatorio. El
concepto es similar en el análisis de regresión. La variación total se divide en dos componentes:
(Lind , Marchal, & Wathen, Relaciones entre el entre el coeficiente de correlación, el coeficiente
de determinación y error estándar de estimación, 2012)
1. La que explica la regresión (a su vez explicada por la variable independiente)
2. El error, o variación inexplicable.
Estas categorías se identifican en la primera columna de la siguiente tabla de ANOVA. La
columna con el encabezado “gl” se refiere a los grados de libertad asociados a cada categoría. El
número total de grados de libertad es n – 1. El número de grados de libertad asociados con el
término de error es n – 2. El término “SS” ubicado en medio de la tabla de ANOVA se refiere a la
suma de los cuadrados. Note que el total de los grados de libertad es igual a la suma de los grados
de libertas de la regresión y del residual (error), mientras que la suma total de los cuadrados es
igual a la suma de los cuadrados de la suma de la regresión y el residuo (error). Esto se aplica a
cualquier tabla ANOVA. (Lind , Marchal, & Wathen, Relaciones entre el entre el coeficiente de
correlación, el coeficiente de determinación y error estándar de estimación, 2012)
La suma de cuadrados ANOVA se calcula como sigue: (Lind , Marchal, & Wathen,
Relaciones entre el entre el coeficiente de correlación, el coeficiente de determinación y error
estándar de estimación, 2012)
2
Suma de regresión de los cuadrados = 𝑆𝑆𝑅 = ∑(𝑌̂ − 𝑌̅ ) = 1 065.78
Suma del residual o error de los cuadrados = 𝑆𝑆𝐸 = ∑(𝑌 − 𝑌̅ )2 = 784.211
Suma total de los cuadrados = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = ∑(𝑌 − 𝑌̅)2 = 1850.00
Recuerde que el coeficiente de determinación se define como el porcentaje de la variación
total (SS total) explicado por la ecuación de regresión (SSR). El valor R-cuadrado (r2) puede ser
válido mediante la tabla de ANOVA. (Lind , Marchal, & Wathen, Relaciones entre el entre el
coeficiente de correlación, el coeficiente de determinación y error estándar de estimación, 2012)
𝑆𝑆𝑅 𝑆𝑆𝐸
Coeficiente de determinación 𝑟 2 = 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 = 1 − 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙
Utilizando la tabla ANOVA, el coeficiente de determinación es 1065,789/ 185.00 = 0,576.
Por lo tanto, a mayor variación de la variable dependiente (SS total) explicada por la variable
independiente (SSR), más alto será el coeficiente de determinación. (Lind , Marchal, & Wathen,
Relaciones entre el entre el coeficiente de correlación, el coeficiente de determinación y error
estándar de estimación, 2012)
El coeficiente de determinación puede expresarse también en términos de la variación del
residuo o error:
𝑆𝑆𝑅 784.211
𝑟2 = = 1− = 1 − 0.424 = 0.576
𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 1 850.00
En este caso, el coeficiente de determinación y la suma del residuo o error de los cuadrados
están inversamente relacionados. Mientras más alta sea la variación inexplicable o error como
porcentaje de variación total, menor será el coeficiente de determinación. En este caso, 42.4% de
la variación total de la variable dependiente es una variación residual o error. (Lind , Marchal, &
Wathen, Relaciones entre el entre el coeficiente de correlación, el coeficiente de determinación y
error estándar de estimación, 2012)
La observación final que relaciona el coeficiente de relación, el coeficiente de
determinación y el error estándar de estimación es mostrar la relación entre el error estándar de
estimación y la SSE. Al sustituir [SSE Suma de los cuadrados de residuo o error = 𝑆𝑆𝐸 =
∑(𝑦 − 𝑦̂)2 ] en la fórmula del error estándar de estimación tenemos: (Lind , Marchal, & Wathen,
Relaciones entre el entre el coeficiente de correlación, el coeficiente de determinación y error
estándar de estimación, 2012)
𝑆𝑆𝐸
𝑠𝑦⋅𝑥 = √
𝑛−2
En suma, el análisis de regresión proporciona dos estadísticos para evaluar la capacidad de
predicción de una ecuación de regresión: el error estándar de estimación y el coeficiente de
determinación. Al reportar los resultados de un análisis de regresión, es necesario explicar
claramente los hallazgos, en especial cuando se emplean los resultados para hacer predicciones de
la variable dependiente. El reporte siempre debe incluir un enunciado con respecto al coeficiente
de determinación, para que el lector de un reporte pueda conocer la relativa precisión de la
predicción. Se requiere un reporte objetivo del análisis estadístico para que los lectores puedan
tomar decisión. (Lind , Marchal, & Wathen, Relaciones entre el entre el coeficiente de correlación,
el coeficiente de determinación y error estándar de estimación, 2012)
Referencias
Lind , D. A., Marchal , W. G., & Wathen, S. A. (2012). Análisis de correlación. En D. A. Lind , W. G.
Marchal, & S. A. Whaten, Estadística aplicada a los negocios y la economía ([Link].) (págs. 463-
464). México D.F: McGraw-Hill Interamericana.
Lind , D. A., Marchal, W. G., & Wathen, S. A. (2012). Error de estándar de estimación. En D. A. Lind, W. G.
Marchal, & S. A. Wathen , Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 486-
487). México D.F: McGraw Hill Interamericana.
Lind , D. A., Marchal, W. G., & Wathen, S. A. (2012). Prueba de la importancia del coeficioente de
correlación - Ejercicio. En D. A. Lind , W. G. Marchal, & S. A. Wathen, Estadística aplicada a los
negocios y la economía (15a. ed.) (págs. 472-473). México D.F: McGraw-Hill Interamericana.
Lind , D. A., Marchal, W. G., & Wathen, S. A. (2012). Relaciones entre el entre el coeficiente de
correlación, el coeficiente de determinación y error estándar de estimación. En D. A. Lind , W. G.
Marchal, & S. A. Whaten , Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 488-
490). México D.F: McGraw-Hill Interamericana.
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2012). Ejercicio de coeficiente de correlación. En D. A. Lind ,
W. G. Marchal , & S. A. Wathen, Estadística aplicada a los negocios y la economía (15. ed.) (págs.
466-468). México D.F: McGraw-Hill Interamericana.
Lind, D. A., Marchal, W. G., & Wather , S. A. (2012). Coeficiente de correlación. En D. A. Lind, W. G.
Marchal , & S. A. Wathen , Estadística aplicada a los negocios y a la economía (15a. ed.) (págs.
465-466). México D.F: McGraw-Hill Interamericana.
Lind, D. A., Marchal, W. G., & Whaten, S. A. (2012). Coeficiente de determinación. En D. A. Lind , W. G.
Marchal, & S. A. Whaten, Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 487-
488). México D.F: McGraw-Hill Interamericana.