0% encontró este documento útil (0 votos)
294 vistas22 páginas

Análisis de Regresión y Mínimos Cuadrados

Este documento presenta un resumen del tema de análisis de regresión en el curso de estadística aplicada. Explica el principio de los mínimos cuadrados para determinar la línea de mejor ajuste en un análisis de regresión. También describe cómo calcular la ecuación de regresión y usarla para predecir valores basados en los datos disponibles, así como trazar gráficamente la línea de regresión en un diagrama de dispersión. Finalmente, incluye un ejercicio para ilustrar cómo aplicar estos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
294 vistas22 páginas

Análisis de Regresión y Mínimos Cuadrados

Este documento presenta un resumen del tema de análisis de regresión en el curso de estadística aplicada. Explica el principio de los mínimos cuadrados para determinar la línea de mejor ajuste en un análisis de regresión. También describe cómo calcular la ecuación de regresión y usarla para predecir valores basados en los datos disponibles, así como trazar gráficamente la línea de regresión en un diagrama de dispersión. Finalmente, incluye un ejercicio para ilustrar cómo aplicar estos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ

FACULTAD DE CIENCIAS ADMINISTRATIVAS

NOMBRE:

KARLA STEFANÍA LÓPEZ DELGADO

CURSO:

TERCER SEMESTRE “A”

CARRERA:

ADMINISTRACIÓN DE EMPRESAS

PROFESORA:

ING. ANA PALMA

MATERIA ESTADÍSTICA APLICADA

TEMA:

1.- ANÁLISIS DE REGRESIÓN: 1.1.- PRINCIPIO DE LOS MÍNIMOS


CUADRADOS. 1.2.- TRAZO DE LA RECTA DE REGRESIÓN. 1.3.- EJERCICIOS.

2.- ERROR ESTÁNDAR DE ESTIMACIÓN: 2.1.- EJERCICIOS

3.- CONSIDERACIONES BÁSICAS PARA LA REGRESIÓN LINEAL: 3.1.-


EJERCICIOS.

4.- INTERVALOS DE CONFIANZA Y DE PREDICCIÓN :4.1.- EJERCICIOS.

5.- ALGO MÁS DEL COEFICIENTE DE DETERMINACIÓN: 5.1.- EJERCICIOS.

6.- RELACIONES ENTRE EL COEFICIENTE DE CORRELACIÓN, EL


COEFICIENTE DE DETERMINACIÓN Y EL ERROR ESTÁNDAR DE ESTIMACIÓN.

7.- INTERVALOS DE CONFIANZA Y DE PREDICCIÓN: 7.1.- EJERCICIOS.


ANALÍSIS DE REGRESIÓN

El análisis de regresión es una herramienta de frecuente uso en estadística. La cual permite


investigar las relaciones entre diferentes variables cuantitativas. Esto, mediante la formulación de
ecuaciones matemáticas.

Visto de otro modo, dicho análisis es un proceso o modelo que analiza el vínculo entre una
variable dependiente y una o varias variables independientes. Así, a partir de dicho estudio, se
halla una relación matemática.

PRINCIPIO DE LOS MÍNIMOS CUADRADOS

En el análisis de regresión, el objetivo es utilizar los datos para trazar una línea que
represente mejor la relación entre las dos variables. Nuestro primer enfoque es utilizar un diagrama
de dispersión para visualizar la posición de la línea. (Lind , Marchal, & Wathen, 2012)

En el diagrama de dispersión de la gráfica 13-1 se reproduce en la gráfica 13-7, con una


recta que uno los puntos para ilustrar que una recta probablemente ajustaría los datos. Sin embargo,
la recta trazada con una regla tiene una desventaja: en parte, su posición se basa en el criterio de
la persona que traza la recta. Las rectas trazadas a mano en la gráfica 13-8 representa los criterios
de cuatro personas. Todas las rectas, excepto A, parecen razonables. Esto es, cada línea se centra
entre los datos graficados. Sin embargo, cada una generaría una estimación distinta de unidades
vendidas para un número particular de llamadas de ventas. (Lind , Marchal, & Wathen, 2012)

Sin embargo, es preferible utilizar un método que resulte en una sola y mejor línea de
regresión. Este método que se denomina principio de los mínimos cuadrados, proporciona lo
que comúnmente se conoce como recta del “mejor ajuste”. (Lind , Marchal, & Wathen, 2012)
Principio de los mínimos cuadrados Determina una ecuación de regresión al minimizar
la suma de los cuadrados de las distancias verticales entre los valores reales de Y y los
pronosticados de Y. (Lind , Marchal, & Wathen, 2012)

Para ilustrar este concepto, se trazan los mismos datos en las tres gráficas siguientes. Los
puntos son valores reales de Y, y los asteriscos son valores predichos de Y para un valor dado de
X. La recta de regresión de la gráfica 13-9 se determinó con el método de los mínimos cuadrados.
En la recta de mejor ajuste porque la suma de los cuadrados de las desviaciones verticales respecto
de sí misma es mínima. La primera gráfica (𝑋 = 3, 𝑌 = 8) se desvía 2 unidades de la recta,
calculada como 10 – 8. El cuadrado de la desviación es 4. La desviación al cuadrado de la gráfica
en 𝑋 = 4, 𝑌 = 18 es 16. La desviación al cuadrado de la gráfica en 𝑋 = 5, 𝑌 = 16 es 4. La suma
de las desviaciones al cuadrado es 24, calculada como 4 + 16 + 4. (Lind , Marchal, & Wathen,
2012)

Suponga que las rectas de las gráficas 13-10 y 13-11 se trazaron con una regla. La suma de
las desviaciones verticales al cuadrado de la gráfica 13-10 es 44. En el caso de la gráfica 13-11 es
132. Las dos sumas son mayores que la suma de la recta de la gráfica 13-9, determinada mediante
el método de los mínimos cuadrados. (Lind , Marchal, & Wathen, 2012)

La ecuación de una recta tiene la forma

𝑌̂ = 𝑎 + 𝑏𝑋
Donde:

𝑌̂ que se lee Y prima, es el valor de la estimación de la variable Y para un valor X


seleccionado.

𝑎 es la intersección Y. Es el valor estimado de Y cuando 𝑋 = 0. En otras palabras, a es el


valor estimado de Y donde la recta de regresión cruza el eje Y cuando X es cero.

𝑏 es la pendiente de la recta, o el cambio en 𝑌̂ por cada cambio de una unidad (ya sea
aumento o reducción) de la variable independiente X.

𝑥 es cualquier valor de la variable independiente que se relacione. (Lind , Marchal, &


Wathen, 2012)

La forma general de la ecuación de la regresión lineal es exactamente la misma que la


ecuación de cualquier línea. 𝑎 es la intersección con Y y b es la pendiente. El propósito de un
análisis de regresión es calcular los valores de a y b para desarrollar una ecuación lineal que se
ajuste mejor a los datos. (Lind , Marchal, & Wathen, 2012)

Las formulas son de a y b son:

𝑆𝑦
Pendiente de la recta de regresión 𝑏 = 𝑟𝑆
𝑥

Donde:

𝑟 es el coeficiente de correlación.

𝑆𝑦 es la desviación estándar de Y (la variable dependiente).

𝑆𝑥 es la desviación estándar de X (la variable independiente). (Lind , Marchal, & Wathen,


2012)

Intersección con el eje Y 𝑎 = 𝑌̅ − 𝑏𝑋̅

𝑌̅ es la media de Y (la variable dependiente).

𝑋̅ es la media de X (la variable independiente). (Lind , Marchal, & Wathen, 2012)


EJERCICIO

Recuerde el ejemplo de Copier Sales of América. La gerencia de ventas reunió


información sobre los números de llamadas de ventas y de copiadoras vendidas de una muestra
de 10 representantes de ventas. Como parte de su presentación en la siguiente reunión de ventas,
la señora Bancer desea presentar información específica acerca de la relación entre el número
de llamadas y el número de ventas. Con el método de los mínimos cuadrados, determine una
ecuación lineal que exprese la relación entre ambas variables. ¿Cuál es el número esperado de
copiadoras vendidas de un representante de ventas que hizo 20 llamadas? (Lind , Marchal, &
Wathen, 2012)

SOLUCIÓN

El primer paso para determinar la ecuación de regresión es encontrar la pendiente de la


recta de regresión de mínimos cuadrados. Es decir, se necesita el valor de b. En la página 468 se
determinó el coeficiente de correlación r (0.759). En la captura de pantalla de Excel de la misma
página se determinó la desviación estándar de la variable independiente X (9.189) y la desviación
estándar de la variable dependiente Y (14.337). Los valores están insertados en la fórmula (13-4).
(Lind , Marchal, & Wathen, 2012)

𝑆𝑦 14.337
𝑏 = 𝑟( ) = 0.759 ( ) = 1.1842
𝑆𝑥 9.189

Después necesita encontrar el valor de a. Para hacerlo, utilice el valor de b que recién se
calculó, así como las medias del número de llamadas de ventas y del número de copiadoras
vendidas. Estas medias también se encuentran en la impresión de Excel de la página 468. De la
fórmula (13-5): (Lind , Marchal, & Wathen, 2012)

𝑎 = 𝑌̅ − 𝑏𝑋̅ = 45 − 1.1842(22) = 18.9476


Así, la ecuación de regresión 𝑌̂ = 18.9476 + 1.1842𝑋. Por lo tanto, si un vendedor hace
20 llamadas, debería vender 42.6316 copiadoras, número que se determina por 𝑌̂ = 18.9476 +
1.1842(𝑋) = 18.9476 + 1.1842(20). El valor b de 1.1842 significa que por cada llamada de
venta adicional, el vendedor debería aumentar el número de copiadoras vendidas en
aproximadamente 1.2. En otras palabras, cinco llamadas de ventas adicionales en un mes generarán
más o menos seis copiadoras más vendidas, número determinado por 1.1842(5) = 5.921. (Lind ,
Marchal, & Wathen, 2012)

El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y. Una tradición literal es
que, si no se hacen llamadas de ventas, es decir, X = 0, se venderán 18.9476 copiadoras. Observe
que X = 0 está fuera del rango de valores incluidos en la muestra y, por lo tanto, no se debe emplear
para estimar el número de copiadoras vendidas. Las llamadas de venta varían de 10 a 40 por lo que
las estimaciones se deben hacer dentro de ese rango. (Lind , Marchal, & Wathen, 2012)

TRAZO DE LA RECTA DE REGRESIÓN

Llamamos recta de regresión a la curva que mejor se ajusta a nube de puntos, es una curva
ideal en torno a la que se distribuyen los puntos de la nube. Se utiliza para predecir la variable
dependiente (Y) a partir de la independiente (X).

EJERCICIO

La ecuación de mínimos cuadrados, 𝑌̂ = 18.9476 + 1.1842(𝑋), se traza en el diagrama


de dispersión. El primer representante de ventas de la muestra es Tom Keller, quien hizo 20
llamadas. Su número estimado de copiadoras vendidas 𝑌̂ = 18.9476 + 1.1872(20) = 42.6316.
La gráfica X = 20 y Y = 42.6316 se encuentra al moverse hasta 20 en el eje X y después en el
sentido vertical hasta 42.6316. Los demás puntos en la ecuación de regresión se determinan al
sustituir el valor particular de X en la ecuación de regresión. Se conectan todos los demás puntos
para formar la recta. (Lind, Marchal, & Wathen, Trazo de la recta de regresión, 2012)
Representante de Llamadas de Ventas Representante de Llamadas de Ventas
ventas ventas (X) ̂)
estimadas (𝒀 ventas ventas (X) ̂)
estimadas (𝒀
Tom Keller 20 42.6376 Carlos Ramírez 10 30.7896
Jeff Hall 40 66.3156 Rich Niles 20 42.6316
Brian Virost 20 42.6316 Mike Kiel 20 42.6316
Greg Fish 30 54.4736 Mark Reynolds 20 42.6316
Susan Welch 10 30.7896 Soni Jone 30 54.4736

La recta de regresión por mínimos cuadrados tiene algunas características interesantes y


particulares. Primero, siempre pasa por el punto (𝑋̅, 𝑌̅ ). Para demostrar esto, se predice el número
de copiadoras vendidas con el número medio de llamadas de ventas. En este ejemplo, el número
medio de las llamadas de ventas es 22.0, determinado por 𝑋̅ = 220/10. El número medio de
copiadoras vendidas es 45.0, que se calculan mediante 𝑌̅ = 450/10 = 45. Si X = 22 y luego se
emplea la ecuación de regresión para encontrar el valor estimado de 𝑌̂ , el resultado es: (Lind,
Marchal, & Wathen, Trazo de la recta de regresión, 2012)

𝑌̂ = 18.9476 + 1.1842(22) = 45

El número estimado de copiadoras vendidas es exactamente igual al número medio de


copiadoras vendidas. En este ejemplo sencillo se muestra que la recta de regresión pasará por el
punto que representa a las dos medias. En este caso, la ecuación de regresión pasará por el punto
X = 22 y, Y = 45. (Lind, Marchal, & Wathen, Trazo de la recta de regresión, 2012)
Segundo, como se analizó antes en esta sección, no hay otra recta que pase por los datos
donde la suma de las desviaciones al cuadrado es menor. En otras palabras, el término ∑(𝑌 − 𝑌̅)2
es menor cuando se aplica la ecuación de regresión por mínimos cuadrados que en cualquier otro
caso. (Lind, Marchal, & Wathen, Trazo de la recta de regresión, 2012)

ERROR DE ESTÁNDAR DE ESTIMACIÓN

Medida de la dispersión de los valores observados respecto de la recta de regresión para un


valor dado de X. (Lind, Marchal, & Whaten, Error estándar de estimación, 2012)

EJERCICIO

Los resultados del análisis de regresión de Copier Sales of America muestran una relación
significativa entre el número de llamadas de ventas y el número de ventas que se concretó. Al
sustituir el nombre de las variables en la ecuación, ésta puede ser escrita como: (Lind, Marchal, &
Whaten, Error estándar de estimación, 2012)

Número de copiadoras vendidas = 18.9476 + 1.1842 (Número de llamadas de ventas)

La ecuación puede ser usada para estimar el número de copiadoras vendidas por cada
“número de llamadas de ventas” dentro del rango de los datos. Por ejemplo, si el número de
llamadas de ventas es 30, se puede predecir el número de copiadoras vendidas. Es 54.4736,
determinado por 18.9476 + 1.1842(30). Sin embargo, los datos muestran dos representantes con
ventas de 60 y 70 copiadoras. ¿La ecuación de regresión es un buen predictor del “Número de
copiadoras vendidas”? (Lind, Marchal, & Whaten, Error estándar de estimación, 2012)

En realidad, el pronóstico perfecto, que implica encontrar el resultado exacto, es imposible


en economía y negocios. Por ejemplo, los ingresos anuales de las ventas de gasolina (Y)con base
en el número de registros de automóviles (X) desde una cierta fecha, sin duda que se podrían
calcular con cierta precisión, pero el pronóstico no sería exacto hasta el dólar más cercano, o tal
vez ni siquiera hasta los miles de dólares más cercanos. Incluso, en ocasiones, los pronósticos de
resistencia a la tensión de varillas de acero con base en los diámetros exteriores de las varillas son
inexactos debido a ligeras diferencias en la composición del acero. (Lind, Marchal, & Whaten,
Error estándar de estimación, 2012)
Por ello, es necesario contar con una medida para describir cuán preciso es el pronóstico
de Y con base en X, o a la inversa, qué tan inexacta puede ser la estimación. Esta medida se
denomina error estándar de estimación. El error estándar del estimado está simbolizado por 𝑆𝑦⋅𝑥 .
El subíndice 𝑦 ⋅ 𝑥 se interpreta como el error estándar de y para un valor dado de x. Es el mismo
concepto que el de la desviación estándar que se analizó en el capítulo 3. La desviación estándar
mide la dispersión respecto de la media. El error estándar de estimación mide la dispersión respecto
de la recta de regresión. (Lind, Marchal, & Whaten, Error estándar de estimación, 2012)

El valor estándar de estimación se denomina con la fórmula (13-7)

∑(𝑦 − 𝑦̂)2
𝑆𝑦⋅𝑥 =√
𝑛−2

El cálculo del error estándar de estimación requiere de la suma de las diferencias al


cuadrado entre cada valor observado de Y y el valor predicho de Y, que se identifica como 𝑌̂ en el
numerador. Este cálculo se ilustra en la hoja de cálculo de la página 484. Observe la celdaG13 de
la hoja de cálculo. Es un valor muy importante. Es el numerador en el cálculo del error estándar
de estimación. (Lind, Marchal, & Whaten, Error estándar de estimación, 2012)

∑(𝑦 − 𝑦̂)2 784.211


𝑆𝑦⋅𝑥 = √ = √ = 9.01
𝑛−2 10 − 2

Este cálculo puede ser eliminado utilizando un software estadístico como Excel. El error
estándar de estimación se incluye en el análisis de regresión de Excel y está resaltado en amarillo
en la página 484. Su valor es 9.901. Si el error estándar de estimación es pequeño, significa que
los datos están relativamente cercanos a la recta de regresión, y la ecuación de regresión sirve para
predecir 𝑌̂ con poco error. Si el error estándar de estimación es grande, significa que los datos
están muy dispersos respecto de la recta de regresión, y la ecuación de regresión no proporcionará
una estimación precisa de Y. (Lind, Marchal, & Whaten, Error estándar de estimación, 2012)
CONSIDERACIONES BÁSICAS PARA LA REGRESIÓN LINEAL

Antes de presentar los intervalos de confianza, deben revisarse las suposiciones para aplicar
de forma apropiada la regresión lineal. La gráfica 13-13 ilustra dichas suposiciones. (Lind ,
Marchal, & Whaten, Consideraciones básicas para la regresión lineal, 2012)

1. Para cada valor de X, existen valores Y correspondientes. Estos valores Y siguen


la distribución normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de
regresión.
3. . Todas las desviaciones estándar de estas distribuciones normales son iguales.
La mejor estimación de esta desviación estándar común es el error estándar de la
estimación
4. Los valores Y son estadísticamente independientes. Esto significa que, al
seleccionar una muestra, una X particular no depende de ningún otro valor de X.
Esta suposición es de particular importancia cuando los datos se recopilan
durante cierto periodo. En esas situaciones, los errores de un periodo particular
con frecuencia están correlacionados con los de otros periodos. (Lind , Marchal,
& Whaten, Consideraciones básicas para la regresión lineal, 2012)
EJERCICIO

Recuerde del capítulo 7 que, si los valores siguen una distribución normal, la media más
menos una desviación estándar comprenderá 68% de las observaciones, la media más o menos dos
desviaciones estándar comprenderá 95% de las observaciones, y la media más o menos tres
desviaciones estándar comprenderá virtualmente todas las observaciones. (Lind , Marchal, &
Whaten, Consideraciones básicas para la regresión lineal, 2012)

Existe la misma relación entre los valores anticipados 𝑌̂ y el error estándar de estimación
𝑆𝑦⋅𝑥

1. Incluirá 68% de las observaciones.


2. incluirá 95% de las observaciones.
3. Incluirá virtualmente todas las observaciones. (Lind , Marchal, & Whaten,
Consideraciones básicas para la regresión lineal, 2012)

Ahora relacionamos estas suposiciones con la empresa Copier Sales of America, donde se
estudió la relación entre el número de llamadas de ventas y el número de copiadoras que se
vendieron. Suponga que se tomó una muestra mucho mayor que n = 10, pero que el error estándar
de estimación aún fue de 9.901 unidades. Si se traza una recta paralela 9.901 unida-des por arriba
de la recta de regresión y otra 9.901 por debajo de la recta de regresión, cerca de 68% de los puntos
se encontraría entre ambas rectas. De manera similar, una recta 19.802 unidades arriba de la recta
de regresión y otras 19.802 unidades debajo de la recta de regresión incluirán alrededor de 95% de
los valores de datos. (Lind , Marchal, & Whaten, Consideraciones básicas para la regresión lineal,
2012)

Como una verificación muy aproximada, consulte la columna E en la hoja de cálculo de


Excel en la sección 13-5 de la página 480. Tres de las 10 desviaciones sobrepasan un error estándar
de estimación. Es decir, la desviación de - 12.6316 de Tom Keller, la de -12.6316 de Mark
Reynolds y la de +15.5264 de Soni Jones sobrepasan el valor de 9.901, lo que es un error estándar
de la recta de regresión. Todos los valores están dentro de 19.802 unidades de ella. En otras
palabras, 7 de 10 desviaciones de la muestra están dentro de un error estándar de la recta de
regresión y todas están dentro de dos, lo que es un buen resultado en el caso de la muestra
relativamente pequeña. (Lind , Marchal, & Whaten, Consideraciones básicas para la regresión
lineal, 2012)

INTERVALOS DE CONFIANZA Y PREDICCIÓN

Cuando se utiliza una ecuación de regresión, se pueden hacer dos predicciones distintas
para un valor seleccionado de la variable independiente. Las diferencias son sutiles pero muy
importantes, y están relacionadas con las suposiciones que se explicaron en la sección anterior.
Recuerde que para cada valor seleccionado de la variable independiente (X), la variable
dependiente (Y) es una variable aleatoria que está distribuida normalmente con una media, Cada
distribución de Y tiene una desviación estándar igual al error estándar de estimación del análisis
de regresión. (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

El primer intervalo se denomina intervalo de confianza. Se utiliza cuando la ecuación de


regresión se emplea para predecir el valor medio de Y para una Dada. Por ejemplo, se puede usar
un intervalo de confianza para estimar el salario medio de todos los ejecutivos en la industria
minorista con base en sus años de experiencia. Para determinar el intervalo de con-fianza del valor
medio de Y para una Dada, la fórmula es: (Lind, Marchal, & Wathen, Intervalo de confianza e
intervalos de predicción, 2012)

1 (𝑋−𝑋 ) ̅ 2
Intervalo de confianza dado de la media de Y, dada X ̂𝑌 ± 𝑡(𝑠𝑦⋅𝑥 )√𝑛 + ∑(𝑋−𝑋̅)2

El segundo tipo de estimación se denomina intervalo de predicción. Se utiliza cuando la


ecuación de regresión se emplea para predecir una Y individual (n = 1) para un valor dado de X.
Por ejemplo, para hacer una estimación del salario de ejecutivo minorista en particular con20 años
de experiencia. Para determinar el intervalo de predicción de una estimación individual para una
X dada, la fórmula es: (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de
predicción, 2012)

1 (𝑋−𝑋̅ )2
Intervalo de predicción de Y, dada X 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √1 + + ∑(𝑋−𝑋̅)2
𝑛

EJERCICIO

De nuevo el ejemplo de la compañía Copier Sales of America. Determine un intervalo


de con-fianza de 95% para todos los representantes de ventas que hacen 25 llamadas y un
intervalo de predicción para Sheila Baker, representante de ventas de la Costa Oeste que hizo
25llamadas. (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

SOLUCIÓN

Emplee la fórmula (13-10) para determinar un intervalo de confianza. En la tabla 13-4 se


incluyen los totales necesarios y se repite la información de la tabla 13-2 de la página 466. (Lind,
Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

Representante de ventas Llamadas de ventas Ventas de copiadoras ̅)


(𝑿 − 𝑿 ̅ )𝟐
(𝑿 − 𝑿
(X) (Y)
Tom Keller 20 30 -2 4
Jeff Hall 40 60 18 324
Brian Virost 20 40 -2 4
Greg Fish 30 60 8 64
Susan Welch 10 30 -12 144
Carlos Ramírez 10 40 -12 144
Rich Niles 20 40 -2 4
Mike Kiel 20 50 -2 4
Mark Reynolds 20 30 -2 4
Soni Jones 30 70 8 64

0 760

El primer paso es determinar el número de copiadoras que se espera que venda un


representante de ventas si él o ella hacen 25 llamadas. Éste es 48.5526, determinado por

𝑌̂ = 18.9476 + 1.1842X = 18.9476 + 1.1842(25). (Lind, Marchal, & Wathen, Intervalo de


confianza e intervalos de predicción, 2012)

Para encontrar el valor t, primero necesita conocer el número de grados de libertad. En este
caso, los grados de libertad son n – 2 = 10 – 2 = 8, con un nivel de confianza de 95%. Para encontrar
el valor de t, desplácese hacia abajo a la izquierda de la columna del apéndice B.2 a 8 grados de
libertad, y después muévase por la columna con el nivel de confianza de95%. El valor de tes 2.306.
(Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

En la sección anterior se calculó que el error estándar de estimación era de 9.901. Sea 𝑥 =
220
25, 𝑋̅ = ∑𝑥⁄𝑛 = 10 = 22, y de la tabla 13-4, ∑(𝑋 − 𝑋̅ )2 = 760. Sustituya estos valores en la

fórmula (13-10) para determinar el intervalo de confianza (Lind, Marchal, & Wathen, Intervalo de
confianza e intervalos de predicción, 2012)

1 (𝑋−𝑋̅ )2
Intervalo de confianza = 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √ 𝑛 + ∑(𝑋−𝑋̅)2

1 (25−22)2
Intervalo de confianza = 48.5526 ± 2.3306(9.901) √ 10 + 760

Intervalo de confianza =48.5526 ± 7.6356

Por lo tanto, el intervalo de confianza de 95% de todos los representantes de ventas que
hacen25 llamadas es de 40.9170 a 56.1882. Para interpretar esto, redondee los valores. Si un
representante de ventas hace 25 llamadas, debería vender 48.6 copiadoras. Es probable que estas
ventas varíen de 40.9 a 56.2 copiadoras. Suponga que se desea estimar el número de copiadoras
que vendió Sheila Baker, quien hizo 25 llamadas. El intervalo de predicción de 95% se determina
como sigue: (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

1 (𝑋−𝑋̅ )2
Intervalo de predicción = 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √1 + + ∑(𝑋−𝑋̅)2
𝑛

1 (25 −22)2
Intervalo de predicción = 48.5526 ± 2.306(9,901) √1 + +
10 760

Intervalo de predicción = 48.5526 ± 24.0746

Así, el intervalo es de 24.478 a 72.627 copiadoras. Se concluye que el número de


copiadoras que venderá un representante que haga 25 llamadas estará aproximadamente entre 24
y 73. Este intervalo es muy grande. Es mucho mayor que el intervalo de confianza de todos los
representantes que hagan 25 llamadas. Sin embargo, es lógico que deba haber más variación en la
estimación de ventas de un individuo que de un grupo (Lind, Marchal, & Wathen, Intervalo de
confianza e intervalos de predicción, 2012)
ALGO MÁS DE COEFICIENTE DE DETERMINACIÓN

El error estándar de estimación proporciona una medida relativa de la capacidad de


predicción de una ecuación de regresión. En la próxima sección lo utilizaremos para proporcionar
información más específica con respecto a una predicción. En esta sección se explica otro
estadístico que brindará una medida más interpretable de la capacidad de predicción de una
ecuación de regresión. Se llama coeficiente de determinación, o R cuadrada. (Lind, Marchal, &
Whaten, Algo más del coeficiente de determinación, 2012)

Coeficiente de determinación Proporción de la variación total de la variable dependiente


Y que se explica, o contabiliza, por la variación de la variable dependiente X. (Lind, Marchal, &
Whaten, Algo más del coeficiente de determinación, 2012)

EJERCICIO

El coeficiente de determinación es fácil de calcular. Es el coeficiente de correlación al


cuadrado. Por lo tanto, también se usa el término R al cuadrado. En el caso de Copier Sales of
America, el coeficiente de correlación de la relación entre el número de copiadoras vendidas el
número de llamadas de ventas es 0.759. Si calculamos (0.759)2, el coeficiente de determinación
es 0.576. Observe las celdas azules (Múltiple R) y verde (R-square) resaltadas en la hoja de cálculo
de la página 484. Para interpretar mejor el coeficiente de determinación, conviértalo a porcentajes.
Así, se dice que 57.6% de la variación del número de copiadoras vendidas se explica, o está
representado por la variación del número de llamadas de ventas. (Lind, Marchal, & Whaten, Algo
más del coeficiente de determinación, 2012)

¿Con cuánta exactitud predice la ecuación de regresión el número de copiadoras vendidas


mediante el número de llamadas de ventas realizadas? Si fuera posible hacer predicciones
perfectas, el coeficiente de determinación sería de 100%. Esto significaría que la variable
independiente, el número de llamadas de ventas, explica, o representa, toda la variación del número
de copiadoras vendidas. Un coeficiente de determinación de 100% se asocia con un coeficiente de
correlación de -1.0 o -1.0. Consulte la gráfica 13-2, que muestra que una predicción perfecta se
asocia con una perfecta relación lineal, donde todos los puntos de los datos forman una recta
perfecta en un diagrama de dispersión. Nuestro análisis muestra que sólo 57.6% de la variación
del número de copiadoras vendidas se explica por la variación del número de llamadas de ventas
que se realizó. Es claro que estos datos no forman una línea perfecta. En vez de eso, los datos se
diseminan alrededor de la recta de regresión de mínimos cuadrados que mejor se ajusta, y habrá
un error en las predicciones. En la próxima sección se utiliza el error estándar de estimación para
proporcionar información más específica con res-pecto al error asociado con el empleo de la
ecuación de regresión para hacer predicciones. (Lind, Marchal, & Whaten, Algo más del
coeficiente de determinación, 2012)

RELACIONES ENTRE EL COEFICIENTE DE CORRELACIÓN, EL


COEFICIENTE DE DETERMINACIÓN Y EL ERROR ESTÁNDAR DE ESTIMACIÓN.

En la sección 13-7 se analizó el error estándar de estimación, el cual mide la cercanía entre
los valores reales y la recta de regresión. Cuando el error estándar es pequeño, las dos variables
están muy relacionadas. En el cálculo del error estándar, el término clave es: (Lind, Marchal , &
Wathen, Relaciones entre coeficiente de correlación, el coeficiente de determinación y el error
estándar de estimación, 2012)

2
∑(𝑌 − 𝑌̂ )

Si el valor de este término es pequeño, el error estándar también lo será.

El coeficiente de correlación mide la fuerza de la asociación lineal entre dos variables.


Cuando los puntos del diagrama de dispersión aparecen cerca de la recta, se observa que el
coeficiente de correlación tiende a ser grande. Todo ello indica que el error estándar de estimación
y el coeficiente de correlación están inversamente relacionados. A medida que aumenta la fuerza
de la relación lineal entre dos variables, aumenta el coeficiente de correlación y disminuye el error
estándar de estimación. (Lind, Marchal , & Wathen, Relaciones entre coeficiente de correlación,
el coeficiente de determinación y el error estándar de estimación, 2012)

También se hizo notar que el cuadrado del coeficiente de correlación es el coeficiente de


determinación, que mide el porcentaje de la variación de Y que se explica por la variación de X.

Un medio conveniente para mostrar la relación entre estas tres medidas es una tabla
ANOVA. Observe la porción resaltada en amarillo en la hoja de cálculo de la página 489. Esta
tabla es similar al análisis de la tabla de la varianza que se desarrolló en el capítulo 12. En ese
capítulo, la variación total se dividió en dos componentes: la debida a los tratamientos y la debida
al error aleatorio. El concepto es similar en el análisis de regresión. La variación total se divide en
dos componentes: 1) la que explica la regresión (a su vez explicada por la variable independiente)
y (2) el error, o variación inexplicable. Estas categorías se identifican en la primera columna de la
siguiente tabla ANOVA. La columna con el encabezado “gl” se refiere a los grados de libertad
asociados a cada categoría. El número total de grados de libertad es n — 1. El número de grados
de libertad de la regresión es 1, pues sólo hay una variable independiente. El número de grados de
libertad asociados con el término de error es n – 2. El término “SS” ubicado en medio de la tabla
ANOVA se refiere a la suma de los cuadrados. Note que el total de los grados de libertad es igual
a la suma de los grados de libertad de la regresión y del residual (error), mientras que la suma total
de los cuadrados es igual a la suma de los cuadrados de la suma de la regresión y el residuo (error).
Esto se aplica a cualquier tabla ANOVA. (Lind, Marchal , & Wathen, Relaciones entre coeficiente
de correlación, el coeficiente de determinación y el error estándar de estimación, 2012)

La suma de cuadrados ANOVA se calcula como sigue:

2
Suma de regresión de los cuadrados = SSR = ∑(𝑌̂ − 𝑌̅) = 1 065.78

2
Suma del residual o error de los cuadrados = SSE = ∑(𝑌 − 𝑌̂ ) = 784.211

Suma total de los cuadrados = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = ∑(𝑌 − 𝑌̅ )2 = 1 850.00

Recuerde que el coeficiente de determinación se define como el porcentaje de la variación


total (SS Total) explicado por la ecuación de regresión (SSR). El valor R-cuadrado (r2) puede ser
validado mediante la tabla ANOVA. (Lind, Marchal , & Wathen, Relaciones entre coeficiente de
correlación, el coeficiente de determinación y el error estándar de estimación, 2012)

𝑆𝑆𝑅 𝑆𝑆𝐸
Coeficiente de determinación 𝑟 2 = 𝑆𝑆 = 1 − 𝑆𝑆
𝑇𝑂𝑇𝐴𝐿 𝑇𝑂𝑇𝐴𝐿

Utilizando la tabla ANOVA, el coeficiente de determinación es 1065.789/1850.00 = 0.576.


Por lo tanto, a mayor variación de la variable dependiente (SS Total) explicada por la variable
independiente (SSR), más alto será el coeficiente de determinación.

𝑆𝑆𝐸 784.211
𝑟2 = 1 − = 1− = 1 – 0.424 = 0.576
𝑆𝑆𝑇𝑂𝑇𝐴𝐿 1 850.00
En este caso, el coeficiente de determinación y la suma del residuo o error de los cuadrados
están inversamente relacionados. Mientras más alta sea la variación inexplicable o error como
porcentaje de la variación total, menor será el coeficiente de determinación. En este caso, 42.4%
de la variación total de la variable dependiente es una variación residual o error. (Lind, Marchal ,
& Wathen, Relaciones entre coeficiente de correlación, el coeficiente de determinación y el error
estándar de estimación, 2012)

La observación final que relaciona el coeficiente de relación, el coeficiente de determina-


ción y el error estándar de estimación es mostrar la relación entre el error estándar de estimación
2
y la SSE. Al sustituir [SSE Suma de los cuadrados de residuo o error = SSE = ∑(𝑌 − 𝑌̂ ) ] en la
fórmula del error estándar de estimación tenemos: (Lind, Marchal , & Wathen, Relaciones entre
coeficiente de correlación, el coeficiente de determinación y el error estándar de estimación, 2012)

𝑆𝑆𝐸
Error estándar de estimación 𝑆𝑦⋅𝑥 = √
𝑛−2

En suma, el análisis de regresión proporciona dos estadísticos para evaluar la capacidad de


predicción de una ecuación de regresión: el error estándar de estimación y el coeficiente de
determinación. Al reportar los resultados de un análisis de regresión, es necesario explicar
claramente los hallazgos, en especial cuando se emplean los resultados para hacer predicciones de
la variable dependiente. El reporte siempre debe incluir un enunciado con respecto al coeficiente
de determinación, para que el lector del reporte pueda conocer la relativa precisión de la
predicción. Se requiere un reporte objetivo del análisis estadístico para que los lectores puedan
tomar sus propias decisiones (Lind, Marchal , & Wathen, Relaciones entre coeficiente de
correlación, el coeficiente de determinación y el error estándar de estimación, 2012)

INTERVALOS DE CONFIANZA Y PREDICCIÓN

Cuando se utiliza una ecuación de regresión, se pueden hacer dos predicciones distintas
para un valor seleccionado de la variable independiente. Las diferencias son sutiles pero muy
importantes, y están relacionadas con las suposiciones que se explicaron en la sección anterior.
Recuerde que para cada valor seleccionado de la variable independiente (X), la variable
dependiente (Y) es una variable aleatoria que está distribuida normalmente con una media, Cada
distribución de Y tiene una desviación estándar igual al error estándar de estimación del análisis
de regresión. (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

El primer intervalo se denomina intervalo de confianza. Se utiliza cuando la ecuación de


regresión se emplea para predecir el valor medio de Y para una Dada. Por ejemplo, se puede usar
un intervalo de confianza para estimar el salario medio de todos los ejecutivos en la industria
minorista con base en sus años de experiencia. Para determinar el intervalo de con-fianza del valor
medio de Y para una Dada, la fórmula es: (Lind, Marchal, & Wathen, Intervalo de confianza e
intervalos de predicción, 2012)

1 (𝑋−𝑋 ) ̅ 2
Intervalo de confianza dado de la media de Y, dada X ̂𝑌 ± 𝑡(𝑠𝑦⋅𝑥 )√𝑛 + ∑(𝑋−𝑋̅)2

El segundo tipo de estimación se denomina intervalo de predicción. Se utiliza cuando la


ecuación de regresión se emplea para predecir una Y individual (n = 1) para un valor dado de X.
Por ejemplo, para hacer una estimación del salario de ejecutivo minorista en particular con20 años
de experiencia. Para determinar el intervalo de predicción de una estimación individual para una
X dada, la fórmula es: (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de
predicción, 2012)

1 (𝑋−𝑋̅ )2
Intervalo de predicción de Y, dada X 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √1 + + ∑(𝑋−𝑋̅)2
𝑛

EJERCICIO

De nuevo el ejemplo de la compañía Copier Sales of America. Determine un intervalo


de con-fianza de 95% para todos los representantes de ventas que hacen 25 llamadas y un
intervalo de predicción para Sheila Baker, representante de ventas de la Costa Oeste que hizo
25llamadas. (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción,
2012)
SOLUCIÓN

Emplee la fórmula (13-10) para determinar un intervalo de confianza. En la tabla 13-4 se


incluyen los totales necesarios y se repite la información de la tabla 13-2 de la página 466. (Lind,
Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

Representante Llamadas de ventas Ventas de copiadoras ̅)


(𝑿 − 𝑿 ̅ )𝟐
(𝑿 − 𝑿
de ventas (X) (Y)
Tom Keller 20 30 -2 4
Jeff Hall 40 60 18 324
Brian Virost 20 40 -2 4
Greg Fish 30 60 8 64
Susan Welch 10 30 -12 144
Carlos Ramírez 10 40 -12 144
Rich Niles 20 40 -2 4
Mike Kiel 20 50 -2 4
Mark Reynolds 20 30 -2 4
Soni Jones 30 70 8 64

0 760

El primer paso es determinar el número de copiadoras que se espera que venda un


representante de ventas si él o ella hacen 25 llamadas. Éste es 48.5526, determinado por

𝑌̂ = 18.9476 + 1.1842X = 18.9476 + 1.1842(25). (Lind, Marchal, & Wathen, Intervalo de


confianza e intervalos de predicción, 2012)

Para encontrar el valor t, primero necesita conocer el número de grados de libertad. En este
caso, los grados de libertad son n – 2 = 10 – 2 = 8, con un nivel de confianza de 95%. Para encontrar
el valor de t, desplácese hacia abajo a la izquierda de la columna del apéndice B.2 a 8 grados de
libertad, y después muévase por la columna con el nivel de confianza de95%. El valor de tes 2.306.
(Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)
En la sección anterior se calculó que el error estándar de estimación era de 9.901. Sea 𝑥 =
220
25, 𝑋̅ = ∑𝑥⁄𝑛 = = 22, y de la tabla 13-4, ∑(𝑋 − 𝑋̅ )2 = 760. Sustituya estos valores en la
10

fórmula (13-10) para determinar el intervalo de confianza (Lind, Marchal, & Wathen, Intervalo de
confianza e intervalos de predicción, 2012)

1 (𝑋−𝑋 ) ̅ 2
Intervalo de confianza = 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √ 𝑛 + ∑(𝑋−𝑋̅)2

1 (25−22)2
Intervalo de confianza = 48.5526 ± 2.3306(9.901) √ 10 + 760

Intervalo de confianza =48.5526 ± 7.6356

Por lo tanto, el intervalo de confianza de 95% de todos los representantes de ventas que
hacen25 llamadas es de 40.9170 a 56.1882. Para interpretar esto, redondee los valores. Si un
representante de ventas hace 25 llamadas, debería vender 48.6 copiadoras. Es probable que estas
ventas varíen de 40.9 a 56.2 copiadoras. Suponga que se desea estimar el número de copiadoras
que vendió Sheila Baker, quien hizo 25 llamadas. El intervalo de predicción de 95% se determina
como sigue: (Lind, Marchal, & Wathen, Intervalo de confianza e intervalos de predicción, 2012)

1 (𝑋−𝑋̅ )2
Intervalo de predicción = 𝑌̂ ± 𝑡𝑠𝑦⋅𝑥 √1 + +
𝑛 ∑(𝑋−𝑋̅ )2

1 (25 −22)2
Intervalo de predicción = 48.5526 ± 2.306(9,901) √1 + +
10 760

Intervalo de predicción = 48.5526 ± 24.0746

Así, el intervalo es de 24.478 a 72.627 copiadoras. Se concluye que el número de


copiadoras que venderá un representante que haga 25 llamadas estará aproximadamente entre 24
y 73. Este intervalo es muy grande. Es mucho mayor que el intervalo de confianza de todos los
representantes que hagan 25 llamadas. Sin embargo, es lógico que deba haber más variación en la
estimación de ventas de un individuo que de un grupo (Lind, Marchal, & Wathen, Intervalo de
confianza e intervalos de predicción, 2012)
Referencias
Lind , D. A., Marchal, W. G., & Wathen, S. A. (2012). Principio de los mínimos cuadrados. En D. A. Lind ,
W. G. Marchal, & S. A. Wathen, Estadística aplicada a los negocios y la economía (15a. ed.)
(págs. 476-479). México D.F: McGrawHill Educación.

Lind , D. A., Marchal, W. G., & Whaten, S. A. (2012). Consideraciones básicas para la regresión lineal. En
D. A. Lind , W. G. Marchal, & S. A. Wathen, Estadística aplicada a los negocios y la economía
(15a. ed.) (págs. 490-492). México D.F: McGrawHill Eduación.

Lind, D. A., Marchal , W. G., & Wathen, S. A. (2012). Relaciones entre coeficiente de correlación, el
coeficiente de determinación y el error estándar de estimación. En D. A. Lind , W. G. Marchal, &
S. A. Wathen, Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 488-490).
México D.F: McGrawHill Educación.

Lind, D. A., Marchal, W. G., & Wathen, S. (2012). Intervalo de confianza e intervalos de predicción. En D.
A. Lind , W. G. Marchal, & S. A. Wathen , Estadística aplicada a los negocios y la economía (15.
ed.) (págs. 492-493). México D.F: McGrawHill Educación.

Lind, D. A., Marchal, W. G., & Wathen, S. A. (2012). Trazo de la recta de regresión. En D. A. Lind, W. G.
Marchal, & S. A. Whaten, Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 479-
480). México D.F: McGrawHill Educación.

Lind, D. A., Marchal, W. G., & Whaten, S. A. (2012). Algo más del coeficiente de determinación. En D. A.
Lind , W. G. Marchal, & S. A. Whaten, Estadística aplicada a los negocios y la economía (15a. ed.)
(págs. 487-488). México D.F: McGrawHill Eduación.

Lind, D. A., Marchal, W. G., & Whaten, S. A. (2012). Error estándar de estimación. En D. A. Lind, W. G.
Marchal, & S. A. Whaten, Estadística aplicada a los negocios y la economía (15a. ed.) (págs. 486-
487). México D.F: McGrawHill Educación.

También podría gustarte