0% encontró este documento útil (0 votos)
64 vistas60 páginas

Análisis de Regresión Lineal y Mínimos Cuadrados

Este documento trata sobre regresión lineal. Explica que la regresión lineal determina la recta que mejor aproxima una nube de puntos en un diagrama de dispersión. Luego describe el principio de los mínimos cuadrados, el cual proporciona la línea de regresión que minimiza la suma de los cuadrados de las distancias verticales entre los valores reales y los valores pronosticados. Finalmente, presenta la forma general de la ecuación de regresión lineal.

Cargado por

Yasmin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
64 vistas60 páginas

Análisis de Regresión Lineal y Mínimos Cuadrados

Este documento trata sobre regresión lineal. Explica que la regresión lineal determina la recta que mejor aproxima una nube de puntos en un diagrama de dispersión. Luego describe el principio de los mínimos cuadrados, el cual proporciona la línea de regresión que minimiza la suma de los cuadrados de las distancias verticales entre los valores reales y los valores pronosticados. Finalmente, presenta la forma general de la ecuación de regresión lineal.

Cargado por

Yasmin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

CAPITULO 4

Segunda parte
REGRESIÓN LINEAL
 Uno de los objetivos que se persiguen, al estudiar conjuntamente dos
variables X e Y, es encontrar alguna manera de predecir los valores de
una de ellas conocidos los de la otra.
 En este sentido, es lógico pensar que, si hay una curva en torno
a la cual se agrupan los puntos de un diagrama de dispersión, ésta ha
de dar una aproximación de los valores reales.
 Al análisis que pretende determinar la curva que mejor aproxima un
diagrama de dispersión se le llama regresión. Ahora estudiaremos el
caso de la regresión lineal, es decir, la determinación de la recta que
mejor aproxima una nube de puntos.
 Es fácil hallar una recta que se ajuste aproximadamente a una
distribución.
 Basta con dibujar la que a simple vista nos parezca más representativa
de la nube de puntos. Sin embargo, éste es un método subjetivo.
Análisis de regresión
 Anteriormente se desarrollaron medidas para expresar la fuerza y
la dirección de la relación lineal entre dos variables.
 En esta sección se elabora una ecuación para expresar la
relación lineal entre dos variables. Además, se desea estimar el
valor de la variable dependiente Y con base en un valor
seleccionado de la variable independiente X.
 La técnica para desarrollar la ecuación y proporcionar las
estimaciones se denomina análisis de regresión.
Principio de los mínimos cuadrados
 En el análisis de regresión, el objetivo es utilizar los datos para trazar una
línea que represente mejor la relación entre las dos variables.
 Nuestro primer enfoque es utilizar un diagrama de dispersión para visualizar
la posición de la línea.
 El diagrama de dispersión de la gráfica del ejemplo de ventas se reproduce
en la gráfica a continuación, con una regla que une los puntos para ilustrar
que una recta probablemente ajustaría los datos.
 Sin embargo, la recta trazada con una regla tiene una desventaja: en parte,
su posición se basa en el criterio de la persona que traza la recta. Las rectas
trazadas a mano en la gráfica 13-8 representan los criterios de cuatro
personas.
Todas las rectas, excepto A, parecen razonables. Esto es, cada línea se
centra entre los datos graficados. Sin embargo, cada una generaría una
estimación distinta de unidades vendidas para un número particular de
llamadas de ventas.
Sin embargo, es preferible utilizar un método que resulte en una sola y
mejor línea de regresión. Este método, que se denomina principio de los
mínimos cuadrados, proporciona lo que comúnmente se conoce como
recta del “mejor ajuste”.
PRINCIPIO DE LOS MÍNIMOS CUADRADOS
 Determina una ecuación de regresión al minimizar la suma de los
cuadrados de las distancias verticales entre los valores reales de Y y
los valores pronosticados de 𝑌 .
 Para ilustrar este concepto, se trazan los mismos datos en las tres
gráficas siguientes.
4+16+4=24 4+36+4= 44 64+4+64=132

X,3 y,8

Los puntos son los valores reales de Y, y los asteriscos son los valores
predichos de Y para un valor dado de X. La recta de regresión de la
gráfica 13-9 se determinó con el método de los mínimos cuadrados.
(

𝑒 2 = 4 + 16 + 4 = 24
 Es la recta de mejor ajuste porque la suma de los cuadrados de
las desviaciones verticales respecto de sí misma es mínima. La
primera gráfica (X = 3, Y = 8) se desvía 2 unidades de la recta,
calculada como 10 - 8.
 El cuadrado de la desviación es 4. La desviación al cuadrado de
la gráfica en X = 4, Y = 18 es 16.
 La desviación al cuadrado de la gráfica en X = 5, Y = 16 es 4.
 La suma de las desviaciones al cuadrado es 24, calculada como
4 + 16 + 4.
 Suponga que las rectas de las gráficas 13-10 y 13-11 se trazaron
con una regla. La suma de las desviaciones verticales al cuadrado
de la gráfica 13-10 es 44.
 En el caso de la gráfica 13-11 es 132.
 Las dos sumas son mayores que la suma de la recta de la gráfica
13-9, determinada mediante el método de los mínimos cuadrados.
FORMA GENERAL DE LA ECUACIÓN DE
REGRESIÓN LINEAL Ŷ = a + bX+ε
 donde:
 Ŷ que se lee Y prima, es el valor de la estimación de la variable Y para un
valor X seleccionado.
 a es la intersección
 Y. Es el valor estimado de Y cuando X = 0. En otras palabras, a es el valor
estimado de Y donde la recta de regresión cruza el eje Y cuando X es cero.
 b es la pendiente de la recta, o el cambio promedio
por cada cambio de una unidad (ya sea aumento o reducción)
de la variable independiente X.
 X es cualquier valor de la variable independiente que se
seleccione.
 La forma general de la ecuación de la regresión lineal es exactamente
la misma que la ecuación de cualquier línea. a es la intersección con Y
y b es la pendiente. El propósito de un análisis de regresión es calcular
los valores de a y b para desarrollar una ecuación lineal que se ajuste
mejor a los datos.
 Las fórmulas de a y b son:

 donde:
 r es el coeficiente de correlación.
 s y es la desviación estándar de Y (la variable dependiente).
 s x es la desviación estándar de X (la variable independiente).

 donde:
 Y¯es la media de Y (la variable dependiente).
 X¯es la media de X (la variable independiente). X
Ejemplo
 El gerente de ventas de Copier Sales reunió información
de 10 de sus representantes de ventas. Como parte de su
presentación en su siguiente reunión de ventas, desea
presentar esta información y su relación entre el numero
de llamadas y el numero de copadoras vendidas.
 Determine con el método de los mínimos cuadrados
una ecuación lineal que exprese la relación entre
ambas variables.
 ¿Cual es el numero esperado de copiadoras vendidas
de un representante de ventas que hizo 20 llamadas?
ECUACION DE REGRESION 𝑌 =𝑎+𝑏𝑋

 Paso 1
Encontrar la pendiente (b) de la recta de regresión de
mínimos cuadrados con la siguiente ecuacion:
r= 𝑆𝑦
 𝑏=𝑟
𝑆𝑦 = 𝑆𝑥

𝑆𝑥 =  𝑏 = 0,759
𝑋=
𝑌=  𝑏=
𝑏=
Paso 2
Hallar el valor de (a) y utilice el valor de las medias
muéstrales:
𝑌 =𝑎+𝑏𝑋 𝑋 = 22
𝑌 = 45
𝑎 = 𝑌 − 𝑏𝑋
𝑏 = 1,184
𝑎 = 45 − 1,184(22)
𝑎 = 18,9476
 Paso 3
Reemplazamos el valor de a y b en nuestra ecuación de
regresión:
𝑌 = 18,9476 + 1,184 𝑋
𝑌 = 18,9476 + 1,184 𝑋

 Paso 5
Proyectamos los valores deseados (en nuestro ejemplo
queremos saber cuantas unidades vende un representante
si este hace 20 llamadas)
𝑌 = 18,9476 + 1,184 20
𝑌=

X= 10 𝑌= 30,78
X=20 𝑌= 42,63
X=30 𝑌=
X=40 𝑌
Analisis de resultados
 El valor b de 1.1842 significa que por cada llamada de ventas
adicional, el vendedor debería aumentar el número de copiadoras
vendidas en aproximadamente 1.2
 En otras palabras, cinco llamadas de ventas adicionales en un mes
generarán más o menos seis copiadoras vendidas extras, número
determinado por 1.1842(5) = 5.921.
 El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y.
Una traducción literal es que si no se hacen llamadas de ventas, es
decir, X = 0, se venderán 18.9476 copiadoras.
 Observe que X = 0 está fuera del rango de valores incluidos en la
muestra y, por lo tanto, no se debe emplear para estimar el número
de copiadoras vendidas.
 Las llamadas de ventas varían de 10 a 40, por lo que las
estimaciones se deben hacer dentro de ese rango.
Trazo de la recta de regresión

X=10 y=30,7896
X=20 Y=42,6316
X=30 Y=54,4736
X=40 Y= 66,3156
X=10 y=30,7896
X=20 Y=42,6316
X=30 Y=54,4736
X=40 Y= 66,3156
X=10 y=30,7896
X=20 Y=42,6316
X=30 Y=54,4736
X=40 Y= 66,3156
 La recta de regresión por mínimos cuadrados tiene algunas
características interesantes y particulares. Primero, siempre pasa
por el punto medio, para demostrar esto, se predice el número de
copiadoras vendidas con el número medio de llamadas de ventas.
 En este ejemplo, el número medio de llamadas de ventas es 22.0,
determinado por el número medio X = 220/10.
 Se emplea la ecuación de regresión para encontrar el valor
estimado de Y el resultado es:
 El número estimado de copiadoras vendidas es exactamente igual
al número medio de copiadoras vendidas. En este ejemplo
sencillo se muestra que la recta de regresión pasará por el punto
que representa a las dos medias. En este caso, la ecuación de
regresión pasará por el punto X = 22 y Y = 45.
 Segundo, como se analizó antes en esta sección, no hay otra
recta que pase por los datos donde la suma de las
desviaciones al cuadrado es menor.
 En otras palabras, el término es menor cuando se aplica la
ecuación de regresión por mínimos cuadrados que en cualquier
otro caso.
Estimacion experimental
𝑒=𝑦 − 𝑦
 La variable aleatoria e (también conocida como el “residual”)
es positiva cuando el valor observado de y es mayor que el
valor predicho, 𝑦; e es negativa cuando y es menor que 𝒚
 La suma de los errores (residuales) para todos los valores de
y para un valor dado de x es exactamente cero. (Ésta es
parte de los criterios de mínimos cuadrados.)
 Por tanto, el valor medio del error experimental es cero; su
varianza es σ² .
 La siguiente meta es estimar esta varianza del error
experimental. O error estándar de estimación.
Varianza del error estimado, e
2
2
(𝑦 − 𝑦 )
𝑆𝑒 =
𝑛−2
 Donde n-2 son los grados de libertad
 Antes de poder hacer algunas inferencias acerca
de una recta de regresión, debes suponer que la
distribución de las 𝒚 es aproximadamente normal y
que las varianzas de la distribución de 𝒚 en todos
los valores de 𝒙 son iguales; esto es: que la
desviación estándar de la distribución de 𝒚 en torno
a 𝒚 es la misma para todos los valores de 𝒙,
 Revise la definición de la varianza muestral antes de observar la
varianza de e. La varianza muestral, s², se define como:
(𝑥 − 𝑥 )2
𝑛−1
 dividida entre el número de grados de libertad, n – 1, asociados
con una muestra de tamaño n. La varianza de y involucra una
complicación adicional: existe una media diferente para y en cada
valor de x.
Sin embargo, cada una de dichas “medias” en realidad es el valor
predicho, 𝒚, que corresponde a la 𝒙 que corresponde a la 𝒙 que
fija la distribución. De modo que la varianza del error estimado
esta dada por la formula. 2
(𝑦 − 𝑦)
𝑆𝑒2 =
𝑛−2
DETERMINACIÓN DE LA VARIANZA DE y
EN TORNO A LA RECTA DE REGRESIÓN
 Supón que te mudas a una nueva ciudad y encuentras empleo.
 Desde luego, estarás preocupado por los problemas que enfrentarás
al trasladarte hacia y desde el trabajo. Por ejemplo, te gustaría saber
cuánto tardarás en conducir al trabajo cada mañana. Usa “distancia
al trabajo en un sentido” como una medida de donde vives. Tú vives
a 𝒙 millas de distancia del trabajo y quieres saber cuánto tardarás en
trasladarte cada día.
 Tu nuevo patrón, al prever esta pregunta, ya recolectó una muestra
aleatoria de datos a usar para responder tu pregunta.
DETERMINACIÓN DE LA VARIANZA DE y
EN TORNO A LA RECTA DE REGRESIÓN
 A 15 de tus nuevos compañeros de trabajo se les pidió dar sus
tiempos de viaje en un sentido y las distancias hasta el trabajo. Los
datos resultantes se muestran en la tabla 13.2. (Por conveniencia,
los datos se ordenaron de modo que los valores x están en orden
numérico.)
 Encuentra la recta de mejor ajuste y la varianza de y en torno a la
recta de mejor ajuste, 𝑆𝑒2
millas Min 𝑦 Y-𝑦
y 𝑦= a +bX
𝑦
3 7 9,3239 -2,3239 5,4005
5 20 13,1101 6,8899 47,4707 𝑋=
7 20 16,8963 3,1037 9,6330 𝑌
𝑥
8 15 18,7894 -3,7894 14,3596
𝑦
10 25 22,5756 2,4244 5,8777
11 17 24,4687
𝑆𝑦
12 20 26,3618 𝑏=𝑟
𝑆𝑥
12 35 26,3618
13 26 28,2549 𝒚
)² =37,2395
15 25 32,4511 𝑺𝟐𝒆
15 35 32,0411
16 32 𝑺𝟐𝒆
𝒆= 5,4011
18 44
19 37
20 45
𝑋 2 = 2616 ( 𝑋)2 = 33856
Millas x Min y 𝑦 Y-𝑦 𝑥 = 12,267
𝑆𝑥 = 5,063
𝑦 = 26,867
3 7 9,3215 -2,322 5,392 𝑆𝑦 = 10,908
5 20 13,103 6,897 47,569 r = 0,879
𝑆𝑦
7 20 16,891 3,109 9,666 𝑏=𝑟 = 0,879(10,908/5,063)
𝑆𝑥
8 15 18,785 -3,785 14,326 𝑏 = 1,894

10 25 22,573 2,427 5,890


11 17 24,467 -7,467 55,756 𝑌 = 3,633 + 1,894 𝑋

12 20 26,361 -6,361 40,462 a = 3,633


12 35 26,361 8,639 74,632 (𝑦−𝑦 )2 379,272
𝑆𝑒2 = =
13 26 28,255 -2,255 5,085 𝑛−2 15−2
15 25 32,043 -7,043 49,604 𝑆𝑒2 = 29,175 𝑆𝑒 = 5,401
15 35 32,043 2,957 8,744 𝑥 2 =2616 𝑆𝑒2
𝑆𝑏1 = 2
16 32 33,937 -1,937 3,752 𝑥 2=
33856 𝑥
𝑥 22−
𝑆𝑒 𝑛
18 44 37,725 6,275 39,376 𝑆𝑏1 = 2
𝑥
𝑥2 −
19 37 39,619 -2,619 6,859 𝑛
𝑆𝑒2
𝑥2
𝑆𝑒2
𝑆𝑏1 ² = 2
𝑥 𝑥 2
𝑥2 − 𝑛

𝑆𝑏

𝑆𝑏
Inferencias concernientes a la pendiente
de la recta de regresión
 Ahora que hallaste la ecuación de la recta de mejor ajuste y que
verificaste el modelo lineal (por inspección del diagrama de
dispersión), estás listo para determinar si es posible usar la ecuación
para predecir 𝒚 .
 Pondrás a prueba al hipótesis nula: la ecuación de la recta de
mejor ajuste no es de valor para predecir 𝒚 dada 𝒙 .
 Esto es: la hipótesis nula a poner a prueba es 𝜷𝟏, (la pendiente de la
relación en la población) es cero. Si 𝜷𝟏 =0 entonces la ecuación
lineal no tendrá uso real para predecir 𝒚.
𝑌 = 3,633 + 1,894 𝑋
𝑌 = 𝛽0 + 𝛽1 𝑋
Inferencias concernientes a la pendiente
de la recta de regresión
 Antes de observar el intervalo de confianza o la prueba de hipótesis,
estudia la distribución muestral de la pendiente.
 Si muestras aleatorias de tamaño n se toman repetidamente de una
población bivariarda, entonces las pendientes calculadas, las 𝑏1,
formarán una distribución muestral que tiene distribución normal con
una media de 𝛽1, , el valor poblacional de la pendiente y con una
varianza de 𝜎 2 , donde

siempre que no haya falta de ajuste


Inferencias concernientes a la pendiente
de la recta de regresión
 . Un estimador adecuado de 𝛽1, (valor poblacional de la pendiente) y
con una varianza de 𝜎𝑏21 , se obtiene al sustituir 𝜎𝜖2 por 𝑆𝑒2 , la
estimación de la varianza del error en torno a la recta de regresión:

Estimacion para Varianza pendiente


𝑆𝑒2
𝑆𝑏21 =
𝑥 ²
𝑥2 − 𝑛
Inferencias concernientes a la pendiente
de la recta de regresión

En el ejemplo de tiempos y distancias de traslado, la varianza y la desviación estándar entre las b1


se estimó usando las fórmulas
Suposiciones para inferencias en torno a la
regresión lineal.
 El conjunto de pares ordenados (x, y) forma una
muestra aleatoria y los valores y en cada x tienen una
distribución normal.
 Dado que se desconoce la desviación estándar
poblacional y se sustituye con la desviación estándar
muestral, se usará la distribución t con n – 2 grados de
libertad.
Procedimiento de intervalo de confianza
 La pendiente 𝛽1, de la recta de regresión de la
población puede estimarse mediante un intervalo de
confianza
 Intervalo de confianza para la pendiente

𝒃𝟏 ± 𝒕 𝜶
𝒏−𝟐 , 𝟐
𝑺𝒃𝟏
CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA 𝛽1 ,LA
PENDIENTE POBLACIONAL DE LA LÍNEA DE MEJOR AJUSTE
 Encuentra el intervalo de confianza de 95% para la
pendiente poblacional, 𝛽1, para el ejemplo (millas y minutos)
Solución
 Paso 1 Parámetro de interés: la pendiente, 𝜷𝟏 , de la recta
de mejor ajuste para la población
 Paso 2
a. Suposiciones: los pares ordenados forman una muestra
aleatoria y se supondrá que los valores y (minutos) en cada
x (millas) tienen una distribución normal
b. Distribución de probabilidad y fórmula: la distribución t de
Student y la fórmula.

𝒃𝟏 ± 𝒕 𝒏−𝟐 ,α 𝑺 𝒃𝟏
CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA 𝛽1 ,LA
PENDIENTE POBLACIONAL DE LA LÍNEA DE MEJOR AJUSTE

c. Nivel de confianza: 1 – α = 0.95 α=0,05


 Paso 3 Información muestral: n =15, b1 = 1.894 y
𝑺𝟐𝒃 = 0.0813
 Paso 4
a. Coeficientes de confianza: de la tabla 6 del apéndice B, se
encuentra
𝒕 𝒏−𝟐 ,α = 𝒕 𝟏𝟓−𝟐 ;𝟎,𝟎𝟓 = 𝒕 𝟏𝟑 ;𝟎,𝟎𝟓 = 2,160
b. Error máximo de estimación: usa la fórmula
𝑬 = 𝟐, 𝟏𝟔 𝟎, 0813 = 0,6159
𝑬=𝒕 𝒏−𝟐 ,α 𝑺𝒃𝟏
𝒃𝟏 ± 𝒕 𝜶
𝒏−𝟐 , 𝟐
𝑺𝒃𝟏
CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA
𝛽1 ,LA PENDIENTE POBLACIONAL DE LA LÍNEA DE MEJOR
AJUSTE
c. Límites de confianza inferior y superior:

Por tanto, 1.2781 a 2.5099 es el intervalo de confianza


de 95% para 𝛽1

1,278 ˂ 𝛽1 ˂2,510
CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA
𝛽1 ,LA PENDIENTE POBLACIONAL DE LA LÍNEA DE MEJOR
AJUSTE

Paso 5
Intervalo de confianza: puedes decir que la pendiente de
la recta de mejor ajuste de la población de la que se extrajo
la muestra está entre 1.27 y 2.51, con 95% de confianza.
Esto es: tienes una confianza de 95% de que, en
promedio, cada milla adicional tardará entre 1.27 minutos
(1 min, 16 s) y 2.51 minutos (2 min, 31 s) de tiempo para
realizar el traslado.
Procedimiento de prueba de hipótesis para
la regresión lineal
 Ahora estás listo para poner a prueba la hipótesis 𝛽1 ,
Esto es: se quiere determinar si la ecuación de la recta
de mejor ajuste es de algún valor real para predecir y.
Para esta prueba de hipótesis, la hipótesis nula
siempre es 𝐻0 : 𝛽1 = 0
 Se pondrá a prueba usando la distribución t de Student
con gl = n– 2 y el estadístico de prueba t* que se
encontró con la formula:

𝑏1 − 𝛽1
𝑡 =
𝑆𝑏1
PRUEBA DE HIPÓTESIS DE UNA COLA PARA LA
PENDIENTE DE LA RECTA DE REGRESIÓN
 Desde luego, estarás preocupado por los problemas que enfrentarás al
trasladarte hacia y desde el trabajo. Por ejemplo, te gustaría saber cuánto
tardarás en conducir al trabajo cada mañana. Usa “distancia al trabajo en un
sentido” como una medida de donde vives. Tú vives a 𝒙 millas de
distancia del trabajo y quieres saber cuánto tardarás en trasladarte
cada día.
 ¿La pendiente de la recta de mejor ajuste es suficientemente significativa
para demostrar que una distancia en un sentido es útil para predecir el
tiempo de viaje en un sentido en el ejemplo 13.5? Usa α = 0.05.
PRUEBA DE HIPÓTESIS DE UNA COLA PARA LA
PENDIENTE DE LA RECTA DE REGRESIÓN
 ¿La pendiente de la recta de mejor ajuste es suficientemente significativa
para demostrar que una distancia en un sentido es útil para predecir el
tiempo de viaje en un sentido en el ejemplo 13.5? Usa α = 0.05.
 Solución
 Paso 1
a. Parámetro de interés: 𝛽1 , la pendiente de la recta de mejor ajuste para la
población
b. Enunciado de hipótesis:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 > 0
(Esto implica que x no es de utilidad para predecir y; esto es:
𝑦 =𝑦 𝑖𝑔𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒 𝑒𝑓𝑒𝑐𝑡𝑖𝑣𝑎. )
PRUEBA DE HIPÓTESIS DE UNA COLA PARA LA PENDIENTE
DE LA RECTA DE REGRESIÓN
Paso 2
a. Suposiciones: los pares ordenados forman una muestra aleatoria y
se supondrá que los valores y (minutos) en cada x (millas) tienen una
distribución normal.
b. Distribución de probabilidad y estadístico de prueba: la distribución t
con gl=n–2 = 13 y el estadístico de prueba t* de la fórmula
c. Nivel de significancia: α = 0.05.
Paso 3
a. Información muestral: n =15, b1 = 1.89 y s² = 0.0813 𝛽1 = 0
b. Estadístico de prueba: con la fórmula (13.15), se encuentra el
valor observado de t: 𝑏 −𝛽
∗ 1 1
𝑡 = = =
𝑆𝑏1
PRUEBA DE HIPÓTESIS DE UNA COLA PARA LA PENDIENTE
DE LA RECTA DE REGRESIÓN
a) La región critica es la cola derecha porque 𝐻0 expresa
preocupación por valores relacionados con ¨positivo¨ de
las tablas de t de student leemos un factor de 1,771 con α
= 0,05 y n-2 grados de libertad

∗ 𝑏1 − 𝛽1 1,89−0,0
𝑡 = 𝑆𝑏1
= 0,0813 = 6,63

b) 𝑡 ∗ esta en la region critica como se muestra en la lado oscuro de


la figura
Conclusion
 Paso 5 a. Decisión: rechazar Ho.
b. Conclusión: en el nivel de significancia 0.05, se
concluye que la pendiente de la recta de mejor ajuste en
la población es mayor que cero. La evidencia indica que
existe una relación lineal y que la distancia en un sentido
(x) es útil para predecir el tiempo de viaje al trabajo (y).
Practica 8
 Las notas obtenidas por cinco alumnos en matemáticas y
música son las siguientes:

 a) Determina la recta de regresión de Y sobre X y


represéntala.
 b) Halla la nota de música de un alumno que tiene 7,5 en
matemáticas.
 c) Determina la recta de regresión de X sobre Y y
represéntala.
 d) Halla la nota de matemáticas de un alumno que tiene 6
en música.
4. En cierto país, el tipo de interés y el índice de la
Bolsa en los últimos seis meses vienen dados por la
siguiente tabla:
Tipo de interés (%) 8 7,5 7,2 6 5,5 5
Índice 120 130 134 142 150 165
Halla el índice previsto de la Bolsa en el séptimo mes,
suponiendo que el tipo de interés en ese mes fue del 4,1 %, y
analiza la fiabilidad de la predicción, según el valor del
coeficiente de correlación.
5. Como consecuencia de un estudio estadístico realizado
sobre 100 universitarios, se ha obtenido una estatura media de
155 cm, con una desviación típica de 15,5 cm. Además se
obtuvo la recta de regresión y = 80 + 1,5x (siendo X el peso e Y
la altura). Determina el peso medio de estos 100 universitarios.
El coeficiente de determinación
 El error estándar de estimación proporciona una medida relativa de
la capacidad de predicción de una ecuación de regresión. En la
próxima sección lo utilizaremos para proporcionar información más
específica con respecto a una predicción. En esta sección se explica
otro estadístico que brindará una medida más interpretable de la
capacidad de predicción de una ecuación de regresión. Se llama
coeficiente de determinación, o R cuadrada.
 El coeficiente de determinación es fácil de calcular.
 Es el coeficiente de correlación al cuadrado.
 Por lo tanto, también se usa el término R al cuadrado.
 En el caso de Copier Sales of, el coeficiente de correlación de la
relación entre el número de copiadoras vendidas y el número de
llamadas de ventas es 0.759. Si calculamos (0.759)² , el
coeficiente de determinación es 0.576.
 Para interpretar mejor el coeficiente de determinación, conviértalo
a porcentajes. Así, se dice que 57.6% de la variación del número
de copiadoras vendidas se explica, o está representado por la
variación del número de llamadas de ventas.
 ¿Con cuánta exactitud predice la ecuación de regresión el
número de copiadoras vendidas mediante el número de llamadas
de ventas realizadas?
 Si fuera posible hacer predicciones perfectas, el coeficiente de
determinación sería de 100%. Esto significaría que la variable
independiente, el número de llamadas de ventas, explica, o
representa, toda la variación del número de copiadoras vendidas.
 Un coeficiente de determinación de 100% se asocia con un
coeficiente de correlación de +1.0 o -1.0.
 Nuestro análisis muestra que sólo 57.6% de la variación del
número de copiadoras vendidas se explica por la variación del
número de llamadas de ventas que se realizó.
 Es claro que estos datos no forman una línea perfecta. En vez de
eso, los datos se diseminan alrededor de la recta de regresión de
mínimos cuadrados que mejor se ajusta, y habrá un error en las
predicciones.
COEFICIENTE DE DETERMINACIÓN
 El coeficiente de determinación toma valores entre 0 y 1, y
cuanto más se aproxime a 1 mejor será el ajuste y por lo
tanto mayor la fiabilidad de las predicciones que con él
realicemos.
 Nótese que si el coeficiente de correlación lineal r es igual a
1 o -1 entonces r² = 1 y por lo tanto el ajuste lineal es
perfecto.
r² = 0.82.

 Esto indica que el grado de asociación lineal entre las


variables es alto, y concretamente el 82% de la variación
total de los valores de la compresión pueden ser explicados
mediante la recta de regresión ajustada.
 Utilizando la tabla ANOVA, el coeficiente de determinación es
1065.789/1850.00 = 0.576.
 Por lo tanto, a mayor variación de la variable dependiente (SS
Total) explicada por la variable independiente (SSR), más alto
será el coeficiente de determinación.
 El coeficiente de determinación puede expresarse también en
términos de la variación del residuo o error:
 En este caso, el coeficiente de determinación y la suma del
residuo o error de los cuadrados están inversamente
relacionados. Mientras más alta sea la variación inexplicable o
error como porcentaje de la variación total, menor será el
coeficiente de determinación. En este caso, 42.4% de la variación
total de la variable dependiente es una variación residual o error.
Ejercicio
Con la siguiente tabla:

También podría gustarte