0% encontró este documento útil (0 votos)
24 vistas18 páginas

Regresión Lineal Simple: Guía Completa

La unidad 4 del documento se centra en la regresión lineal simple, explicando su modelo, cálculo de la recta de regresión, interpretación de sus parámetros, y su aplicación en predicciones. Se detalla el proceso para calcular la recta de regresión y se presenta un ejemplo práctico, así como la importancia del coeficiente de determinación para evaluar la bondad del ajuste. Además, se incluyen ejercicios resueltos que ilustran la aplicación de estos conceptos en contextos educativos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
24 vistas18 páginas

Regresión Lineal Simple: Guía Completa

La unidad 4 del documento se centra en la regresión lineal simple, explicando su modelo, cálculo de la recta de regresión, interpretación de sus parámetros, y su aplicación en predicciones. Se detalla el proceso para calcular la recta de regresión y se presenta un ejemplo práctico, así como la importancia del coeficiente de determinación para evaluar la bondad del ajuste. Además, se incluyen ejercicios resueltos que ilustran la aplicación de estos conceptos en contextos educativos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Facultad de Lenguas y Educación

Amaya Arigita García


Máster Universitario en Gobernanza Educativa
Análisis avanzado de datos en Gobernanza Educativa

Unidad 4: Regresión lineal simple


Dra. Amaya Arigita García
Autora

1.- REGRESIÓN LINEAL SIMPLE 3


1.1.- Modelo de regresión. 4
1.2.- Regresión lineal simple: cálculo de la recta de regresión. 5
1.3.- Interpretación de la recta de regresión. 9
1.4.- Predicción y bondad de ajuste. 9
1.4.1. Predicción 9
2
1.4.2. Bondad de ajuste: coeficiente de determinación (R ). 11
1.5.- Ejercicios resueltos paso a paso. 12

2.- BIBLIOGRAFÍA 18

Regresión lineal simple [2]


4.- REGRESIÓN LINEAL SIMPLE

Una vez comprobada la existencia de relación lineal entre dos variables cuantitativas (Tema
3), en esta unidad determinaremos la recta que mejor representa la relación encontrada y que
nos permita realizar predicciones sobre los valores de una variable a partir de los datos de
otra.

Regresión lineal simple [3]


4.1.- Modelo de regresión.
Los modelos de regresión son usados para predecir o explicar una medida basándonos en el
conocimiento de otra u otras. Las variables no tienen por qué ser numéricas, incluso ninguna
de ellas. Nosotros veremos el modelo más sencillo: La regresión lineal simple, que es para
estudiar la relación entre dos variables numéricas. En la figura 1 se muestran otros tipos de
regresión que existen.

múltiple

polinómica

robusta
Regresión

no lineal

no paramétrica

logística

etc.

Figura 1. Principales tipos de regresión

Las características de cada una de ellas son las siguientes:

• Regresión múltiple: modelo lineal considerando varias variables predictoras.


• Regresión polinómica: utilizado para contrastar la no-linealidad de una relación.
• Regresión robusta: menos sensible a los outliers.
• Regresión no lineal: se ajusta una curva no lineal a los datos.
• Regresión no paramétrica: cuando no hay una forma funcional obvia que explique los
datos.
• Regresión logística: cuando la variable respuesta consiste en una serie de categorías.

Regresión lineal simple [4]


4.2.- Regresión lineal simple: cálculo de la recta de regresión.
Como hemos comentado anteriormente, la regresión lineal consiste en encontrar aproximar
los valores de una variable a partir de los de otra y hacer predicciones sobre los valores de
una variable a partir de los datos de otra. en este contexto, una variable será la dependiente o
endógena, que llamaremos Y, y la otra será la independiente o exógena que llamaremos X.

Considerando la variable estadística bidimensional (X, Y) para la que se ha comprobado


previamente que existe una correlación entre X e Y, obtener la ecuación de la función
matemática que mejor se ajusta al diagrama de dispersión será el objetivo de la regresión
lineal y así permitirnos predecir de la mejor manera una variable (Y) en función de otra (X). La
línea que mejor se ajusta al diagrama de dispersión será la que haga que las desviaciones de
los puntos de la nube respecto de los correspondientes de la línea sea lo menor posible (figura
2). En estas condiciones diremos que es la línea que menos se separa de la nube de puntos y
que por tanto minimice el error entre los valores predichos y los reales.

Figura 2. Recta de regresión

Evidentemente, existirá un error entre el valor real y el valor que nosotros logramos predecir,
error residual o residuo (e). El error se minimiza por el método de mínimos cuadrados, y
haciendo las operaciones pertinentes, se llega a la conclusión de que para minimizar dicho
error basta con elegir a y b tales que:

𝑺𝑿𝒀
𝒃= ̅ − 𝒃𝒙
𝒂=𝒚 ̅
𝑺𝟐𝑿
Fórmula alternativa:
∑𝒌𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏𝒙
̅𝒚̅
𝒃=
∑𝒌𝒊=𝟏 𝒙𝒊 𝟐 − 𝒏𝒙
̅𝟐

Regresión lineal simple [5]


Matemáticamente, son posibles dos rectas de máximo ajuste:

1. La recta de regresión de Y sobre X

𝑺𝑿𝒀
̂−𝒚
𝒚 ̅= ̅)
(𝒙 − 𝒙
𝑺𝟐𝑿

2. La recta de regresión de X sobre Y

𝑺𝑿𝒀
̂
𝒙−̅
𝒙= ̅)
(𝒚 − 𝒚
𝑺𝟐𝒀

Propiedades de la recta de regresión

1. La recta de regresión pasa por el centro de gravedad (𝑥̅ , 𝑦̅).

2. La media de los residuos es cero (𝑒̅ = 0).

3. La media de los valores estimados coincide con la media de los valores observados de
la variable dependiente (𝑦̅̂ = 𝑦̅).

4. La variable independiente X y el residuo e están incorrelados (𝑆𝑋𝑒 = 0).

Ejemplo:

1. Obtener la recta de regresión que explica la puntuación en el examen de práctica (Y) en


función de la puntuación en el examen de teoría (X).

X Y
5 5
2 1
8 9
10 10
5 6
7 9
6 2
3 4
7 5
9 8

Regresión lineal simple [6]


La ecuación de la recta es

̂ = 𝒂 + 𝒃𝒙
𝒚
donde:

𝑆𝑋𝑌
𝑏= 𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑆𝑋2

Por tanto, vamos a completar la tabla con las columnas necesarias para los cálculos de los
estadísticos descriptivos necesarios para calcular los coeficientes a y b.

x y x2 x*y ∑ 𝒙𝒊 𝟔𝟐
5 5 25 25 ̅=
𝒙 = = 𝟔, 𝟐
𝒏 𝟏𝟎
2 1 4 2
8 9 64 72 ∑ 𝒚𝒊 𝟓𝟗
̅=
𝒚 = = 𝟓, 𝟗
10 10 100 100 𝒏 𝟏𝟎
5 6 25 30
∑ 𝒙𝒊 𝟐 𝟒𝟒𝟐
7 9 49 63 𝑺𝟐𝑿 = ̅𝟐 =
− 𝒙 − (𝟔, 𝟐)𝟐 = 𝟓, 𝟕𝟔
6 2 36 12 𝒏 𝟏𝟎
3 4 9 12 ∑ ∑ 𝒙𝒚 𝟒𝟐𝟑
7 5 49 35 𝑺𝑿𝒀 = ̅𝒚
−𝒙 ̅= − (𝟔, 𝟐 ∗ 𝟓, 𝟗) = 𝟓, 𝟕𝟐
𝑵 𝟏𝟎
9 8 81 72
Σ=62 Σ=59 Σ=442 Σ=423

Entonces,

𝑆𝑋𝑌 5,72
𝑏= = = 0,993
𝑆𝑋2 5,76

𝑎 = 5,9 − 0,993 ∗ 6,2 = −0,257


Por tanto, la recta de regresión que explica la puntuación en el examen de práctica (Y) en
función de la puntuación en el examen de teoría (X) es:

̂ = −𝟎, 𝟐𝟓𝟕 + 𝟎, 𝟗𝟗𝟑𝒙


𝒚

Regresión lineal simple [7]


Regresión lineal simple [8]
4.3.- Interpretación de la recta de regresión.
Los parámetros a y b se denominan, respectivamente, ordenada en el origen (el punto de corte
con el eje OY) y coeficiente de regresión (o la pendiente de la recta).

̂ = 𝒂 + 𝒃𝒙
𝒚

Ordenada en Pendiente de
el origen la recta

El más importante es la pendiente de la recta, que indica el cambio que se produce en la


variable dependiente (Y) por cada unidad de cambio en la independiente (X). Así,

• Si b > 0, las dos variables aumentan o disminuyen a la vez.

• Si b < 0, cuando una variable aumenta, la otra disminuye.

Ejemplo:

En el anterior apartado, hemos obtenido la recta de regresión,

̂ = −𝟎, 𝟐𝟓𝟕 + 𝟎, 𝟗𝟗𝟑𝒙


𝒚
que explicaba la puntuación en el examen de práctica (Y) en función de la puntuación en el
examen de teoría (X). Aquí, la pendiente de la recta es positiva con un valor de +0,993 lo que
indica que punto que aumente la puntuación en el examen teórico, la nota en el práctico
aumenta en 0,993 puntos.

4.4.- Predicción y bondad de ajuste.

4.4.1. Predicción

Como se comentó anteriormente, una vez obtenida la ecuación de la función que mejor se
ajusta al diagrama de dispersión, ésta nos permitirá predecir el valor la variable Y en función
de un determinado valor X. Para ello basta sustituir el valor de la variable X en la recta de
regresión calculada y estimar el valor de Y.

Regresión lineal simple [9]


Ejemplo:

Con los datos anteriormente calculados, estimar la puntuación en el examen de práctica en


función para un alumno que ha obtenido un 7,5 en el examen teórico.

La recta de regresión es:


𝑦̂ = −0,257 + 0,993𝑥
Para x=7,5
𝑦̂ = −0,257 + 0,993 ∗ 7,5 = 7,19
Por tanto, para una nota de 7,5 puntos en la teoría se estima una puntuación de 7,19 puntos
en el examen práctico.

Regresión lineal simple [10]


4.4.2. Bondad de ajuste: coeficiente de determinación (R2).

Una vez estimado el valor de la variable Y en función de un valor de X, nos queda por
determinar como de “buena” es la predicción que hemos realizado, es decir, si el valor
pronosticado se aleja mucho de la realidad. De forma general, el índice que nos evalúa la
bondad del ajuste es el coeficiente de determinación que se puede calcular:

(𝑺𝑿𝒀 )𝟐
𝑹𝟐 = (𝒓𝑿𝒀 )𝟐 𝑹𝟐 =
𝑺𝟐𝑿 𝑺𝟐𝒀

Propiedades del coeficiente de determinación

1. Está comprendido entre 0 y 1.

𝟎 ≤ 𝑹𝟐 ≤ 𝟏

Valores cercanos a 0 indican mal ajuste y cercanos a 1 un buen ajuste

2. Es adimensional.

3. Multiplicado por 100, indica el porcentaje de variabilidad de la variable independiente


que queda explicada por la independiente.

Ejemplo:

Con los datos del ejemplo anterior, el coeficiente de correlación es de 0,818, entonces:

𝑹𝟐 = (𝟎, 𝟖𝟏𝟖)𝟐 = 𝟎, 𝟔𝟔𝟗

Y, por tanto, nos encontramos ante un ajuste bueno. El 66,9% de la variabilidad de la


puntuación en el examen de práctica queda explicada por la puntuación obtenida en el examen
teórico.

Regresión lineal simple [11]


4.5.- Ejercicios resueltos paso a paso.
Ejercicio 1.- Un psicólogo afirma, en base a los datos obtenidos, que a medida que el niño
crece menores son las respuestas inadecuadas que da en el transcurso de una situación
experimental:

Nº respuestas
2 3 4 4 5 5 6 7 7 9 9 10 11 11 12
inadecuadas
Edad 11 12 10 13 11 9 10 7 12 8 7 3 6 5 5

Se pide:

a) Hallar la recta de regresión que explica el número de respuestas incorrectas en


función de la edad.
b) Determinar la bondad de ajuste y estimar el número de respuestas inadecuadas de
un niño de 4 años.

Regresión lineal simple [12]


a) Hallar la recta de regresión que explica el número de respuestas inadecuadas en
función de la edad.

Para calcular la recta de regresión pedida, llamamos X a la edad e Y al número de respuesta


inadecuadas, ya que como dice el enunciado queremos explicar el número de respuestas
inadecuadas (variable dependiente) en función de la edad (variable independiente).

X Y xj2 y i2 x iy j
11 2 121 4 22
12 3 144 9 36
10 4 100 16 40
13 4 169 16 52
11 5 121 25 55
9 5 81 25 45
10 6 100 36 60
7 7 49 49 49
12 7 144 49 84
8 9 64 81 72
7 9 49 81 63
3 10 9 100 30
6 11 36 121 66
5 11 25 121 55
5 12 25 144 60
Σ=129 Σ=105 Σ=1237 Σ=877 Σ=789

Calculamos los estadísticos descriptivos de ambas variables:

Edad (X)

Media:

∑ 𝑥𝑖 129
𝑥̅ = = = 8,6 𝑎ñ𝑜𝑠
𝑁 15

Varianza:

∑ 𝑥2 1237
𝑆𝑋2 = − 𝑥̅ 2 = − (8,6)2 = 82,47 − 73,96 = 8,51 𝑎ñ𝑜𝑠 2
𝑁 15

Desviación típica:

𝑆𝑥 = √𝑆𝑋2 = √8,51 = 2,92 𝑎ñ𝑜𝑠

Regresión lineal simple [13]


Nº respuestas inadecuadas (Y)

Media:

∑ 𝑦𝑖 105
𝑦̅ = 𝑁
= 15
= 7 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠

Varianza:

∑ 𝑦𝑖 2 877
𝑆𝑌2 = − 𝑦̅ 2 = − (7)2 = 58,47 − 49 = 9,47 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 2
𝑁 15

Desviación típica:

𝑆𝑌 = √𝑆𝑌2 = √9,47 = 3,08 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠

Covarianza

∑ ∑ 𝑥𝑖 𝑦𝑗 789
𝑆𝑋𝑌 = − 𝑥̅ 𝑦̅ = − (8,6 ∗ 7) = −7,6
𝑁 15

Coeficiente de correlación lineal

𝑆𝑋𝑌 −7,6
𝑟= = = −0,84
𝑆𝑋 𝑆𝑌 2,92 ∗ 3,08

Los coeficientes de la recta de regresión son:

𝑆𝑋𝑌 −7,6
𝑏= = = −0,893
𝑆𝑋2 8,51

𝑎 = 𝑦̅ − 𝑏𝑥̅ = 7 − (−0,893 ∗ 8,6) = 14,683

Por tanto, la recta de regresión que explica el número de respuestas inadecuadas en función
de la edad.

̂ = 𝟏𝟒, 𝟔𝟖𝟑 − 𝟎, 𝟖𝟗𝟑𝒙


𝒚

La pendiente de la recta (b) no dice indica que por cada año que aumenta la edad, el número
de respuestas inadecuadas disminuye en 0,893 puntos.

Regresión lineal simple [14]


b) Determinar la bondad de ajuste y estimar el número de respuestas inadecuadas de
un niño de 4 años.

𝑹𝟐 = (𝒓𝑿𝒀 )𝟐 = (−𝟎, 𝟖𝟒)𝟐 = 𝟎, 𝟕𝟎𝟔

Ajuste bueno ya que el 70,6% de la variabilidad del número de respuestas inadecuadas queda
explicada por la edad.

Para un niño de x=4


̂ = 𝟏𝟒, 𝟔𝟖𝟑 − 𝟎, 𝟖𝟗𝟑 ∗ 𝟒 = 𝟏𝟎, 𝟒𝟑
𝒚

Por tanto, un niño de 4 años se estima que realizará 10,4 respuestas inadecuadas.

Ejercicio 2.- Los datos de dos variables X e s (Y) de un grupo de 10 personas fueron:

X Y
30 25
28 30
32 27
25 40
25 42
25 40
22 50
24 45
35 30
40 25

a) Calcular la recta de regresión de Y sobre X


b) Estimar el tiempo dedicado para un joven de 23 años.

Regresión lineal simple [15]


a) Calcular la recta de regresión de Y sobre X.

Vamos a calcular los parámetros de la recta de regresión con las fórmulas:

∑𝒌𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏𝒙
̅𝒚̅
𝒃= 𝒂=𝒚
̅ − 𝒃𝒙
̅
∑𝒌𝒊=𝟏 𝒙𝒊 𝟐 − 𝒏𝒙
̅𝟐
Para ello,

X Y x2 xy
30 25 900 750
28 30 784 840
32 27 1024 864
25 40 625 1000
25 42 625 1050
25 40 625 1000
22 50 484 1100
24 45 576 1080
35 30 1225 1050
40 25 1600 1000
Σ=286 Σ=354 Σ=8468 Σ=9734

∑ 𝑥𝑖 286
𝑥̅ = = = 28,6
𝑁 10

∑ 𝑦𝑖 354
𝑦̅ = = = 35,4
𝑁 10

Por lo que:
∑𝒌𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏𝒙
̅𝒚̅ 𝟗𝟕𝟑𝟒 − 𝟏𝟎 ∗ 𝟐𝟖, 𝟔 ∗ 𝟑𝟓, 𝟒
𝒃= = = −𝟏, 𝟑𝟓𝟒
∑𝒌𝒊=𝟏 𝒙𝒊 𝟐 − ̅𝟐
𝒏𝒙 𝟖𝟒𝟔𝟖 − 𝟏𝟎 ∗ 𝟐𝟖, 𝟔𝟐

̅ = 𝟑𝟓, 𝟒 − (−𝟏, 𝟑𝟓𝟒 ∗ 𝟐𝟖, 𝟔) = 𝟕𝟒, 𝟏𝟏𝟓


̅ − 𝒃𝒙
𝒂=𝒚

Regresión lineal simple [16]


b) Estimar el valor de Y para x=23.

La recta de regresión es
𝑦̂ = 74,115 − 1,354𝑥

Para x=23,

̂ = 𝟕𝟒, 𝟏𝟏𝟓 − 𝟏, 𝟑𝟓𝟒 ∗ 𝟐𝟑 = 𝟒𝟐, 𝟗


𝒚

Regresión lineal simple [17]


2.- BIBLIOGRAFÍA

García, A (2008). Ejercicios de Estadística Aplicada. Madrid, Colección Educación


Permanente: Editorial UNED.

García, A (2008). Problemas Resueltos de Estadística Básica. Madrid, Colección Educación


Permanente: Editorial UNED.

Regresión lineal simple [18]

También podría gustarte