0% encontró este documento útil (0 votos)
114 vistas14 páginas

Regresión y Correlación Lineal

1) El documento introduce el concepto de distribuciones bidimensionales y la relación entre dos variables medidas en la misma población. 2) Explica cómo representar gráficamente las distribuciones usando nubes de puntos y rectas de regresión, y cómo esto puede indicar la fuerza de la correlación entre las variables. 3) Describe un experimento que mide el aumento de peso de ratas con diferentes dosis de distintos fármacos, y cómo los gráficos de estas distribuciones sugieren diferentes grados de correlación.

Cargado por

angelgan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
114 vistas14 páginas

Regresión y Correlación Lineal

1) El documento introduce el concepto de distribuciones bidimensionales y la relación entre dos variables medidas en la misma población. 2) Explica cómo representar gráficamente las distribuciones usando nubes de puntos y rectas de regresión, y cómo esto puede indicar la fuerza de la correlación entre las variables. 3) Describe un experimento que mide el aumento de peso de ratas con diferentes dosis de distintos fármacos, y cómo los gráficos de estas distribuciones sugieren diferentes grados de correlación.

Cargado por

angelgan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Estadística y Análisis de Datos

REGRESIÓN Y CORRELACIÓN LINEAL

DISTRIBUCIONES BIDIMENSIONALES
INTRODUCCIÓN
Pretendemos estudiar una situación muy usual y por tanto de gran interés en la práctica:
Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre
las modalidades de X y de Y?
Un ejemplo consiste en considerar una población formada por alumnos de primero de Ingeniería y definir sobre ella las
variables
X: altura medida en centímetros,
Y: peso medida en kilogramos.
Intuitivamente esperamos que exista cierta relación entre ambas variables, por ejemplo,
Y = X – 110 ± dispersión
que nos expresa que (en media) a mayor altura se espera mayor peso. La relación no es exacta y por ello será
necesario introducir algún término que exprese la dispersión de Y con respecto a la variable X.
Es fundamental de cara a realizar un trabajo de investigación experimental, conocer muy bien las técnicas de estudio de
variables bidimensionales (y n–dimensionales en general). Baste para ello pensar que normalmente las relaciones entre
las variables no son tan evidentes como se mencionó arriba. Por ejemplo:
¿Se puede decir que en un grupo de personas existe alguna relación entre X = tensión arterial e Y = edad?

Definición
Dado un sistema objeto de observación podemos medir simultáneamente dos de sus propiedades observables, que
constituirán dos variables X, Y en una población dada de dicho sistema. Cada resultado posible de esa medición
simultánea será entonces un par de números reales,
(x i , y i ) con i = 1, 2, …, n Matemática Física Química
Ejemplo: Las notas de 12 alumnos y alumnas de una clase en Matemáticas, en Física 2 1 2
3 3 5
y en Química han sido las siguientes: 4 2 7
4 4 8
Las dos distribuciones bidimensionales anteriores: 5 4 5
Notas de Matemática – Notas de Física 6 4 3
Notas de Matemática – Notas de Química 6 6 4
Pueden representarse gráficamente del siguiente modo: 7 4 6
7 6 7
8 7 5
10 9 5
10 10 9

Física
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10 12
Matemáticas Matemáticas

Se observa que, en ambas, a cada alumno le corresponden dos valores que se toman, respectivamente, como abscisa y
ordenada de un punto. Así, cada alumno viene representado por un punto. Todos ellos forman una nube de puntos. De
manera que, la forma más natural de representar una variable bidimensional es a través de una "nube de puntos"

1
Estadística y Análisis de Datos

llamada también diagrama de dispersión. Las nubes de puntos nos van a servir para saber si la relación entre las notas
de Matemáticas y las de Física es más fuerte que las de Matemáticas y las de Química. A esta relación entre las dos
variables se le llama correlación.
A través de estas representaciones podemos visualizar que en la primera distribución (MATEMÁTICAS – FÍSICA) los
puntos están más alineados y, por tanto, la relación entre las variables (correlación) es más fuerte. En la segunda se ve
una correlación débil. Este efecto se percibe mejor si trazamos una recta que se amolde a la nube de puntos, que se
ajuste a ella lo mejor posible. Esta recta se llama recta de regresión, y resulta útil para ver el grado de dependencia de
ambas variables. Cuanto más se aproximen los puntos de la nube a la recta, mayor es la dependencia entre las dos
variables.
Estas recta, trazadas de momento a ojo, deben pasar por el punto (x̅ ,y̅ ), es decir, por un punto cuya abscisa es la media
de la primera variable y cuya ordenada es la media de la segunda. A este punto se le llama centro de gravedad de la
distribución.
En nuestro ejemplo:
Media de las notas de Matemática: 6, Media de las notas de Física: 5, Media de las notas de Química: 5,5
Física
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10 12
Matemáticas Matemáticas

CORRELACIÓN
Realizamos un experimento que consiste en suministrar a cada una de 10 ratas una dosis diaria de 1mg, 2mg, ..., 10mg,
respectivamente, de un cierto fármaco A. Y calculamos el aumento de peso de cada rata al cabo de un mes.
Realizamos otro experimento idéntico con otras 10 ratas y otro fármaco B. Y un tercer experimento con otras 10 ratas y
otro fármaco C. Los resultados fueron:

mg diarios de A mg diarios de B mg diarios de C

Gráfico I Gráfico II Gráfico III


Visualizando los gráficos nos inclinamos a pensar que A favorece el engorde de las ratas, B no influye y C es perjudicial.
La correlación observada en el gráfico I es positiva y la del III negativa; igual que las pendientes de las rectas de
regresión correspondientes.
En el gráfico II, sin embargo, la nube de puntos es amorfa y no sugiere ninguna recta: no hay correlación entre las
variables, se dice que son incorreladas.

2
Estadística y Análisis de Datos

Volviendo a las dos distribuciones de notas: Notas de Matemática – Notas de Física


Notas de Matemática – Notas de Química
Sabemos que algunas nubes de puntos sugieren rectas; cuanto más apretados están los puntos a su correspondiente
recta, mayor es la correlación.
Para cuantificar ese efecto, trazamos unos nuevos ejes coordenados con origen en (x̅ ,y̅ ).
.

B A

Cuanto más fuerte es la correlación (cuanto más apretados están los puntos en torno a la recta) más puntos hay en los
cuadrantes A y C y menos en los cuadrantes B y D.
C D

Matemáticas Matemáticas

Y (xi ) > 0
B A

(yi ) > 0

C D

xi  x yi  y (xi x ).(yi y )
en A   
en B   
en C   
en D   
Por tanto, cuanto más fuerte es la correlación positiva, más puntos hay para los que el producto (xi x ).(yi y ) es positivo
y menos puntos para los que el producto es negativo. Y por ello, cuanto mayor sea la correlación, mayor es la suma:

 x  
n

i  x . yi  y
i1
Observaciones:
1. En el razonamiento anterior hemos supuesto que todos los puntos tienen la misma importancia. Esto no es así; los
puntos, cuanto más alejados están del centro de gravedad, más influyen en la correlación. Si del gráfico
correspondiente a la distribución Notas de Matemática – Notas de Física, suprimimos los puntos (10, 10) y (2, 1), la

3
Estadística y Análisis de Datos

tendencia del gráfico cambia notablemente. En vez de éstos, si se suprimen otros dos puntos, apenas se notará su
ausencia. Los puntos (10, 10) y (2, 1) aportan a la suma anterior los siguientes valores:
(10  6).(10  5) = 20
(2  6).(1  5) = 16
El producto correspondiente a cualquier otro punto, es mucho menor.

 x  
n
2. En una correlación negativa, la suma i  x . y i  y es negativa y tanto más grande en valor absoluto cuanto
i1
más estrecha sea la relación entre ambas variables.

UN NUEVO PARÁMETRO ESTADÍSTICO: LA COVARIANZA

 x  
n
La suma i  x . y i  y sirve para medir la relación entre dos variables, sin embargo, no es suficientemente buena,
i1
así que vamos a mejorarla.
Observamos las dos distribuciones siguientes:

Es evidente que la correlación de la primera es mayor que la de la segunda. Sin embargo, en la segunda, la suma

 x  
n

i  x . y i  y es mayor, pues tiene los mismos diez puntos que la primera y otros diez. Para evitar el efecto
i1
producido por el número de puntos, n, dividimos por él, obteniendo, así, un nuevo parámetro estadístico llamado
covarianza, que se designa por Sxy.

 x  
n

i  x . yi  y
i 1
Sxy 
n
Podemos hallar otra fórmula equivalente a la anterior, que resulta mucho más cómoda para el cálculo de la covarianza:

 x   x y
n n n n n n

i  x . yi  y i i  yi  xi  xiyi x y i i
Sxy  i 1
 i 1
x i 1
y i 1
 x.y  i 1
 x.y  y .x  x.y  i 1
 x. y
n n n n n n
Podemos utilizar la covarianza como una medida de la asociación lineal entre las variables, de modo que si ésta es
positiva, nos indica una relación directa entre ellas y si es negativa, nos indica una relación inversa. Si las variables son
independientes, entonces la covarianza es aproximadamente 0.

Sxy > 0 Sxy < 0

4
Estadística y Análisis de Datos

Sxy = 0 Sxy = 0

Las dos variables son independientes Hay dependencia entre las dos variables
Si la covarianza es nula, esto no quiere decir de ningún modo que no pueda existir ninguna relación entre las dos
variables.

Teorema: Si las variables X e Y son independientes, entonces Sxy = 0


Observación: El recíproco de este resultado no es cierto en general. Así, si Sxy = 0 puede suceder que X e Y sean
dependientes
Otras propiedades:
1. Sxy = Syx
2. Los cambios de origen no afectan a la covarianza.
3. Los cambios de escala sí afectan a la covarianza.
4. La covarianza, puede ser tanto positiva como negativa, pero debe quedar necesariamente acotada por los
valores siguientes: [Link]  Sxy  [Link]

COEFICIENTE DE CORRELACIÓN
Las siguientes distribuciones:

son idénticas, salvo en la unidad utilizada en los ejes. Sin embargo, la covarianza de la primera es 5,92 y la de la
segunda, 592. El cambio de escala influye en la covarianza. Por ello, ese parámetro todavía no es suficientemente bueno
para medir la correlación. Por lo cual definimos el coeficiente de correlación:
Sxy
r
S x .S y
Este parámetro no varía si sometemos las variables a un cambio de escala (es decir, se puede expresar la estatura en
metros o en centímetros y el dinero en pesos, dólares o euros y no por eso se modifica el valor del coeficiente de
correlación en el que intervenga esa variable, lo cual no pasa con la covarianza).

Interpretación del coeficiente de correlación.


El coeficiente de correlación nos proporciona información acerca del tipo de correlación que existe entre las variables X
e Y. Dicha información nos la proporciona dos hechos: el signo del coeficiente y su valor.
Una propiedad importante del coeficiente de correlación es que verifica la siguiente acotación:  1 ≤ r ≤ 1.

5
Estadística y Análisis de Datos

Signo. A la vista de como está definido el coeficiente de correlación, al ser las desviaciones típicas siempre positivas,
el signo del coeficiente viene determinado por el signo de la covarianza. Así, se tiene:
Si r > 0 → la correlación es directa
Si r < 0 → la correlación es inversa
Si r = 0 → no existe correlación entre las variables
Valor. Dependiendo de cuál sea su valor, obtendremos cierta información:
Si r = 1 ó r =1: la correlación lineal es perfecta; esto es la nube de puntos está sobre una recta. (Correlación funcional)
Si 1 < r < 0: la correlación es negativa y será más fuerte cuanto más cerca de -1 esté r.
Si 0 < r < 1: la correlación es positiva y será más fuerte cuanto más cerca de 1 esté r.
Si r = 0 : no existe correlación lineal.

Propiedades del coeficiente de correlación lineal


 Carece de unidades de medida (adimensional).
 Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
 Sólo toma valores comprendidos entre −1 y 1.
 Cuando |r| esté próximo a uno, se tiene que existe una relación lineal muy fuerte entre las variables.
 Cuando r  0, puede afirmarse que no existe relación lineal entre ambas variables. Se dice en este caso que las
variables son incorreladas.

CUANTÍA O INTENSIDAD:
Por regla general, y como orientación, los valores de los índices de correlación se interpretan del siguiente modo:
 > 0.80 MUY ALTA
 0.60 – 0.79 ALTA
 0.40 – 0.59 MODERADA
 0.20 – 0.39 BAJA
 < 0.20 MUY BAJA

REGRESIÓN
Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de
los de otra X (independiente), entre las que intuimos que existe una relación.
Para ilustrarlo retomemos los ejemplos mencionados al principio. Si sobre un grupo de personas observamos los
valores que toman las variables
X: altura medida en centímetros,
Y: altura medida en metros,
no es necesario hacer grandes esfuerzos para intuir que la relación que hay entre ambas es: Y = X/100.
Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo grupo de personas es:
X: altura medida en centímetros,
Y: peso en kilogramos.
La razón es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo exacto su peso yi
(v.g. dos personas que miden 1, 70m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relación entre ellas
debe existir, pues parece mucho más probable que un individuo de 2m pese más que otro que mida 1, 20m. Es más,
nos puede parecer más o menos aproximada una relación entre ambas variables como la siguiente:
Y = X − 110 ± error.
A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos
regresión.
Mediante las técnicas de regresión inventamos una variable Ŷ como función de otra variable X (o viceversa),
Ŷ  f (X) .
Esto es lo que denominamos relación funcional. El criterio para construir Ŷ , tal como citamos anteriormente, es que la
diferencia entre Y e Ŷ sea pequeña, Ŷ = f(X), Y − Ŷ = error,
El término que hemos denominado error debe ser tan pequeño como sea posible. El objetivo será buscar la función
(también denominada modelo de regresión) Ŷ = f(X) que lo minimice.

6
Estadística y Análisis de Datos

Y
(xi, yi)
= f(x)
yi
ei

(xi, )

Sxy> 0

xi X
Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una buena
aproximación de una nube de puntos (xi, yi), mediante una curva del tipo Ŷ  f (X) . Para ello hemos de asegurarnos de
que la diferencia entre los valores yi e ŷ i sea tan pequeña como sea posible.

Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una población, en los que se miden ciertas variables
XeY:
X  x1, x2, . . . , xn
Y  y1, y2, . . . , yn
Estamos interesamos en hacer regresión para determinar, de modo aproximado, los valores de Y conocidos los de X,
debemos definir cierta variable Ŷ  f (X) , que debe tomar los valores
Ŷ  ŷ 1  f ( x1 ) , ŷ 2  f ( x 2 ) , . . . , ŷ n  f ( x n )
de modo que: Y − Ŷ  y 1  ŷ 1  0 , y 2  ŷ 2  0 , . . . , y n  ŷ n  0
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los auténticos valores de Y y los
teóricos suministrados por la regresión, E = Y − Ŷ  e1  y 1  ŷ 1 , e 2  y 2  ŷ 2 , . . . , e n  y n  ŷ n
y calculando Ŷ de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una variable cuya media
debe ser 0, y cuya varianza S E2 debe ser pequeña (en comparación con la de Y). Por ello se define el coeficiente de

2 S E2
determinación de la regresión de Y sobre X, R2 R
, como Y X  1 
YX
S2 Y
Si el ajuste de Y mediante la curva de regresión Ŷ  f (X) es bueno, cabe esperar que la cantidad R 2 tome un valor
YX
próximo a 1.
La cantidad R 2 sirve entonces para medir de qué modo las diferencias entre los verdaderos valores de una variable y
YX
los de su aproximación mediante una curva de regresión son pequeños en relación con los de la variabilidad de la
variable que intentamos aproximar. Por esta razón estas cantidades miden el grado de bondad del ajuste.

7
Estadística y Análisis de Datos

0.8 9.5
9.4
0.6
9.3
0.4 9.2
9.1
0.2
9
0 8.9
0 0.02 0.04 0.06 0 0.01 0.02 0.03 0.04

(a) (b)
9.5 2
9.4
1.5
9.3
1
9.2
9.1 0.5

9 0
0 0.01 0.02 0.03 0.04 0 0.02 0.04 0.06

(c) (d)
En (a) hay ausencia de relación (independencia).

En (b) existe asociación lineal positiva (varían en general en el mismo sentido).

En (c) existe asociación lineal negativa (varían en sentido contrario).

En (d) existe fuerte asociación, pero no lineal.

Regresión lineal
La regresión lineal consiste en encontrar aproximar los valores de una variable a partir de los de otra, usando una
relación funcional de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
Ŷ  a  bX
con el menor error posible entre Ŷ e Y .
Entonces:
Consideremos una variable bidimensional ( X, Y ), y su representación gráfica, de todas las rectas que se aproximen a
la nube de puntos, la que más se ajuste la llamaremos recta de regresión.
En primer lugar procederemos a representar el diagrama de dispersión, o nube de puntos. Aunque la nube revele una
gran dispersión, podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta;
por ejemplo si suponemos que X es la edad e Y es la altura, obviamente, la altura no sólo depende de la edad, además
también puede haber errores de medida).
Por esa nube de puntos podemos hacer pasar infinitas rectas. De todas ellas debemos elegir una ¿cuál?... Obviamente
elegiremos la mejor de todas en algún sentido.
La recta de regresión debe tener carácter de línea media, debe ajustarse bien a la mayoría de los datos, es decir, pasar
lo más cerca posible de todos y cada uno de los puntos.
Llamaremos a la mejor de todas Ŷ  a  bX .

8
Estadística y Análisis de Datos

X
Que pase lo más cerca posible de todos los puntos, es decir que diste poco de todos y cada uno de ellos significa que
hemos de adoptar un criterio particular que en general se conoce como MÍNIMOS CUADRADOS. Este criterio significa
que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo más pequeña posible.

Y
(xi, yi) = a + bx
yi
ei

(xi, )

Sxy> 0

xi X
Recta de regresión mostrando los residuos o errores que se minimizan en el procedimiento de ajuste de los Mínimos
cuadrados.

Estas distancias verticales se denominan errores o residuos.


n
Entonces el criterio puede expresarse: D  e
i 1
i mínima

Dado que la recta de regresión deberá tener carácter de línea media, esa suma de distancias deberá anularse. Para
evaluar la dispersión, trabajaremos con esas distancias, pero al cuadrado, de modo que la función que deberemos
minimizar será:
n n n
D   e i2   y i  ŷ i 2   y i  a  bx i 2
i 1 i 1 i 1
donde ŷ i son los valores estimados según el modelo y = a + b.x

9
Estadística y Análisis de Datos

En la expresión anterior lo conocemos todo, excepto a y b. para encontrar dichos valores, con la condición de que D
sea mínima, deberemos hallar las derivadas parciales de D con respecto a a y a b, y resolver el sistema resultante, al
igualar las ecuaciones obtenidas a 0. Es decir, el problema se reduce a un problema de mínimos.
n
Así obtendremos:
D
b
  
 2.  y i  a  bx i  x i  0
i1
n
D
a
 
 2.  y i  a  bx i  1  0
i1
Adecuando convenientemente las ecuaciones anteriores, obtenemos:
n

 y i  a  bx i x i  0  
i1
n
 y i  a  bx i   0
i1
Operando y reorganizando términos, obtenemos las denominadas Ecuaciones Normales de Gauss:
n n
 y i  an  b  x i
i 1 i 1
n n 2n
 xiyi  a  xi  b  xi
i 1 i 1 i 1

Resolviendo el sistema, obtenemos las expresiones para a y b:


S xy S xy
ay x y b
S 2x S 2x
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresión:
a = Y  b.X
S
b  XY
S 2X
La cantidad b se denomina coeficiente de regresión de Y sobre X.
En el modelo lineal de regresión la bondad del ajuste es simplemente r2. Con lo cual el modelo lineal dará mejores
predicciones cuando r sea próximo a 1 o 1.

Interpretación de los coeficientes de regresión


Obsérvese que la relación Ŷ  a  bX explica cosas como que si X varía en 1 unidad, Ŷ varía la cantidad b. Por tanto:
Si b > 0, las dos variables aumentan o disminuyen a la vez;
Si b < 0, cuando una variable aumenta, la otra disminuye.
Sxy
El coeficiente de regresión de Y sobre X, (“b” si tenemos la recta en forma explícita Ŷ  a  bX ) se interpreta de
S 2x
Sxy
la siguiente forma: a un aumento de una unidad de la variable X, corresponde una variación de unidades de la
S 2x
variable Y (aumento si el coeficiente de regresión es positivo o disminución si es negativo).

Ejemplo: Sea Y ˆ  19,19  1,36.X , donde X = número de médicos que pasan consulta en un centro de salud e Y =
número de pacientes que atienden. El coeficiente de regresión b = 1,36, indica que si aumentamos un médico en el
centro de salud, el número de pacientes que atiende cada médico, disminuiría en 1,36.

10
Estadística y Análisis de Datos

Ejemplo de cálculo con un modelo de regresión lineal


En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se
muestran resumidos en los siguientes estadísticos:
x  14 SX  2
y  100 S Y  25
SXY = 45
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo
aproximado la cantidad Y esperada cuando X = 15.
Solución:
Lo que se busca es la recta, Ŷ  a  bX , que mejor aproxima los valores de Y (según el criterio de los mínimos
cuadrados) en la nube de puntos que resulta de representar en un plano (X, Y ) las 1.500 observaciones. Los
coeficientes de esta recta son:
S 45
b  XY   11,25
S2 X
4
a = Y  b.X =100 – 11,25. 14 = 57,5

Así, el modelo lineal consiste en:


Ŷ  57,5  11,25.X

Por tanto, si x = 15, el modelo lineal predice un valor de Y de:


ŷ  57,5  11,25.15  111,25

Propiedades de la regresión lineal


Una vez que ya tenemos perfectamente definida Ŷ , (o bien X̂ ) nos preguntamos las relaciones que hay entre la media
y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:
Proposición
En los ajustes lineales se conservan las medias, es decir,
Ŷ  Y
X̂  X
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus
aproximaciones X̂ y Ŷ , pues sólo se mantienen en un factor de r2, es decir,
S 2  r 2 .S 2Y

2
S  r 2 .S 2X

Observación
Como consecuencia de este resultado, podemos decir que la proporción de varianza explicada por la regresión lineal es
del r2.100 %.
Nos gustaría tener que r = 1, pues en ese caso ambas variables tendrían la misma varianza, pero esto no es cierto en
general. Todo lo que se puede afirmar, como sabemos, es que −1  r  1 y por tanto
0  S 2  S 2Y

La cantidad que le falta a la varianza de regresión, S2 , para llegar hasta la varianza total de Y , S 2Y , es lo que se

denomina varianza residual,
Proposición
La varianza residual del modelo de regresión de Y sobre X es la varianza de la variable E = Y − Ŷ .
Obsérvese que entonces La bondad del ajuste es
S2

R2  1 E  1 1 r 2  r 2
YX
S 2Y

11
Estadística y Análisis de Datos

Para el ajuste contrario se define el error como E = X − X̂ , y análogamente su varianza residual es también
proporcional a 1 − r2. Todo esto se puede resumir como sigue:
Proposición
Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son iguales a r2, y por tanto
representan además la proporción de varianza explicada por la regresión lineal:
R2  r 2  R2
YX XY
Por ello:
Si | r |  1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa).
Si | r |  0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste
lineal. Sin embargo, no es seguro que las dos variables no posean ninguna relación en el caso r = 0, ya que si bien el
ajuste lineal puede no ser el que corresponde, tal vez otro tipo de ajuste sí lo sea.

INTERPRETACIÓN DEL COEFICIENTE DE DETERMINACIÓN


Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la regresión lineal entre
las variables. Normalmente, la variable independiente no explica al 100% los resultados que se observan en la variable
dependiente.
El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una
recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general. Vamos a cuantificar la
calidad de la explicación de Y por X mediante el COEFICIENTE DE DETERMINACIÓN.
Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de la X (independiente),
pero sí por la de Y, por estar influenciada por la otra variable. La varianza de Y está generada, de una parte, por los
datos de X (es decir, por la varianza), y de otra parte por causas desconocidas (a no ser que los datos formen una línea
recta).
El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X, y se le suele llamar
CALIDAD DEL AJUSTE, porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro
modo, lo ajustada que está la nube de puntos a la recta de regresión).
Un ejemplo: si R2 = 86% para unas variables X e Y, podríamos decir que la calidad del ajuste es bastante alta, aunque
no sabemos si la recta de regresión es creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de correlación
lineal, r = 0.77, entre dos variables X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo
de r), y calculando R2 = r2  100 = 59.29% tendríamos una calidad de ajuste media (no es muy pobre, pero tampoco se
puede calificar de buena).

Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y , se obtiene la siguiente
información:
 x i  24  x i y i  64  y i  40
S 2Y  12 S 2X  6

Calcule:
1. La recta de regresión de Y sobre X. Explique el significado de los parámetros.
2. El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la variación de Y que no está
explicada por el modelo lineal de regresión.
3. Si el modelo es adecuado, ¿cuál es la predicción ŷ para x = 4?
Solución:
1. En primer lugar calculamos las medias y las covarianza entre ambas variables:
 xi 24
x  3
n 8
 yi 40
y  5
n 8
 xiyi 64
S XY   x.y   3.5  8  15  7
n 8
Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la
variación de Y cuando X aumenta en una unidad:

12
Estadística y Análisis de Datos

S 7
b  XY   1,667
2 6
SX
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la
tendencia es a la disminución de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:
a = Y  b.X = 5 – ( 1,667). 3 = 8,5
Así, la recta de regresión de Y como función de X es:
Ŷ  8,5  1,667.X
2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:
2
R2
 S
 r 2   XY  
  72  0,6805  68,05%
YX
 S X .S Y  6.12
Es decir, el modelo de regresión lineal explica el 68% de la variabilidad de Y en función de la de X. Por tanto queda un
32% de variabilidad no explicada.
3. La predicción que realiza el modelo lineal de regresión para x = 4 es:
ŷ = 8,5 − 1, 667. x = 8, 5 − 1, 6667 × 4 = 3, 833
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, hay una razonable
cantidad de variabilidad que no es explicada por el modelo.

Ejemplo de cálculo en regresión lineal


En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes
resultados:
X (Edad) 12 8 10 11 7 7 10 14
Y (Peso) 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del
peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el
peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?

Solución:
Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale:
S 15,2031
r  XY   0,9431
S X .S Y 2,3150.6,9631
ya que:
8 79
 x i  79  x   9,875 años
i 1 8
8 389
 y i  389  y   48,625 kg
i 1 8
8 2 2 823
 x i  823  S X   9,8752  5,3594 años2  S X  2,3150 años
i 1 8
8 2 2 19303
 y i  19303  S Y   48,6252  48,4844 kg2  S Y  6,9631 kg
i 1 8
8 3963
 x i y i  3963  S XY   9,875  48,625  15,2031
i 1 8

La recta de regresión del peso en función de la edad es:


Ŷ  a1  b1.X  20,6126  2,8367.X
a1  y  b1.x  20,6126 kg
S
b1  XY  2,8367 kg / año
S 2X
La recta de regresión de la edad como función del peso es:

13
Estadística y Análisis de Datos

X̂  a 2  b 2 .Y  5,3738  0,3136.Y
a 2  x  b 2 .y  5,3738 años
S
b 2  XY  0,3136 años / kg
S 2Y
que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.
La bondad del ajuste es
R 2  R 2  r 2  0,8894
YX XY
por tanto podemos decir que el 88,94% de la variabilidad del peso en función de la edad es explicada mediante la recta
de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del
mismo modo puede decirse que hay un 100% − 88, 94% = 11, 06% de varianza que no es explicada por las rectas de
regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es
 
S E2  1  r 2 .S 2Y  0,1106  48,4844  5,33 kg2
y la de la edad en función del peso:
S E2  1  r 2 .S 2X  0,1106  5,3594  0,59 años2
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función
de la edad, la pendiente de esta recta, es decir, b1 = 2, 8367 Kg/año. Cuando dos personas difieren en peso, en
promedio la diferencia de edad entre ambas se rige por la cantidad b2 = 0, 3136 años/Kg de diferencia.

BIBLIOGRAFIA:
 Daniel, W.-Bioestadística. Base para el análisis de las ciencias de la salud.- Noriega editores.- 1995.
 Rius Diaz, F. ; Barón Lopez, F.-Bioestadística.- Paraninfo – 2005

14

También podría gustarte