0% encontró este documento útil (0 votos)
192 vistas7 páginas

Anscombe

Este documento describe el "Cuarteto de Anscombe", que son 4 conjuntos de datos con las mismas propiedades estadísticas pero diferentes patrones de datos. Aunque los modelos de regresión lineal ajustados a los 4 conjuntos de datos son similares, los gráficos de dispersión muestran que solo uno de los conjuntos se ajusta adecuadamente a un modelo lineal, mientras que los otros tres presentan relaciones no lineales u outliers. Esto demuestra la importancia de realizar un análisis gráfico de los datos antes de modelarlos est

Cargado por

Felipe Giachino
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
192 vistas7 páginas

Anscombe

Este documento describe el "Cuarteto de Anscombe", que son 4 conjuntos de datos con las mismas propiedades estadísticas pero diferentes patrones de datos. Aunque los modelos de regresión lineal ajustados a los 4 conjuntos de datos son similares, los gráficos de dispersión muestran que solo uno de los conjuntos se ajusta adecuadamente a un modelo lineal, mientras que los otros tres presentan relaciones no lineales u outliers. Esto demuestra la importancia de realizar un análisis gráfico de los datos antes de modelarlos est

Cargado por

Felipe Giachino
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de regresión lineal con los datos del Cuarteto de Anscombe

Rosana Ferrero

Máxima Formación S.L.

EL CUARTETO DE ANSCOMBE
Realizar gráficos apropiados es parte esencial del análisis de modelos de regresión.
Hoy quiero enseñarte un ejemplo muy bonito que retrata esta cuestión. Se llama “el cuarteto de Anscombe”
en honor al estadístico Anscombe que creó 4 conjuntos de datos en los años 70 para convencer a sus colegas
de la importancia del análisis gráfico de los datos. Puedes ver el artículo original aquí.
Tenemos 4 conjuntos de datos x-y con las mismas propiedades estadísticas tradicionales (media, varianza,
correlación, línea de regresión, etc.), pero son bastante diferentes:
• Número de observaciones (n): 11
• Media de la variable x: 9.0
• Desviación típica de la variable x: 3.32
• Media de la variable y: 7.5
• Desviación típica de la variable y: 2.03
• Coeficiente de correlación lineal: 0.816
• Ecuación de regresión lineal: y = 3 + 0,5 · x
• Suma de cuadrados de los residuos: 13,75 (con 9 grados de libertad)
• Error estándar del parámetro b1: 0,118
• R-cuadrado, R2: 0,667
Puedes acceder a los datos desde el software R de la siguiente manera:
library(stats)
library(graphics)

anscombe

## x1 x2 x3 x4 y1 y2 y3 y4
## 1 10 10 10 8 8.04 9.14 7.46 6.58
## 2 8 8 8 8 6.95 8.14 6.77 5.76
## 3 13 13 13 8 7.58 8.74 12.74 7.71
## 4 9 9 9 8 8.81 8.77 7.11 8.84
## 5 11 11 11 8 8.33 9.26 7.81 8.47
## 6 14 14 14 8 9.96 8.10 8.84 7.04
## 7 6 6 6 8 7.24 6.13 6.08 5.25
## 8 4 4 4 19 4.26 3.10 5.39 12.50
## 9 12 12 12 8 10.84 9.13 8.15 5.56
## 10 7 7 7 8 4.82 7.26 6.42 7.91
## 11 5 5 5 8 5.68 4.74 5.73 6.89

MODELAR A CIEGAS
Si ajustas los 4 modelos posibles puedes comprobar que se obtiene la misma recta de regresión y el mismo
valor de bondad de ajuste (R2) para los 4 conjuntos de datos.

1
ff <- y ~ x # función

mods <- setNames(as.list(1:4), paste0("lm", 1:4))


for(i in 1:4){
ff[2:3] <- lapply(paste0(c("y","x"), i), as.name)
mods[[i]] <- lmi <- lm(ff, data = anscombe)
print(anova(lmi))
}

## Analysis of Variance Table


##
## Response: y1
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 27.510 27.5100 17.99 0.00217 **
## Residuals 9 13.763 1.5292
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y2
## Df Sum Sq Mean Sq F value Pr(>F)
## x2 1 27.500 27.5000 17.966 0.002179 **
## Residuals 9 13.776 1.5307
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y3
## Df Sum Sq Mean Sq F value Pr(>F)
## x3 1 27.470 27.4700 17.972 0.002176 **
## Residuals 9 13.756 1.5285
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y4
## Df Sum Sq Mean Sq F value Pr(>F)
## x4 1 27.490 27.4900 18.003 0.002165 **
## Residuals 9 13.742 1.5269
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
¡Como puedes ver los modelos ajustados son muy similares!.

REALIZAR UN GRÁFICO A TIEMPO


Sin embargo, si graficas los 4 conjuntos de datos puedes ver que solo uno de ellos debería ser representado
mediante un modelo de regresión lineal simple.
library(data.table)
anscombe2<-melt(as.data.table(anscombe),
measure.vars=patterns(c("x", "y")),
value.name=c('x', 'y'))

library(ggplot2)

2
ggplot(data=anscombe2,
aes(x=x, y=y))+
geom_point()+
facet_wrap(~variable)

1 2
12.5

10.0

7.5

5.0
y

3 4
12.5

10.0

7.5

5.0

5 10 15 5 10 15
x
¿Cómo se interpretan estos datos?
• En el primer caso (arriba a la izquierda) obtienes una relación lineal bastante adecuada,

• en el segundo (arriba derecha) probablemente deberías utilizar una relación no lineal para su modelado
y por tanto el R2 obtenido no es relevante,

• mientras que en el tercero y cuarto gráfico (debajo) deberías investigar la presencia de outliers.

• Además, el cuarto caso (debajo a la derecha) indica un diseño experimental inadecuado ya que la
variable x4 toma prácticamente siempre los mismos valores.

CONOCER LA HISTORIA COMPLETA


Este ejemplo deja una clara moraleja: la importancia de explorar gráficamente los datos antes de analizarlos.
Veamos su consecuencia en 3 tipos de análisis distintos:
1. Los estadísticos descriptivos

• Los estadísticos descriptivos no te dan una información completa sobre cómo son nuestros datos. Por
ejemplo, son sensibles a los outliers, como se puede ver en el tercer y cuarto ejemplo. Es decir, ¡Recuerda
siempre primero graficar tus datos y evaluar la presencia de outliers!

3
2. El coeficiente de correlación lineal

• Has visto que puedes obtener valores altos de correlación lineal cuando en realidad la relación de las
variables es no lineal, esto ocurre cuando las variables no tienen distribución normal o también debido a
la presencia de outliers. Por ello, ¡comprueba siempre los supuestos del análisis que uses!
3. La regresión lineal

• La regresión lineal también es sensible al incumplimiento de sus supuestos y a la presencia de outliers,


Debes evaluar los supuestos del modelo, y su ajuste, mediante gráficos. Cuando estas trabajando
con un modelo de regresión lineal simple (i.e. una variable explicativa o predictor) basta con utilizar
modelos de dispersión. Sin embargo, cuando te encuentras con múltiples variables explicativas y quieres
ajustar un modelo de regresión múltiple será más sencillo que evalúes el ajuste del modelo mediante los
gráficos de residuos.

• Además, al igual que ocurre con el coeficiente de correlación, debes tener cuidado en la interpretación
que le demos al coeficiente de determinación (o R2), ya que:
– resumen en un único valor toda una nube de puntos. Ambos son solo estadísticos de descripción,
no una validación del modelo, y por tanto no se pueden utilizar para comparar modelos. Los 4
conjuntos de datos obtienen los mismos valores de R2 y sin embargo el modelo de regresión solo
puede ser aplicado en el primer caso (arriba a la izquierda).

– hay que tener cuidado a la hora de interpretar un valor alto de R2 como indicador de un buen
ajuste de los datos al modelo, porque otra función puede describir mejor la tendencia de los datos,
como en el segundo ejemplo (arriba a la derecha).

– pueden ser afectados fuertemente por tan solo uno o pocos datos (outliers), como en el tercer y
cuarto ejemplo (gráficos inferiores).
• En conclusión, ¡Realiza el diagnóstico gráfico de tu modelo para validarlo y ten cuidado con la
interpretación del R2!

GRÁFICOS DIAGNÓSTICOS DE LOS RESIDUOS


¿Y cómo observaríamos estas diferencias en los gráficos diagnósticos de los residuos?
par(mfrow = c(2, 2))
plot(mods[[1]], main = "Model 1")

4
Model 1 Model 1

Standardized residuals
Residuals vs Fitted Normal Q−Q
2 9 9
Residuals

1
0

−1
−2

10 3 10
3

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 1 Model 1
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage

2
9 3 1
10 9 0.5
0.8

0
Cook's 10
distance 0.5
0.0

−2
3 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage


plot(mods[[2]], main = "Model 2")

Model 2 Model 2
Standardized residuals

Residuals vs Fitted Normal Q−Q


4 4
Residuals

0.5
0

−1.5
−2

8 6 6 8

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 2 Model 2
Standardized residuals

Standardized residuals

Scale−Location Residuals vs Leverage


8 6 0.5
4
0.0
0.8

3
Cook's distance 0.5
−2.0
0.0

8
6 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

5
plot(mods[[3]], main = "Model 3")

Model 3 Model 3

Standardized residuals
Residuals vs Fitted Normal Q−Q
3 3

3
Residuals

3
1

1
−1

9 9

−1
6 6

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 3 Model 3
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
3 3

3
1.0

6 0.5

1
9

Cook's distance
−1 9
0.0

6 0.5

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage


plot(mods[[4]], main = "Model 4")

## Warning: not plotting observations with leverage one:


## 8

6
Model 4 Model 4

Standardized residuals
Residuals vs Fitted Normal Q−Q
2 4 4
Residuals

5 5

0.5
0

−1.5
−2

7 7

7 8 9 10 11 12 −1.5 −0.5 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Model 4 Model 4
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
0.0 0.6 1.2

4
7 4
5 5

0.5
Cook's distance

−1.5
7

7 8 9 10 11 12 0.00 0.02 0.04 0.06 0.08 0.10

Fitted values Leverage

También podría gustarte