0% encontró este documento útil (0 votos)

192 vistas7 páginas

Anscombe

Este documento describe el "Cuarteto de Anscombe", que son 4 conjuntos de datos con las mismas propiedades estadísticas pero diferentes patrones de datos. Aunque los modelos de regresión lineal ajustados a los 4 conjuntos de datos son similares, los gráficos de dispersión muestran que solo uno de los conjuntos se ajusta adecuadamente a un modelo lineal, mientras que los otros tres presentan relaciones no lineales u outliers. Esto demuestra la importancia de realizar un análisis gráfico de los datos antes de modelarlos est

Cargado por

Felipe Giachino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

192 vistas7 páginas

Anscombe

Cargado por

Felipe Giachino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de regresión lineal con los datos del Cuarteto de Anscombe

Rosana Ferrero

Máxima Formación S.L.

EL CUARTETO DE ANSCOMBE
Realizar gráficos apropiados es parte esencial del análisis de modelos de regresión.
Hoy quiero enseñarte un ejemplo muy bonito que retrata esta cuestión. Se llama “el cuarteto de Anscombe”
en honor al estadístico Anscombe que creó 4 conjuntos de datos en los años 70 para convencer a sus colegas
de la importancia del análisis gráfico de los datos. Puedes ver el artículo original aquí.
Tenemos 4 conjuntos de datos x-y con las mismas propiedades estadísticas tradicionales (media, varianza,
correlación, línea de regresión, etc.), pero son bastante diferentes:
• Número de observaciones (n): 11
• Media de la variable x: 9.0
• Desviación típica de la variable x: 3.32
• Media de la variable y: 7.5
• Desviación típica de la variable y: 2.03
• Coeficiente de correlación lineal: 0.816
• Ecuación de regresión lineal: y = 3 + 0,5 · x
• Suma de cuadrados de los residuos: 13,75 (con 9 grados de libertad)
• Error estándar del parámetro b1: 0,118
• R-cuadrado, R2: 0,667
Puedes acceder a los datos desde el software R de la siguiente manera:
library(stats)
library(graphics)

anscombe

## x1 x2 x3 x4 y1 y2 y3 y4
## 1 10 10 10 8 8.04 9.14 7.46 6.58
## 2 8 8 8 8 6.95 8.14 6.77 5.76
## 3 13 13 13 8 7.58 8.74 12.74 7.71
## 4 9 9 9 8 8.81 8.77 7.11 8.84
## 5 11 11 11 8 8.33 9.26 7.81 8.47
## 6 14 14 14 8 9.96 8.10 8.84 7.04
## 7 6 6 6 8 7.24 6.13 6.08 5.25
## 8 4 4 4 19 4.26 3.10 5.39 12.50
## 9 12 12 12 8 10.84 9.13 8.15 5.56
## 10 7 7 7 8 4.82 7.26 6.42 7.91
## 11 5 5 5 8 5.68 4.74 5.73 6.89

MODELAR A CIEGAS
Si ajustas los 4 modelos posibles puedes comprobar que se obtiene la misma recta de regresión y el mismo
valor de bondad de ajuste (R2) para los 4 conjuntos de datos.

1
ff <- y ~ x # función

mods <- setNames(as.list(1:4), paste0("lm", 1:4))

for(i in 1:4){
ff[2:3] <- lapply(paste0(c("y","x"), i), as.name)
mods[[i]] <- lmi <- lm(ff, data = anscombe)
print(anova(lmi))
}

## Analysis of Variance Table

##
## Response: y1
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 27.510 27.5100 17.99 0.00217 **
## Residuals 9 13.763 1.5292
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y2
## Df Sum Sq Mean Sq F value Pr(>F)
## x2 1 27.500 27.5000 17.966 0.002179 **
## Residuals 9 13.776 1.5307
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y3
## Df Sum Sq Mean Sq F value Pr(>F)
## x3 1 27.470 27.4700 17.972 0.002176 **
## Residuals 9 13.756 1.5285
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
##
## Response: y4
## Df Sum Sq Mean Sq F value Pr(>F)
## x4 1 27.490 27.4900 18.003 0.002165 **
## Residuals 9 13.742 1.5269
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
¡Como puedes ver los modelos ajustados son muy similares!.

REALIZAR UN GRÁFICO A TIEMPO

Sin embargo, si graficas los 4 conjuntos de datos puedes ver que solo uno de ellos debería ser representado
mediante un modelo de regresión lineal simple.
library(data.table)
anscombe2<-melt(as.data.table(anscombe),
measure.vars=patterns(c("x", "y")),
value.name=c('x', 'y'))

library(ggplot2)

2
ggplot(data=anscombe2,
aes(x=x, y=y))+
geom_point()+
facet_wrap(~variable)

1 2
12.5

10.0

7.5

5.0
y

3 4
12.5

10.0

7.5

5.0

5 10 15 5 10 15
x
¿Cómo se interpretan estos datos?
• En el primer caso (arriba a la izquierda) obtienes una relación lineal bastante adecuada,

• en el segundo (arriba derecha) probablemente deberías utilizar una relación no lineal para su modelado
y por tanto el R2 obtenido no es relevante,

• mientras que en el tercero y cuarto gráfico (debajo) deberías investigar la presencia de outliers.

• Además, el cuarto caso (debajo a la derecha) indica un diseño experimental inadecuado ya que la
variable x4 toma prácticamente siempre los mismos valores.

CONOCER LA HISTORIA COMPLETA

Este ejemplo deja una clara moraleja: la importancia de explorar gráficamente los datos antes de analizarlos.
Veamos su consecuencia en 3 tipos de análisis distintos:
1. Los estadísticos descriptivos

• Los estadísticos descriptivos no te dan una información completa sobre cómo son nuestros datos. Por
ejemplo, son sensibles a los outliers, como se puede ver en el tercer y cuarto ejemplo. Es decir, ¡Recuerda
siempre primero graficar tus datos y evaluar la presencia de outliers!

3
2. El coeficiente de correlación lineal

• Has visto que puedes obtener valores altos de correlación lineal cuando en realidad la relación de las
variables es no lineal, esto ocurre cuando las variables no tienen distribución normal o también debido a
la presencia de outliers. Por ello, ¡comprueba siempre los supuestos del análisis que uses!
3. La regresión lineal

• La regresión lineal también es sensible al incumplimiento de sus supuestos y a la presencia de outliers,

Debes evaluar los supuestos del modelo, y su ajuste, mediante gráficos. Cuando estas trabajando
con un modelo de regresión lineal simple (i.e. una variable explicativa o predictor) basta con utilizar
modelos de dispersión. Sin embargo, cuando te encuentras con múltiples variables explicativas y quieres
ajustar un modelo de regresión múltiple será más sencillo que evalúes el ajuste del modelo mediante los
gráficos de residuos.

• Además, al igual que ocurre con el coeficiente de correlación, debes tener cuidado en la interpretación
que le demos al coeficiente de determinación (o R2), ya que:
– resumen en un único valor toda una nube de puntos. Ambos son solo estadísticos de descripción,
no una validación del modelo, y por tanto no se pueden utilizar para comparar modelos. Los 4
conjuntos de datos obtienen los mismos valores de R2 y sin embargo el modelo de regresión solo
puede ser aplicado en el primer caso (arriba a la izquierda).

– hay que tener cuidado a la hora de interpretar un valor alto de R2 como indicador de un buen
ajuste de los datos al modelo, porque otra función puede describir mejor la tendencia de los datos,
como en el segundo ejemplo (arriba a la derecha).

– pueden ser afectados fuertemente por tan solo uno o pocos datos (outliers), como en el tercer y
cuarto ejemplo (gráficos inferiores).
• En conclusión, ¡Realiza el diagnóstico gráfico de tu modelo para validarlo y ten cuidado con la
interpretación del R2!

GRÁFICOS DIAGNÓSTICOS DE LOS RESIDUOS

¿Y cómo observaríamos estas diferencias en los gráficos diagnósticos de los residuos?
par(mfrow = c(2, 2))
plot(mods[[1]], main = "Model 1")

4
Model 1 Model 1

Standardized residuals
Residuals vs Fitted Normal Q−Q
2 9 9
Residuals

1
0

−1
−2

10 3 10
3

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 1 Model 1
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage

2
9 3 1
10 9 0.5
0.8

0
Cook's 10
distance 0.5
0.0

−2
3 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

plot(mods[[2]], main = "Model 2")

Model 2 Model 2
Standardized residuals

Residuals vs Fitted Normal Q−Q

4 4
Residuals

0.5
0

−1.5
−2

8 6 6 8

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 2 Model 2
Standardized residuals

Standardized residuals

Scale−Location Residuals vs Leverage

8 6 0.5
4
0.0
0.8

3
Cook's distance 0.5
−2.0
0.0

8
6 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

5
plot(mods[[3]], main = "Model 3")

Model 3 Model 3

Standardized residuals
Residuals vs Fitted Normal Q−Q
3 3

3
Residuals

3
1

1
−1

9 9

−1
6 6

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Model 3 Model 3
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
3 3

3
1.0

6 0.5

1
9

Cook's distance
−1 9
0.0

6 0.5

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

plot(mods[[4]], main = "Model 4")

## Warning: not plotting observations with leverage one:

## 8

6
Model 4 Model 4

Standardized residuals
Residuals vs Fitted Normal Q−Q
2 4 4
Residuals

5 5

0.5
0

−1.5
−2

7 7

7 8 9 10 11 12 −1.5 −0.5 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Model 4 Model 4
Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
0.0 0.6 1.2

4
7 4
5 5

0.5
Cook's distance

−1.5
7

7 8 9 10 11 12 0.00 0.02 0.04 0.06 0.08 0.10

Fitted values Leverage

También podría gustarte

Ricatti Bernoulli
Aún no hay calificaciones
Ricatti Bernoulli
11 páginas
Valores Normales de Dinamometría Manual
Aún no hay calificaciones
Valores Normales de Dinamometría Manual
10 páginas
Evaluación Física y Antropométrica
Aún no hay calificaciones
Evaluación Física y Antropométrica
4 páginas
Guía de Ejercicios Propiedades de La Materia y Calor
Aún no hay calificaciones
Guía de Ejercicios Propiedades de La Materia y Calor
4 páginas
Guia Fisiologia I
100% (1)
Guia Fisiologia I
151 páginas
Prueba Falta de Ajuste
Aún no hay calificaciones
Prueba Falta de Ajuste
23 páginas
Metodos para Evaluar La Frescura y Calidad en La Carne Mapa Conceptual
Aún no hay calificaciones
Metodos para Evaluar La Frescura y Calidad en La Carne Mapa Conceptual
3 páginas
Test de Ruffier: Evaluación Física
Aún no hay calificaciones
Test de Ruffier: Evaluación Física
1 página
Análisis de Desviaciones en 80 Minutos
Aún no hay calificaciones
Análisis de Desviaciones en 80 Minutos
5 páginas
Caspm-4139854 2
Aún no hay calificaciones
Caspm-4139854 2
4 páginas
Guía Básica de Conteo de Carbohidratos
Aún no hay calificaciones
Guía Básica de Conteo de Carbohidratos
3 páginas
Exposicion Campo Electrico
Aún no hay calificaciones
Exposicion Campo Electrico
15 páginas
Graficado en Papel Log y Semilog
Aún no hay calificaciones
Graficado en Papel Log y Semilog
5 páginas
Dieta de 2000 Kcal por Intercambios
100% (1)
Dieta de 2000 Kcal por Intercambios
1 página
Biomecánica de la Carrera y Salto
100% (1)
Biomecánica de la Carrera y Salto
6 páginas
Recomendaciones Nutricionales Enfermedades Respiratorias PDF
100% (1)
Recomendaciones Nutricionales Enfermedades Respiratorias PDF
2 páginas
Ejercicios Practica Cohorte Con Clave
Aún no hay calificaciones
Ejercicios Practica Cohorte Con Clave
3 páginas
Tabla Nutricional de Alimentos Ecuador
Aún no hay calificaciones
Tabla Nutricional de Alimentos Ecuador
18 páginas
Curvas Patrón para Cuantificación de Azúcares
Aún no hay calificaciones
Curvas Patrón para Cuantificación de Azúcares
13 páginas
Microbiología Predictiva
0% (1)
Microbiología Predictiva
26 páginas
Glucolisis
100% (1)
Glucolisis
39 páginas
Niacina: Fuentes, Funciones y Toxicidad
Aún no hay calificaciones
Niacina: Fuentes, Funciones y Toxicidad
3 páginas
Contenido de Vitamina C en Camu Camu
0% (1)
Contenido de Vitamina C en Camu Camu
3 páginas
A-13-216-D Introducción A La Biomecánica (216) Hainaut, Karl
Aún no hay calificaciones
A-13-216-D Introducción A La Biomecánica (216) Hainaut, Karl
110 páginas
Bases para El Razonamiento en Estadística Inferencial
Aún no hay calificaciones
Bases para El Razonamiento en Estadística Inferencial
33 páginas
Manual de Bioquímica Clínica 2020
100% (1)
Manual de Bioquímica Clínica 2020
58 páginas
Musculacion
Aún no hay calificaciones
Musculacion
2 páginas
Practica 2 CCM Uniformidad de Contenido
100% (1)
Practica 2 CCM Uniformidad de Contenido
5 páginas
Evaluación Nutricional y Diagnóstico
Aún no hay calificaciones
Evaluación Nutricional y Diagnóstico
1 página
Características organolépticas de alimentos
Aún no hay calificaciones
Características organolépticas de alimentos
9 páginas
Cinética de Muerte
Aún no hay calificaciones
Cinética de Muerte
21 páginas
Marcas y Diametros PDF
Aún no hay calificaciones
Marcas y Diametros PDF
2 páginas
Intervalles de Confianza en Estadística
50% (2)
Intervalles de Confianza en Estadística
2 páginas
Vitamina B5, Bioquimica
Aún no hay calificaciones
Vitamina B5, Bioquimica
4 páginas
Evaluación Bioquímica Nutricional
Aún no hay calificaciones
Evaluación Bioquímica Nutricional
5 páginas
Cuestionario Mundial de Actividad Física GPAQ (ANDRES FELIPE MERCADO LONDOÑO)
Aún no hay calificaciones
Cuestionario Mundial de Actividad Física GPAQ (ANDRES FELIPE MERCADO LONDOÑO)
8 páginas
GEB, GER y GET
Aún no hay calificaciones
GEB, GER y GET
13 páginas
Composición y Beneficios de la Carne Mexicana
Aún no hay calificaciones
Composición y Beneficios de la Carne Mexicana
68 páginas
Relación entre uso de agujas y asesoría
50% (2)
Relación entre uso de agujas y asesoría
2 páginas
Curvas de Calibración en Bioquímica
Aún no hay calificaciones
Curvas de Calibración en Bioquímica
8 páginas
Entregable 2 Grupo 1 Porcentaje de Cenizas en Harinas
Aún no hay calificaciones
Entregable 2 Grupo 1 Porcentaje de Cenizas en Harinas
17 páginas
Métodos Alternos de La Hipertrofia Muscular
Aún no hay calificaciones
Métodos Alternos de La Hipertrofia Muscular
10 páginas
Calor y Eficiencia Muscular
Aún no hay calificaciones
Calor y Eficiencia Muscular
2 páginas
Practica 1 Nutricion
Aún no hay calificaciones
Practica 1 Nutricion
12 páginas
Distribución Binomial: Conceptos Clave
Aún no hay calificaciones
Distribución Binomial: Conceptos Clave
29 páginas
Cálculo Del Coeficiente de Variación Del Laboratorio
Aún no hay calificaciones
Cálculo Del Coeficiente de Variación Del Laboratorio
2 páginas
Problemario Estadistica Inferencial
Aún no hay calificaciones
Problemario Estadistica Inferencial
19 páginas
Baremos de Condición Física para Chicos y Chicas
Aún no hay calificaciones
Baremos de Condición Física para Chicos y Chicas
6 páginas
Pruebas de Sangre - Valores Normales
Aún no hay calificaciones
Pruebas de Sangre - Valores Normales
17 páginas
Informe 02 Toxicologia
Aún no hay calificaciones
Informe 02 Toxicologia
27 páginas
Caso Clinico Calcio
100% (1)
Caso Clinico Calcio
4 páginas
Análisis de Correlación y Regresión Lineal
Aún no hay calificaciones
Análisis de Correlación y Regresión Lineal
14 páginas
Análisis Bromatológico de Alimentos
Aún no hay calificaciones
Análisis Bromatológico de Alimentos
15 páginas
Apartado de Examenes
Aún no hay calificaciones
Apartado de Examenes
8 páginas
Historia Clinica Formato
Aún no hay calificaciones
Historia Clinica Formato
11 páginas
3.astrand y Ryhming
100% (1)
3.astrand y Ryhming
2 páginas
Exposicion R
Aún no hay calificaciones
Exposicion R
8 páginas
Análisis de Regresión CO-NOX
Aún no hay calificaciones
Análisis de Regresión CO-NOX
12 páginas
Guía de Estudio Regresión Lineal
Aún no hay calificaciones
Guía de Estudio Regresión Lineal
9 páginas
Guia de Lab 1
Aún no hay calificaciones
Guia de Lab 1
20 páginas
Futuro de la Industria en México
100% (1)
Futuro de la Industria en México
22 páginas
Historia Colonial de Costa Rica
Aún no hay calificaciones
Historia Colonial de Costa Rica
14 páginas
Métodos de Medición de Resistencias
Aún no hay calificaciones
Métodos de Medición de Resistencias
6 páginas
Pampas de Huarequeque
Aún no hay calificaciones
Pampas de Huarequeque
2 páginas
Aditivos Saborizantes en Alimentos
100% (5)
Aditivos Saborizantes en Alimentos
9 páginas
Servicio 42 Decodificado Pas
Aún no hay calificaciones
Servicio 42 Decodificado Pas
6 páginas
Taller Estados Financieros
83% (6)
Taller Estados Financieros
3 páginas
Modelo Económico de Leontief. Clase 13 de Junio 2022
Aún no hay calificaciones
Modelo Económico de Leontief. Clase 13 de Junio 2022
4 páginas
ASTM-D5873 Martillo Schmidt
Aún no hay calificaciones
ASTM-D5873 Martillo Schmidt
12 páginas
CAM-136-010-EL-MC-09 SELECCIÓN DEL CABLE SUBTERRÁNEO Rev.C
Aún no hay calificaciones
CAM-136-010-EL-MC-09 SELECCIÓN DEL CABLE SUBTERRÁNEO Rev.C
9 páginas
Estrategias de Marketing y Cliente
Aún no hay calificaciones
Estrategias de Marketing y Cliente
33 páginas
Etapas del Proceso Económico
Aún no hay calificaciones
Etapas del Proceso Económico
16 páginas
Matematicas Grado 3 Modulo C Estudiante PDF
83% (6)
Matematicas Grado 3 Modulo C Estudiante PDF
106 páginas
Cade Simu v1
Aún no hay calificaciones
Cade Simu v1
10 páginas
Convocatoria CAS 002-2025 Hospital Huacho
Aún no hay calificaciones
Convocatoria CAS 002-2025 Hospital Huacho
18 páginas
Competencia Profesional del Contador Público
Aún no hay calificaciones
Competencia Profesional del Contador Público
11 páginas
Evaluación 270: Métodos y Técnicas
Aún no hay calificaciones
Evaluación 270: Métodos y Técnicas
1 página
Trabajo en Clase #2 Unidad II 18 12 2020
Aún no hay calificaciones
Trabajo en Clase #2 Unidad II 18 12 2020
19 páginas
003 - Obligaciones de No Hacer
100% (1)
003 - Obligaciones de No Hacer
28 páginas
Misión, Visión y Valores - BCP - Alicorp
100% (1)
Misión, Visión y Valores - BCP - Alicorp
2 páginas
2024-02-01
Aún no hay calificaciones
2024-02-01
27 páginas
Características y Tipos de Vectores
0% (1)
Características y Tipos de Vectores
2 páginas
Manual del Relé Temporizador RE17RAMU
Aún no hay calificaciones
Manual del Relé Temporizador RE17RAMU
4 páginas
Si-S-10 Seg. Basada en Comportamiento PDF
Aún no hay calificaciones
Si-S-10 Seg. Basada en Comportamiento PDF
8 páginas
Mejoramiento de Alimentadores Eléctricos 22.9 kV
Aún no hay calificaciones
Mejoramiento de Alimentadores Eléctricos 22.9 kV
15 páginas
Modelo Oferta Economica
Aún no hay calificaciones
Modelo Oferta Economica
2 páginas
Solicita Emitir Disposicion de Sobreseimiento
Aún no hay calificaciones
Solicita Emitir Disposicion de Sobreseimiento
2 páginas
Reglamento de Cruces Líneas Eléctricas
Aún no hay calificaciones
Reglamento de Cruces Líneas Eléctricas
13 páginas
Retos Matemáticos PDF
Aún no hay calificaciones
Retos Matemáticos PDF
40 páginas