0% encontró este documento útil (0 votos)
91 vistas236 páginas

Manual de Estadística para Ingenieros

El 'Manual de Estadística para Ciencias e Ingenierías' de Alfredo Sánchez Alberca ofrece una introducción completa a la estadística, abordando conceptos fundamentales como población, muestra, muestreo y estadística descriptiva. El documento incluye secciones sobre la distribución de frecuencias, representación gráfica de datos y análisis de regresión, proporcionando herramientas esenciales para la interpretación de datos en ciencias e ingenierías. Además, se discuten los riesgos asociados con la regresión y la importancia de los datos atípicos en el análisis estadístico.

Cargado por

kb092402
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
91 vistas236 páginas

Manual de Estadística para Ingenieros

El 'Manual de Estadística para Ciencias e Ingenierías' de Alfredo Sánchez Alberca ofrece una introducción completa a la estadística, abordando conceptos fundamentales como población, muestra, muestreo y estadística descriptiva. El documento incluye secciones sobre la distribución de frecuencias, representación gráfica de datos y análisis de regresión, proporcionando herramientas esenciales para la interpretación de datos en ciencias e ingenierías. Además, se discuten los riesgos asociados con la regresión y la importancia de los datos atípicos en el análisis estadístico.

Cargado por

kb092402
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Manual de Estadística

para Ciencias e Ingenierías

Alfredo Sánchez Alberca


[email protected]
https://aprendeconalf.es
Indice de contenidos

Prefacio 3
Licencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1 Introducción a la Estadística 4
1.1 La estadística como herramienta científica . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué es la estadística? . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 La variabilidad de nuestro mundo . . . . . . . . . . . . . . . . . . . 4
1.2 Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Población estadística . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Inconvenientes en el estudio de la población . . . . . . . . . . . . . 5
1.2.3 Muestra estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Determinación del tamaño muestral . . . . . . . . . . . . . . . . . 6
1.2.5 Tipos de razonamiento . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Modalidades de muestreo . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Variables estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Tipos de estudios estadísticos . . . . . . . . . . . . . . . . . . . . . 14
1.3.5 La tabla de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.6 Fases del análisis estadístico . . . . . . . . . . . . . . . . . . . . . . 15

2 Estadística Descriptiva 17
2.1 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Clasificación de la muestra . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Recuento de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Frecuencias muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Construcción de clases . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.4 La distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.1 Tratamiento de los datos atípicos . . . . . . . . . . . . . . . . . . . 43
2.5 Estadísticos muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2
2.6 Estadísticos de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6.1 Media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.6.4 ¿Qué estadístico de tendencia central usar? . . . . . . . . . . . . . 51
2.6.5 Medidas de posición no centrales . . . . . . . . . . . . . . . . . . . 52
2.7 Estadísticos de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.1 Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.2 Rango intercuartílico . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.3 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . 56
2.7.4 Varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 59
2.7.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Estadísticos de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.8.1 Coeficiente de asimetría . . . . . . . . . . . . . . . . . . . . . . . . 63
2.8.2 Coeficiente de apuntamiento o curtosis . . . . . . . . . . . . . . . . 67
2.8.3 Distribuciones no normales . . . . . . . . . . . . . . . . . . . . . . 70
2.9 Transformaciones de variables . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.9.1 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . 73
2.9.2 Transformación de tipificación y puntuaciones típicas . . . . . . . . 73
2.9.3 Variables clasificadoras o factores . . . . . . . . . . . . . . . . . . . 76

3 Regresión 79
3.1 Distribución de frecuencias conjunta . . . . . . . . . . . . . . . . . . . . . 79
3.1.1 Frecuencias conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.2 Distribución de frecuencias bidimensional . . . . . . . . . . . . . . 80
3.1.3 Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.4 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . 83
3.2 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3 Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.1 Modelos de regresión simple . . . . . . . . . . . . . . . . . . . . . . 88
3.3.2 Residuos o errores predictivos . . . . . . . . . . . . . . . . . . . . . 88
3.3.3 Ajuste de mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . 89
3.3.4 Coeficiente de determinación . . . . . . . . . . . . . . . . . . . . . 90
3.3.5 Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 92
3.3.6 Distintos grados de correlación . . . . . . . . . . . . . . . . . . . . 93
3.3.7 Fiabilidad de las predicciones de un modelo de regresión . . . . . . 93
3.4 Regresión no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.4.1 Transformación de modelos de regresión no lineales . . . . . . . . . 94
3.4.2 Relación exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.5 Riesgos de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.5.1 La falta de ajuste no significa independencia . . . . . . . . . . . . 99
3.5.2 Datos atípicos en regresión . . . . . . . . . . . . . . . . . . . . . . 99
3.5.3 La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . . 101

3
4 Relaciones entre variables cualitativas 103
4.1 Relación entre atributos ordinales . . . . . . . . . . . . . . . . . . . . . . . 103
4.1.1 Coeficiente de correlación de Spearman . . . . . . . . . . . . . . . 103
4.2 Relación entre atributos nominales . . . . . . . . . . . . . . . . . . . . . . 105
4.2.1 Frecuencias teóricas o esperadas . . . . . . . . . . . . . . . . . . . 106
4.2.2 Coeficiente chi-cuadrado 𝜒2 . . . . . . . . . . . . . . . . . . . . . . 106
4.2.3 Coeficiente de contingencia . . . . . . . . . . . . . . . . . . . . . . 107

5 Probabilidad 109
5.1 Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.1 Espacio de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.2 Unión de suscesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.3 Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.1.4 Contrario de un suceso . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.1.5 Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.1.6 Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2.1 Definición clásica de probabilidad . . . . . . . . . . . . . . . . . . . 114
5.2.2 Definición frecuentista de probabilidad . . . . . . . . . . . . . . . . 115
5.2.3 Definición axiomática de probabilidad . . . . . . . . . . . . . . . . 116
5.2.4 Interpretación de la probabilidad . . . . . . . . . . . . . . . . . . . 118
5.3 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3.1 Experimentos condicionados . . . . . . . . . . . . . . . . . . . . . . 119
5.3.2 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . 120
5.3.3 Probabilidad del suceso intersección . . . . . . . . . . . . . . . . . 120
5.3.4 Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . 121
5.4 Espacio probabilístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.4.1 Árboles de probabilidad con variables dependientes . . . . . . . . . 122
5.4.2 Árboles de probabilidad con variables independientes . . . . . . . . 122
5.5 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 123
5.5.1 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 124
5.6 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.7 Epidemiología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.7.1 Prevalencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.7.2 Incidencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.7.3 Tasa de incidencia o Riesgo absoluto . . . . . . . . . . . . . . . . . 128
5.7.4 Prevalencia vs Incidencia . . . . . . . . . . . . . . . . . . . . . . . 128
5.7.5 Comparación de riesgos . . . . . . . . . . . . . . . . . . . . . . . . 129
5.7.6 Riesgo atribuible o diferencia de riesgos 𝑅𝐴 . . . . . . . . . . . . . 129
5.7.7 Riesgo relativo 𝑅𝑅 . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.7.8 Odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.7.9 Odds ratio 𝑂𝑅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.7.10 Riesgo relativo vs Odds ratio . . . . . . . . . . . . . . . . . . . . . 133

4
5.8 Tests diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.8.1 Sensibilidad y especificidad de un test diagnóstico . . . . . . . . . 136
5.8.2 Valores predictivos de un test diagnóstico . . . . . . . . . . . . . . 138
5.8.3 Razón de verosimilitud de un test diagnóstico . . . . . . . . . . . . 139

6 Estimación de parámetros poblacionales 142


6.1 Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.1.1 Distribución de la media muestral para muestras grandes (𝑛 ≥ 30) 145
6.1.2 Distribución de una proporción muestral para muestras grandes
(𝑛 ≥ 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.3 Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.4 Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.4.1 Error de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.5 Intervalos de confianza para una población . . . . . . . . . . . . . . . . . . 157
6.5.1 Intervalo de confianza para la media de una población normal con
varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.5.2 Intervalo de confianza para la media de una población normal con
varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.5.3 Intervalo de confianza para la media de una población no normal . 163
6.5.4 Intervalo de confianza para la varianza de una población normal . 164
6.5.5 Intervalo de confianza para una proporción . . . . . . . . . . . . . 166
6.6 Intervalos de confianza para la comparación dos poblaciones . . . . . . . . 169
6.6.1 Intervalo de confianza para la diferencia de medias de poblaciones
normales con varianzas conocidas . . . . . . . . . . . . . . . . . . . 169
6.6.2 Intervalo de confianza para la diferencia de medias de dos pobla-
ciones normales con varianzas desconocidas e iguales . . . . . . . . 170
6.6.3 Intervalo de confianza para la diferencia de medias de dos pobla-
ciones normales con varianzas desconocidas y distintas . . . . . . . 173
6.6.4 Intervalo de confianza para el cociente de varianzas . . . . . . . . . 175
6.6.5 Intervalo de confianza para la diferencia de proporciones . . . . . . 177

7 Contrastes de hipótesis paramétricos 180


7.1 Hipótesis estadística y tipos de contrastes . . . . . . . . . . . . . . . . . . 180
7.1.1 Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.1.2 Tipos de contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . 181
7.1.3 Hipótesis nula e hipótesis alternativa . . . . . . . . . . . . . . . . . 181
7.1.4 Contrastes de hipótesis paramétricos . . . . . . . . . . . . . . . . . 182
7.2 Metodología para realizar un contraste de hipótesis . . . . . . . . . . . . . 183
7.2.1 Estadístico del contraste . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2.2 Regiones de aceptación y de rechazo . . . . . . . . . . . . . . . . . 184
7.2.3 Errores en un contraste de hipótesis . . . . . . . . . . . . . . . . . 185
7.2.4 Riesgos de los errores de un contraste de hipótesis . . . . . . . . . 186

5
7.2.5 Determinación de las regiones de aceptación y de rechazo en fun-
ción del riesgo 𝛼 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.2.6 Riesgo 𝛽 y tamaño del efecto . . . . . . . . . . . . . . . . . . . . . 189
7.2.7 Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.8 Cálculo del riesgo 𝛽 y de la potencia 1 − 𝛽 . . . . . . . . . . . . . . 189
7.2.9 Relación del riesgo 𝛽 y el tamaño del efecto 𝛿 . . . . . . . . . . . . 190
7.2.10 Relación entre los riesgos 𝛼 y 𝛽 . . . . . . . . . . . . . . . . . . . . 192
7.2.11 Relación de los riesgos de error y el tamaño muestral . . . . . . . . 193
7.3 Curva de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7.3.1 𝑝-valor de un contraste de hipótesis . . . . . . . . . . . . . . . . . 196
7.3.2 Regla de decisión de un contraste . . . . . . . . . . . . . . . . . . . 196
7.3.3 Pasos para la realización de un contraste de hipótesis . . . . . . . 197
7.4 Contrastes paramétricos más importantes . . . . . . . . . . . . . . . . . . 197
7.5 Contraste para la media de una población normal con varianza conocida . 198
7.6 Contraste para la media de una población normal con varianza desconocida198
7.6.1 Determinación del tamaño muestral en un contraste para la media 200
7.7 Contraste para la media de una población con varianza desconocida y
muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.8 Contraste para la varianza de una población normal . . . . . . . . . . . . 201
7.9 Contraste para proporción de una población . . . . . . . . . . . . . . . . . 202
7.10 Contraste de comparación de medias de dos poblaciones normales con
varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.11 Contraste de comparación de medias de dos poblaciones normales con
varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . . . . . 204
7.12 Contraste de comparación de medias de dos poblaciones normales con
varianzas desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.13 Contraste de comparación de varianzas de dos poblaciones normales . . . 206
7.14 Contraste de comparación de proporciones de dos poblaciones . . . . . . . 207
7.15 Realización de contrastes mediante intervalos de confianza . . . . . . . . . 208

8 Análisis de la Varianza 210


8.1 Análisis de la varianza de 1 factor . . . . . . . . . . . . . . . . . . . . . . 210
8.1.1 El contraste de ANOVA . . . . . . . . . . . . . . . . . . . . . . . . 210
8.1.2 Test de comparaciones múltiples y por parejas . . . . . . . . . . . 214
8.2 ANOVA de dos o más factores . . . . . . . . . . . . . . . . . . . . . . . . 214
8.2.1 ANOVA de dos factores con dos niveles cada factor . . . . . . . . . 215
8.2.2 ANOVA de dos factores con tres o más niveles en algún factor . . 223
8.2.3 ANOVA de tres o más factores . . . . . . . . . . . . . . . . . . . . 223
8.2.4 Factores fijos y Factores aleatorios . . . . . . . . . . . . . . . . . . 224
8.3 ANOVA de medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . 225
8.3.1 ANOVA de medidas repetidas + ANOVA de una o más vías . . . 228
8.4 Análisis de la covarianza: ANCOVA . . . . . . . . . . . . . . . . . . . . . 229

6
Prefacio

¡Bienvenida/os al manual de Estadística!


Este libro es una introducción a la Estadística básica y el cálculo de probabilidades para
alumnos de grados de ciencias e ingenierías.
Este libro se complementa con los siguientes recursos:

• Colección de problemas resueltos


• Prácticas de Estadística con R

Licencia

Esta obra está bajo una licencia Reconocimiento – No comercial – Compartir bajo la
misma licencia 3.0 España de Creative Commons. Para ver una copia de esta licencia,
visite https://creativecommons.org/licenses/by-nc-sa/3.0/es/.
Con esta licencia eres libre de:

• Copiar, distribuir y mostrar este trabajo.


• Realizar modificaciones de este trabajo.

Bajo las siguientes condiciones:

• **Reconocimiento Debe reconocer los créditos de la obra de la manera especificada


por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
• **No comercial No puede utilizar esta obra para fines comerciales.
• **Compartir bajo la misma licencia Si altera o transforma esta obra, o genera una
obra derivada, sólo puede distribuir la obra generada bajo una licencia idéntica a
ésta.

Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licencia de
esta obra.
Estas condiciones pueden no aplicarse si se obtiene el permiso del titular de los derechos
de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

7
1 Introducción a la Estadística

1.1 La estadística como herramienta científica

1.1.1 ¿Qué es la estadística?

Definición 1.1 (Estadística). La estadística es una rama de las matemáticas que se


encarga de la recogida, análisis e interpretación de datos.

El papel de la Estadística es extraer información de los datos para adquirir el conoci-


miento necesario para tomar decisiones.

Figura 1.1: Propósito de la Estadística

La estadística es imprescindible en cualquier disciplina científica o técnica donde se


manejen datos, especialmente si son grandes volúmenes de datos, como por ejemplo en
Física, Química, Medicina, Psicología, Economía o Ciencias Sociales.
Pero, ¿por qué es necesaria la Estadística?

1.1.2 La variabilidad de nuestro mundo

El científico trata de estudiar el mundo que le rodea; un mundo que está lleno de varia-
ciones que dificultan la determinación del comportamiento de las cosas.
La estadística actúa como disciplina puente entre la realidad del mundo y los modelos
matemáticos que tratan de explicarla, proporcionando una metodología para evaluar las
discrepancias entre la realidad y los modelos teóricos.
Esto la convierte en una herramienta indispensable en las ciencias aplicadas que requieran
el análisis de datos y el diseño de experimentos.

8
1.2 Población y muestra

1.2.1 Población estadística

Definición 1.2 (Población). Una población es un conjunto de elementos definido por


una o más características que tienen todos los elementos, y sólo ellos. Cada elemento de
la población se llama individuo.

Definición 1.3 (Tamaño poblacional). El número de individuos de una población se


conoce como tamaño poblacional y se representa como 𝑁 .

Ejemplo 1.1. En unas elecciones generales a la presidencia del gobierno, la población


serían todos los individuos del estado con derecho a voto. En el estudio de una enferme-
dad, la población sería todas las personas que tienen la enfermedad. Y en un proceso
de control de calidad en la fabricación de un fármaco, la población estaría formada por
todos los fármacos que se producen en la fábrica.

A veces, no todos los elementos de la población están accesibles para su estudio. Entonces
se distingue entre:

• Población Teórica: Conjunto de elementos a los que se quiere extrapolar los


resultados del estudio.
• Población Estudiada: Conjunto de elementos realmente accesibles en el estudio.

Ejemplo 1.2. En el caso del estudio de una enfermedad, la población teórica sería todas
las personas que contraigan la enfermedad, incluso si aún no han nacido, mientras que la
población estudiada se limitaría al número de personas enfermas que realmente podemos
estudiar (obsérvese que incluso quedarían fuera las personas enfermas pero de las que
no podemos conseguir información).

1.2.2 Inconvenientes en el estudio de la población

El científico estudia un determinado fenómeno en una población para comprenderlo,


obtener conocimiento sobre el mismo, y así poder controlarlo. Pero, para tener un cono-
cimiento completo de la población es necesario estudiar todos los individuos de la misma.
Sin embargo, esto no siempre es posible por distintos motivos:

• El tamaño de la población es infinito, o bien es finito pero demasiado grande.


• Las pruebas a que se someten los individuos son destructivas.
• El coste, tanto de dinero como de tiempo, que supondría estudiar a todos los
individuos es excesivo.

9
1.2.3 Muestra estadística

Cuando no es posible o conveniente estudiar todos los individuos de la población, se


estudia sólo una parte de la misma.

Definición 1.4 (Muestra). Una muestra es un subconjunto de la población.

Definición 1.5 (Tamaño muestral). Al número de individuos que componen la muestra


se le llama tamaño muestral y se representa por 𝑛.

Habitualmente, el estudio de una población se realiza a partir de muestras extraídas de


dicha población.
Generalmente, el estudio de la muestra sólo aporta conocimiento aproximado de la po-
blación. Pero en muchos casos es suficiente.

1.2.4 Determinación del tamaño muestral

Una de las preguntas más interesantes que surge inmediatamente es: ¿cuántos individuos
es necesario tomar en la muestra para tener un conocimiento aproximado pero suficiente
de la población?
La respuesta depende de varios factores, como la variabilidad de la población o la fiabi-
lidad deseada para las extrapolaciones que se hagan hacia la población.
Por desgracia no se podrá responder hasta casi el final del curso, pero en general, cuantos
más individuos haya en la muestra, más fiables serán las conclusiones sobre la población,
pero también será más lento y costoso el estudio.

Ejemplo 1.3. Para entender a qué nos referimos cuando hablamos de un tamaño mues-
tral suficiente para comprender lo que ocurre en la población, podemos utilizar el si-
guiente símil en que se trata de comprender el motivo que representa una fotografía.
Una fotografía digital está formada por multitud de pequeños puntitos llamados pixels
que se dispone en una enorme tabla de filas y columnas (cuantas más filas y columnas
haya se habla de que la foto tiene más resolución). Aquí la población estaría formada
por todos y cada uno de los píxeles que forman la foto. Por otro lado cada pixel tiene un
color y es la variedad de colores a lo largo de los pixels la que permite formar la imagen
de la fotografía.
¿Cuántos píxeles debemos tomar en una muestra para averiguar la imagen de la foto?
La respuesta depende de la variabilidad de colores en la foto. Si todos los pixels de la
foto son del mismo color, entonces un sólo pixel basta para desvelar la imagen. Pero, si la
foto tiene mucha variabilidad de colores, necesitaremos muchos más pixels en la muestra
para descubrir el motivo de la foto.

10
La imagen siguiente contiene una muestra pequeña de píxeles de una foto. ¿Puedes
averiguar el motivo de a foto?

Figura 1.2: Muestra pequeña de píxeles de una foto.

¡Con una muestra pequeña es difícil averiguar el contenido de la imagen!


Seguramente no has podido averiguar el motivo de la fotografía, porque en este caso el
número de píxeles que hemos tomado en la muestra es insuficiente para comprender toda
la variabilidad de colores que hay en la foto.
La siguiente imagen contiene una muestra mayor de píxeles. ¿Eres capaz de adivinar el
motivo de la foto ahora?

11
Figura 1.3: Muestra mayor de píxeles de una foto.

¡Con una muestra mayor es posible desvelar el motivo de la foto!


Y aquí está la población completa.

12
Figura 1.4: Población de píxeles de una foto.

Lo importante es que ¡No es necesario conocer todos los píxeles para averiguar la imagen!

1.2.5 Tipos de razonamiento

Así pues, habitualmente realizaremos el estudio de la población a partir de muestras y


luego trataremos de extrapolar lo observado en la muestra al resto de la población. A
este tipo de razonamiento que saca conclusiones desde la muestra hacia la población se
le conoce como razonamiento inductivo.

13
Figura 1.5: Tipos de razonamiento.

• Características de la deducción: Si las premisas son ciertas, garantiza la certeza de


las conclusiones (es decir, si algo se cumple en la población, también se cumple en
la muestra). Sin embargo, ¡no aporta conocimiento nuevo!

14
• Características de la inducción: No garantiza la certeza de las conclusiones (si algo
se cumple en la muestra, puede que no se cumpla en la población, así que ¡cuidado
con las extrapolaciones!), pero ¡es la única forma de generar conocimiento nuevo!

La estadística se apoya fundamentalmente en el razonamiento inductivo ya que utiliza la


información obtenida a partir de muestras para sacar conclusiones sobre las poblaciones.
A diferencia del razonamiento deductivo que va de lo general a lo particular, o en nuestro
caso de la población a la muestra, el razonamiento inductivo no garantiza la certeza de
las conclusiones, por lo que debemos ser cuidadosos a la hora de generalizar sobre la
población lo observado en al muestra, ya que si la muestra no es representativa de la
población o contiene sesgos, las conclusiones pueden ser erróneas.

1.3 Muestreo

Definición 1.6 (Muestreo). El proceso de selección de los elementos que compondrán


una muestra se conoce como muestreo.

![](img/introduccion/muestreo.svg” alt=“Muestreo” width=“500px”>


Para que una muestra refleje información fidedigna sobre la población global debe ser
representativa de la misma, lo que significa que debe reproducir a pequeña escala la
variabilidad de la población.
El objetivo es obtener una muestra representativa de la población.

1.3.1 Modalidades de muestreo

Existen muchas técnicas de muestreo pero se pueden agrupar en dos categorías:

• Muestreo Aleatorio: Elección aleatoria de los individuos de la muestra. Todos


tienen la misma probabilidad de ser elegidos (equiprobabilidad).
• Muestreo No Aleatorio: Los individuos se eligen de forma no aleatoria. Algunos
individuos tienen más probabilidad de ser seleccionados que otros.

Sólo las técnicas aleatorias evitan el sesgo de selección, y por tanto, garantizan la repre-
sentatividad de la muestra extraída, y en consecuencia la validez de las conclusiones.
Las técnicas no aleatorias no sirven para hacer generalizaciones, ya que no garantizan
la representatividad de la muestra. Sin embargo, son menos costosas y pueden utilizarse
en estudios exploratorios.

15
1.3.2 Muestreo aleatorio simple

Dentro de las modalidades de muestreo aleatorio, el tipo más conocido es el muestreo


aleatorio simple, caracterizado por:

• Todos los individuos de la población tienen la misma probabilidad de ser elegidos


para la muestra.
• La selección de individuos es con reemplazamiento, es decir, cada individuo selec-
cionado es devuelto a la población antes de seleccionar al siguiente (y por tanto
no se altera la población de partida).
• Las sucesivas selecciones de un individuo son independientes.

La única forma de realizar un muestreo aleatorio es asignar un número a cada individuo


de la población (censo) y realizar un sorteo aleatorio.

1.3.3 Variables estadísticas

Todo estudio estadístico comienza por la identificación de las características que interesa
estudiar en la población y que se medirán en los individuos de la muestra.

Definición 1.7 (Variable estadística). Una variable estadística es una propiedad o ca-
racterística medida en los individuos de la población.
Los datos son los valores observados en las variables estadísticas.

Figura 1.6: Variables estadísticas.

16
Estas características pueden ser de distintos tipos de acuerdo a su naturaleza y su esca-
la:

• Variables cualitativas o atributos: Miden cualidades no numéricas. Pueden


ser:

– Nominales: No existe un orden entre las categorías.


Ejemplo: El color de pelo o el sexo.
– Ordinales: Existe un orden entre las categorías. Ejemplo: El nivel de estudios
o la gravedad de una enfermedad.

• Variables cuantitativas: Miden cantidades numéricas. Pueden ser:

– Discretas: Toman valores numéricos aislados (habitualmente números ente-


ros).
Ejemplo: El número de hijos o el número de coches en una familia.
– Continuas: Pueden tomar cualquier valor en un intervalo real.
Ejemplo: El peso o la estatura.

Las variables cualitativas y discretas se conocen también con variables categóricas y sus
valores categorías.

Figura 1.7: Tipos de variables estadísticas.

1.3.3.1 Elección del tipo de variable más apropiado

En ocasiones una característica puede medirse mediante variables de distinto tipo.

Ejemplo 1.4. Si una persona fuma o no podría medirse de diferentes formas:

• Fuma: si/no. (Nominal)

17
• Nivel de fumador: No fuma / ocasional / moderado / bastante / empedernido.
(Ordinal)
• Número de cigarros diarios: 0,1,2,… (Discreta)

En estos casos es preferible usar variables cuantitativas a cualitativas. Dentro de las


cuantitativas es preferible usar las continuas a las discretas y dentro de las cualitativas
es preferible usar ordinales a nominales pues aportan más información.

Figura 1.8: Cantidad de información de los tipos de variables estadísticas.

De acuerdo al papel que juegan en el estudio las variables también pueden clasificarse
como:

• Variables independientes: Variables que supuestamente no dependen de otras


variables en el estudio. Habitualmente son las variables manipuladas en el experi-
mento para ver su efecto en las variables dependientes. Se conocen también como
variables predictivas.
• Variables dependientes: Variables que supuestamente dependen de otras varia-
bles en el estudio. No son manipuladas en el experimento y también se conocen
como variables respuesta.

Ejemplo 1.5. En un estudio sobre el rendimiento de los alumnos de un curso, la inteli-


gencia de los alumnos y el número de horas de estudio diarias serían variables indepen-
dientes y la nota del curso sería una variable dependiente.

1.3.4 Tipos de estudios estadísticos

Dependiendo de si se manipulan las variables independientes existen dos tipos de estu-


dios:

• Experimentales: Cuando las variables independientes son manipuladas para ver


el efecto que producen en las variables dependientes.

Ejemplo 1.6. En un estudio sobre el rendimiento de los estudiantes en un test, el pro-


fesor manipula la metodología de estudio para crear dos o más grupos con metodologías
de estudio distintas.

18
• No experimentales: Cuando las variables independientes no son manipuladas.
Esto no significa que sea imposible hacerlo, sino que es difícil o poco ético hacerlo.

Ejemplo 1.7. En un estudio un investigador puede estar interesado en el efecto de fumar


sobre el cáncer de pulmón. Aunque es posible, no sería ético pedirle a los pacientes que
fumasen para ver el efecto que tiene sobre sus pulmones. En este caso, el investigador
podría estudiar dos grupos de pacientes, uno con cáncer de pulmón y otro sin cáncer, y
observar en cada grupo cuántos fuman o no.

Los estudios experimentales permiten identificar causas y efectos entre las variables
del estudio, mientras que los no experimentales sólo permiten identificar relaciones de
asociación entre las variables.

1.3.5 La tabla de datos

Las variables a estudiar se medirán en cada uno de los individuos de la muestra, obte-
niendo un conjunto de datos que suele organizarse en forma de matriz que se conoce
como tabla de datos_.
En esta tabla cada columna contiene la información de una variable y cada fila la infor-
mación de un individuo.

Ejemplo 1.8. La siguiente tabla contiene información de las variables Nombre, Edad,
Sexo, Peso y Altura de una muestra de 6 personas.

Nombre Edad Sexo Peso(Kg) Altura(cm)


José Luis Martínez 18 H 85 179
Rosa Díaz 32 M 65 173
Javier García 24 H 71 181
Carmen López 35 M 65 170
Marisa López 46 M 51 158
Antonio Ruiz 68 H 66 174

1.3.6 Fases del análisis estadístico

Normalmente un estudio estadístico pasa por las siguientes etapas:

1. El estudio comienza por el diseño previo del mismo en el que se establezcan los
objetivos del mismo, la población, las variables que se medirán y el tamaño muestral
requerido.

19
2. A continuación se seleccionará una muestra representativa del tamaño establecido
y se medirán las variables en los individuos de la muestra obteniendo la tabla de
datos. De esto se encarga el Muestreo.
3. El siguiente paso consiste en describir y resumir la información que contiene la
muestra. De esto se encarga la Estadística Descriptiva.
4. La información obtenida es proyectada sobre un modelo matemático que intenta
explicar el comportamiento de la población y el modelo se valida. De todo esto se
encarga la Estadística Inferencial.
5. Finalmente, el modelo validado nos permite hacer predicciones y sacar conclusiones
sobre la población de partida con cierta confianza.

1.3.6.1 El ciclo estadístico

Figura 1.9: El ciclo estadístico.

20
2 Estadística Descriptiva

La estadística descriptiva es la parte de la estadística encargada de representar, analizar


y resumir la información contenida en la muestra.
Tras el proceso de muestreo, es la siguiente etapa de todo estudio estadístico y suele
consistir en:

1. Clasificar, agrupar y ordenar los datos de la muestra.


2. Tabular y representar gráficamente los datos de acuerdo a sus frecuencias.
3. Calcular medidas que resuman la información que contiene la muestra (estadísticos
muestrales).

Ĺ Interpretación

No tiene poder inferencial, por lo que nunca deben sacarse conclusiones sobre la
población a partir de las medidas resumen que aporta la Estadística Descriptiva.

2.1 Distribución de frecuencias

El estudio de una variable estadística comienza por medir la variable en los individuos
de la muestra y clasificar los valores obtenidos.
Existen dos formas de clasificar estos valores:

• Sin agrupar: Ordenar todos los valores obtenidos en la muestra de menor a mayor.
Se utiliza con atributos y variables discretas con pocos valores diferentes.
• Agrupados: Agrupar los valores en clases (intervalos) y ordenar dichas clases de
menor a mayor. Se utiliza con variables continuas y con variables discretas con
muchos valores diferentes.

21
2.1.1 Clasificación de la muestra

Consiste colocar juntos los valores iguales y ordenarlos si existe un orden entre ellos.

Figura 2.1: Clasificación de la muestra.

22
2.1.2 Recuento de frecuencias

Figura 2.2: Recuento de frecuencias

2.2 Frecuencias muestrales

Definición 2.1 (Frecuencias muestrales). Dada una muestra de tamaño 𝑛 de una varia-
ble 𝑋, para cada valor de la variable 𝑥𝑖 observado en la muestra, se define

• Frecuencia Absoluta 𝑛𝑖 : Es el número de veces que el valor 𝑥𝑖 aparece en la


muestra.

23
• Frecuencia Relativa 𝑓𝑖 : Es la proporción de veces que el valor 𝑥𝑖 aparece en la
muestra.
𝑛
𝑓𝑖 = 𝑖
𝑛
• Frecuencia Absoluta Acumulada 𝑁𝑖 : Es el número de valores en la muestra
menores o iguales que 𝑥𝑖 .

𝑁𝑖 = 𝑛1 + ⋯ + 𝑛𝑖 = 𝑁𝑖−1 + 𝑛𝑖

• Frecuencia Relativa Acumulada 𝐹𝑖 : Es la proporción de valores en la muestra


menores o iguales que 𝑥𝑖 .
𝑁
𝐹𝑖 = 𝑖
𝑛

2.2.1 Tabla de frecuencias

Al conjunto de valores observados en la muestra junto a sus respectivas frecuencias se le


denomina distribución de frecuencias y suele representarse mediante una tabla de
frecuencias.

Valores Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa


de 𝑋 Absoluta Relativa Acumulada Acumulada
𝑥1 𝑛1 𝑓1 𝑁1 𝐹1
⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑘 𝑛𝑘 𝑓𝑘 𝑁𝑘 𝐹𝑘

Ejemplo 2.1 (Variable cuantitativa y datos no agrupados). El número de hijos en 25


familias es:
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
La tabla de frecuencias del número de hijos en esta muestra es

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
0 2 0.08 2 0.08
1 6 0.24 8 0.32
2 14 0.56 22 0.88
3 2 0.08 24 0.96
4 1 0.04 25 1
∑ 25 1

24
Ejemplo 2.2 (Variable cuantitativa y datos agrupados). Se ha medido la estatura (en
cm) de 30 universitarios obteniendo:
179, 173, 181, 170, 158, 174, 172, 166, 194, 185, 162, 187, 198, 177, 178, 165, 154, 188,
166, 171, 175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
La tabla de frecuencias de la estatura en a esta muestra es

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
(150, 160] 2 0.07 2 0.07
(160, 170] 8 0.27 10 0.34
(170, 180] 11 0.36 21 0.70
(180, 190] 7 0.23 28 0.93
(190, 200] 2 0.07 30 1
∑ 30 1

2.2.2 Construcción de clases

Cada intervalo de agrupación de datos se denomina clase y el centro del intervalo se


llama marca de clase.
A la hora de agrupar los datos en clases hay que tener en cuenta lo siguiente:

• El número de intervalos no debe ser muy grande ni muy pequeño. Una regla orien-

tativa es tomar un número de intervalos próximo a 𝑛 o log2 (𝑛).
• Los intervalos no deben solaparse y deben cubrir todo el rango de valores. Es
indiferente si se abren por la izquierda y se cierran por la derecha o al revés.
• El valor más pequeño debe caer dentro del primer intervalo y el más grande dentro
del último.

Ejemplo 2.3 (Variable cualitativa). Los grupos sanguíneos de una muestra de 30 per-
sonas son:
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB, A, A, A, B, 0, B, B, B, A, A, A, 0, A,
AB, 0.
La tabla de frecuencias del grupo sanguíneo en esta muestra es

𝑥𝑖 𝑛𝑖 𝑓𝑖
0 5 0.16
A 14 0.47
B 8 0.27
AB 3 0.10
∑ 30 1

25
Á Advertencia

Obsérvese que en este caso las frecuencias acumuladas no tienen sentido al no existir
un orden entre los valores de la variable.

2.3 Representaciones gráficas

La tabla de frecuencias también suele representarse gráficamente. Dependiendo del tipo


de variable y de si se han agrupado o no los datos, se utilizan distintos tipos de gráficos:

• Diagrama de barras
• Histograma
• Diagrama de líneas o polígonos.
• Diagrama de sectores.

2.3.1 Diagrama de barras

Un diagrama de barras consiste en un conjunto de barras, una para cada valor o


categoría de la variable, dibujadas sobre unos ejes cartesianos.
Habitualmente los valores o categorías de la variable se representan en eje 𝑋, y las
frecuencias en el eje 𝑌 . Para cada valor o categoría se dibuja una barra con la altura
correspondiente a su frecuencia. La anchura de la barra no es importante pero las barras
deben aparecer claramente separadas unas de otras.
Dependiendo del tipo de frecuencia representada en el eje 𝑌 se tienen diferentes tipos
de diagramas de barras.
En ocasiones se dibuja un polígono, conocido como polígono de frecuencias, uniendo
mediante segmentos los puntos más altos de cada barra.

Ejemplo 2.4. El diagrama de barras que aparece a continuación muestra la distribución


de frecuencias absolutas del número de hijos en la muestra anterior.

df <- read.csv("datos/hijos-coches.csv")
p <- ggplot(df, aes(x=Hijos)) +
geom_bar(fill=blueceu, width = 0.5) +
ylab("Frecuencia")
p

26
10
Frecuencia

0
0 1 2 3 4
Hijos

Y a continuación se muestra el polígono de frecuencias.

p <- p +
geom_freqpoly(bins=5, col=redceu)
p

10
Frecuencia

0
0 2 4
Hijos

27
El diagrama de barras que aparece a continuación muestra la distribución de frecuencias
relativas del número de hijos en la muestra anterior.

p <- ggplot(df, aes(x=Hijos)) +


geom_bar(aes(y = ..prop..), fill=blueceu, width = 0.5) +
ylab("Frecuencia Relativa")
p

Warning: The dot-dot notation (`..prop..`) was deprecated in ggplot2 3.4.0.


i Please use `after_stat(prop)` instead.
Frecuencia Relativa

0.4

0.2

0.0
0 1 2 3 4
Hijos

El diagrama de barras que aparece a continuación muestra la distribución de frecuencias


absolutas acumuladas del número de hijos en la muestra anterior.

p <- ggplot(df, aes(x=Hijos)) +


geom_bar(aes(y = cumsum(..count..)), fill=blueceu, width = 0.5) +
ylab("Frecuencia acumulada")
p

28
25

20
Frecuencia acumulada

15

10

0
0 1 2 3 4
Hijos

Y el diagrama de barras que aparece a continuación muestra la distribución de frecuencias


relativas acumuladas del número de hijos en la muestra anterior.

p <- ggplot(df, aes(x=Hijos)) +


geom_bar(aes(y = cumsum(..prop..)), fill=blueceu, width = 0.5) +
ylab("Frecuencia relativa acumulada")
p

29
Frecuencia relativa acumulada 1.00

0.75

0.50

0.25

0.00
0 1 2 3 4
Hijos

Finalmente, el último diagrama muestra el polígono de frecuencias relativas acumuladas.

df.freq <- count(df, Hijos) %>%


mutate(f = n /sum(n), N = cumsum(n), F = N / sum(n))
x <- unlist(lapply(df.freq$Hijos, rep, 2))
F <- c(0, head(unlist(lapply(df.freq$F, rep, 2)),-1))
df2 <- data.frame(Hijos = x, F = F)
p <- ggplot(df, aes(x=Hijos)) +
geom_bar(aes(y = cumsum(..prop..)), fill=blueceu, width = 0.5) +
geom_line(data = df2, aes(x=Hijos, y=F, group=1), col=redceu) +
ylab("Frecuencia relativa acumulada")
p

30
Frecuencia relativa acumulada 1.00

0.75

0.50

0.25

0.00
0 1 2 3 4
Hijos

2.3.2 Histograma

Un histograma es similar a un diagrama de barras pero para datos agrupados.


Habitualmente las clases o intervalos de agrupación se representan en el eje 𝑋, y las
frecuencias en el eje 𝑌 . Para cada clase se dibuja una barra de altura la correspondiente
frecuencia. A diferencia del diagrama de barras, la anchura del la barra coincide con la
anchura de las clases y no hay separación entre dos barras consecutivas.
Dependiendo del tipo de frecuencia representada en el eje 𝑌 existen distintos tipos de
histogramas.
Al igual que con el diagrama de barras, se puede dibujar un polígono de frecuencias
uniendo los puntos centrales más altos de cada barra con segmentos.

Ejemplo 2.5. El siguiente histograma muestra la distribución de frecuencias absolutas


de las estaturas.

df <- read.csv("datos/estatura-peso.csv")
p <- ggplot(df, aes(x=Estatura)) +
geom_histogram(breaks = seq(150, 200, 10), col="white", fill=blueceu) +
ylab("Frecuencia")
p

31
9
Frecuencia

0
150 160 170 180 190 200
Estatura
El siguiente histograma muestra la distribución de frecuencias relativas con el polígono
de frecuencias.

breaks <- seq(150, 200, 10)


p <- ggplot(df, aes(x=Estatura)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col="white", fill=blueceu) +
geom_freqpoly(aes(y = ..density..), col=redceu, breaks = breaks) +
ylab("Frecuencia relativa")
p

32
0.03
Frecuencia relativa

0.02

0.01

0.00
140 160 180 200
Estatura

El polígono de frecuencias acumuladas (absolutas o relativas) se conoce como ojiva.

Ejemplo 2.6. El histograma y la ojiva siguientes muestran la distribución de frecuencias


relativas acumuladas de estaturas.

breaks <- seq(150, 200, 10)


p <- ggplot(df, aes(x=Estatura)) +
geom_histogram(aes(y = cumsum(..count..)/sum(..count..)), breaks = breaks, col="white
ylab("Frecuencia relativa acumulada")
df.p <- ggplot_build(p)$data[[1]]
x <- c(df.p$xmin[1], df.p$xmax)
y <- c(0, df.p$ymax)
df2 <- data.frame(x, y)
p <- p +
geom_line(data = df2, aes(x = x, y = y, group = 1), col=redceu)
p

33
Frecuencia relativa acumulada 1.00

0.75

0.50

0.25

0.00
150 160 170 180 190 200
Estatura

Obsérvese que en la ojiva se unen los vértices superiores derechos de cada barra con
segmentos, en lugar de los puntos centrales, ya que no se consigue alcanzar la frecuencia
acumulada correspondiente a la clase hasta que no se alcanza el final del intervalo.

2.3.3 Diagrama de sectores

Un diagrama de sectores consiste en un círculo divido en porciones, uno por cada valor
o categoría de la variable. Cada porción se conoce como sector y su ángulo o área es
proporcional a la correspondiente frecuencia del valor o categoría.
Los diagramas de sectores pueden representar frecuencias absolutas o relativas, pero
no pueden representar frecuencias acumuladas, y se utilizan sobre todo con atributos
nominales. Para atributos ordinales o variables cuantitativas es mejor utilizar diagramas
de barras, ya es más fácil percibir las diferencias en una dimensión (altura de las barras)
que en dos dimensiones (áreas de los sectores).

Ejemplo 2.7. El diagrama de sectores siguiente muestra la distribución de frecuencias


relativas de los grupos sanguíneos.

df <- read.csv("datos/grupo-sanguineo.csv")
tab <- table(df[["Grupo.Sanguineo.Hijo"]])
labels <- names(tab)
pctg <- round(tab/sum(tab)*100, 2)
labels <- paste(labels, pctg) # add percents to labels

34
labels <- paste(labels,"%",sep="") # ad % to labels
pie(tab, main="Distribución de los grupos sanguineos", labels=labels, col=c(greenceu, red

Distribución de los grupos sanguineos

A 46.67% 0 16.67%

B 26.67%
AB 10%

2.3.4 La distribución Normal

Las distribuciones con diferentes propiedades presentan formas distintas.

Ejemplo 2.8 (Distribución de los ingresos familiares).

income <- seq(2500,207500,5000)/1000


counts <- c(4235, 4071, 6324, 6470, 6765, 6222, 6354, 5743, 5203, 5002, 5078, 4140, 4367,
breaks <- seq(0,210000,5000)/1000
df <- data.frame(Ingresos = rep(income, counts))
p <- ggplot(df, aes(x=Ingresos)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Ingresos anuales (miles de $)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de ingresos familiares en USA")
p

35
Distribución de ingresos familiares en USA

0.009
Frecuencia relativa

0.006

0.003

0.000
0 50 100 150 200
Ingresos anuales (miles de $)

Ejemplo 2.9 (Distribución de la edad de fallecimiento).

counts <- c(65, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152,
breaks <- seq(0,100,5)
df <- data.frame(Edad = rep(breaks, counts))
p <- ggplot(df, aes(x=Edad)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Edad de fallecimiento") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de la edad de fallecimiento de hombres australianos.")
p

36
Distribución de la edad de fallecimiento de hombres australianos.

0.03
Frecuencia relativa

0.02

0.01

0.00
0 25 50 75 100
Edad de fallecimiento

Ejemplo 2.10 (Distribución del tiempo de espera del metro).

set.seed(123)
time <- runif(1000, min = 0, max = 15)
breaks <- seq(0, 15)
df <- data.frame(Tiempo = time)
p <- ggplot(df, aes(x=Tiempo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Tiempo de espera (min)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del tiempo de espera del metro.")
p

37
Distribución del tiempo de espera del metro.

0.06
Frecuencia relativa

0.04

0.02

0.00
0 5 10 15
Tiempo de espera (min)

Ejemplo 2.11 (Distribución del tiempo de llegada de clientes a un restaurante).

counts <- c(35, 20, 18, 48, 75, 67, 43, 22, 14, 21, 23, 47, 63, 44, 25, 15)
breaks <- seq(8.5,23.5,1)
df <- data.frame(Tiempo = rep(breaks, counts))
breaks <- seq(8,24)
p <- ggplot(df, aes(x=Tiempo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Tiempo") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del tiempo de llegada de clientes a un restaurante")
p

38
Distribución del tiempo de llegada de clientes a un restaurante

0.10
Frecuencia relativa

0.05

0.00
10 15 20
Tiempo

Las distribuciones con forma de campana se presentan muy a menudo en las variables
biológicas.

Ejemplo 2.12 (Distribución del peso de los hombres).

set.seed(123)
df <- data.frame(Peso = rnorm(10000, mean = 88, sd = 12))
breaks <- seq(40, 140, 2)
p <- ggplot(df, aes(x = Peso)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Peso (kg)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del peso de los hombres")
p

39
Distribución del peso de los hombres

0.03
Frecuencia relativa

0.02

0.01

0.00
60 90 120
Peso (kg)

Ejemplo 2.13 (Distribución de la estatura de las mujeres).

set.seed(1234)
df <- data.frame(Estatura = rnorm(10000, mean = 164, sd = 8))
breaks <- seq(130, 200, 2)
p <- ggplot(df, aes(x = Estatura)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Estatura (cm)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de la estatura de las mujeres")
p

40
Distribución de la estatura de las mujeres

0.04
Frecuencia relativa

0.02

0.00
140 160 180 200
Estatura (cm)

Ejemplo 2.14 (Distribución de la estatura según el sexo).

set.seed(1234)
n <- 10000
mujeres <- rnorm(n, mean = 164, sd = 8)
hombres <- rnorm(n, mean = 175, sd = 9)
df <- data.frame(Estatura = c(mujeres, hombres), Sexo = c(rep("Mujer",n), rep("Hombre", n
breaks <- seq(130, 210, 2)
p <- ggplot(df, aes(x = Estatura, fill = Sexo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, position = "identity", col = "w
xlab("Estatura (cm)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de estaturas según sexo")
p

41
Distribución de estaturas según sexo

0.04
Frecuencia relativa

Sexo
Hombre
Mujer
0.02

0.00
150 175 200
Estatura (cm)

Ejemplo 2.15 (Distribución de la estatura de hombres y mujeres).

p <- ggplot(df, aes(x = Estatura)) +


geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Estatura (cm)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de estaturas de hombres y mujeres")
p

42
Distribución de estaturas de hombres y mujeres
0.04

0.03
Frecuencia relativa

0.02

0.01

0.00
150 175 200
Estatura (cm)

Ejemplo 2.16 (Distribución del colesterol).

set.seed(123)
df <- data.frame(Colesterol = rnorm(10000, mean = 192, sd = 18))
breaks <- seq(120, 265, 5)
p <- ggplot(df, aes(x = Colesterol)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Colesterol (mg/dl)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del colesterol")
p

43
Distribución del colesterol

0.020
Frecuencia relativa

0.015

0.010

0.005

0.000
120 160 200 240
Colesterol (mg/dl)

Ejemplo 2.17 (Distribución de notas).

set.seed(123)
df <- data.frame(Nota = rnorm(1000, mean = 5.5, sd = 1.4))
breaks <- seq(0, 10, 0.5)
p <- ggplot(df, aes(x = Nota)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Nota") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de notas de Estadística")
p

44
Distribución de notas de Estadística
0.3
Frecuencia relativa

0.2

0.1

0.0
0.0 2.5 5.0 7.5 10.0
Nota

La distribución con forma de campana aparece tan a menudo en la Naturaleza que se


conoce como distribución normal o distribución gaussiana.

2.4 Datos atípicos

Uno de los principales problemas de las muestras son los datos atípicos, que son valores
de la variable que se diferencian mucho del resto de los valores en la muestra.

Figura 2.4: Dato atípico.

45
Gauss bell

Figura 2.3: Campana de Gauss.

46
Es muy importante detectar los datos atípicos antes de realizar cualquier análisis de los
datos, pues suelen distorsionar los resultados.
Aparecen siempre en los extremos de la distribución, y pueden detectarse con un diagra-
ma de caja y bigotes (tal y como veremos más adelante).

2.4.1 Tratamiento de los datos atípicos

Cuando trabajemos con muestras grandes, los datos atípicos tienen menor influencia y
pueden dejarse en la muestra.
Cuando trabajemos con muestras pequeñas tenemos varias opciones:

• Eliminar el dato atípico si se trata de un error.


• Sustituir el dato atípico por el menor o el mayor valor de la distribución que no es
atípico si no se trata de un error y el dato atípico no concuerda con la distribución
teórica.
• Dejar el dato atípico si no es un error, y cambiar el modelo de distribución teórico
para adecuarlo a los datos atípicos.

2.5 Estadísticos muestrales

La tabla de frecuencias sintetiza la información de la distribución de valores de la va-


riable estudiada en la muestra, pero en muchas ocasiones es insuficiente para describir
determinados aspectos de la distribución, como por ejemplo, cuáles son los valores más
representativos de la muestra, cómo es la variabilidad de los datos, qué datos pueden
considerarse atípicos, o cómo es la simetría de la distribución.
Para describir esos aspectos de la distribución muestral se utilizan unas medidas resumen
llamadas estadísticos muestrales.
De acuerdo al aspecto de las distribución que miden, existen diferentes tipos de estadís-
ticos:
Estadísticos de Posición: Miden los valores en torno a los que se agrupan los datos o
que dividen la distribución en partes iguales.
Estadísticos de Dispersión: Miden la heterogeneidad de los datos.
Estadísticos de Forma: Miden aspectos de la forma que tiene la distribución de los
datos, como la simetría o el apuntamiento.

47
2.6 Estadísticos de posición

Pueden ser de dos tipos:


Estadísticos de Tendencia Central: Determinan valores alrededor de los cuales se
concentran los datos, habitualmente en el centro de la distribución. Estas medidas suelen
utilizarse como valores representativos de la muestra. Las más importantes son:

• Media aritmética
• Mediana
• Moda

Estadísticos de Posición no centrales: Dividen la distribución en partes con el mismo


número de datos. Las más importantes son:

• Cuartiles.
• Deciles.
• Percentiles.

2.6.1 Media aritmética

Definición 2.2 (Media aritmética muestral 𝑥).̄ La media aritmética muestral de una
variable 𝑋 es la suma de los valores observados en la muestra dividida por el tamaño
muestral

∑ 𝑥𝑖
𝑥̄ =
𝑛

A partir de la tabla de frecuencias puede calcularse con la fórmula

∑ 𝑥𝑖 𝑛𝑖
𝑥̄ = = ∑ 𝑥𝑖 𝑓𝑖
𝑛

En la mayoría de los casos, la media aritmética es la medida que mejor representa a la


muestra.

Á Advertencia

No puede calcularse para variables cualitativas.

48
Ejemplo 2.18 (Datos no agrupados). Utilizando los datos de la muestra del número de
hijos en las familias, la media aritmética es

1+2+4+2+2+2+3+2+1+1+0+2+2
𝑥̄ = +
25
0+2+2+1+2+2+3+1+2+2+1+2 44
+ = = 1.76 hijos.
25 25

o bien, desde la tabla de frecuencias

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 𝑓𝑖
0 2 0.08 0 0
1 6 0.24 6 0.24
2 14 0.56 28 1.12
3 2 0.08 6 0.24
4 1 0.04 4 0.16
∑ 25 1 44 1.76

∑ 𝑥𝑖 𝑛𝑖 44
𝑥̄ = = = 1.76 hijos 𝑥̄ = ∑ 𝑥𝑖 𝑓𝑖 = 1.76 hijos.
𝑛 25

Esto significa que el valor que mejor representa el número de hijos en las familias de la
muestra es 1.76 hijos.

Ejemplo 2.19 (Datos agrupados). Utilizando los datos de la muestra de estaturas, la


media es

179 + 173 + ⋯ + 187


𝑥̄ = = 175.07 cm.
30

o bien, desde la tabla de frecuencias utilizando las marcas de clase 𝑥𝑖 :

𝑋 𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 𝑓𝑖
(150, 160] 155 2 0.07 310 10.33
(160, 170] 165 8 0.27 1320 44.00
(170, 180] 175 11 0.36 1925 64.17
(180, 190] 185 7 0.23 1295 43.17
(190, 200] 195 2 0.07 390 13
∑ 30 1 5240 174.67

∑ 𝑥 𝑖 𝑛𝑖 5240
𝑥̄ = = = 174.67 cm 𝑥̄ = ∑ 𝑥𝑖 𝑓𝑖 = 174.67 cm.
𝑛 30

49
Obsérvese que al calcular la media desde la tabla de frecuencias el resultado difiere
ligeramente del valor real obtenido directamente desde la muestra, ya que los valores
usados en los cálculos no son los datos reales sino las marcas de clase.

2.6.1.1 Media ponderada

En algunos casos, los valores de la muestra no tienen la misma importancia. En este caso
la importancia o peso de cada valor de la muestra debe tenerse en cuenta al calcular la
media.

Definición 2.3 (Media ponderada muestral 𝑥𝑝̄ ). Dada una muestra de valores 𝑥1 , … , 𝑥𝑛
donde cada valor 𝑥𝑖 tiene asociado un peso 𝑝𝑖 , la media ponderada muestral de la variable
𝑋 es la suma de los productos de cada valor observado en la muestra por su peso, dividida
por la suma de todos los pesos

∑ 𝑥𝑖 𝑝𝑖
𝑥𝑝̄ =
∑ 𝑝𝑖

A partir de la tabla de frecuencias puede calcularse con la fórmula

∑ 𝑥𝑖 𝑝𝑖 𝑛𝑖
𝑥𝑝̄ =
∑ 𝑝𝑖

Ejemplo 2.20. Supóngase que un estudiante quiere calcular una medida que represente
su rendimiento en el curso. La nota obtenida en cada asignatura y sus créditos son

Asignatura Créditos Nota


Matemáticas 6 5
Economía 4 3
Química 8 6

La media aritmética vale

∑ 𝑥𝑖 5+3+6
𝑥̄ = = = 4.67 puntos.
𝑛 3

Sin embargo, esta nota no representa bien el rendimiento académico del alumno ya que
no todas las asignaturas tienen la misma importancia ni requieren el mismo esfuerzo
para aprobar. Las asignaturas con más créditos requieren más trabajo y deben tener
más peso en el cálculo de la media.

50
Es más lógico usar la media ponderada como medida del rendimiento del estudiante,
tomando como pesos los créditos de cada asignatura

∑ 𝑥𝑖 𝑝𝑖 5⋅6+3⋅4+6⋅8 90
𝑥𝑝̄ = = = = 5 puntos.
∑ 𝑝𝑖 6+4+8 18

2.6.2 Mediana

Definición 2.4 (Mediana muestral 𝑀 𝑒). La mediana muestral de una variable 𝑋 es el


valor de la variable que está en el medio de la muestra ordenada.

La mediana divide la distribución de la muestra en dos partes iguales, es decir, hay


el mismo número de valores por debajo y por encima de la mediana. Por tanto, tiene
frecuencias acumuladas 𝑁𝑀𝑒 = 𝑛/2 y 𝐹𝑀𝑒 = 0.5.

Á Advertencia

No puede calcularse para variables nominales.

Con datos no agrupados pueden darse varios casos:

• Tamaño muestral impar: La mediana es el valor que ocupa la posición 𝑛+1


2 .
• Tamaño muestral par: La mediana es la media de los valores que ocupan las posi-
ciones 𝑛2 y 𝑛2 + 1.

Figura 2.5: Cálculo de la mediana con datos no agrupados.

51
:::{#exm-mediana-datos-no-agrupados} Utilizando los datos del número de hijos de las
familias, el tamaño muestral es 25, que es impar, y la mediana es el valor que ocupa la
posición 25+1
2 = 13 de la muestra ordenada.

0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 , 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4

y la mediana es 2 hijos.
Si se trabaja con la tabla de frecuencias, la mediana es el valor más pequeño con una
frecuencia acumulada mayor o igual a 13, o con una frecuencia relativa acumulada mayor
o igual que 0.5.

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
0 2 0.08 2 0.08
1 6 0.24 8 0.32
2 14 0.56 22 0.88
3 2 0.08 24 0.96
4 1 0.04 25 1
∑ 25 1

2.6.2.1 Cálculo de la mediana con datos agrupados

Con datos agrupados la mediana se calcula interpolando en el polígono de frecuencias


relativas acumuladas para el valor 0.5.

Figura 2.6: Cálculo de la mediana con datos agrupados.

52
Ambas expresiones son iguales ya que el ángulo 𝛼 es el mismo, y resolviendo la ecuación
se tiene la siguiente fórmula para calcular la mediana

0.5 − 𝐹𝑖−1 0.5 − 𝐹𝑖−1


𝑀 𝑒 = 𝑙𝑖−1 + (𝑙𝑖 − 𝑙𝑖−1 ) = 𝑙𝑖−1 + 𝑎𝑖
𝐹𝑖 − 𝐹𝑖−1 𝑓𝑖

Ejemplo 2.21 (Datos agrupados). Utilizando los datos de la muestra de las estaturas
de estudiantes, la mediana cae en la clase (170,180].

Figura 2.7: Ejemplo de cálculo de la mediana con datos agrupados.

Interpolando en el intervalo (170,180] se tiene

53
Figura 2.8: Ejemplo de cálculo de la mediana con datos agrupados.

Igualando ambas expresiones y resolviendo la ecuación se obtiene

0.5 − 0.34 0.16


𝑀 𝑒 = 170 + (180 − 170) = 170 + 10 = 174.54 cm.
0.7 − 0.34 0.36

Esto significa que la mitad de los estudiantes tienen estaturas menores o iguales que
174.54 cm y la otra mitad mayores o iguales.

2.6.3 Moda

Definición 2.5 (Moda muestral 𝑀 𝑜). La moda muestral de una variable 𝑋 es el valor
de la variable más frecuente en la muestra.

Con datos agrupados la clase modal es la clase con mayor frecuencia en la muestra.
Puede calcularse para todos los tipos de variables (cuantitativas y cualitativas).
Las distribuciones pueden tener más de una moda.

54
Figura 2.9: Cálculo de la moda.

Ejemplo 2.22. Utilizando los datos de la muestra del número de hijos en las familias,
el valor con mayor frecuencia es 2, y por tanto la moda es 𝑀 𝑜 = 2.

𝑥𝑖 𝑛𝑖
0 2
1 6
2 14
3 2
4 1

Ejemplo 2.23. Utilizando los datos de la muestra de estaturas de estudiantes, la clase


con la mayor frecuencia es (170, 180], que es la clase modal 𝑀 𝑜 = (170, 180].

𝑋 𝑛𝑖
(150, 160] 2
(160, 170] 8
(170, 180] 11
(180, 190] 7
(190, 200] 2

2.6.4 ¿Qué estadístico de tendencia central usar?

En general, siempre que puedan calcularse los estadísticos de tendencia central, es reco-
mendable utilizarlos como valores representativos en el siguiente orden:

1. Media. La media utiliza más información que el resto ya que para calcularla se
tiene en cuenta la magnitud de los datos.

55
2. Mediana. La mediana utiliza menos información que la media, pero más que la
moda, ya que para calcularla se tiene en cuenta el orden de los datos.
3. Moda. La moda es la que menos información utiliza ya que para calcularla sólo se
tienen en cuenta las frecuencias absolutas.

Á Advertencia

Hay que tener cuidado con los datos atípicos, ya que la media puede distorsionarse
cuando hay datos atípicos. En tal caso es mejor utilizar la mediana como valor más
representativo.

Ejemplo 2.24. Si una muestra de número de hijos de 7 familias es


0, 0, 1, 1, 2, 2, 15,
entonces, 𝑥̄ = 3 hijos y 𝑀 𝑒 = 1 hijo.
¿Qué medida representa mejor el número de hijos en la muestra?

2.6.5 Medidas de posición no centrales

Las medidas de posición no centrales o cuantiles dividen la distribución en partes igua-


les.
Los más utilizados son:
Cuartiles: Dividen la distribución en 4 partes iguales. Hay 3 cuartiles: 𝐶1 (25% acumu-
lado), 𝐶2 (50% acumulado), 𝐶3 (75% acumulado).
Deciles: Dividen la distribución en 10 partes iguales. Hay 9 deciles: 𝐷1 (10% acumula-
do),…, 𝐷9 (90% acumulado).
Percentiles: Dividen la distribución en 100 partes iguales. Hay 99 percentiles: 𝑃1 (1%
acumulado),…, 𝑃99 (99% acumulado).

56
Figura 2.10: Cuartiles, deciles y percentiles.

Obsérvese que hay una correspondencia entre los cuartiles, los deciles y los percentiles.
Por ejemplo, el primer cuartil coincide con el percentil 25, y el cuarto decil coincide con
el percentil 40.
Los cuantiles se calculan de forma similar a la mediana. La única diferencia es la fre-
cuencia relativa acumulada que corresponde a cada cuantil.

57
Figura 2.11: Cálculo de cuartiles, deciles y percentiles.

Ejemplo 2.25. Utilizando los datos de la muestra del número de hijos de las familias,
la frecuencia relativa acumulada era

𝑥𝑖 𝐹𝑖
0 0.08
1 0.32
2 0.88
3 0.96
4 1

𝐹𝐶1 = 0.25 ⇒ 𝑄1 = 1 hijos,


𝐹𝐶2 = 0.5 ⇒ 𝑄2 = 2 hijos,
𝐹𝐶3 = 0.75 ⇒ 𝑄3 = 2 hijos,
𝐹𝐷4 = 0.4 ⇒ 𝐷4 = 2 hijos,
𝐹𝑃92 = 0.92 ⇒ 𝑃92 = 3 hijos.

58
2.7 Estadísticos de dispersión

La dispersión se refiere a la heterogeneidad o variabilidad de los datos. Así pues, los


estadísticos de dispersión mide la variabilidad global de los datos, o con respecto a una
medida de tendencia central.
Para las variables cuantitativas, las más empleadas son:

• Recorrido.
• Rango Intercuartílico.
• Varianza.
• Desviación Típica.
• Coeficiente de Variación.

2.7.1 Recorrido

Definición 2.6 (Recorrido muestral 𝑅𝑒). El recorrido muestral o rango muestral de una
variable 𝑋 se define como la diferencia entre el máximo y el mínimo de los valores en la
muestra.

𝑅𝑒 = max − min
𝑥𝑖 𝑥𝑖

Figura 2.12: Rango muestral.

El recorrido mide la máxima variación que hay entre los datos muestrales. No obstante,
es muy sensible a datos atípicos ya que suelen aparecer justo en los extremos de la
distribución, por lo que no se suele utilizar mucho.

2.7.2 Rango intercuartílico

Para evitar el problema de los datos atípicos en el recorrido, se puede utilizar el primer
y tercer cuartil en lugar del mínimo y el máximo.

59
Definición 2.7 (Rango intercuartílico muestral 𝑅𝐼). El rango intercuartílico muestral
de una variable 𝑋 se define como la diferencia entre el tercer y el primer cuartil de la
muestra.

𝑅𝐼 = 𝐶3 − 𝐶1

Figura 2.13: Rango intercuartílico.

El rango intercuartílico mide la dispersión del 50% de los datos centrales.

2.7.3 Diagrama de caja y bigotes

La dispersión de una variable suele representarse gráficamente mediante un diagrama de


caja y bigotes, que representa cinco estadísticos descriptivos (mínimo, cuartiles y máximo)
conocidos como los cinco números. Consiste en una caja, dibujada desde el primer al
tercer cuartil, que representa el rango intercuartílico, y dos segmentos, conocidos como
bigotes inferior y superior. A menudo la caja se divide en dos por la mediana.
Este diagrama es muy útil y se utiliza para muchos propósitos:

• Sirve para medir la dispersión de los datos ya que representa el rango y el rango
intercuartílico.
• Sirve para detectar datos atípicos, que son los valores que quedan fuera del intervalo
definido por los bigotes.
• Sirve para medir la simetría de la distribución, comparando la longitud de las cajas
y de los bigotes por encima y por debajo de la mediana.

:::{#exm-diagrama-caja} El diagrama siguiente muestra el diagrama de caja y bigotes


del peso de una muestra de recién nacidos.

60
Figura 2.14: Diagrama de caja y bigotes del peso de recién nacidos.

Para construir el diagrama de caja y bigotes hay que seguir los siguientes pasos:

1. Calcular los cuartiles.


2. Dibujar una caja de manera que el extremo inferior caiga sobre el primer cuartil y
el extremo superior sobre el tercer cuartil.
3. Dividir la caja con una línea que caiga sobre el segundo cuartil.
4. Para los bigotes inicialmente se calculan dos valores llamados vallas 𝑣1 y 𝑣2 . La
valla inferior es el primer cuartil menos una vez y media el rango intercuartílico, y
la valla superior es el tercer cuartil más una vez y media el rango intercuartílico.

𝑣1 = 𝑄1 − 1.5 IQR
𝑣2 = 𝑄3 + 1.5 IQR

Las vallas definen el intervalo donde los datos se consideran normales. Cualquier
valor fuera de ese intervalo se considera un dato atípico.
El bigote superior se dibuja desde el borde inferior de la caja hasta el menor valor
de la muestra que es mayor o igual a la valla inferior, y el bigote superior se dibuja

61
desde el borde superior de la caja hasta el mayor valor de la muestra que es menor
o igual a la valla superior.

Á Advertencia

Los bigotes no son las vallas.

5. Finalmente, si en la muestra hay algún dato atípico, se dibuja un punto para cada
uno de ellos.

Ejemplo 2.26. El diagrama de caja y bigotes de la muestra del número de hijos de las
familias se muestra a continuación.

Figura 2.15: Diagrama de caja y bigotes del número de hijos.

2.7.3.1 Desviaciones respecto de la media

Otra forma de medir la variabilidad de una variable es estudiar la concentración de los


valores en torno a algún estadístico de tendencia central como por ejemplo la media.

62
Para ello se suele medir la distancia de cada valor a la media. A ese valor se le llama
desviación de la media.

Figura 2.16: Desviaciones con respecto a la media.

Si las desviaciones son grandes la media no será tan representativa como cuando la
desviaciones sean pequeñas.

Ejemplo 2.27. La siguiente tabla contiene las notas de 3 estudiantes en un curso con
las asignaturas 𝐴, 𝐵 y 𝐶.

𝐴 𝐵 𝐶 𝑥̄
0 5 10 5
4 5 6 5
5 5 5 5

Todos los estudiantes tienen la misma media, pero, en qué caso la media representa mejor
el rendimiento en el curso?

2.7.4 Varianza y desviación típica

Definición 2.8 (Varianza 𝑠2 ). La varianza muestral de una variable 𝑋 se define como


el promedio del cuadrado de las desviaciones de los valores de la muestra respecto de la
media muestral.

∑(𝑥𝑖 − 𝑥)̄ 2 𝑛𝑖
𝑠2 = = ∑(𝑥𝑖 − 𝑥)̄ 2 𝑓𝑖
𝑛

63
También puede calcularse de manera más sencilla mediante la fórmula

∑ 𝑥2𝑖 𝑛𝑖
𝑠2 = − 𝑥2̄ = ∑ 𝑥2𝑖 𝑓𝑖 − 𝑥2̄
𝑛

La varianza tiene las unidades de la variable al cuadrado, por lo que para facilitar su
interpretación se suele utilizar su raíz cuadrada.

Definición 2.9 (Desviación típica 𝑠). La desviación típica muestral de una variable 𝑋
se define como la raíz cuadrada positiva de su varianza muestral.


𝑠 = + 𝑠2

Ď Tip

Tanto la varianza como la desviación típica sirven para cuantificar la dispersión


de los datos en torno a la media. Cuando la varianza o la desviación típica son
pequeñas, los datos de la muestra están concentrados en torno a la media, y la
media es una buena medida de representatividad. Por contra, cuando la varianza o
la desviación típica son grandes, los datos de la muestra están alejados de la media,
y la media ya no representa tan bien.

Desviación típica pequeña ⇒ Media representativa


Desviación típica grande ⇒ Media no representativa

Ejemplo 2.28. Las siguientes muestras contienen las notas de dos estudiantes en dos
asignaturas.

Figura 2.17: Interpretación de la desviación típica.

¿Qué media es más representativa?

64
Ejemplo 2.29 (Datos no agrupados). Utilizando los datos de la muestra del número de
hijos de las familias, con una media 𝑥̄ = 1.76 hijos, y añadiendo una nueva columna a la
tabla de frecuencias con los cuadrados de los valores,

𝑥𝑖 𝑛𝑖 𝑥2𝑖 𝑛𝑖
0 2 0
1 6 6
2 14 56
3 2 18
4 1 16
∑ 25 96

∑ 𝑥2𝑖 𝑛𝑖 96 2
𝑠2 = − 𝑥2̄ = − 1.762 = 0.7424 hijos .
𝑛 25

y la desviación típica es 𝑠 = 0.7424 = 0.8616 hijos.
Comparado este valor con el recorrido, que va de 0 a 4 hijos se observa que no es dema-
siado grande por lo que se puede concluir que no hay mucha dispersión y en consecuencia
la media de 1.76 hijos representa bien el número de hijos de las familias de la muestra.

Ejemplo 2.30 (Datos agrupados). Utilizando los datos de la muestra de estaturas de


los estudiantes y agrupando las estaturas en clases, se obtenía una media 𝑥̄ = 174.67
cm. El cálculo de la varianza se realiza igual que antes pero tomando como valores de la
variable las marcas de clase.

𝑋 𝑥𝑖 𝑛𝑖 𝑥2𝑖 𝑛𝑖
(150, 160] 155 2 48050
(160, 170] 165 8 217800
(170, 180] 175 11 336875
(180, 190] 185 7 239575
(190, 200] 195 2 76050
∑ 30 918350

∑ 𝑥2𝑖 𝑛𝑖 918350
𝑠2 = − 𝑥2̄ = − 174.672 = 102.06 cm2 ,
𝑛 30

y la desviación típica es 𝑠 = 102.06 = 10.1 cm.
Este valor es bastante pequeño, comparado con el recorrido de la variable, que va de 150
a 200 cm, por lo que la variable tiene poca dispersión y en consecuencia su media es muy
representativa.

65
2.7.5 Coeficiente de variación

Tanto la varianza como la desviación típica tienen unidades y eso dificulta a veces su
interpretación, especialmente cuando se compara la dispersión de variables con diferentes
unidades.
Por este motivo, es también común utilizar la siguiente medida de dispersión que no
tiene unidades.

Definición 2.10 (Coeficiente de variación muestral 𝑐𝑣). El coeficiente de variación


muestral de una variable 𝑋 se define como el cociente entre su desviación típica muestral
y el valor absoluto de su media muestral.

𝑠
𝑐𝑣 =
|𝑥|̄

Ď Tip

El coeficiente de variación muestral mide la dispersión relativa de los valores de la


muestra en torno a la media muestral.
Como no tiene unidades, es muy sencillo de interpretar: Cuanto mayor sea, mayor
será la dispersión relativa con respecto a la media y menos representativa será la
media.

El coeficiente de variación es muy útil para comparar la dispersión de distribuciones de


variables diferentes, incluso si las variables tienen unidades diferentes.

Ejemplo 2.31. En la muestra del número de hijos, donde la media era 𝑥̄ = 1.76 hijos
y la desviación típica 𝑠 = 0.8616 hijos, el coeficiente de variación vale

𝑠 0.8616
𝑐𝑣 = = = 0.49.
|𝑥|̄ |1.76|

En la muestra de las estaturas, donde la media era 𝑥̄ = 174.67 cm y la desviación típica


𝑠 = 10.1 cm, el coeficiente de variación vale

𝑠 10.1
𝑐𝑣 = = = 0.06.
|𝑥|̄ |174.67|

Esto significa que la dispersión relativa en la muestra de estaturas es mucho menor que
en la del número de hijos, por lo que la media de las estaturas será más representativa
que la media del número de hijos.

66
2.8 Estadísticos de forma

Son medidas que describen la forma de la distribución.


Los aspectos más relevantes son:
Simetría Mide la simetría de la distribución de frecuencias en torno a la media. El
estadístico más utilizado es el Coeficiente de Asimetría de Fisher.
Apuntamiento Mide el apuntamiento o el grado de concentración de valores en torno
a la media de la distribución de frecuencias. El estadístico más utilizado es el Coeficiente
de Apuntamiento o Curtosis.

2.8.1 Coeficiente de asimetría

Definición 2.11 (Coeficiente de asimetría muestral 𝑔1 ). El coeficiente de asimetría


muestral de una variable 𝑋 es el promedio de las desviaciones de los valores de la muestra
respecto de la media muestral, elevadas al cubo, dividido por la desviación típica al cubo.

∑(𝑥𝑖 − 𝑥)̄ 3 𝑛𝑖 /𝑛 ∑(𝑥𝑖 − 𝑥)̄ 3 𝑓𝑖


𝑔1 = =
𝑠3 𝑠3

Ď Tip

Mide el grado de simetría de los valores de la muestra con respecto a la media


muestra, es decir, cuantos valores de la muestra están por encima o por debajo de
la media y cómo de alejados de esta.

• 𝑔1 = 0 indica que hay el mismo número de valores por encima y por debajo
de la media e igualmente alejados de ella (simétrica).

67
Figura 2.18: Distribución simétrica.

• 𝑔1 < 0 indica que la mayoría de los valores son mayores que la media, pero
los valores menores están más alejados de ella (asimétrica a la izquierda).

68
Figura 2.19: Distribución asimétrica hacia la izquierda.

• 𝑔1 > 0 indica que la mayoría de los valores son menores que la media, pero
los valores mayores están más alejados de ella (asimétrica a la derecha).

69
Figura 2.20: Distribución asimétrica hacia la derecha.

Ejemplo 2.32 (Datos agrupados). Utilizando la tabla de frecuencias de la muestra de


estaturas y añadiendo una nueva columna con las desviaciones de la media 𝑥̄ = 174.67
cm al cubo, se tiene

𝑋 𝑥𝑖 𝑛𝑖 𝑥𝑖 − 𝑥̄ (𝑥𝑖 − 𝑥)̄ 3 𝑛𝑖
(150, 160] 155 2 −19.67 −15221.00
(160, 170] 165 8 −9.67 −7233.85
(170, 180] 175 11 0.33 0.40
(180, 190] 185 7 10.33 7716.12
(190, 200] 195 2 20.33 16805.14
∑ 30 2066.81

∑(𝑥𝑖 − 𝑥)̄ 3 𝑛𝑖 /𝑛 2066.81/30


𝑔1 = 3
= = 0.07.
𝑠 10.13

Como está cerca de 0, eso significa que la distribución de las estaturas es casi simétrica.

70
2.8.2 Coeficiente de apuntamiento o curtosis

Definición 2.12 (Coeficiente de apuntamiento muestral 𝑔2 ). El coeficiente de apunta-


miento muestral de una variable 𝑋 es el promedio de las desviaciones de los valores de la
muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación
típica a la cuarta y al resultado se le resta 3.

∑(𝑥𝑖 − 𝑥)̄ 4 𝑛𝑖 /𝑛 ∑(𝑥𝑖 − 𝑥)̄ 4 𝑓𝑖


𝑔2 = − 3 = −3
𝑠4 𝑠4

Ď Tip

El coeficiente de apuntamiento mide la concentración de valores en torno a la media


y la longitud de las colas de la distribución. Se toma como referencia la distribución
normal (campana de Gauss).

• 𝑔2 = 0 indica que la distribución tienen un apuntamiento normal, es decir, la


concentración de valores en torno a la media es similar al de una campana de
Gauss (mesocúrtica).

Figura 2.21: Distribución mesocúrtica.

71
• 𝑔2 < 0 indica que la distribución tiene menos apuntamiento de lo normal, es
decir, la concentración de valores en torno a la media es menor que en una
campana de Gauss (platicúrtica).

Figura 2.22: Distribución platicúrtica.

• 𝑔2 > 0 indica que la distribución tiene más apuntamiento de lo normal, es


decir, la concentración de valores en torno a la media es menor que en una
campana de Gauss (leptocúrtica).

72
Figura 2.23: Distribución leptocúrtica.

:::{#exm-coeficiente-apuntamiento} ## Datos agrupados Utilizando la tabla de frecuen-


cias de la muestra de estaturas y añadiendo una nueva columna con las desviaciones de
la media 𝑥̄ = 174.67 cm a la cuarta, se tiene

𝑋 𝑥𝑖 𝑛𝑖 𝑥𝑖 − 𝑥̄ (𝑥𝑖 − 𝑥)̄ 4 𝑛𝑖
(150, 160] 155 2 −19.67 299396.99
(160, 170] 165 8 −9.67 69951.31
(170, 180] 175 11 0.33 0.13
(180, 190] 185 7 10.33 79707.53
(190, 200] 195 2 20.33 341648.49
∑ 30 790704.45

∑(𝑥𝑖 − 𝑥)̄ 4 𝑛𝑖 /𝑛 790704.45/30


𝑔2 = 4
−3= − 3 = −0.47.
𝑠 10.14

Como se trata de un valor negativo, aunque cercano a 0, podemos decir que la distribu-
ción es ligeramente platicúrtica.
Como se verá más adelante en la parte de inferencia, muchas de las pruebas estadísticas
solo pueden aplicarse a poblaciones normales.

73
Las poblaciones normales se caracterizan por ser simétricas y mesocúrticas, de manera
que, tanto el coeficiente de asimetría como el de apuntamiento pueden utilizarse para
contrastar si los datos de la muestra provienen de una población normal.

Ď Tip

En general, se suele rechazar la hipótesis de normalidad de la población cuando 𝑔1


o 𝑔2 estén fuera del intervalo [−2, 2].

En tal caso, lo habitual es aplicar alguna transformación a la variable para corregir la


anormalidad.

2.8.3 Distribuciones no normales

2.8.3.1 Distribución asimétrica a la derecha no normal

Un ejemplo de distribución asimétrica a la derecha es el ingreso de las familias.

Figura 2.24: Distribucion de los ingresos familiares de EEUU.

74
2.8.3.2 Distribución asimétrica a la izquierda no normal

Un ejemplo de distribución asimétrica a la izquierda es la edad de fallecimiento.

Figura 2.25: Distribucion de la edad de fallecimiento.

2.8.3.3 Distribución bimodal no normal

Un ejemplo de distribución bimodal es la hora de llegada de los clientes de un restauran-


te.

75
Figura 2.26: Distribucion de la hora de llegada de los clientes de un restaurante.

2.9 Transformaciones de variables

En muchas ocasiones se suelen transformar los datos brutos para corregir alguna anorma-
lidad de la distribución o simplemente para trabajar con unas unidades más cómodas.
Por ejemplo, si estamos trabajando con estaturas medidas en metros y tenemos los
siguientes valores:

1.75 m, 1.65 m, 1.80 m,

podemos evitar los decimales multiplicando por 100, es decir, pasando de metros a cen-
tímetros:

175 cm, 165 cm, 180 cm,

Y si queremos reducir la magnitud de los datos podemos restarles a todos el menor de


ellos, en este caso, 165cm:

76
10cm, 0cm, 15cm,

Está claro que este conjunto de datos es mucho más sencillo que el original. En el fondo
lo que se ha hecho es aplicar a los datos la transformación:

𝑌 = 100𝑋 − 165

2.9.1 Transformaciones lineales

Una de las transformaciones más habituales es la transformación lineal:

𝑌 = 𝑎 + 𝑏𝑋.

Teorema 2.1. Dada una variable muestral 𝑋, si 𝑌 es la variable muestral que resulta
de aplicar a 𝑋 la transformación lineal 𝑌 = 𝑎 + 𝑏𝑋, entonces

𝑦 ̄ = 𝑎 + 𝑏𝑥,̄
𝑠𝑦 = |𝑏|𝑠𝑥

Además, el coeficiente de curtosis no se altera y el de asimetría sólo cambia de signo si


𝑏 es negativo.

Ĺ Demostración

Se deja como ejercicio.

2.9.2 Transformación de tipificación y puntuaciones típicas

Una de las transformaciones lineales más habituales es la tipificación:

Definición 2.13 (Variable tipificada). La variable tipificada de una variable estadística


𝑋 es la variable que resulta de restarle su media y dividir por su desviación típica.

𝑋 − 𝑥̄
𝑍=
𝑠𝑥

Para cada valor 𝑥𝑖 de la muestra, la puntuación típica es el valor que resulta de aplicarle
la transformación de tipificación

77
𝑥𝑖 − 𝑥̄
𝑧𝑖 = .
𝑠𝑥

Ď Tip

La puntuación típica es el número de desviaciones típicas que un valor está por


encima o por debajo de la media, y es útil para evitar la dependencia de una
variable respecto de las unidades de medida empleadas. Esto es útil, por ejemplo,
para comparar valores de variables o muestras distintas.

Dada una variable muetral 𝑋, si 𝑍 es la variable tipificada de 𝑋, entonces

𝑧̄= 0 𝑠𝑧 = 1.

Ĺ Demostración

Se deja como ejercicio.

Ejemplo 2.33. Las notas de 5 alumnos en dos asignaturas 𝑋 e 𝑌 son

Alumno: 1 2 3 4 5
𝑋∶ 2 5 4 8 6 𝑥̄ = 5 𝑠𝑥 = 2
𝑌 ∶ 1 9 8 5 2 𝑦̄ = 5 𝑠𝑦 = 3.16

¿Ha tenido el mismo rendimiento el cuarto alumno en la asignatura 𝑋 que el tercero en


la asignatura 𝑌 ?
Podría parecer que ambos alumnos han tenido el mismo rendimiento puesto que tienen la
misma nota, pero si queremos ver el rendimiento relativo al resto del grupo, tendríamos
que tener en cuenta la dispersión de cada muestra y medir sus puntuaciones típicas:

Alumno: 1 2 3 4 5
𝑋∶ −1.50 0.00 −0.50 1.50 0.50
𝑌 ∶ −1.26 1.26 0.95 0.00 −0.95

Es decir, el alumno que tiene un 8 en 𝑋 está 1.5 veces la desviación típica por encima de
la media de 𝑋, mientras que el alumno que tiene un 8 en 𝑌 sólo está 0.95 desviaciones
típicas por encima de la media de 𝑌 . Así pues, el primer alumno tuvo un rendimiento
superior al segundo.
Siguiendo con el ejemplo anterior y considerando ambas asignaturas, ¿cuál es el mejor
alumno?

78
Si simplemente se suman las puntuaciones de cada asignatura se tiene:

Alumno: 1 2 3 4 5
𝑋∶ 2 5 4 8 6
𝑌 ∶ 1 9 8 5 2
∑ 3 14 12 13 8

El mejor alumno sería el segundo.


Pero si se considera el rendimiento relativo tomando las puntuaciones típicas se tiene

Alumno: 1 2 3 4 5
𝑋 ∶ −1.50 0.00 −0.50 1.50 0.50
𝑌 ∶ −1.26 1.26 0.95 0.00 −0.95
∑ −2.76 1.26 0.45 1.5 −0.45

Y el mejor alumno sería el cuarto.

2.9.2.1 Transformaciones no lineales

Las transformaciones no lineales son también habituales para corregir la anormalidad de


las distribuciones.
La transformación 𝑌 = 𝑋 2 comprime la escala para valores pequeños y la expande para
valores altos, de manera que es muy útil para corregir asimetrías hacia la izquierda.

Figura 2.27: Transformación cuadrática.

79

Las transformaciones 𝑌 = 𝑥, 𝑌 = log 𝑋 y 𝑌 = 1/𝑋 comprimen la escala para valo-
res altos y la expanden para valores pequeños, de manera que son útiles para corregir
asimetrías hacia la derecha.

Figura 2.28: Transformación logarítmica.

2.9.3 Variables clasificadoras o factores

En ocasiones interesa describir el comportamiento de una variable, no para toda la


muestra, sino para distintos grupos de individuos correspondientes a las categorías de
otra variable conocida como variable clasificadora o factor.

Ejemplo 2.34. Dividiendo la muestra de estaturas según el sexo se obtienen dos sub-
muestras:

Mujeres 173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168.
Hombres 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187.

Habitualmente los factores se usan para comparar la distribución de la variable principal


para cada categoría del factor.

Ejemplo 2.35. Los siguientes diagramas permiten comparar la distribución de estaturas


según el sexo.

80
Figura 2.29: Histograma de estaturas por sexo.

81
Figura 2.30: Diagramas de cajas de estaturas por sexo.

82
3 Regresión

Hasta ahora se ha visto como describir el comportamiento de una variable, pero en


los fenómenos naturales normalmente aparecen más de una variable que suelen estar
relacionadas. Por ejemplo, en un estudio sobre el peso de las personas, deberíamos incluir
todas las variables con las que podría tener relación: altura, edad, sexo, dieta, tabaco,
ejercicio físico, etc.
Para comprender el fenómeno no basta con estudiar cada variable por separado y es
preciso un estudio conjunto de todas las variables para ver cómo interactúan y qué
relaciones se dan entre ellas. El objetivo de la estadística en este caso es dar medidas del
grado y del tipo de relación entre dichas variables.
Generalmente, en un estudio de dependencia se considera una variable dependiente
𝑌 que se supone relacionada con otras variables 𝑋1 , … , 𝑋𝑛 llamadas variables inde-
pendientes.
El caso más simple es el de una sola variable independiente, y en tal caso se habla
de estudio de dependencia simple. Para más de una variable independiente se habla de
estudio de dependencia múltiple.
En este capítulo se verán los estudios de dependencia simple que son más sencillos.

3.1 Distribución de frecuencias conjunta

3.1.1 Frecuencias conjuntas

Al estudiar la dependencia simple entre dos variables 𝑋 e 𝑌 , no se pueden estudiar sus


distribuciones por separado, sino que hay que estudiar la distribución conjunta de la
variable bidimensional (𝑋, 𝑌 ), cuyos valores son los pares (𝑥𝑖 , 𝑦𝑗 ) donde el primer
elemento es un valor 𝑋 y el segundo uno de 𝑌 .

Definición 3.1 (Frecuencias muestrales conjuntas). Dada una muestra de tamaño 𝑛 de


una variable bidimensional (𝑋, 𝑌 ), para cada valor de la variable (𝑥𝑖 , 𝑦𝑗 ) observado en
la muestra se define

• Frecuencia absoluta 𝑛𝑖𝑗 : Es el número de veces que el par (𝑥𝑖 , 𝑦𝑗 ) aparece en la


muestra.

83
• Frecuencia relativa 𝑓𝑖𝑗 : Es la proporción de veces que el par (𝑥𝑖 , 𝑦𝑗 ) aparece en
la muestra.

𝑛𝑖𝑗
𝑓𝑖𝑗 =
𝑛

Á Advertencia

Para las variables bidimensionales no tienen sentido las frecuencias acumuladas.

3.1.2 Distribución de frecuencias bidimensional

Al conjunto de valores de la variable bidimensional y sus respectivas frecuencias mues-


trales se le denomina distribución de frecuencias bidimensional, y se representa
mediante una tabla de frecuencias bidimensional.

𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑖 𝑛𝑖1 ⋯ 𝑛𝑖𝑗 ⋯ 𝑛𝑖𝑞
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞

Ejemplo 3.1. La estatura (en cm) y el peso (en Kg) de una muestra de 30 estudiantes
es:
(179,85), (173,65), (181,71), (170,65), (158,51), (174,66), (172,62), (166,60), (194,90),
(185,75), (162,55), (187,78), (198,109), (177,61), (178,70), (165,58), (154,50), (183,93),
(166,51), (171,65), (175,70), (182,60), (167,59), (169,62), (172,70), (186,71), (172,54),
(176,68),(168,67), (187,80).
La tabla de frecuencias bidimensional es

𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110)
(150, 160] 2 0 0 0 0 0
(160, 170] 4 4 0 0 0 0
(170, 180] 1 6 3 1 0 0
(180, 190] 0 1 4 1 1 0
(190, 200] 0 0 0 0 1 1

84
3.1.3 Diagrama de dispersión

La distribución de frecuencias conjunta de una variable bidimensional puede representar-


se gráficamente mediante un diagrama de dispersión, donde los datos se representan
como una colección de puntos en un plano cartesiano.
Habitualmente la variable independiente se representa en el eje 𝑋 y la variable depen-
diente en el eje 𝑌 . Por cada par de valores (𝑥𝑖 , 𝑦𝑗 ) en la muestra se dibuja un punto en
el plano con esas coordenadas.

Figura 3.1: Diagrama de dispersión.

El resultado es un conjunto de puntos que se conoce como nube de puntos.

Ejemplo 3.2. El siguiente diagrama de dispersión representa la distribución conjunta


de estaturas y pesos de la muestra anterior.

85
Figura 3.2: Diagrama de dispersión de estaturas y pesos.

Ĺ Interpretación

El diagrama de dispersión da información visual sobre el tipo de relación entre las


variables.

Figura 3.3: Diagramas de dispersión de diferentes tipos de relaciones.

86
3.1.4 Distribuciones marginales

A cada una de las distribuciones de las variables que conforman la variable bidimensional
se les llama .
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias
bidimensional, sumando las frecuencias por filas y columnas.

𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞 𝑛𝑥
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞 𝑛𝑥1
⋮ ⋮ ⋮ ↓+ ⋮ ⋮ ⋮
+ +
𝑥𝑖 𝑛𝑖1 → 𝑛𝑖𝑗 → 𝑛𝑖𝑞 𝑛𝑥𝑖
⋮ ⋮ ⋮ ↓+ ⋮ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞 𝑛𝑥𝑝
𝑛𝑦 𝑛𝑦1 ⋯ 𝑛𝑦𝑗 ⋯ 𝑛𝑦𝑞 𝑛

Ejemplo 3.3. En el ejemplo anterior de las estaturas y los pesos, las distribuciones
marginales son

𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) 𝑛𝑥
(150, 160] 2 0 0 0 0 0 2
(160, 170] 4 4 0 0 0 0 8
(170, 180] 1 6 3 1 0 0 11
(180, 190] 0 1 4 1 1 0 7
(190, 200] 0 0 0 0 1 1 2
𝑛𝑦 7 11 7 2 2 1 30

y los estadísticos correspondientes son

𝑥̄ = 174.67 cm 𝑠2𝑥 = 102.06 cm2 𝑠𝑥 = 10.1 cm


2
𝑦 ̄ = 69.67 Kg 𝑠2𝑦 = 164.42 Kg 𝑠𝑦 = 12.82 Kg

3.2 Covarianza

Para analizar la relación entre dos variables cuantitativas es importante hacer un estudio
conjunto de las desviaciones respecto de la media de cada variable.

87
Figura 3.4: Desviaciones de las medias en un diagrama de dispersión.

Si dividimos la nube de puntos del diagrama de dispersión en 4 cuadrantes centrados en


el punto de medias (𝑥,̄ 𝑦),
̄ el signo de las desviaciones será:

Cuadrante (𝑥𝑖 − 𝑥)̄ (𝑦𝑗 − 𝑦)̄ (𝑥𝑖 − 𝑥)(𝑦


̄ 𝑗 − 𝑦)̄
1 + + +
2 − + −
3 − − +
4 + − −

88
Figura 3.5: Cuadrantes de un diagrama de dispersión.

Si la relación entre las variables es lineal y creciente, entonces la mayor parte de los
puntos estarán en los cuadrantes 1 y 3 y la suma de los productos de desviaciones será
positiva.

∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)̄ > 0

Figura 3.6: Diagrama de dispersión de una relación lineal creciente.

89
Si la relación entre las variables es lineal y decreciente, entonces la mayor parte de los
puntos estarán en los cuadrantes 2 y 4 y la suma de los productos de desviaciones será
negativa.

∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)̄ = −

Figura 3.7: Diagrama de dispersión de una relación lineal decreciente.

Usando el producto de las desviaciones respecto de las medias surge el siguiente estadís-
tico.

Definición 3.2 (Covarianza muestral). La covarianza muestral de una variable aleatoria


bidimensional (𝑋, 𝑌 ) se define como el promedio de los productos de las respectivas
desviaciones respecto de las medias de 𝑋 e 𝑌 .

∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)𝑛
̄ 𝑖𝑗
𝑠𝑥𝑦 =
𝑛

También puede calcularse de manera más sencilla mediante la fórmula

∑ 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗
𝑠𝑥𝑦 = − 𝑥𝑦.
̄ ̄
𝑛

90
Ĺ Interpretación

La covarianza sirve para estudiar la relación lineal entre dos variables:

• Si 𝑠𝑥𝑦 > 0 existe una relación lineal creciente.


• Si 𝑠𝑥𝑦 < 0 existe una relación lineal decreciente.
• Si 𝑠𝑥𝑦 = 0 no existe relación lineal.

Ejemplo 3.4. Utilizando la tabla de frecuencias bidimensional de la muestra de estatu-


ras y pesos

𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) 𝑛𝑥
(150, 160] 2 0 0 0 0 0 2
(160, 170] 4 4 0 0 0 0 8
(170, 180] 1 6 3 1 0 0 11
(180, 190] 0 1 4 1 1 0 7
(190, 200] 0 0 0 0 1 1 2
𝑛𝑦 7 11 7 2 2 1 30

𝑥̄ = 174.67 cm 𝑦 ̄ = 69.67 Kg

la covarianza vale

∑ 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 155 ⋅ 55 ⋅ 2 + 165 ⋅ 55 ⋅ 4 + ⋯ + 195 ⋅ 105 ⋅ 1


𝑠𝑥𝑦 = − 𝑥𝑦̄ ̄ = − 174.67 ⋅ 69.67 =
𝑛 30
368200
= − 12169.26 = 104.07 cm⋅ Kg.
30

Esto indica que existe una relación lineal creciente entre la estatura y el peso.

3.3 Regresión

En muchos casos el objetivo de un estudio no es solo detectar una relación entre dos
variables, sino explicarla mediante alguna función matemática

𝑦 = 𝑓(𝑥)

que permita predecir la variable dependiente para cada valor de la independiente.


La regresión es la parte de la Estadística encargada de construir esta función, que se
conoce como función de regresión o modelo de regresión.

91
3.3.1 Modelos de regresión simple

Dependiendo de la forma de función de regresión, existen muchos tipos de regresión


simple. Los más habituales son los que aparecen en la siguiente tabla:

Modelo Ecuación
Lineal 𝑦 = 𝑎 + 𝑏𝑥
Cuadrático 𝑦 = 𝑎 + 𝑏𝑥 + 𝑐𝑥2
Cúbico 𝑦 = 𝑎 + 𝑏𝑥 + 𝑐𝑥2 + 𝑑𝑥3
Potencial 𝑦 = 𝑎 ⋅ 𝑥𝑏
Exponencial 𝑦 = 𝑒𝑎+𝑏𝑥
Logarítmico 𝑦 = 𝑎 + 𝑏 log 𝑥
Inverso 𝑦 = 𝑎 + 𝑥𝑏
𝑏
Sigmoidal 𝑦 = 𝑒𝑎+ 𝑥

La elección de un tipo u otro depende de la forma que tenga la nube de puntos del
diagrama de dispersión.

3.3.2 Residuos o errores predictivos

Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se deter-
mina, dentro de dicha familia, la curva que mejor se ajusta a la distribución, es decir, la
función que mejor predice la variable dependiente.
El objetivo es encontrar la función de regresión que haga mínimas las distancias entre
los valores de la variable dependiente observados en la muestra, y los predichos por la
función de regresión. Estas distancias se conocen como residuos o errores predictivos.

Definición 3.3 (Residuos o errores predictivos). Dado el modelo de regresión 𝑦 =


𝑓(𝑥) para una variable bidimensional (𝑋, 𝑌 ), el residuo o error predictivo de un valor
(𝑥𝑖 , 𝑦𝑗 ) observado en la muestra, es la diferencia entre el valor observado de la variable
dependiente 𝑦𝑗 y el predicho por la función de regresión para 𝑥𝑖 ,

𝑒𝑖𝑗 = 𝑦𝑗 − 𝑓(𝑥𝑖 ).

92
Figura 3.8: Residuos de un modelo de regresión.

3.3.3 Ajuste de mínimos cuadrados

Una forma posible de obtener la función de regresión es mediante el método de mínimos


cuadrados que consiste en calcular la función que haga mínima la suma de los cuadrados
de los residuos

∑ 𝑒2𝑖𝑗 .

En el caso de un modelo de regresión lineal 𝑓(𝑥) = 𝑎 + 𝑏𝑥, como la recta depende de dos
parámetros (el término independiente 𝑎 y la pendiente 𝑏), la suma también dependerá
de estos parámetros

𝜃(𝑎, 𝑏) = ∑ 𝑒2𝑖𝑗 = ∑(𝑦𝑗 − 𝑓(𝑥𝑖 ))2 = ∑(𝑦𝑗 − 𝑎 − 𝑏𝑥𝑖 )2 .

Así pues, todo se reduce a buscar los valores 𝑎 y 𝑏 que hacen mínima esta suma.
Considerando la suma de los cuadrados de los residuos como una función de dos variables
𝜃(𝑎, 𝑏), se pueden calcular los valores de los parámetros del modelo que hacen mínima
esta suma derivando e igualando a 0 las derivadas con respecto a 𝑎 y 𝑏.

93
𝜕𝜃(𝑎, 𝑏) 𝜕 ∑(𝑦𝑗 − 𝑎 − 𝑏𝑥𝑖 )2
= =0
𝜕𝑎 𝜕𝑎
𝜕𝜃(𝑎, 𝑏) 𝜕 ∑(𝑦𝑗 − 𝑎 − 𝑏𝑥𝑖 )2
= =0
𝜕𝑏 𝜕𝑏

Tras resolver el sistema se obtienen los valores

𝑠𝑥𝑦 𝑠𝑥𝑦
𝑎 = 𝑦̄ − 𝑥̄ 𝑏=
𝑠2𝑥 𝑠2𝑥

Estos valores hacen mínimos los residuos en 𝑌 y por tanto dan la recta de regresión
óptima.

3.3.4 Coeficiente de determinación

A partir de la varianza residual se puede definir otro estadístico más sencillo de interpre-
tar.

Definición 3.4 (Coeficiente de determinación muestral 𝑟2 ). Dado un modelo de regre-


sión simple 𝑦 = 𝑓(𝑥) de una variable bidimensional (𝑋, 𝑌 ), su coeficiente de determina-
ción muestral es

𝑠2𝑟𝑦
𝑟2 = 1 −
𝑠2𝑦

Á Advertencia

Como la varianza residual puede tomar valores entre 0 y 𝑠2𝑦 , se tiene que

0 ≤ 𝑟2 ≤ 1

Ĺ Interpretación

Cuanto mayor sea 𝑟2 , mejor explicará el modelo de regresión la relación entre las
variables, en particular:

• Si 𝑟2 = 0 entonces no existe relación del tipo planteado por el modelo.


• Si 𝑟2 = 1 entonces la relación que plantea el modelo es perfecta.

94
Á Advertencia

En el caso de las rectas de regresión, el coeficiente de determinación puede calcularse


con esta fórmula

𝑠2𝑥𝑦
𝑟2 = .
𝑠2𝑥 𝑠2𝑦

Ĺ Demostración

Prueba. Cuando el modelo ajustado es la recta de regresión la varianza residual


vale

2
𝑠𝑥𝑦
𝑠2𝑟𝑦 = ∑ 𝑒2𝑖𝑗 𝑓𝑖𝑗 2
= ∑(𝑦𝑗 − 𝑓(𝑥𝑖 )) 𝑓𝑖𝑗 = ∑ (𝑦𝑗 − 𝑦 ̄ − 2 (𝑥𝑖 − 𝑥))
̄ 𝑓𝑖𝑗 =
𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦
= ∑ ((𝑦𝑗 − 𝑦)̄ 2 + 4
(𝑥𝑖 − 𝑥)̄ 2 − 2 2 (𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦))
̄ 𝑓𝑖𝑗 =
𝑠𝑥 𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦
= ∑(𝑦𝑗 − 𝑦)̄ 2 𝑓𝑖𝑗 + 4
∑(𝑥𝑖 − 𝑥)̄ 2 𝑓𝑖𝑗 − 2 2 ∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)𝑓
̄ 𝑖𝑗 =
𝑠𝑥 𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦 𝑠2𝑥𝑦
= 𝑠2𝑦 + 4 𝑠2𝑥 − 2 2 𝑠𝑥𝑦 = 𝑠2𝑦 − 2 .
𝑠𝑥 𝑠𝑥 𝑠𝑥

y, por tanto, el coeficiente de determinación lineal vale

𝑠2
𝑠2𝑟𝑦 𝑠2𝑦 − 𝑠𝑥𝑦
2 𝑠2𝑥𝑦 𝑠2𝑥𝑦
2
𝑟 =1− 2 =1− 𝑥
= 1 − 1 + = .
𝑠𝑦 𝑠2𝑦 𝑠2𝑥 𝑠2𝑦 𝑠2𝑥 𝑠2𝑦

Ejemplo 3.5. En el ejemplo de las estaturas y pesos se tenía

𝑥̄ = 174.67 cm 𝑠2𝑥 = 102.06 cm2


2
𝑦 ̄ = 69.67 Kg 𝑠2𝑦 = 164.42 Kg
𝑠𝑥𝑦 = 104.07 cm⋅ Kg

De modo que el coeficiente de determinación lineal vale

𝑠2𝑥𝑦 (104.07 cm⋅ Kg)2


𝑟2 = = 2
= 0.65.
𝑠2𝑥 𝑠2𝑦 102.06 cm2 ⋅ 164.42 Kg

95
Esto indica que la recta de regresión del peso sobre la estatura explica el 65% de la
variabilidad del peso, y de igual modo, la recta de regresión de la estatura sobre el peso
explica el 65% de la variabilidad de la estatura.

3.3.5 Coeficiente de correlación lineal

Definición 3.5 (Coeficiente de correlación lineal muestral). Dada una variable bidi-
mensional (𝑋, 𝑌 ), el coeficiente de correlación lineal muestral es la raíz cuadrada de su
coeficiente de determinación lineal, con signo el de la covarianza

√ 𝑠𝑥𝑦
𝑟= 𝑟2 = .
𝑠𝑥 𝑠𝑦

Á Advertencia

Como 𝑟2 toma valores entre 0 y 1, 𝑟 tomará valores entre -1 y 1,

−1 ≤ 𝑟 ≤ 1

Ĺ Interpretación

El coeficiente de correlación lineal no sólo mide mide el grado de dependencia lineal


sino también su dirección (creciente o decreciente):

• Si 𝑟 = 0 entonces no existe relación lineal.


• Si 𝑟 = 1 entonces existe una relación lineal creciente perfecta.
• Si 𝑟 = −1 entonces existe una relación lineal decreciente perfecta.

:::{#exm-coeficiente-correlacion} En el ejemplo de las estaturas y los pesos se tenía

𝑥̄ = 174.67 cm 𝑠2𝑥 = 102.06 cm2


2
𝑦 ̄ = 69.67 Kg 𝑠2𝑦 = 164.42 Kg
𝑠𝑥𝑦 = 104.07 cm⋅ Kg

De manera que el coeficiente de correlación lineal es

𝑠𝑥𝑦 104.07 cm ⋅ Kg
𝑟= = = +0.8.
𝑠𝑥 𝑠𝑦 10.1 cm ⋅ 12.82 Kg

Esto indica que la relación lineal entre el peso y la estatura es fuerte, y además crecien-
te.

96
3.3.6 Distintos grados de correlación

Los siguientes diagramas de dispersión muestran modelos de regresión lineales con dife-
rentes grados de correlación.

Figura 3.9: Modelos de regresión lineales con diferentes grados de correlación.

3.3.7 Fiabilidad de las predicciones de un modelo de regresión

Aunque el coeficiente de determinación o el de correlación determinan la bondad de


ajuste de un modelo de regresión, existen otros factores que influyen en la fiabilidad de
las predicciones de un modelo de regresión:

• El coeficiente de determinación: Cuanto mayor sea, menores serán los errores pre-
dictivos y mayor la fiabilidad de las predicciones.
• La variabilidad de la población: Cuanto más variable es una población, más difícil
es predecir y por tanto menos fiables serán las predicciones.
• El tamaño muestral: Cuanto mayor sea, más información tendremos y, en conse-
cuencia, más fiables serán las predicciones.

97
Á Advertencia

Además, hay que tener en cuenta que un modelo de regresión es válido únicamente
para el rango de valores observados en la muestra. Fuera de ese rango no hay
información del tipo de relación entre las variables, por lo que no deben hacerse
predicciones para valores lejos de los observados en la muestra.

3.4 Regresión no lineal

El ajuste de un modelo de regresión no lineal es similar al del modelo lineal y también


puede realizarse mediante la técnica de mínimos cuadrados.
No obstante, en determinados casos un ajuste no lineal puede convertirse en un ajuste
lineal mediante una sencilla transformación de alguna de las variables del modelo.

3.4.1 Transformación de modelos de regresión no lineales

• Logarítmico: Un modelo logarítmico 𝑦 = 𝑎 + 𝑏 log 𝑥 se convierte en un modelo


lineal haciendo el cambio 𝑡 = log 𝑥:

𝑦 = 𝑎 + 𝑏 log 𝑥 = 𝑎 + 𝑏𝑡.

• Exponencial: Un modelo exponencial 𝑦 = 𝑎𝑒𝑏𝑥 se convierte en un modelo lineal


haciendo el cambio 𝑧 = log 𝑦:

𝑧 = log 𝑦 = log(𝑎𝑒𝑏𝑥 ) = log 𝑎 + log 𝑒𝑏𝑥 = 𝑎′ + 𝑏𝑥.

• Potencial: Un modelo potencial 𝑦 = 𝑎𝑥𝑏 se convierte en un modelo lineal haciendo


los cambios 𝑡 = log 𝑥 y 𝑧 = log 𝑦:

𝑧 = log 𝑦 = log(𝑎𝑥𝑏 ) = log 𝑎 + 𝑏 log 𝑥 = 𝑎′ + 𝑏𝑡.

• Inverso: Un modelo inverso 𝑦 = 𝑎 + 𝑏/𝑥 se convierte en un modelo lineal haciendo


el cambio 𝑡 = 1/𝑥:

𝑦 = 𝑎 + 𝑏(1/𝑥) = 𝑎 + 𝑏𝑡.

98
• Sigmoidal: Un modelo curva S 𝑦 = 𝑒𝑎+𝑏/𝑥 se convierte en un modelo lineal ha-
ciendo los cambios 𝑡 = 1/𝑥 y 𝑧 = log 𝑦:

𝑧 = log 𝑦 = log(𝑒𝑎+𝑏/𝑥 ) = 𝑎 + 𝑏(1/𝑥) = 𝑎 + 𝑏𝑡.

3.4.2 Relación exponencial

:::{#exm-regresion-exponencial} El número de bacterias de un cultivo evoluciona con el


tiempo según la siguiente tabla:

Horas Bacterias
0 25
1 28
2 47
3 65
4 86
5 121
6 190
7 290
8 362

El diagrama de dispersión asociado es

99
Figura 3.10: Diagrama de dispersión de la evolución de bacterias.

Si realizamos un ajuste lineal, obtenemos la siguiente recta de regresión

Bacterias = −30.18 + 41, 27 Horas, with 𝑟2 = 0.85.

100
Figura 3.11: Regresión lineal de la evolución de un cultivo de bacterias.

¿Es un buen modelo?


Aunque el modelo lineal no es malo, de acuerdo al diagrama de dispersión es más lógico
construir un modelo exponencial o cuadrático.
Para construir el modelo exponencial 𝑦 = 𝑎𝑒𝑏𝑥 hay que realizar la transformación 𝑧 =
log 𝑦, es decir, aplicar el logaritmo a la variable dependiente.

101
Horas Bacterias log(Bacterias)
0 25 3.22
1 28 3.33
2 47 3.85
3 65 4.17
4 86 4.45
5 121 4.80
6 190 5.25
7 290 5.67
8 362 5.89

Figura 3.12: Diagrama de dispersión de la evolución del logarítmo de las bacterias de un


cultivo.

Ahora sólo queda calcular la recta de regresión del logaritmo de Bacterias sobre Horas

Log Bacterias = 3.107 + 0.352 Horas.

Y, deshaciendo el cambio de variable, se obtiene el modelo exponencial

Bacterias = 𝑒3.107+0.352 Horas , con 𝑟2 = 0.99.

102
Figura 3.13: Regresión exponencial de la evolución de las bacterias de un cultivo.

Como se puede apreciar, el modelo exponencial se ajusta mucho mejor que el modelo
lineal.

3.5 Riesgos de la regresión

3.5.1 La falta de ajuste no significa independencia

Es importante señalar que cada modelo de regresión tiene su propio coeficiente de deter-
minación.

Á Advertencia

Así, un coeficiente de determinación cercano a cero significa que no existe relación


entre las variables del tipo planteado por el modelo, pero eso no quiere decir que
las variables sean independientes, ya que puede existir relación de otro tipo.

3.5.2 Datos atípicos en regresión

Los datos atípicos en un estudio de regresión son los puntos que claramente no siguen la
tendencia del resto de los puntos en el diagrama de dispersión, incluso si los valores del
par no se pueden considerar atípicos para cada variable por separado.

103
(a) Modelo de regresión lineal en una relación(b) Modelo de regresión cuadrático en una rela-
cuadrática. ción cuadrática.

Figura 3.15: Diagrama de dispersión con un dato atípico.

Á Advertencia

Los datos atípicos en regresión suelen provocar cambios drásticos en el ajuste de


los modelos de regresión, y por tanto, habrá que tener mucho cuidado con ellos.

104
(a) Modelo de regresión lineal con datos atípicos.(b) Modelo de regresión lineal sin datos atípicos.

3.5.3 La paradoja de Simpson

A veces, una tendencia desaparece o incluso se revierte cuando se divide la muestra


en grupos de acuerdo a una variable cualitativa que está relacionada con la variable
dependiente. Esto se conoce como la paradoja de Simpson.
:::{#exm-paradoja-simpson} El siguiente diagrama de dispersión muestra una relación
inversa entre entre las horas de estudio preparando un examen y la nota del examen.

Figura 3.17: Paradoja de Simpson. Relación inversa entre las horas de estudio para un
examen y la nota obtenida.

105
Pero si se divide la muestra en dos grupos (buenos y malos estudiantes) se obtienen
diferentes tendencias y ahora la relación es directa, lo que tiene más lógica.

Figura 3.18: Paradoja de Simpson. Relación directa entre las horas de estudio para un
examen y la nota obtenida.

106
4 Relaciones entre variables cualitativas

Los modelos de regresión vistos en el capítulo anterior solamente pueden aplicarse cuando
las variables estudiadas son cuantitativas.
Cuando se desea estudiar la relación entre atributos, tanto ordinales como nominales, es
necesario recurrir a otro tipo de medidas de relación o de asociación. En este capítulo
veremos tres de ellas:

• Coeficiente de correlación de Spearman.


• Coeficiente chi-cuadrado.
• Coeficiente de contingencia.

4.1 Relación entre atributos ordinales

Cuando se quiere estudiar la relación entre dos atributos ordinales, o entre un atribu-
to ordinal y una variable cuantitativa, es importante tener en cuenta el orden de las
categorías. En estos casos se puede utilizar el siguiente coeficiente.

4.1.1 Coeficiente de correlación de Spearman

Cuando se tengan atributos ordinales es posible ordenar sus categorías y asignarles va-
lores ordinales, de manera que se puede calcular el coeficiente de correlación lineal entre
estos valores ordinales.
Esta medida de relación entre el orden que ocupan las categorías de dos atributos ordi-
nales se conoce como coeficiente de correlación de Spearman.

Definición 4.1 (Coeficiente de correlación de Spearman). Dada una muestra de 𝑛


individuos en los que se han medido dos atributos ordinales 𝑋 e 𝑌 , el coeficiente de
correlación de Spearman se define como

6 ∑ 𝑑𝑖2
𝑟𝑠 = 1 −
𝑛(𝑛2 − 1)

donde 𝑑𝑖 es la diferencia entre el valor ordinal de 𝑋 y el valor ordinal de 𝑌 del individuo


𝑖.

107
ĺ Importante

Como el coeficiente de correlación de Spearman es en el fondo el coeficiente de


correlación lineal aplicado a los órdenes, se tiene que

−1 ≤ 𝑟𝑠 ≤ 1,

Ĺ Interpretación

• Si 𝑟𝑠 = 0 entonces no existe relación entre los atributos ordinales.


• Si 𝑟𝑠 = 1 entonces los órdenes de los atributos coinciden y existe una relación
directa perfecta.
• Si 𝑟𝑠 = −1 entonces los órdenes de los atributos están invertidos y existe una
relación inversa perfecta.

En general, cuanto más cerca de 1 o −1 esté 𝑟𝑠 , mayor será la relación entre los
atributos, y cuanto más cerca de 0, menor será la relación.

Ejemplo 4.1. Una muestra de 5 alumnos realizaron dos tareas diferentes 𝑋 e 𝑌 , y se


ordenaron de acuerdo a la destreza que manifestaron en cada tarea:

Alumnos 𝑋 𝑌 𝑑𝑖 𝑑𝑖2
Alumno 1 2 3 −1 1
Alumno 2 5 4 1 1
Alumno 3 1 2 −1 1
Alumno 4 3 1 2 4
Alumno 5 4 5 −1 1
∑ 0 8

El coeficiente de correlación de Spearman para esta muestra es

6 ∑ 𝑑𝑖2 6⋅8
𝑟𝑠 = 1 − 2
=1− = 0.6.
𝑛(𝑛 − 1) 5(52 − 1)

Esto indica que existe bastante relación directa entre las destrezas manifestadas en ambas
tareas.

Ejemplo 4.2 (Empates). Cuando hay empates en el orden de las categorías se atribuye
a cada valor empatado la media aritmética de los valores ordinales que hubieran ocupado
esos individuos en caso de no haber estado empatados.

108
Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera
tarea y los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se
tendría

Alumnos 𝑋 𝑌 𝑑𝑖 𝑑𝑖2
Alumno 1 2 3 −1 1
Alumno 2 5 4 1 1
Alumno 3 1 1.5 −0.5 0.25
Alumno 4 3.5 1.5 2 4
Alumno 5 3.5 5 −1.5 2.25
∑ 0 8.5

El coeficiente de correlación de Spearman para esta muestra es

6 ∑ 𝑑𝑖2 6 ⋅ 8.5
𝑟𝑠 = 1 − =1− = 0.58.
𝑛(𝑛2 − 1) 5(52 − 1)

4.2 Relación entre atributos nominales

Cuando se quiere estudiar la relación entre atributos nominales no tiene sentido calcular
el coeficiente de correlación de Spearman ya que las categorías no pueden ordenarse.
Para estudiar la relación entre atributos nominales se utilizan medidas basadas en las
frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar
tabla de contingencia.

Ejemplo 4.3. En un estudio para ver si existe relación entre el sexo y el hábito de fumar
se ha tomado una muestra de 100 personas. La tabla de contingencia resultante es

Sexo\Fuma Si No 𝑛𝑖
Mujer 12 28 40
Hombre 26 34 60
𝑛𝑗 38 62 100

Si el hábito de fumar fuese independiente del sexo, la proporción de fumadores en mujeres


y hombres sería la misma.

109
4.2.1 Frecuencias teóricas o esperadas

En general, dada una tabla de contingencia para dos atributos 𝑋 e 𝑌 ,

𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞 𝑛𝑥
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞 𝑛𝑥1
⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
𝑥𝑖 𝑛𝑖1 ⋯ 𝑛𝑖𝑗 ⋯ 𝑛𝑖𝑞 𝑛𝑥𝑖
⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞 𝑛𝑥𝑝
𝑛𝑦 𝑛𝑦1 ⋯ 𝑛 𝑦𝑗 ⋯ 𝑛 𝑦𝑞 𝑛

si 𝑋 e 𝑌 fuesen independientes, para cualquier valor 𝑦𝑗 se tendría

𝑛1𝑗 𝑛2𝑗 𝑛𝑝𝑗 𝑛1𝑗 + ⋯ + 𝑛𝑝𝑗 𝑛𝑦


= =⋯= = = 𝑗,
𝑛𝑥1 𝑛𝑥2 𝑛𝑥𝑝 𝑛𝑥1 + ⋯ + 𝑛𝑥𝑝 𝑛
de donde se deduce que
𝑛𝑥𝑖 𝑛𝑦𝑗
𝑛𝑖𝑗 = .
𝑛
A esta última expresión se le llama frecuencia teórica o frecuencia esperada del par
(𝑥𝑖 , 𝑦𝑗 ).

4.2.2 Coeficiente chi-cuadrado 𝜒2

Es posible estudiar la relación entre dos atributos 𝑋 e 𝑌 comparando las frecuencias


reales con las esperadas.

Definición 4.2 (Coeficiente Chi-cuadrado 𝜒2 ). Dada una muestra de tamaño 𝑛 en la


que se han medido dos atributos 𝑋 e 𝑌 , se define el coeficiente 𝜒2 como

𝑛𝑥𝑖 𝑛𝑦𝑗 2
𝑝 𝑞
(𝑛𝑖𝑗 − 𝑛 )
𝜒2 = ∑ ∑ 𝑛𝑥𝑖 𝑛𝑦𝑗 ,
𝑖=1 𝑗=1 𝑛

donde 𝑝 es el número de categorías de 𝑋 y 𝑞 el número de categorías de 𝑌 .

ĺ Importante

Por ser suma de cuadrados, se cumple que

𝜒2 ≥ 0.

110
Ĺ Interpretación

𝜒2 = 0 cuando los atributos son independientes, y crece a medida que aumenta la


dependencia entre las variables.

Ejemplo 4.4. Siguiendo con el ejemplo anterior, a partir de la tabla de contingencia

Sexo\Fuma Si No 𝑛𝑖
Mujer 12 28 40
Hombre 26 34 60
𝑛𝑗 38 62 100

se obtienen las siguientes frecuencias esperadas

Sexo\Fuma Si No 𝑛𝑖
40⋅38 40⋅62
Mujer 100 = 15.2 100 = 24.8 40
60⋅38 60⋅62
Hombre 100 = 22.8 100 = 37.2 60
𝑛𝑗 38 62 100

y el coeficiente 𝜒2 vale

(12 − 15.2)2 (28 − 24.8)2 (26 − 22.8)2 (34 − 37.2)2


𝜒2 = + + + = 1.81.
15.2 24.8 22.8 37.2
Esto indica que no existe gran relación entre el sexo y el hábito de fumar.

4.2.3 Coeficiente de contingencia

El coeficiente 𝜒2 depende del tamaño muestral, ya que al multiplicar por una constante
las frecuencias de todas las casillas, su valor queda multiplicado por dicha constante,
lo que podría llevarnos al equívoco de pensar que ha aumentado la relación, incluso
cuando las proporciones se mantienen. En consecuencia el valor de 𝜒2 no está acotado
superiormente y resulta difícil de interpretar.
Para evitar estos problemas se suele utilizar el siguiente estadístico.

Definición 4.3 (Coeficiente de contingencia). Dada una muestra de tamaño 𝑛 en la que


se han medido dos atributos 𝑋 e 𝑌 , se define el coeficiente de contingencia como

𝜒2
𝐶=√
𝜒2 + 𝑛

111
ĺ Importante

De la definición anterior se deduce que

0 ≤ 𝐶 ≤ 1,

Ĺ Interpretación

𝐶 = 0 cuando las variables son independientes, y crece a medida que aumenta la


relación.

Á Advertencia

Aunque 𝐶 nunca puede llegar a valer 1, se puede demostrar que para tablas de
contingencia con 𝑘 filas y 𝑘 columnas, el valor máximo que puede alcanzar 𝐶 es
√(𝑘 − 1)/𝑘.

Ejemplo 4.5. En el ejemplo anterior el coeficiente de contingencia vale

1.81
𝐶=√ = 0.13.
1.81 + 100

Como se trata de una tabla de contingencia de 2 × 2, el valor máximo que podría tomar
el coeficiente de contingencia es √(2 − 1)/2 = √1/2 = 0.707, y como 0.13 está bastante
lejos de este valor, se puede concluir que no existe demasiada relación entre el hábito de
fumar y el sexo.

112
5 Probabilidad

La estadística descriptiva permite describir el comportamiento y las relaciones entre


las variables en la muestra, pero no permite sacar conclusiones sobre el resto de la
población.
Ha llegado el momento de dar el salto de la muestra a la población y pasar de la esta-
dística descriptiva a la inferencia estadística, y el puente que lo permite es la Teoría de
la Probabilidad.
Hay que tener en cuenta que el conocimiento que se puede obtener de la población
a partir de la muestra es limitado, y que para obtener conclusiones válidas para la
población la muestra debe ser representativa de esta. Por esta razón, para garantizar la
representatividad de la muestra, esta debe extraerse aleatoriamente, es decir, al azar.
La teoría de la probabilidad precisamente se encarga de controlar ese azar para saber
hasta qué punto son fiables las conclusiones obtenidas a partir de una muestra.

5.1 Experimentos y sucesos aleatorios

El estudio de una característica en una población se realiza a través de experimentos


aleatorios.

Definición 5.1 (Experimento aleatorio). Un experimento aleatorio es un experimento


que cumple dos condiciones:

1. El conjunto de posibles resultados es conocido.


2. No se puede predecir con absoluta certeza el resultado del experimento.

Ejemplo 5.1. Un ejemplo típico de experimentos aleatorios son los juegos de azar. El
lanzamiento de un dado, por ejemplo, es un experimento aleatorio ya que:

1. Se conoce el conjunto posibles de resultados {1, 2, 3, 4, 5, 6}.


2. Antes de lanzar el dado, es imposible predecir con absoluta certeza el valor que
saldrá.

113
Otro ejemplo de experimento aleatorio sería la selección de un individuo de una población
al azar y la determinación de su grupo sanguíneo.
En general, la obtención de cualquier muestra mediante procedimientos aleatorios será
un experimento aleatorio.

Definición 5.2 (Espacio muestral). Al conjunto Ω de todos los posibles resultados de


un experimento aleatorio se le llama espacio muestral.

Ejemplo 5.2. Algunos ejemplos de espacios muestrales son:

• Lanzamiento de una moneda: Ω = {𝑐, 𝑥}.


• Lanzamiento de un dado: Ω = {1, 2, 3, 4, 5, 6}.
• Grupo sanguíneo de un individuo seleccionado al azar: Ω = {A, B, AB, 0}.
• Estatura de un individuo seleccionado al azar: Ω = ℝ+ .

En experimentos donde se mide más de una variable, la determinación del espacio mues-
tral puede resultar compleja. En tales casos es recomendable utilizar un para construir
el espacio muestral.
En un diagrama de árbol cada variable se representa en un nivel del árbol y cada posible
valor de la variable como una rama.

Ejemplo 5.3. El siguiente diagrama de árbol representa el espacio muestral de un


experimento aleatorio en el que se mide el sexo y el grupo sanguíneo de un individuo al
azar.

Figura 5.1: Diagrama de árbol del espacio muestral del sexo y el grupo sanguineo.

114
Definición 5.3 (Suceso aleatorio). Un suceso aleatorio es cualquier subconjunto del
espacio muestral Ω de un experimento aleatorio.

Existen distintos tipos de sucesos:

• Suceso imposible: Es el suceso vacío ∅. Este suceso nunca ocurre.


• Sucesos elementales: Son los sucesos formados por un solo elemento.
• Sucesos compuestos: Son los sucesos formados por dos o más elementos.
• Suceso seguro: Es el suceso que contiene el propio espacio muestral Ω. Este suceso
siempre ocurre.

Ejemplo 5.4. En el experimento aleatorio del lanzamiento de un dado, con espacio


muestral Ω = {1, 2, 3, 4, 5, 6}, el subconjunto {2, 4, 6} es un suceso aleatorio que se cumple
cuando sale un número par, y el subconjunto {1, 2, 3, 4} es un suceso aleatorio que se
cumple cuando sale un número menor que 5.

5.1.1 Espacio de sucesos

Definición 5.4 (Espacio de sucesos). Dado un espacio muestral Ω de un experimento


aleatorio, el conjunto formado por todos los posibles sucesos de Ω se llama espacio de
sucesos de Ω y se denota 𝒫(Ω).

Ejemplo 5.5. Dado el espacio muestral Ω = {𝑎, 𝑏, 𝑐}, su espacio de sucesos es

𝒫(Ω) = {∅, {𝑎}, {𝑏}, {𝑐}, {𝑎, 𝑏}, {𝑎, 𝑐}, {𝑏, 𝑐}, {𝑎, 𝑏, 𝑐}}

Puesto que los sucesos son conjuntos, por medio de la teoría de conjuntos se pueden
definir las siguientes operaciones entre sucesos:

• Unión.
• Intersección.
• Complementario.
• Diferencia.

5.1.2 Unión de suscesos

Definición 5.5 (Suceso unión). Dados dos sucesos 𝐴, 𝐵 ⊆ Ω, se llama suceso unión de
𝐴 y 𝐵, y se denota 𝐴 ∪ 𝐵, al suceso formado por los elementos de 𝐴 junto a los elementos
de 𝐵, es decir,

𝐴 ∪ 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 o 𝑥 ∈ 𝐵}.

115
Figura 5.2: Union de dos sucesos.

El suceso unión 𝐴 ∪ 𝐵 ocurre siempre que ocurre 𝐴 o 𝐵.

Ejemplo 5.6. Dado el espacio muestral correspondiente al lanzamiento de un dado


Ω = {1, 2, 3, 4, 5, 6} y los sucesos 𝐴 = {2, 4, 6} y 𝐵 = {1, 2, 3, 4}, la unión de 𝐴 y 𝐵 es
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6}.

5.1.3 Intersección de sucesos

Definición 5.6 (Suceso intersección). Dados dos sucesos 𝐴, 𝐵 ⊆ Ω, se llama suceso


intersección de 𝐴 y 𝐵, y se denota 𝐴 ∩ 𝐵, al suceso formado por los elementos comunes
de 𝐴 y 𝐵, es decir,

𝐴 ∩ 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 y 𝑥 ∈ 𝐵}.

Figura 5.3: Intersección de dos sucesos.

El suceso intersección 𝐴 ∩ 𝐵 ocurre siempre que ocurren 𝐴 y 𝐵.


Diremos que dos sucesos son incompatibles si su intersección es vacía.

Ejemplo 5.7. Dado el espacio muestral correspondiente al lanzamiento de un dado


Ω = {1, 2, 3, 4, 5, 6} y los sucesos 𝐴 = {2, 4, 6} y 𝐵 = {1, 2, 3, 4}, la intersección de 𝐴 y
𝐵 es 𝐴 ∩ 𝐵 = {2, 4}, y por tanto, se trata de sucesos compatibles. Sin embargo, el suceso
𝐶 = {1, 3} es incompatible con 𝐴 ya que 𝐴 ∩ 𝐶 = ∅.

116
5.1.4 Contrario de un suceso

Definición 5.7 (Suceso contrario). Dado suceso 𝐴 ⊆ Ω, se llama suceso contrario o


complementario de 𝐴, y se denota 𝐴, al suceso formado por los elementos de Ω que no
pertenecen a 𝐴, es decir,

𝐴 = {𝑥 | 𝑥 ∉ 𝐴}.

Figura 5.4: Contrario de un suceso.

El suceso contrario 𝐴 ocurre siempre que no ocurre 𝐴.

Ejemplo 5.8. Dado el espacio muestral correspondiente al lanzamiento de un dado


Ω = {1, 2, 3, 4, 5, 6} y los sucesos 𝐴 = {2, 4, 6} y 𝐵 = {1, 2, 3, 4}, el contrario de 𝐴 es
𝐴 = {1, 3, 5}.

5.1.5 Diferencia de sucesos

Definición 5.8 (Suceso diferencia). Dados dos sucesos 𝐴, 𝐵 ⊆ Ω, se llama suceso dife-
rencia de 𝐴 y 𝐵, y se denota 𝐴 − 𝐵, al suceso formado por los elementos de 𝐴 que no
pertenecen a 𝐵, es decir,

𝐴 − 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 y 𝑥 ∉ 𝐵} = 𝐴 ∩ 𝐵.

Figura 5.5: Diferencia de sucesos.

117
El suceso diferencia 𝐴 − 𝐵 ocurre siempre que ocurre 𝐴 pero no ocurre 𝐵, y también
puede expresarse como 𝐴 ∩ 𝐵.̄

Ejemplo 5.9. Dado el espacio muestral correspondiente al lanzamiento de un dado


Ω = {1, 2, 3, 4, 5, 6} y los sucesos 𝐴 = {2, 4, 6} y 𝐵 = {1, 2, 3, 4}, la diferencia de 𝐴 y 𝐵
es 𝐴 − 𝐵 = {6}, y la diferencia de 𝐵 y 𝐴 es 𝐵 − 𝐴 = {1, 3}.

5.1.6 Álgebra de sucesos

Dados los sucesos 𝐴, 𝐵, 𝐶 ∈ 𝒫(Ω), se cumplen las siguientes propiedades:

1. 𝐴 ∪ 𝐴 = 𝐴, 𝐴 ∩ 𝐴 = 𝐴 (idempotencia).
2. 𝐴 ∪ 𝐵 = 𝐵 ∪ 𝐴, 𝐴 ∩ 𝐵 = 𝐵 ∩ 𝐴 (conmutativa).
3. (𝐴 ∪ 𝐵) ∪ 𝐶 = 𝐴 ∪ (𝐵 ∪ 𝐶), (𝐴 ∩ 𝐵) ∩ 𝐶 = 𝐴 ∩ (𝐵 ∩ 𝐶) (asociativa).
4. (𝐴 ∪ 𝐵) ∩ 𝐶 = (𝐴 ∩ 𝐶) ∪ (𝐵 ∩ 𝐶), (𝐴 ∩ 𝐵) ∪ 𝐶 = (𝐴 ∪ 𝐶) ∩ (𝐵 ∪ 𝐶) (distributiva).
5. 𝐴 ∪ ∅ = 𝐴, 𝐴 ∩ 𝐸 = 𝐴 (elemento neutro).
6. 𝐴 ∪ 𝐸 = 𝐸, 𝐴 ∩ ∅ = ∅ (elemento absorbente).
7. 𝐴 ∪ 𝐴 = 𝐸, 𝐴 ∩ 𝐴 = ∅ (elemento simétrico complementario).
8. 𝐴 = 𝐴 (doble contrario).
9. 𝐴 ∪ 𝐵 = 𝐴 ∩ 𝐵, 𝐴 ∩ 𝐵 = 𝐴 ∪ 𝐵 (leyes de Morgan).
10. 𝐴 ∩ 𝐵 ⊆ 𝐴 ∪ 𝐵.

5.2 Definición de probabilidad

5.2.1 Definición clásica de probabilidad

Definición 5.9 (Probabilidad - Laplace). Dado un espacio muestral Ω de un experi-


mento aleatorio donde todos los elementos de Ω son equiprobables, la probabilidad de un
suceso 𝐴 ⊆ Ω es el cociente entre el número de elementos de 𝐴 y el número de elementos
de Ω

|𝐴| nº casos favorables a A


𝑃 (𝐴) = =
|Ω| nº casos posibles

Esta definición es ampliamente utilizada, aunque tiene importantes restricciones:

• Es necesario que todos los elementos del espacio muestral tengan la misma proba-
bilidad de ocurrir (equiprobabilidad).
• No puede utilizarse con espacios muestrales infinitos, o de los que no se conoce el
número de casos posibles.

118
¾ Precaución

Esto no se cumple en muchos experimentos aleatorios reales.

Ejemplo 5.10. Dado el espacio muestral correspondiente al lanzamiento de un dado


Ω = {1, 2, 3, 4, 5, 6} y el suceso 𝐴 = {2, 4, 6}, la probabilidad de 𝐴 es

|𝐴| 3
𝑃 (𝐴) = = = 0.5.
|Ω| 6

Sin embargo, si se considera el espacio muestral correspondiente a observar el grupo


sanguíneo de un individuo al azar, Ω = {𝑂, 𝐴, 𝐵, 𝐴𝐵}, no se puede usar la definición
clásica de probabilidad para calcular la probabilidad de que tenga grupo sanguíneo 𝐴,

|𝐴| 1
𝑃 (𝐴) ≠ = = 0.25,
|Ω| 4

ya que los grupos sanguíneos no son igualmente probables en las poblaciones humanas.

5.2.2 Definición frecuentista de probabilidad

Teorema 5.1 (Ley de los grandes números). Cuando un experimento aleatorio se repite
un gran número de veces, las frecuencias relativas de los sucesos del experimento tienden
a estabilizarse en torno a cierto número, que es precisamente su probabilidad.

De acuerdo al teorema anterior, podemos dar la siguiente definición

Definición 5.10 (Probabilidad frecuentista). Dado un espacio muestral Ω de un ex-


perimento aleatorio reproducible, la probabilidad de un suceso 𝐴 ⊆ Ω es la frecuencia
relativa del suceso 𝐴 en infinitas repeticiones del experimento

𝑛𝐴
𝑃 (𝐴) = 𝑙𝑖𝑚𝑛→∞
𝑛

Aunque esta definición es muy útil en experimentos científicos reproducibles, también


tiene serios inconvenientes, ya que

• Sólo se calcula una aproximación de la probabilidad real.


• La repetición del experimento debe ser en las mismas condiciones.

119
Ejemplo 5.11. Dado el espacio muestral correspondiente al lanzamiento de una moneda
Ω = {𝐶, 𝑋}, si después de lanzar la moneda 100 veces obtenemos 54 caras, entonces la
probabilidad de 𝐶 es aproximadamente

𝑛𝐶 54
𝑃 (𝐶) = = = 0.54.
𝑛 100

Si se considera el espacio muestral correspondiente a observar el grupo sanguíneo de


un individuo al azar, Ω = {𝑂, 𝐴, 𝐵, 𝐴𝐵}, si se toma una muestra aleatoria de 1000
personas y se observa que 412 tienen grupo sanguíneo 𝐴, entonces la probabilidad del
grupo sanguíneo 𝐴 es aproximadamente

𝑛𝐴 412
𝑃 (𝐴) = = = 0.412.
𝑛 1000

5.2.3 Definición axiomática de probabilidad

Definición 5.11 (Probabilidad - Kolmogórov). Dado un espacio muestral Ω de un


experimento aleatorio, una función de probabilidad es una aplicación que asocia a cada
suceso 𝐴 ⊆ Ω un número real 𝑃 (𝐴), conocido como probabilidad de 𝐴, que cumple los
siguientes axiomas:

1. La probabilidad de un suceso cualquiera es positiva o nula,

𝑃 (𝐴) ≥ 0.

2. La probabilidad del suceso seguro es igual a la unidad,

𝑃 (Ω) = 1.

3. La probabilidad de la unión de dos sucesos incompatibles (𝐴 ∩ 𝐵 = ∅) es igual a


la suma de las probabilidades de cada uno de ellos,

𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵).

Teorema 5.2. Si 𝑃 es una función de de probabilidad de un espacio muestral Ω, entonces


para cualesquiera sucesos 𝐴, 𝐵 ∈ Ω, se cumple

1. 𝑃 (𝐴) = 1 − 𝑃 (𝐴).
2. 𝑃 (∅) = 0.
3. Si 𝐴 ⊆ 𝐵 entonces 𝑃 (𝐴) ≤ 𝑃 (𝐵).
4. 𝑃 (𝐴) ≤ 1.
5. 𝑃 (𝐴 − 𝐵) = 𝑃 (𝐴) − 𝑃 (𝐴 ∩ 𝐵).

120
6. Si 𝐴 y 𝐵 son sucesos compatibles, es decir, su intersección no es vacía, entonces

𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵) − 𝑃 (𝐴 ∩ 𝐵).

7. Si el suceso 𝐴 está compuesto por los sucesos elementales 𝑒1 , 𝑒2 , ..., 𝑒𝑛 , entonces

𝑛
𝑃 (𝐴) = ∑ 𝑃 (𝑒𝑖 ).
𝑖=1

Ĺ Demostración

Prueba.
1. 𝐴 = Ω ⇒ 𝑃 (𝐴 ∪ 𝐴) = 𝑃 (Ω) ⇒ 𝑃 (𝐴) + 𝑃 (𝐴) = 1 ⇒ 𝑃 (𝐴) = 1 − 𝑃 (𝐴).
2. ∅ = Ω ⇒ 𝑃 (∅) = 𝑃 (Ω) = 1 − 𝑃 (Ω) = 1 − 1 = 0.
3. 𝐵 = 𝐴∪(𝐵−𝐴). Como 𝐴 y 𝐵−𝐴 son incompatibles, 𝑃 (𝐵) = 𝑃 (𝐴∪(𝐵−𝐴)) =
𝑃 (𝐴) + 𝑃 (𝐵 − 𝐴) ≥ 𝑃 (𝐴).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,

Figura 5.6: Probabilidad de un suceso incluido en otro.

4. 𝐴 ⊆ Ω ⇒ 𝑃 (𝐴) ≤ 𝑃 (Ω) = 1.
5. 𝐴 = (𝐴 − 𝐵) ∪ (𝐴 ∩ 𝐵). Como 𝐴 − 𝐵 y 𝐴 ∩ 𝐵 son incompatibles, 𝑃 (𝐴) =
𝑃 (𝐴 − 𝐵) + 𝑃 (𝐴 ∩ 𝐵) ⇒ 𝑃 (𝐴 − 𝐵) = 𝑃 (𝐴) − 𝑃 (𝐴 ∩ 𝐵).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,

Figura 5.7: Probabilidad de la diferencia de dos sucesos.

121
6. 𝐴 ∪ 𝐵 = (𝐴 − 𝐵) ∪ (𝐵 − 𝐴) ∪ (𝐴 ∩ 𝐵). Como 𝐴 − 𝐵, 𝐵 − 𝐴 y 𝐴 ∩ 𝐵 son
incompatibles, 𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴 − 𝐵) + 𝑃 (𝐵 − 𝐴) + 𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴) −
𝑃 (𝐴 ∩ 𝐵) + 𝑃 (𝐵) − 𝑃 (𝐴 ∩ 𝐵) + 𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵) − 𝑃 (𝐴 ∪ 𝐵).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,

Figura 5.8: Probabilidad de la unión de dos sucesos.

7. 𝐴 = {𝑒1 , ⋯ , 𝑒𝑛 } = {𝑒1 }∪⋯∪{𝑒𝑛 } ⇒ 𝑃 (𝐴) = 𝑃 ({𝑒1 }∪⋯∪{𝑒𝑛 }) = 𝑃 ({𝑒1 })+


⋯ 𝑃 ({𝑒𝑛 }).

5.2.4 Interpretación de la probabilidad

Como ha quedado claro en los axiomas anteriores, la probabilidad de un evento 𝐴 es un


número real 𝑃 (𝐴) que está siempre entre 0 y 1.
En cierto modo, este número expresa la verosimilitud del evento, es decir, la confianza
que hay en que ocurra 𝐴 en el experimento. Por tanto, también nos da una medida de
la incertidumbre sobre el suceso.

• La mayor incertidumbre corresponde a 𝑃 (𝐴) = 0.5 (Es tan probable que ocurra 𝐴
como que no ocurra).
• La menor incertidumbre corresponde a 𝑃 (𝐴) = 1 (𝐴 sucederá con absoluta certeza)
y 𝑃 (𝐴) = 0 (𝐴 no sucederá con absoluta certeza).

Cuando 𝑃 (𝐴) está más próximo a 0 que a 1, la confianza en que no ocurra 𝐴 es mayor
que la de que ocurra 𝐴. Por el contrario, cuando 𝑃 (𝐴) está más próximo a 1 que a 0, la
confianza en que ocurra 𝐴 es mayor que la de que no ocurra 𝐴.

122
5.3 Probabilidad condicionada

5.3.1 Experimentos condicionados

En algunas ocasiones, es posible que tengamos alguna información sobre el experimento


antes de su realización. Habitualmente esa información se da en forma de un suceso 𝐵
del mismo espacio muestral que sabemos que es cierto antes de realizar el experimento.
En tal caso se dice que el suceso 𝐵 es un suceso condicionante, y la probabilidad de otro
suceso 𝐴 se conoce como y se expresa

𝑃 (𝐴|𝐵).

Esto debe leerse como probabilidad de 𝐴 dado 𝐵 o probabilidad de 𝐴 bajo la condición


de 𝐵.
Los condicionantes suelen cambiar el espacio muestral del experimento y por tanto las
probabilidades de sus sucesos.

Ejemplo 5.12. Supongamos que tenemos una muestra de 100 hombres y 100 mujeres
con las siguientes frecuencias

No fumadores Fumadores
Mujeres 80 20
Hombres 60 40

Entonces, usando la definición frecuentista de probabilidad, la probabilidad de que una


persona elegida al azar sea fumadora es

60
𝑃 (Fumadora) = = 0.3.
200

Sin embargo, si se sabe que la persona elegida es mujer, entonces la muestra se reduce a
la primera fila, y la probabilidad de ser fumadora es

20
𝑃 (Fumadora|Mujer) = = 0.2.
100

123
5.3.2 Probabilidad condicionada

Definición 5.12 (Probabilidad condicionada). Dado un espacio muestral Ω de un ex-


perimento aleatorio, y dos dos sucesos 𝐴, 𝐵 ⊆ Ω, la probabilidad de 𝐴 condicionada por
𝐵 es

𝑃 (𝐴 ∩ 𝐵)
𝑃 (𝐴|𝐵) = ,
𝑃 (𝐵)

siempre y cuando, 𝑃 (𝐵) ≠ 0.

Esta definición permite calcular probabilidades sin tener que alterar el espacio muestral
original del experimento.

Ejemplo 5.13. En el ejemplo anterior

𝑃 (Fumadora ∩ Mujer) 20/200 20


𝑃 (Fumadora|Mujer) = = = = 0.2.
𝑃 (Mujer) 100/200 100

5.3.3 Probabilidad del suceso intersección

A partir de la definición de probabilidad condicionada es posible obtener la fórmula para


calcular la probabilidad de la intersección de dos sucesos.

𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴)𝑃 (𝐵|𝐴) = 𝑃 (𝐵)𝑃 (𝐴|𝐵).

Ejemplo 5.14. En una población hay un 30% de fumadores y se sabe que el 40% de los
fumadores tiene cáncer de pulmón. La probabilidad de que una persona elegida al azar
sea fumadora y tenga cáncer de pulmón es

𝑃 (Fumadora ∩ Cáncer) = 𝑃 (Fumadora)𝑃 (Cáncer|Fumadora) = 0.3 × 0.4 = 0.12.

124
5.3.4 Independencia de sucesos

En ocasiones, la ocurrencia del suceso condicionante no cambia la probabilidad original


del suceso principal.

Definición 5.13 (Sucesos independientes). Dado un espacio muestral Ω de un experi-


mento aleatorio, dos sucesos 𝐴, 𝐵 ⊆ Ω son independientes si la probabilidad de 𝐴 no se
ve alterada al condicionar por 𝐵, y viceversa, es decir,

𝑃 (𝐴|𝐵) = 𝑃 (𝐴) and 𝑃 (𝐵|𝐴) = 𝑃 (𝐵),

si 𝑃 (𝐴) ≠ 0 y 𝑃 (𝐵) ≠ 0.

Esto significa que la ocurrencia de uno evento no aporta información relevante para
cambiar la incertidumbre sobre el otro.
Cuando dos eventos son independientes, la probabilidad de su intersección es igual al
producto de sus probabilidades,

𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴)𝑃 (𝐵).

5.4 Espacio probabilístico

Definición 5.14 (Espacio probabilístico). Un espacio probabilístico de un experimento


aleatorio es una terna (Ω, ℱ, 𝑃 ) donde

• Ω es el espacio muestral del experimento.


• ℱ es un un conjunto de sucesos del experimento.
• 𝑃 es una función de probabilidad.

Si conocemos la probabilidad de todos los elementos de Ω, entonces podemos calcular


la probabilidad de cualquier suceso en ℱ y se puede construir fácilmente el espacio
probabilístico.
Para determinar la probabilidad de cada suceso elemental se puede utilizar un diagrama
de árbol, mediante las siguientes reglas:

1. Para cada nodo del árbol, etiquetar la rama que conduce hasta él con la probabi-
lidad de que la variable en ese nivel tome el valor del nodo, condicionada por los
sucesos correspondientes a sus nodos antecesores en el árbol.
2. La probabilidad de cada suceso elemental en las hojas del árbol es el producto de
las probabilidades de las ramas que van desde la raíz a la hoja del árbol.

125
Figura 5.9: Diagrama de árbol de un espacio probabilístico.

5.4.1 Árboles de probabilidad con variables dependientes

Ejemplo 5.15. Sea una población en la que el 30% de las personas fuman, y que
la incidencia del cáncer de pulmón en fumadores es del 40% mientras que en los no
fumadores es del 10%.
El espacio probabilístico del experimento aleatorio que consiste en elegir una persona al
azar y medir las variables Fumar y Cáncer de pulmón se muestra a continuación.

Figura 5.10: Diagrama de árbol del espacio probabilístico de fumar y tener cáncer de
pulmón.

5.4.2 Árboles de probabilidad con variables independientes

Ejemplo 5.16. El árbol de probabilidad asociado al experimento aleatorio que consiste


en el lanzamiento de dos monedas se muestra a continuación.

126
Figura 5.11: Diágrama de árbol del espacio probabilístico del lanzamiento de dos mone-
das.

Ejemplo 5.17. Dada una población en la que hay un 40% de hombres y un 60% de
mujeres, el experimento aleatorio que consiste en tomar una muestra aleatoria de tres
personas tiene el árbol de probabilidad que se muestra a continuación.

Figura 5.12: Diagrama de árbol del espacio probabilístico del sexo de tres individuos
elegidos al azar.

5.5 Teorema de la probabilidad total

Definición 5.15 (Sistema completo de sucesos). Una colección de sucesos 𝐴1 , 𝐴2 , … , 𝐴𝑛


de un mismo espacio muestral Ω es un sistema completo si cumple las siguientes condi-
ciones:

1. La unión de todos es el espacio muestral: 𝐴1 ∪ ⋯ ∪ 𝐴𝑛 = Ω.

127
2. Son incompatibles dos a dos: 𝐴𝑖 ∩ 𝐴𝑗 = ∅ ∀𝑖 ≠ 𝑗.

Figura 5.13: Partición del espacio muestral en un sistema completo de sucesos.

En realidad un sistema completo de sucesos es una partición del espacio muestral de


acuerdo a algún atributo, como por ejemplo el sexo o el grupo sanguíneo.

5.5.1 Teorema de la probabilidad total

Conocer las probabilidades de un determinado suceso en cada una de las partes de un


sistema completo puede ser útil para calcular su probabilidad.

Teorema 5.3 (Probabilidad total). Dado un sistema completo de sucesos 𝐴1 , … , 𝐴𝑛 y


un suceso 𝐵 de un espacio muestral Ω, la probabilidad de cualquier suceso 𝐵 del espacio
muestral se puede calcular mediante la fórmula

𝑛 𝑛
𝑃 (𝐵) = ∑ 𝑃 (𝐴𝑖 ∩ 𝐵) = ∑ 𝑃 (𝐴𝑖 )𝑃 (𝐵|𝐴𝑖 ).
𝑖=1 𝑖=1

Ĺ Demostración

Prueba. La demostración del teorema es sencilla, ya que al ser 𝐴1 , … , 𝐴𝑛 un sistema


completo tenemos

𝐵 = 𝐵 ∩ 𝐸 = 𝐵 ∩ (𝐴1 ∪ ⋯ ∪ 𝐴𝑛 ) = (𝐵 ∩ 𝐴1 ) ∪ ⋯ ∪ (𝐵 ∩ 𝐴𝑛 )
y como estos sucesos son incompatibles entre sí, se tiene

𝑃 (𝐵) = 𝑃 ((𝐵 ∩ 𝐴1 ) ∪ ⋯ ∪ (𝐵 ∩ 𝐴𝑛 )) = 𝑃 (𝐵 ∩ 𝐴1 ) + ⋯ + 𝑃 (𝐵 ∩ 𝐴𝑛 ) =
𝑛
= 𝑃 (𝐴1 )𝑃 (𝐵/𝐴1 ) + ⋯ + 𝑃 (𝐴𝑛 )𝑃 (𝐵/𝐴𝑛 ) = ∑ 𝑃 (𝐴𝑖 )𝑃 (𝐵/𝐴𝑖 ).
𝑖=1

128
Figura 5.14: Teorema de la probabilidad total.

Ejemplo 5.18. Un determinado síntoma 𝑆 puede ser originado por una enfermedad
𝐸 pero también lo pueden presentar las personas sin la enfermedad. Sabemos que la
prevalencia de la enfermedad 𝐸 es 0.2. Además, se sabe que el 90% de las personas con
la enfermedad presentan el síntoma, mientras que sólo el 40% de las personas sin la en-
fermedad lo presentan. Si se toma una persona al azar de la población, ¿qué probabilidad
hay de que tenga el síntoma?
Para responder a la pregunta se puede aplicar el teorema de la probabilidad total usando
el sistema completo {𝐸, 𝐸}:

𝑃 (𝑆) = 𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸) = 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 = 0.5.

Es decir, la mitad de la población tendrá el síntoma.


¡En el fondo se trata de una media ponderada de probabilidades!
La respuesta a la pregunta anterior es evidente a la luz del árbol de probabilidad del
espacio probabilístico del experimento.

Figura 5.15: Aplicación del teorema de la probabilidad total en un espacio probabilístico.

129
𝑃 (𝑆) = 𝑃 (𝐸, 𝑆) + 𝑃 (𝐸, 𝑆) = 𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸)
= 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 = 0.18 + 0.32 = 0.5.

5.6 Teorema de Bayes

Los sucesos de un sistema completo de sucesos 𝐴1 , ⋯ , 𝐴𝑛 también pueden verse como


las distintas hipótesis ante un determinado hecho 𝐵.
En estas condiciones resulta útil poder calcular las probabilidades a posteriori 𝑃 (𝐴𝑖 |𝐵)
de cada una de las hipótesis.

Teorema 5.4 (Bayes). Dado un sistema completo de sucesos 𝐴1 , … , 𝐴𝑛 y un suceso 𝐵


de un espacio muestral Ω y otro suceso 𝐵 del mismo espacio muestral, la probabilidad de
cada suceso 𝐴𝑖 𝑖 = 1, … , 𝑛 condicionada por 𝐵 puede calcularse con la siguiente fórmula

𝑃 (𝐴𝑖 ∩ 𝐵) 𝑃 (𝐴𝑖 )𝑃 (𝐵|𝐴𝑖 )


𝑃 (𝐴𝑖 |𝐵) = = 𝑛 .
𝑃 (𝐵) ∑𝑖=1 𝑃 (𝐴𝑖 )𝑃 (𝐵|𝐴𝑖 )

Ejemplo 5.19. En el ejemplo anterior, una pregunta más interesante es qué diagnosticar
a una persona que presenta el síntoma.
En este caso se puede interpretar 𝐸 y 𝐸 como las dos posibles hipótesis para el síntoma
𝑆. Las probabilidades a priori para ellas son 𝑃 (𝐸) = 0.2 y 𝑃 (𝐸) = 0.8. Esto quiere decir
que si no se dispone de información sobre el síntoma, el diagnóstico será que la persona
no tiene la enfermedad.
Sin embargo, si al reconocer a la persona se observa que presenta el síntoma, dicha
información condiciona a las hipótesis, y para decidir entre ellas es necesario calcular sus
probabilidades a posteriori, es decir, 𝑃 (𝐸|𝑆) y 𝑃 (𝐸|𝑆).
Para calcular las probabilidades a posteriori se puede utilizar el teorema de Bayes:

𝑃 (𝐸)𝑃 (𝑆|𝐸) 0.2 ⋅ 0.9 0.18


𝑃 (𝐸|𝑆) = = = = 0.36,
𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸) 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 0.5
𝑃 (𝐸)𝑃 (𝑆|𝐸) 0.8 ⋅ 0.4 0.32
𝑃 (𝐸|𝑆) = = = = 0.64.
𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸) 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 0.5

Como se puede ver la probabilidad de tener la enfermedad ha aumentado. No obstante,


la probabilidad de no tener la enfermedad sigue siendo mayor que la de tenerla, y por
esta razón el diagnóstico seguirá siendo que no tiene la enfermedad.

130
En este caso se dice que el síntoma 𝑆 no es determinante a la hora de diagnosticar la
enfermedad.

5.7 Epidemiología

Una de las ramas de la Medicina que hace un mayor uso de la probabilidad es la , que
estudia la distribución y las causas de las enfermedades en las poblaciones, identificando
factores de riesgos para las enfermedades de cara a la atención médica preventiva.
En Epidemiología interesa la frecuencia de un suceso médico 𝐸 (típicamente una enfer-
medad como la gripe, un factor de riesgo como fumar o un factor de protección como
vacunarse) que se mide mediante una variable nominal con dos categorías (ocurrencia o
no del suceso).
Hay diferentes medidas relativas a la frecuencia de un suceso médico. Las más importan-
tes son:

• Prevalencia
• Incidencia
• Riesgo relativo
• Odds ratio

5.7.1 Prevalencia

Definición 5.16 (Prevalencia). La prevalencia de un suceso médico 𝐸 es la proporción


de una población que está afectada por el suceso.

Nº individuos afectados por 𝐸


Prevalencia(𝐸) =
Tamaño poblacional

A menudo, la prevalencia se estima mediante una muestra como la frecuencia relativa de


los individuos afectados por el suceso en la muestra. Es también común expresarla esta
frecuencia como un porcentaje.

Ejemplo 5.20. Para estimar la prevalencia de la gripe se estudió una muestra de 1000
personas de las que 150 presentaron gripe. Así, la prevalencia de la gripe es aproxima-
damente 150/1000 = 0.15, es decir, un 15%.

131
5.7.2 Incidencia

La mide la probabilidad de ocurrencia de un suceso médico en una población durante


un periodo de tiempo específico. La incidencia puede medirse como una proporción
acumulada o como una tasa.

Definición 5.17 (Incidencia acumulada). La incidencia acumulada de un suceso médico


𝐸 es la proporción de individuos que experimentaron el evento en un periodo de tiempo,
es decir, el número de nuevos casos afectados por el evento en el periodo de tiempo,
divido por el tamaño de la población inicialmente en riesgo de verse afectada.

Nº de nuevos casos con 𝐸


𝑅(𝐸) = .
Tamaño de la población en riesgo

Ejemplo 5.21. Una población contenía inicialmente 1000 personas sin gripe y después
de dos años se observó que 160 de ellas sufrieron gripe. La incidencia acumulada de la
gripe es 160 casos pro 1000 personas por dos años, es decir, 16% en dos años.

5.7.3 Tasa de incidencia o Riesgo absoluto

Definición 5.18 (Riesgo absoluto). La tasa de incidencia o riesgo absoluto de un suceso


médico 𝐸 es el número de nuevos casos afectados por el evento divido por la población
en riesgo y por el número de unidades temporales del periodo considerado.

Nº nuevos casos con 𝐸


𝑅(𝐸) =
Tamaño población en riesgo × Nº unidades de tiempo

Ejemplo 5.22. Una población contenía inicialmente 1000 personas sin gripe y después
de dos años se observó que 160 de ellas sufrieron gripe. Si se considera el año como
intervalo de tiempo, la tasa de incidencia de la gripe es 160 casos dividida por 1000
personas y por dos años, es decir, 80 casos por 1000 personas-año o 8% de personas al
año.

5.7.4 Prevalencia vs Incidencia

La prevalencia no debe confundirse con la incidencia. La prevalencia indica cómo de


extendido está el suceso médico en una población, sin preocuparse por cuándo los sujetos
se han expuesto al riesgo o durante cuánto tiempo, mientras que la incidencia se fija en
el riesgo de verse afectado por el suceso en un periodo concreto de tiempo.
Así, la prevalencia se calcula en estudios transversales en un momento temporal puntual,
mientras que para medir la incidencia se necesita un estudio longitudinal que permita
observar a los individuos durante un periodo de tiempo.

132
La incidencia es más útil cuando se pretende entender la causalidad del suceso: por
ejemplo, si la incidencia de una enfermedad en una población aumenta, seguramente hay
un factor de riesgo que lo está promoviendo.
Cuando la tasa de incidencia es aproximadamente constante en la duración del suceso,
la prevalencia es aproximadamente el producto de la incidencia por la duración media
del suceso, es decir,

Prevalencia = Incidencia × duración

5.7.5 Comparación de riesgos

Para determinar si un factor o característica está asociada con el suceso médico es nece-
sario comparar el riesgo del suceso en dos poblaciones, una expuesta al factor y la otra
no. El grupo expuesto al factor se conoce como grupo tratamiento o grupo experimental
𝑇 y el grupo no expuesto como grupo control 𝐶.
Habitualmente los casos observados para cada grupo se representan en una tabla de 2×2
como la siguiente:
Suceso 𝐸
No suceso 𝐸
Grupo tratamiento 𝑇
𝑎
𝑏
Grupo control 𝐶
𝑐
𝑑

5.7.6 Riesgo atribuible o diferencia de riesgos 𝑅𝐴

Definición 5.19 (Riesgo atribuible). El riesgo atribuible o diferencia de riesgo de un


suceso médico 𝐸 para los individuos expuestos a un factor es la diferencia entre los
riesgos absolutos de los grupos tratamiento y control.

𝑎 𝑐
𝑅𝐴(𝐸) = 𝑅𝑇 (𝐸) − 𝑅𝐶 (𝐸) = − .
𝑎+𝑏 𝑐+𝑑

133
El riesgo atribuible es el riesgo de un suceso que es debido específicamente al factor de
interés.
Obsérvese que el riesgo atribuible puede ser positivo, cuando el riesgo del grupo trata-
miento es mayor que el del grupo control, o negativo, de lo contrario.

Ejemplo 5.23. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El riesgo atribuible de contraer la gripe cuando se es vacunado es

20 80
𝐴𝑅(𝐷) = − = −0.12.
20 + 480 80 + 420

Esto quiere decir que el riesgo de contraer la gripe es un 12% menor en vacunados que
en no vacunados.

5.7.7 Riesgo relativo 𝑅𝑅

Definición 5.20 (Riesgo relativo). El riesgo relativo de un suceso médico 𝐸 para los
individuos expuestos a un factor es el cociente entre las proporciones de individuos
afectados por el suceso en un periodo de tiempo de los grupos tratamiento y control. Es
decir, el cociente entre las incidencias de grupo tratamiento y el grupo control.

Riesgo grupo tratamiento 𝑅 (𝐸) 𝑎/(𝑎 + 𝑏)


𝑅𝑅(𝐷) = = 𝑇 =
Riesgo grupo control 𝑅𝐶 (𝐸) 𝑐/(𝑐 + 𝑑)

134
Ĺ Interpretación

El riesgo relativo compara el riesgo de desarrollar un suceso médico entre el grupo


tratamiento y el grupo control.

• 𝑅𝑅 = 1 ⇒ No hay asociación entre el suceso y la exposición al factor.


• 𝑅𝑅 < 1 ⇒ La exposición al factor disminuye el riesgo del suceso.
• 𝑅𝑅 > 1 ⇒ La exposición al factor aumenta el riesgo del suceso.

Cuanto más lejos de 1, más fuerte es la asociación.

Ejemplo 5.24. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El riesgo relativo de contraer la gripe cuando se es vacunado es

20/(20 + 480)
𝑅𝑅(𝐷) = = 0.25.
80/(80 + 420)

Así, la probabilidad de contraer la gripe en los individuos vacunados fue la cuarta parte
de la de contraerla en el caso de no haberse vacunado, es decir, la vacuna reduce el riesgo
de gripe un 75%.

135
5.7.8 Odds

Una forma alternativa de medir el riesgo de un suceso médico es el odds.

Definición 5.21. El odds de un suceso médico 𝐸 en una población es el cociente entre


el número de individuos que adquirieron el suceso y los que no en un periodo de tiempo.

Nº nuevos casos con 𝐸 𝑃 (𝐸)


𝑂𝐷𝐷𝑆(𝐸) = = .
Nº casos sin 𝐸 𝑃 (𝐸)

A diferencia de la incidencia, que es una proporción menor o igual que 1, el odds puede
ser mayor que 1. No obstante es posible convertir el odds en una probabilidad con al
fórmula

𝑂𝐷𝐷𝑆(𝐸)
𝑃 (𝐸) = .
𝑂𝐷𝐷𝑆(𝐸) + 1

Ejemplo 5.25. Una población contenía inicialmente 1000 personas sin gripe. Después
de un año 160 de ellas tuvieron gripe. Entonces el odds de la gripe es 160/840.
Obsérvese que la incidencia es 160/1000.

5.7.9 Odds ratio 𝑂𝑅

Definición 5.22 (Odds ratio). El odds ratio o la oportunidad relativa de un suceso


médico 𝐸 para los individuos expuestos a un factor es el cociente entre los odds del
sucesos de los grupos tratamiento y control.

Odds en grupo tratamiento 𝑎/𝑏 𝑎𝑑


𝑂𝑅(𝐸) = = = .
Odds en grupo control 𝑐/𝑑 𝑏𝑐

Ĺ Interpretación

El odds ratio compara los odds de un suceso médico entre el grupo tratamiento y
control. La interpretación es similar a la del riesgo relativo:

• 𝑂𝑅 = 1 ⇒ No existe asociación entre el suceso y la exposición al factor.


• 𝑂𝑅 < 1 ⇒ La exposición al factor disminuye el riesgo del suceso.
• 𝑂𝑅 > 1 ⇒ La exposición al factor aumenta el riesgo del suceso.

Cuanto más lejos de 1, más fuerte es la asociación.

136
Ejemplo 5.26. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El odds ratio de sufrir la gripe para los individuos vacunados es

20/480
𝑂𝑅(𝐷) = = 0.21875.
80/420

Esto quiere decir que el odds de sufrir la gripe frente a no sufrirla en los vacunados
es casi un quinto del de los no vacunados, es decir, que aproximadamente por cada 22
personas vacunadas con gripe habrá 100 personas no vacunadas con gripe.

5.7.10 Riesgo relativo vs Odds ratio

El riesgo relativo y el odds ratio son dos medidas de asociación pero su interpretación
es ligeramente diferente. Mientras que el riesgo relativo expresa una comparación de
riesgos entre los grupos tratamiento y control, el odds ratio expresa una comparación de
odds, que no es lo mismo que el riesgo. Así, un odds ratio de 2 no significa que el grupo
tratamiento tiene el doble de riesgo de adquirir el suceso.
La interpretación del odds ratio es un poco más enrevesada porque es contrafactual, y
nos da cuántas veces es más frecuente el suceso en el grupo tratamiento en comparación
con el control, asumiendo que en el grupo control es tan frecuente que ocurra el suceso
como que no.
La ventaja del odds ratio es que no depende de la prevalencia o la incidencia del suceso,
y debe usarse siempre que el número de individuos que presenta el suceso se selecciona
arbitrariamente en ambos grupos, como ocurre en los estudios casos-control.

137
Ejemplo 5.27. Para determinar la asociación entre el cáncer de pulmón y fumar se
tomaron dos muestras (la segunda con el doble de individuos sin cáncer) obteniendo los
siguientes resultados:
Muestra 1
Cáncer
No cáncer
Fumadores
60
80
No fumadores
40
320

60/(60 + 80)
𝑅𝑅(𝐷) = = 3.86.
40/(40 + 320)
60/80
𝑂𝑅(𝐷) = = 6.
40/320

Muestra 2
Cáncer
No cáncer
Fumadores
60
160
No fumadores
40
640

60/(60 + 160)
𝑅𝑅(𝐷) = = 4.64.
40/(40 + 640)
60/160
𝑂𝑅(𝐷) = = 6.
40/640

138
Así, cuando cambia la incidencia o prevalencia de un suceso (cáncer de pulmón) el riesgo
relativo cambia, mientras que el odds ratio no.

La relación entre el riesgo relativo y el odds ratio viene dada por la siguiente fórmula

𝑂𝑅 1 − 𝑅1
𝑅𝑅 = = 𝑂𝑅 ,
1 − 𝑅0 + 𝑅0 ⋅ 𝑂𝑅 1 − 𝑅0

donde 𝑅𝐶 and 𝑅𝑇 son la prevalencia o la incidencia en los grupos control y tratamiento


respectivamente.
El odds ratio siempre sobrestima el riesgo relativo cuando este es mayor que 1 y lo
subestima cuando es menor que 1. No obstante, con sucesos médicos raros (con una
prevalencia o incidencia baja) el riesgo relativo y el odds ratio son casi iguales.

Figura 5.16: Odss ratio versus riesgo relativo.

139
5.8 Tests diagnósticos

En Epidemiología es común el uso de test para diagnosticar enfermedades.


Generalmente estos test no son totalmente fiables, sino que hay cierta probabilidad de
acierto o fallo en el diagnóstico, que suele representarse en la siguiente tabla:
Presencia enfermedad 𝐸
Ausencia enfermedad 𝐸
Test positivo +
Verdadero positivo 𝑉 𝑃
Falso positivo 𝐹 𝑃
Test negativo −
Falso negativo 𝐹 𝑁
Verdadero Negativo 𝑉 𝑁

5.8.1 Sensibilidad y especificidad de un test diagnóstico

La fiabilidad de un test diagnóstico depende de las siguientes probabilidades.

Definición 5.23 (Sensibilidad). La sensibilidad de un test diagnóstico es la proporción


de resultados positivos del test en personas con la enfermedad,

𝑉𝑃
𝑃 (+|𝐸) = .
𝑉 𝑃 + 𝐹𝑁

Definición 5.24 (Especificidad). La especificidad de un test diagnóstico es la proporción


de resultados negativos del test en personas sin la enfermedad,

𝑉𝑁
𝑃 (−|𝐸) = .
𝑉 𝑁 + 𝐹𝑃

Normalmente existe un balance entre la sensibilidad y la especificidad.


Un test con una alta sensibilidad detectará la enfermedad en la mayoría de las personas
enfermas, pero también dará más falsos positivos que un test menos sensible. De este
modo, un resultado positivo en un test con una gran sensibilidad no es muy útil para
confirmar la enfermedad, pero un resultado negativo es útil para descartar la enfermedad,
ya que raramente da resultados negativos en personas con la enfermedad.

140
Por otro lado, un test con una alta especificidad descartará la enfermedad en la mayoría
de las personas sin la enfermedad, pero también producirá más falsos negativos que un
test menos específico. Así, un resultado negativo en un test con una gran especificidad
no es útil para descartar la enfermedad, pero un resultado positivo es muy útil para
confirmar la enfermedad, ya que raramente da resultados positivos en personas sin la
enfermedad.

Ejemplo 5.28. Un test diagnóstico para la gripe se ha aplicado a una muestra aleatoria
de 1000 personas. Los resultados aparecen resumidos en la siguiente tabla.
Presencia de gripe 𝐸
Ausencia de gripe 𝐸
Test +
95
90
Test −
5
810
Según esta muestra, la prevalencia de la gripe puede estimarse como

95 + 5
𝑃 (𝐸) = = 0.1.
1000

La sensibilidad del test diagnóstico es

95
𝑃 (+|𝐸) = = 0.95.
95 + 5

Y la especificidad es

810
𝑃 (−|𝐸) = = 0.9.
90 + 810

Así pues, se trata de un buen test tanto para descartar la enfermedad como para confir-
marla, pero es un poco mejor para confirmarla que para descartarla porque la especifici-
dad es mayor que la sensibilidad.

Decidir entre un test con una gran sensibilidad o un test con una gran especificidad
depende del tipo de enfermedad y el objetivo del test. En general, utilizaremos un test
sensible cuando:

141
• La enfermedad es grave y es importante detectarla.
• La enfermedad es curable.
• Los falsos positivos no provocan traumas serios.

Y utilizaremos un test específico cuando:

• La enfermedad es importante pero difícil o imposible de curar.


• Los falsos positivos pueden provocar traumas serios.
• El tratamiento de los falsos positivos puede tener graves consecuencias.

5.8.2 Valores predictivos de un test diagnóstico

Pero el aspecto más importante de un test diagnóstico es su poder predictivo, que se


mide con las siguientes probabilidades a posteriori.

Definición 5.25 (Valor predictivo positivo). El valor predictivo positivo de un test diag-
nóstico es la proporción de personas con la enfermedad entre las personas con resultado
positivo en el test,

𝑉𝑃
𝑃 (𝐸|+) = .
𝑉 𝑃 + 𝐹𝑃

Definición 5.26 (Valor predictivo negativo). El valor predictivo negativo de un test


diagnóstico es la proporción de personas sin la enfermedad entre las personas con resul-
tado negativo en el test,

𝑉𝑁
𝑃 (𝐸|−) = .
𝑉 𝑁 + 𝐹𝑁

Ĺ Interpretación

Los valores predictivos positivo y negativo permiten confirmar o descartar la enfer-


medad, respectivamente, si alcanzan al menos el umbral de 0.5.

𝑉 𝑃 𝑃 > 0.5 ⇒ Diagnosticar la enfermedad


𝑉 𝑃 𝑁 > 0.5 ⇒ Diagnosticar la no enfermedad

No obstante, estas probabilidades dependen de la prevalencia de la enfermedad 𝑃 (𝐸).


Pueden calcularse a partir de la sensibilidad y la especificidad del test diagnóstico usando
el teorema de Bayes.

142
𝑃 (𝐸)𝑃 (+|𝐸)
𝑉 𝑃 𝑃 = 𝑃 (𝐸|+) =
𝑃 (𝐸)𝑃 (+|𝐸) + 𝑃 (𝐸)𝑃 (+|𝐸)
𝑃 (𝐸)𝑃 (−|𝐸)
𝑉 𝑃 𝑁 = 𝑃 (𝐸|−) =
𝑃 (𝐸)𝑃 (−|𝐸) + 𝑃 (𝐸)𝑃 (−|𝐸)

Así, con enfermedades frecuentes, el valor predictivo positivo aumenta, y con enferme-
dades raras, el valor predictivo negativo aumenta.

Ejemplo 5.29. Siguiendo con el ejemplo anterior de la gripe, se tiene que el valor
predictivo positivo del test es

95
𝑉 𝑃 𝑃 = 𝑃 (𝐸|+) = = 0.5135.
95 + 90

Como este valor es mayor que 0.5, eso significa que se diagnosticará la gripe si el resultado
del test es positivo. No obstante, la confianza en el diagnóstico será baja, ya que el valor
es poco mayor que 0.5.
Por otro lado, el valor predictivo negativo es

810
𝑉 𝑃 𝑁 = 𝑃 (𝐸|−) = = 0.9939.
5 + 810

Como este valor es casi 1, eso significa que es casi seguro que no se tiene la gripe cuando
el resultado del test es negativo.
Así, se puede concluir que este test es muy potente para descartar la gripe, pero no lo
est tanto para confirmarla.

5.8.3 Razón de verosimilitud de un test diagnóstico

La siguientes medidas también se derivan de la sensibilidad y la especificidad de un test


diagnóstico.

Definición 5.27 (Razón de verosimilitud positiva). La razón de verosimilitud positiva


de un test diagnóstico es el cociente entre la probabilidad de un resultado positivo en
personas con la enfermedad y personas sin la enfermedad, respectivamente.

𝑃 (+|𝐸) Sensibilidad
𝑅𝑉 + = = .
𝑃 (+|𝐸) 1 − Especificidad

143
Definición 5.28 (Razón de verosimilitud negativa). La razón de verosimilitud negativa
de un test diagnóstico es el cociente entre la probabilidad de un resultado negativo en
personas con la enfermedad y personas sin la enfermedad, respectivamente.

𝑃 (−|𝐸) 1 − Sensibilidad
𝑅𝑉 − = = .
𝑃 (−|𝐸) Especificidad

Ĺ Interpretación

La razón de verosimilitud positiva puede interpretarse como el número de veces


que un resultado positivo es más probable en personas con la enfermedad que en
personas sin la enfermedad.
Por otro lado, la razón de verosimilitud negativa puede interpretarse como el nú-
mero de veces que un resultado negativo es más probable en personas con la enfer-
medad que en personas sin la enfermedad.
Las probabilidades a posteriori pueden calculares a partir de las probabilidades a
priori usando las razones de verosimilitud

𝑃 (𝐸)𝑃 (+|𝐸) 𝑃 (𝐸)𝑅𝑉 +


𝑃 (𝐸|+) = =
𝑃 (𝐸)𝑃 (+|𝐸) + 𝑃 (𝐸)𝑃 (+|𝐸) 1 − 𝑃 (𝐸) + 𝑃 (𝐸)𝑅𝑉 +
Así,

• Una razón de verosimilitud positiva mayor que 1 aumenta la probabilidad de


la enfermedad.
• Una razón de verosimilitud positiva menor que 1 disminuye la probabilidad
de la enfermedad.
• Una razón de verosimilitud 1 no cambia la probabilidad a priori de la de tener
la enfermedad.

144
Figura 5.17: Razón de verosimilitud.

145
6 Estimación de parámetros poblacionales

Los modelos de distribución de probabilidad vistos en el tema anterior explican el com-


portamiento de las variables aleatorias, pero para ello debemos saber qué modelo de
distribución sigue una determinada variable. Este es el primer paso de la etapa de Infe-
rencia Estadística.
Para determinar con exactitud el modelo de distribución de una variable hay que conocer
la característica estudiada en todos los individuos de la población, lo cual no es posible
en la mayoría de los casos (inviabilidad económica, física, temporal, etc.).
Para evitar estos inconvenientes se recurre al estudio de una muestra, a partir de la cual
se trata de averiguar, de manera aproximada, el modelo de distribución de la variable en
la población.
Estudiar un número reducido de individuos de una muestra en lugar de toda la población
tiene indudables ventajas:

• Menor coste.
• Mayor rapidez.
• Mayor facilidad.

Pero también presenta algunos inconvenientes:

• Necesidad de conseguir una muestra representativa.


• Posibilidad de cometer errores (sesgos).

Afortunadamente, estos errores pueden ser superados: La representatividad de la muestra


se consigue eligiendo la modalidad de muestreo más apropiada para el tipo de estudio;
en el caso de los errores, aunque no se pueden evitar, se tratará de reducirlos al máximo
y acotarlos.

6.1 Distribuciones muestrales

Los valores de una variable 𝑋 en una muestra de tamaño 𝑛 de una población pueden
verse como el valor de una variable aleatoria 𝑛-dimensional.

146
Definición 6.1 (Variable aleatoria muestral). Una variable aleatoria muestral de una va-
riable 𝑋 estudiada en una población es una colección de 𝑛 variables aleatorias 𝑋1 , … , 𝑋𝑛
tales que:

• Cada una de las variables 𝑋𝑖 sigue la misma distribución de probabilidad que la


variable 𝑋 en la población.
• Todas las variables 𝑋𝑖 son mutuamente independientes.

Los valores que puede tomar esta variable 𝑛 dimensional, serán todas las posibles mues-
tras de tamaño 𝑛 que pueden extraerse de la población.
Las tres características fundamentales de la variable aleatoria muestral son:

• Homogeneidad: Las 𝑛 variables que componen la variable aleatoria muestral


siguen la misma distribución.
• Independencia: Las variables son independientes entre sí.
• Modelo de distribución: El modelo de distribución que siguen las 𝑛 variables.

Las dos primeras cuestiones pueden resolverse si se utiliza muestreo aleatorio simple
para obtener la muestra. En cuanto a la última, hay que responder, a su vez, a dos
cuestiones:

1. ¿Qué modelo de distribución se ajusta mejor a nuestro conjunto de datos? Esto se


resolverá, en parte, mediante la utilización de técnicas no paramétricas.
2. Una vez seleccionado el modelo de distribución más apropiado, ¿qué estadístico
del modelo nos interesa y cómo determinar su valor? De esto último se encarga la
parte de la inferencia estadística conocida como Estimación de Parámetros.

En este tema se abordará la segunda cuestión, es decir, suponiendo que se conoce el


modelo de distribución de una población, se intentará estimar los principales parámetros
que la definen. Por ejemplo, los principales parámetros que definen las distribuciones
vistas en el tema anterior son:

Distribución Parámetro
Binomial 𝑛, 𝑝
Poisson 𝜆
Uniforme 𝑎, 𝑏
Normal 𝜇, 𝜎
Chi-cuadrado 𝑛
T-Student 𝑛
F-Fisher 𝑚, 𝑛

La distribución de probabilidad de los valores de la variable muestral depende claramente


de la distribución de probabilidad de los valores de la población.

147
Ejemplo 6.1. Sea una población en la que la cuarta parte de las familias no tienen
hijos, la mitad de las familias tiene 1 hijo, y el resto tiene 2 hijos.

Por ser función de una variable aleatoria, un estadístico en el muestreo es también una
variable aleatoria. Por tanto, su distribución de probabilidad también depende de la
distribución de la población y de los parámetros que la determinan (𝜇, 𝜎, 𝑝, …).

Ejemplo 6.2. Si se toma la media muestral 𝑋̄ de las muestras de tamaño 2 del ejemplo
anterior, su distribución de probabilidad es

Distribución muestral
(𝑋1 , 𝑋2 ) 𝑃(𝑥1 , 𝑥2 )
Distribución
(0, 0) 0.0625 de 𝑥 ̄
(0, 1) 0.1250 𝑋 ̄ 𝑃(𝑥)
(0, 2) 0.0625
𝑋1 +𝑋2 0 0.0625
(1, 0) 0.1250 𝑥̄ = 2 0.5 0.2500
(1, 1) 0.2500
1 0.3750
(1, 2) 0.1250
1.5 0.2500
(2, 0) 0.0625
2 0.0625
(2, 1) 0.1250
(2, 2) 0.0625

¿Cuál es la probabilidad de obtener una media muestral que aproxime la media poblacional
con un error máximo de 0.5?
Como hemos visto, para conocer la distribución de un estadístico muestral, es necesario
conocer la distribución de la población, lo cual no siempre es posible. Afortunadamente,
para muestras grandes es posible aproximar la distribución de algunos estadísticos como
la media, gracias al siguiente teorema:

148
Teorema 6.1 (Teorema central del límite). Si 𝑋1 , … , 𝑋𝑛 son variables aleatorias in-
dependientes (𝑛 ≥ 30) con medias y varianzas 𝜇𝑖 = 𝐸(𝑋𝑖 ), 𝜎𝑖2 = 𝑉 𝑎𝑟(𝑋𝑖 ), 𝑖 = 1, … , 𝑛
respectivamente, entonces la variable aleatoria 𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 sigue una distribución
aproximadamente normal de media la suma de las medias y varianza la suma de las
varianzas

𝑛 𝑛
𝑛≥30
𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 ∼ 𝑁 (∑ 𝜇𝑖 , √∑ 𝜎𝑖2 )
𝑖=1 𝑖=1

Este teorema además es la explicación de que la mayoría de las variables biológicas


presenten una distribución normal, ya que suelen ser causa de múltiples factores que
suman sus efectos de manera independiente.

6.1.1 Distribución de la media muestral para muestras grandes (𝑛 ≥ 30)

La media muestral de una muestra aleatoria de tamaño 𝑛 es la suma de 𝑛 variables


aleatorias independientes, idénticamente distribuidas:

𝑋 + ⋯ + 𝑋𝑛 𝑋 𝑋
𝑋̄ = 1 = 1 +⋯+ 𝑛
𝑛 𝑛 𝑛

De acuerdo a las propiedades de las transformaciones lineales, la media y la varianza de


cada una de estas variables son

𝑋𝑖 𝜇 𝑋𝑖 𝜎2
𝐸( )= y 𝑉 𝑎𝑟 ( )= 2
𝑛 𝑛 𝑛 𝑛

con 𝜇 y 𝜎2 la media y la varianza de la población de partida.


Entonces, si el tamaño de la muestra es grande (𝑛 ≥ 30), de acuerdo al teorema central
del límite, la distribución de la media muestral será normal:

149
𝑛 𝑛
̄ 𝜇 𝜎2 𝜎

𝑋 ∼ 𝑁 (∑ , ∑ 2 ) = 𝑁 (𝜇, √ ) .
𝑖=1
𝑛 𝑖=1
𝑛 𝑛

Ejemplo 6.3 (Ejemplo para muestras grandes (𝑛 ≥ 30)). Supóngase que se desea
estimar el número medio de hijos de una población con media 𝜇 = 2 hijos y desviación
típica 𝜎 = 1 hijo.
¿Qué probabilidad hay de estimar 𝜇 a partir de 𝑥̄ con un error menor de 0.2?
De acuerdo al teorema central del límite se tiene:

1. Para 𝑛 = 30, 𝑥̄ ∼ 𝑁 (2, 1/ 30) y

𝑃 (1.8 < 𝑥̄ < 2.2) = 0.7267.



1. Para 𝑛 = 100, 𝑥̄ ∼ 𝑁 (2, 1/ 100) y

𝑃 (1.8 < 𝑥̄ < 2.2) = 0.9545.

Distribuciones de la media del nº de hijos


4

n=100
n=30
3
Densidad 𝑓 (𝑥)
2
1
0

1.0 1.5 2.0 2.5 3.0


𝑥̄

150
6.1.2 Distribución de una proporción muestral para muestras grandes
(𝑛 ≥ 30)

Una proporción 𝑝 poblacional puede calcularse como la media de una variable dicotómica
(0,1). Esta variable se conoce como variable de Bernouilli 𝐵(𝑝), que es un caso particular
de la binomial para 𝑛 = 1. Por tanto, para una muestra aleatoria de tamaño 𝑛, una
proporción muestral 𝑝̂ también puede expresarse como la suma de 𝑛 variables aleatorias
independientes, idénticamente distribuidas:

𝑋1 + ⋯ + 𝑋𝑛 𝑋 𝑋
𝑝̂ = 𝑋̄ = = 1 + ⋯ + 𝑛 , con 𝑋𝑖 ∼ 𝐵(𝑝)
𝑛 𝑛 𝑛

y con media y varianza

𝑋𝑖 𝑝 𝑋𝑖 𝑝(1 − 𝑝)
𝐸( )= y 𝑉 𝑎𝑟 ( )=
𝑛 𝑛 𝑛 𝑛2

Entonces, si el tamaño de la muestra es grande (𝑛 ≥ 30), de acuerdo al teorema central


del límite, la distribución de la proporción muestral también será normal:

𝑛 𝑛
𝑝 𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
𝑝̂ ∼ 𝑁 (∑ , √∑ 2
) = 𝑁 (𝑝, √ ).
𝑖=1
𝑛 𝑖=1
𝑛 𝑛

6.2 Estimadores

Los estadísticos muestrales pueden utilizarse para aproximar los parámetros de la pobla-
ción, y cuando un estadístico se utiliza con este fin se le llama estimador del parámetro.

Definición 6.2 (Estimador y estimación). Un estimador es una función de la variable


aleatoria muestral

𝜃 ̂ = 𝐹 (𝑋1 , … , 𝑋𝑛 ).

Dada una muestra concreta (𝑥1 , … , 𝑥𝑛 ), el valor del estimador aplicado a ella se conoce
como estimación

𝜃0̂ = 𝐹 (𝑥1 , … , 𝑥𝑛 ).

151
Por ser una función de la variable aleatoria muestral, un estimador es, a su vez, una
variable aleatoria cuya distribución depende de la población de partida.
Mientras que el estimador es una función que es única, la estimación no es única, sino
que depende de la muestra tomada.

Distribución de la población
𝑋 Parámetro poblacional ¿𝜃?

Variable aleatoria muestral


(𝑋1 , … , 𝑋𝑛 ) Estimador 𝜃 ̂ = 𝐹(𝑋1 , … , 𝑋𝑛 )

Muestra de tamaño 𝑛
(𝑥1 , … , 𝑥𝑛 ) Estimación 𝜃0̂ = 𝐹(𝑥1 , … , 𝑥𝑛 )

Ejemplo 6.4. Supóngase que se quiere saber la proporción 𝑝 de fumadores en una


ciudad. En ese caso, la variable dicotómica que mide si una persona fuma (1) o no (0),
sigue una distribución de Bernouilli 𝐵(𝑝).
Si se toma una muestra aleatoria de tamaño 5, (𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 , 𝑋5 ), de esta población,
se puede utilizar la proporción de fumadores en la muestra como estimador para la
proporción de fumadores en la población:

5
∑ 𝑋𝑖
𝑝̂ = 𝑖=1
5

Este estimador es una variable que se distribuye 𝑝̂ ∼ 𝑛1 𝐵 (𝑝, √ 𝑝(1−𝑝)


𝑛 ).

Si se toman distintas muestras, se obtienen diferentes estimaciones:

Muestra Estimación
(1, 0, 0, 1, 1) 3/5
(1, 0, 0, 0, 0) 1/5
(0, 1, 0, 0, 1) 2/5
⋯ ⋯

152
La estimación de parámetros puede realizar de de dos formas:

• Estimación puntual: Se utiliza un único estimador que proporciona un valor o


estimación aproximada del parámetro. El principal inconveniente de este tipo de
estimación es que no se especifica la bondad de la estimación.
• Estimación por intervalos: Se utilizan dos estimadores que proporcionan los
extremos de un intervalo dentro del cual se cree que está el verdadero valor del
parámetro con un cierto grado de seguridad. Esta forma de estimar sí permite
controlar el error cometido en la estimación.

Estimación puntual Estimación por intervalo


[ ]
𝜃 𝜃0̂ 𝑙1 𝜃 𝑙2

6.3 Estimación puntual

La estimación puntual utiliza un único estimador para estimar el valor del parámetro
desconocido de la población.
En teoría pueden utilizarse distintos estimadores para estimar un mismo parámetro.
Por ejemplo, en el caso de estimar la proporción de fumadores en una ciudad, podrían
haberse utilizado otros posibles estimadores además de la proporción muestral, como
pueden ser:

𝜃1̂ = √
5
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
𝑋 + 𝑋5
𝜃2̂ = 1
2
𝜃3̂ = 𝑋1 ⋯

¿Cuál es el mejor estimador?


La respuesta a esta cuestión depende de las propiedades de cada estimador.
Aunque la estimación puntual no proporciona ninguna medida del grado de bondad de
la estimación, existen varias propiedades que garantizan dicha bondad.
Las propiedades más deseables en un estimador son:

• Insesgadez
• Eficiencia
• Consistencia

153
• Normalidad asintótica
• Suficiencia

Definición 6.3 (Estimador insesgado). Un estimador 𝜃 ̂ es insesgado para un parámetro


𝜃 si su esperanza es precisamente 𝜃, es decir,

𝐸(𝜃)̂ = 𝜃.

Distribuciones de estimadores sesgados e insesgados


0.4

Insesgado
Sesgo -
Sesgo +
0.3
Densidad 𝑓 (𝑥)
0.2
0.1
0.0

𝜃
Valores de los estimadores

Figura 6.1: Distribución de estimadores sesgados e insesgados.

Cuando un estimador no es insesgado, a la diferencia entre su esperanza y el valor del


parámetro 𝜃 se le llama sesgo:

𝑆𝑒𝑠𝑔𝑜(𝜃)̂ = 𝐸(𝜃)̂ − 𝜃.

Cuanto menor sea el sesgo de un estimador, mejor se aproximarán sus estimaciones al


verdadero valor del parámetro.

Definición 6.4 (Estimador consistente). Un estimador 𝜃𝑛̂ para muestras de tamaño 𝑛


es consistente para un parámetro 𝜃 si para cualquier valor 𝜖 > 0 se cumple

lim 𝑃 (|𝜃𝑛̂ − 𝜃| < 𝜖) = 1.


𝑛→∞

154
Distribuciones de estimadores consistentes sesgados
Distribuciones de estimadores consistentes

0.4
n=10
0.4

n=10 n=50
n=50 n=100

0.3
n=100
0.3

Densidad 𝑓 (𝑥)
Densidad 𝑓 (𝑥)

0.2
0.2

0.1
0.1

0.0
0.0

𝜃
𝜃
Valores de los estimadores
Valores de los estimadores
(b) Distribución de estimadores consistentes se-
(a) Distribución de estimadores consistentes.
gados.

Las condiciones suficientes para que un estimador sea consistente son:

1. 𝑆𝑒𝑠𝑔𝑜(𝜃𝑛̂ ) = 0 o lim𝑛→∞ 𝑆𝑒𝑠𝑔𝑜(𝜃𝑛̂ ) = 0.


2. lim𝑛→∞ 𝑉 𝑎𝑟(𝜃𝑛̂ ) = 0.

Así pues, si la varianza y el sesgo disminuyen a medida que aumenta el tamaño de la


muestra, el estimador será consistente.

Definición 6.5 (Estimador eficiente). Un estimador 𝜃 ̂ de un parámetro 𝜃 es eficiente si


tiene el menor error cuadrático medio

𝐸𝐶𝑀 (𝜃)̂ = 𝑆𝑒𝑠𝑔𝑜(𝜃)̂ 2 + 𝑉 𝑎𝑟(𝜃).

155
Distribuciones de estimadores insesgado y eficiente sesgado

0.4
Insesgado
Eficiente
0.3
Densidad 𝑓 (𝑥)
0.2
0.1
0.0

𝜃
Valores de los estimadores

Figura 6.3: Distribución de estimadores insesgados y eficientes sesgados.

Definición 6.6 (Estimador asintóticamente normal). Un estimador 𝜃 ̂ es asintóticamente


normal si, independientemente de la distribución de la variable aleatoria muestral, su
distribución es normal si el tamaño de la muestra es suficientemente grande.:::

Como veremos más adelante esta propiedad es muy interesante para hacer estimaciones
de parámetros mediante intervalos.

156
Distribuciones de estimadores asintóticamente normales

n=10
n=50
0.08 n=100
Densidad 𝑓 (𝑥)
0.06
0.04
0.02
0.00

𝜃
Valores de los estimadores

Figura 6.4: Distribución de estimadores asintóticamente normales.

Definición 6.7 (Estimador suficiente). Un estimador 𝜃 ̂ es suficiente para un parámetro


𝜃, si la distribución condicionada de la variable aleatoria muestral, una vez dada la
estimación 𝜃 ̂ = 𝜃0̂ , no depende de 𝜃.

Esto significa que cuando se obtiene una estimación, cualquier otra información es irre-
levante para 𝜃.
El estimador que se suele utilizar para estimar la media poblacional es la media mues-
tral.
Para muestras de tamaño 𝑛 resulta la siguiente variable aleatoria:

𝑋 + ⋯ + 𝑋𝑛
𝑋̄ = 1
𝑛

Si la población de partida tiene media 𝜇 y varianza 𝜎2 se cumple

𝜎2
𝐸(𝑋)̄ = 𝜇 y 𝑉 𝑎𝑟(𝑋)̄ =
𝑛

Así pues, la media muestral es un estimador insesgado, y como su varianza disminuye a


medida que aumenta el tamaño muestral, también es consistente y eficiente.
Sin embargo, la varianza muestral

157
𝑛
∑𝑖=1 (𝑋𝑖 − 𝑋)̄ 2
2
𝑆 =
𝑛

es un estimador sesgado para la varianza poblacional, ya que

𝑛−1 2
𝐸(𝑆 2 ) = 𝜎 .
𝑛

No obstante, resulta sencillo corregir este sesgo para llegar a un estimador insesgado:

Definición 6.8 (Cuasivarianza muestral). Dada una muestra de tamaño 𝑛 de una va-
riable aleatoria 𝑋, se define la cuasivarianza muestral como

𝑛
∑𝑖=1 (𝑋𝑖 − 𝑋)̄ 2 𝑛
𝑆 2̂ = = 𝑆 2.
𝑛−1 𝑛−1

6.4 Estimación por intervalos

El principal problema de la estimación puntual es que, una vez seleccionada la muestra


y hecha la estimación, resulta imposible saber el error cometido.

Estimación puntual
Error
|
𝜃 𝜃0̂

Para controlar el error de la estimación es mejor utilizar la estimación por intervalos

Estimación por intervalo


Error
[ ]
𝑙1 𝜃 𝑙2

La estimación por intervalos trata de construir a partir de la muestra un intervalo dentro


del cual se supone que se encuentra el parámetro a estimar con un cierto grado de
confianza. Para ello se utilizan dos estimadores, uno para el límite inferior del intervalo
y otro para el superior.

158
Definición 6.9 (Intervalo de confianza). Dados dos estimadores 𝑙𝑖̂ (𝑋1 , … , 𝑋𝑛 ) y
𝑙𝑠̂ (𝑋1 , … , 𝑋𝑛 ), y sus respectivas estimaciones 𝑙1 y 𝑙2 para una muestra concreta, se dice
que el intervalo 𝐼 = [𝑙1 , 𝑙2 ] es un intervalo de confianza para un parámetro poblacional
𝜃, con un nivel de confianza 1 − 𝛼 (o nivel de significación 𝛼), si se cumple

𝑃 (𝑙𝑖̂ (𝑋1 , … , 𝑋𝑛 ) ≤ 𝜃 ≤ 𝑙𝑠̂ (𝑋1 , … , 𝑋𝑛 )) = 1 − 𝛼.

Un intervalo de confianza nunca garantiza con absoluta certeza que el parámetro se


encuentra dentro él.
Tampoco se puede decir que la probabilidad de que el parámetro esté dentro del intervalo
es 1 − 𝛼, ya que una vez calculado el intervalo, las variables aleatorias que determinan
sus extremos han tomado un valor concreto y ya no tiene sentido hablar de probabilidad,
es decir, o el parámetro está dentro, o está fuera, pero con absoluta certeza.
Lo que si se deduce de la definición es que el (1 − 𝛼)% de los intervalos correspondientes
a las todas las posibles muestras aleatorias, contendrán al parámetro. Es por eso que se
habla de confianza y no de probabilidad.
Para que un intervalo sea útil su nivel de confianza debe ser alto:

1 − 𝛼 = 0.90 o 𝛼 = 0.10
1 − 𝛼 = 0.95 o 𝛼 = 0.05
1 − 𝛼 = 0.99 o 𝛼 = 0.01

siendo 0.95 el nivel de confianza más habitual y 0.99 en casos críticos.


Teóricamente, de cada 100 intervalos para estimar un parámetro 𝜃 con nivel de confianza
1 − 𝛼 = 0.95, 95 contendrían a 𝜃 y sólo 5 lo dejarían fuera.

159
Intervalo de confianza 50 intervalos de confianza del 95% para θ
θ

0 20 40 60 80 100
Nº de muestra

6.4.1 Error de estimación

Otro de los aspectos más importantes de un intervalo de confianza es su error.

Definición 6.10 (Error o imprecisión de un intervalo). El error o la imprecisión de un


intervalo de confianza [𝑙𝑖 , 𝑙𝑠 ] es su amplitud

𝐴 = 𝑙 𝑠 − 𝑙𝑖 .

Estimación por intervalo


Error
[ ]
𝑙1 𝜃 𝑙2

Para que un intervalo sea útil no debe ser demasiado impreciso.


En general, la precisión de un intervalo depende de tres factores:

• La dispersión de la población. Cuanto más dispersa sea, menos preciso será el


intervalo.
• El nivel de confianza. Cuanto mayor sea el nivel de confianza, menos preciso será
el intervalo.

160
• El tamaño muestral. Cuanto mayor sea el tamaño muestral, más preciso será el
intervalo.

Si la confianza y la precisión están reñidas, ¿cómo se puede ganar precisión


sin perder confianza?

Habitualmente, para calcular un intervalo de confianza se suele partir de un estimador


puntual del que se conoce su distribución muestral.
A partir de este estimador se calculan los extremos del intervalo sobre su distribución,
buscando los valores que dejan encerrada una probabilidad 1 − 𝛼. Estos valores suelen
tomarse de manera simétrica, de manera que el extremo inferior deje una probabilidad
acumulada inferior 𝛼/2 y el extremo superior deje una probabilidad acumulada superior
también de 𝛼/2.

Distribución del estimador de referencia

Densidad 𝑓 (𝑥)

1−𝛼

𝛼/2 𝛼/2

𝑙𝑖 𝑙𝑠
𝑋

6.5 Intervalos de confianza para una población

A continuación se presentan los intervalos de confianza para estimar un parámetro de


una poblacion:

• Intervalo para la media de una población normal con varianza conocida.


• Intervalo para la media de una población normal con varianza desconocida.
• Intervalo para la media de una población con varianza desconocida a partir de
muestras grandes.
• Intervalo para la varianza de una población normal.
• Intervalo para un proporción de una población.

161
6.5.1 Intervalo de confianza para la media de una población normal con
varianza conocida

Sea 𝑋 una variable aleatoria que cumple las siguientes hipótesis:

• Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


• La media 𝜇 es desconocida, pero su varianza 𝜎2 es conocida.

Bajo estas hipótesis, la media muestral, para muestras de tamaño 𝑛, sigue también una
distribución normal

𝜎
𝑋̄ ∼ 𝑁 (𝜇, √ )
𝑛

Tipificando la variable se tiene

𝑋̄ − 𝜇
𝑍= √ ∼ 𝑁 (0, 1)
𝜎/ 𝑛

Sobre esta distribución resulta sencillo calcular los valores 𝑧𝑖 y 𝑧𝑠 de manera que

𝑃 (𝑧𝑖 ≤ 𝑍 ≤ 𝑧𝑠 ) = 1 − 𝛼.

Como la distribución normal estándar es simétrica respecto al 0, lo mejor es tomar valores


opuestos −𝑧𝛼/2 y 𝑧𝛼/2 que dejen sendas colas de probabilidad acumulada 𝛼/2.

Distribución 𝑁(0, 1)
0.4
0.3
Densidad 𝑓 (𝑥)
0.2

1−𝛼
0.1

𝛼/2 𝛼/2
0.0

−𝑧𝛼/2 0 𝑧𝛼/2
𝑍

162
A partir de aquí, deshaciendo la tipificación, resulta sencillo llegar a los estimadores que
darán los extremos del intervalo de confianza:

𝑋̄ − 𝜇
1 − 𝛼 = 𝑃 (−𝑧𝛼/2 ≤ 𝑍 ≤ 𝑧𝛼/2 ) = 𝑃 (−𝑧𝛼/2 ≤ √ ≤ 𝑧𝛼/2 ) =
𝜎/ 𝑛
𝜎 𝜎
= 𝑃 (−𝑧𝛼/2 √ ≤ 𝑋̄ − 𝜇 ≤ 𝑧𝛼/2 √ ) =
𝑛 𝑛
𝜎 𝜎
= 𝑃 (−𝑋̄ − 𝑧𝛼/2 √ ≤ −𝜇 ≤ −𝑋̄ + 𝑧𝛼/2 √ ) =
𝑛 𝑛
𝜎 𝜎
= 𝑃 (𝑋̄ − 𝑧𝛼/2 √ ≤ 𝜇 ≤ 𝑋̄ + 𝑧𝛼/2 √ ) .
𝑛 𝑛

Así pues, el intervalo de confianza para la media de una población normal con varianza
conocida es:

Teorema 6.2 (Intervalo de confianza para la media de una población normal con varian-
za conocida). Si 𝑋 ∼ 𝑁 (𝜇, 𝜎) con 𝜎 conocida, el intervalo de confianza para la media 𝜇
con nivel de confianza 1 − 𝛼 es

𝜎 𝜎
[𝑋̄ − 𝑧𝛼/2 √ , 𝑋̄ + 𝑧𝛼/2 √ ]
𝑛 𝑛
o bien
𝜎
𝑋̄ ± 𝑧𝛼/2 √
𝑛

De la fórmula del intervalo de confianza

𝜎
𝑋̄ ± 𝑧𝛼/2 √
𝑛

se deducen varias características:

a. El intervalo está centrado en la media muestral 𝑋̄ que era el mejor estimador de


la media poblacional.
b. La amplitud o imprecisión del intervalo es

𝜎
𝐴 = 2𝑧𝛼/2 √
𝑛

de manera que depende de:

• 𝜎: cuanto mayor sea la varianza poblacional, mayor será la imprecisión.

163
• 𝑧𝛼/2 : que a su vez depende del nivel de confianza, y cuanto mayor sea 1 − 𝛼, mayor
será la imprecisión.
• 𝑛: cuanto mayor sea el tamaño de la muestra, menor será la imprecisión.

Por tanto, la única forma de reducir la imprecisión del intervalo, manteniendo la con-
fianza, es aumentando el tamaño muestral.

6.5.1.1 Cálculo del tamaño muestra para estimar la media de una población normal
con varianza conocida

Teniendo en cuenta que la amplitud o imprecisión del intervalo para la media de una
población normal con varianza conocida es

𝜎
𝐴 = 2𝑧𝛼/2 √
𝑛

se puede calcular fácilmente el tamaño muestral necesario para conseguir un intervalo


de amplitud 𝐴 con confianza 1 − 𝛼:

𝜎 √ 𝜎
𝐴 = 2𝑧𝛼/2 √ ⇔ 𝑛 = 2𝑧𝛼/2 ,
𝑛 𝐴

de donde se deduce

2 𝜎2
𝑛 = 4𝑧𝛼/2
𝐴2

Ejemplo 6.5. Sea una población de estudiantes en la que la puntuación obtenida en un


examen sigue una distribución normal 𝑋 ∼ 𝑁 (𝜇, 𝜎 = 1.5).
Para estimar la nota media 𝜇, se toma una muestra de 10 estudiantes:

4−6−8−7−7−6−5−2−5−3

A partir de esta muestra, podemos calcular el intervalo de confianza para 𝜇 con un nivel
de confianza 1 − 𝛼 = 0.95 (nivel de significación 𝛼 = 0.05):

• 𝑋̄ = 4+⋯+3
10
53
= 10 = 5.3 puntos.
• 𝑧𝛼/2 = 𝑧0.025 es el valor de la normal estándar que deja una probabilidad acumulada
superior de 0.025, que vale aproximadamente 1.96.

164
Sustituyendo estos valores en la fórmula del intervalo, se tiene

𝜎 1.5
𝑋̄ ± 𝑧𝛼/2 √ = 5.3 ± 1.96 √ = 5.3 ± 0.93 = [4.37, 6.23] .
𝑛 10

Es decir, 𝜇 estaría entre 4.37 y 6.23 puntos con un 95% de confianza.

Ejemplo 6.6. La imprecisión del intervalo anterior es de ±0.93 puntos.


Si se desea reducir esta imprecisión a ±0.5 puntos, ¿qué tamaño muestral sería necesario?

2 𝜎2 2 1.52
𝑛 = 4𝑧𝛼/2 = 4 ⋅ 1.96 = 34.57.
𝐴2 (2 ⋅ 0.5)2

Por tanto, se necesitaría una muestra de al menos 35 estudiantes para conseguir un


intervalo del 95% de confianza y una precisión de ±0.5 puntos.

6.5.2 Intervalo de confianza para la media de una población normal con


varianza desconocida

Sea 𝑋 una variable aleatoria que cumple las siguientes hipótesis:

• Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

Cuando se desconoce la varianza poblacional se suele estimar mediante la cuasivarianza


𝑆 2̂ . Como consecuencia, el estimador de referencia ya no sigue una distribución normal
como en el caso de conocer la varianza, sino un T de Student de 𝑛−1 grados de libertad:

𝑋̄ ∼ 𝑁 (𝜇, √𝜎𝑛 ) ⎫
} 𝑋̄ − 𝜇
(𝑛 − 1)𝑆 2̂ ⇒ √ ∼ 𝑇 (𝑛 − 1),
∼ 𝜒2 (𝑛 − 1) ⎬
} 𝑆/̂ 𝑛
𝜎2 ⎭

Como la distribución T de Student, al igual que la normal, también es simétrica respecto


al 0, se pueden tomar dos valores opuestos −𝑡𝑛−1 𝑛−1
𝛼/2 y 𝑡𝛼/2 de manera que

𝑋̄ − 𝜇
1 − 𝛼 = 𝑃 (−𝑡𝑛−1
𝛼/2 ≤
𝑛−1
√ ≤ 𝑡𝛼/2 )
𝑆/̂ 𝑛
𝑆̂ ̂
̄ − 𝜇 ≤ 𝑡𝑛−1 √𝑆 )
= 𝑃 (−𝑡𝑛−1
𝛼/2
√ ≤ 𝑋 𝛼/2
𝑛 𝑛
𝑆̂ ̂
̄ 𝑛−1 √𝑆 )
= 𝑃 (𝑋̄ − 𝑡𝑛−1
𝛼/2
√ ≤ 𝜇 ≤ 𝑋𝑡 𝛼/2
𝑛 𝑛

165
Teorema 6.3 (Intervalo de confianza para la media de una población normal con va-
rianza desconocida). Si 𝑋 ∼ 𝑁 (𝜇, 𝜎) con 𝜎 desconocida, el intervalo de confianza para
la media 𝜇 con nivel de confianza 1 − 𝛼 es

𝑆̂ 𝑆̂
[𝑋̄ − 𝑡𝑛−1
𝛼/2
√ , 𝑋̄ + 𝑡𝑛−1
𝛼/2
√ ]
𝑛 𝑛

o bien

𝑆̂
𝑋̄ ± 𝑡𝑛−1
𝛼/2

𝑛

6.5.2.1 Calculo del tamaño muestral para estimar la media de una población
normal con varianza desconocida

Al igual que antes, teniendo en cuenta que la amplitud o imprecisión del intervalo para
la media de una población con varianza desconocida es

𝑆̂
𝐴 = 2𝑡𝑛−1
𝛼/2

𝑛

se puede calcular fácilmente el tamaño muestral necesario para conseguir un intervalo


de amplitud 𝐴 con confianza 1 − 𝛼:

𝑆̂ √ 𝑛−1 𝑆
̂
𝐴 = 2𝑡𝑛−1
𝛼/2
√ ⇔ 𝑛 = 2𝑡 𝛼/2 ,
𝑛 𝐴

de donde se deduce

𝑆 2̂
𝑛 = 4(𝑡𝑛−1
𝛼/2 )
2
𝐴2

El único problema, a diferencia del caso anterior en que 𝜎 era conocida, es que se necesita
𝑆,̂ por lo que se suele tomar una muestra pequeña previa para calcularla. Por otro lado, el
valor de la T de student suele aproximarse asintóticamente por el de la normal estándar
𝑡𝑛−1
𝛼/2 ≈ 𝑧𝛼/2 .

166
Ejemplo 6.7. Supóngase que en el ejemplo anterior no se conoce la varianza poblacional
de las puntuaciones.
Trabajando con la misma muestra de las puntuaciones de 10 estudiantes

4−6−8−7−7−6−5−2−5−3

se puede calcular el intervalo de confianza para 𝜇 con un nivel de confianza 1 − 𝛼 = 0.95


(nivel de significación 𝛼 = 0.05):

• 𝑋̄ = 4+⋯+3
10
53
= 10 = 5.3 puntos.
2̂ (4−5.3) +⋯+(3−5.3)2
2 √
• 𝑆 = 9 = 3.5667 y 𝑆 ̂ = 3.5667 = 1.8886 puntos.
• 𝑡𝑛−1 9
𝛼/2 = 𝑡0.025 es el valor de la T de Student de 9 grados de libertad, que deja una
probabilidad acumulada superior de 0.025, que vale 2.2622.

Sustituyendo estos valores en la fórmula del intervalo, se tiene

𝑆̂ 1.8886
𝑋̄ ± 𝑡𝑛−1
𝛼/2
√ = 5.3 ± 2.2622 √ = 5.3 ± 1.351 = [3.949, 6.651] .
𝑛 10

Ejemplo 6.8. Como se puede apreciar, la imprecisión del intervalo anterior es de


±1.8886 puntos, que es significativamente mayor que en el caso de conocer la varian-
za de la población. Esto es lógico pues al tener que estimar la varianza de la población,
el error de la estimación se agrega al error del intervalo.
Ahora, el tamaño muestral necesario para reducir la imprecisión a ±0.5 puntos es

𝑆 2̂ 3.5667
𝑛 = 4(𝑧𝛼/2 )2 = 4 ⋅ 1.962 = 54.81.
𝐴2 (2 ⋅ 0.5)2

Por tanto, si se desconoce la varianza de la población se necesita una muestra de al


menos 55 estudiantes para conseguir un intervalo del 95% de confianza y una precisión
de ±0.5 puntos.

6.5.3 Intervalo de confianza para la media de una población no normal

Sea 𝑋 una variable aleatoria que cumple las siguientes hipótesis:

• Su distribución no es normal.
• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

167
Si la población no es normal las distribuciones de los estimadores de referencia cambian,
de manera que los intervalos anteriores no son válidos.
No obstante, si la muestras es grande (𝑛 ≥ 30), de acuerdo al teorema central del límite,
la distribución de la media muestral se aproximará a una normal, de modo que sigue
siendo cierto

𝜎
𝑋̄ ∼ 𝑁 (𝜇, √ )
𝑛

En consecuencia, sigue siendo válido el intervalo anterior.

Teorema 6.4 (Intervalo de confianza para la media de una población no normal con
muestras grandes). Si 𝑋 es una variable con distribución no normal y 𝑛 ≥ 30, el intervalo
de confianza para la media 𝜇 con nivel de confianza 1 − 𝛼 es

𝑆̂
𝑋̄ ± 𝑡𝑛−1
𝛼/2

𝑛

6.5.4 Intervalo de confianza para la varianza de una población normal

Sea 𝑋 una variable aleatoria que cumple las siguientes hipótesis:

1. Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


2. Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

Para estimar la varianza de una población normal, se parte del estimador de referencia

𝑛𝑆 2 (𝑛 − 1)𝑆 2̂
= ∼ 𝜒2 (𝑛 − 1),
𝜎2 𝜎2

que sigue una distribución chi-cuadrado de 𝑛 − 1 grados de libertad.


Sobre esta distribución hay que calcular los valores 𝜒𝑖 y 𝜒𝑠 tales que

𝑃 (𝜒𝑖 ≤ 𝜒2 (𝑛 − 1) ≤ 𝜒𝑠 ) = 1 − 𝛼.

Como la distribución chi-cuadrado no es simétrica respecto al 0, se toman dos valores


𝜒𝑛−1 𝑛−1
𝛼/2 y 𝜒1−𝛼/2 que dejen sendas colas de probabilidad acumulada inferior de 𝛼/2 y 1−𝛼/2
respectivamente.

168
Distribución 𝜒 2 (𝑛 − 1)

Densidad 𝑓 (𝑥)

1−𝛼

𝛼/2 𝛼/2
𝑛−1
𝜒𝛼/2 𝑛−1
𝜒1−𝛼/2
𝜒2

Así pues, se tiene

𝑛𝑆 2 1 𝜎2 1
1 − 𝛼 = 𝑃 (𝜒𝑛−1
𝛼/2 ≤ ≤ 𝜒 𝑛−1
1−𝛼/2 ) = 𝑃 ( ≥ ≥ 𝑛−1 ) =
𝜎2 𝜒𝑛−1
𝛼/2
𝑛𝑆 2 𝜒1−𝛼/2

1 𝜎2 1 𝑛𝑆 2 2 𝑛𝑆 2
=𝑃( ≤ ≤ ) = 𝑃 ( ≤ 𝜎 ≤ ).
𝜒𝑛−1
1−𝛼/2
𝑛𝑆 2 𝜒𝑛−1
𝛼/2 𝜒𝑛−1
1−𝛼/2 𝜒𝑛−1
𝛼/2

Por tanto, el intervalo de confianza para la varianza de una población normal es:

Teorema 6.5 (Intervalo de confianza para la varianza de una población normal). Si


𝑋 ∼ 𝑁 (𝜇, 𝜎) con 𝜎 conocida, el intervalo de confianza para la varianza 𝜎2 con nivel de
confianza 1 − 𝛼 es

𝑛𝑆 2 𝑛𝑆 2
[ , 𝑛−1 ]
𝜒𝑛−1
1−𝛼/2 𝜒𝛼/2

Ejemplo 6.9. Siguiendo con el ejemplo de las puntuaciones en un examen, si se quiere


estimar la varianza a partir de la muestra:

4−6−8−7−7−6−5−2−5−3

169
para el intervalo de confianza para 𝜎2 con un nivel de confianza 1 − 𝛼 = 0.95 (nivel de
significación 𝛼 = 0.05) se tiene:
2 2
• 𝑆 2 = (4−5.3) +⋯+(3−5.3)
10 = 3.21 puntos2 .
𝑛−1 9
• 𝜒𝛼/2 = 𝜒0.025 es el valor de la chi-cuadrado de 9 grados de libertad, que deja una
probabilidad acumulada inferior de 0.025, y vale 2.7.
• 𝜒𝑛−1 9
1−𝛼/2 = 𝜒0.975 es el valor de la chi-cuadrado de 9 grados de libertad, que deja
una probabilidad acumulada inferior de 0.975, y vale 19.

Sustituyendo estos valores en la fórmula del intervalo, se llega a

𝑛𝑆 2 𝑛𝑆 2 10 ⋅ 3.21 10 ⋅ 3.21
[ , 𝑛−1 ] = [ , ] = [1.69, 11.89] puntos2 .
𝜒𝑛−1
1−𝛼/2 𝜒𝛼/2
19 2.7

6.5.5 Intervalo de confianza para una proporción

Para estimar la proporción 𝑝 de individuos de una población que presentan una deter-
minada característica, se parte de la variable que mide el número de individuos que la
presentan en una muestra de tamaño 𝑛. Dicha variable sigue una distribución binomial

𝑋 ∼ 𝐵(𝑛, 𝑝)

Como ya se vio, si el tamaño muestral es suficientemente grande (en realidad basta que
se cumpla 𝑛𝑝 ≥ 5 y 𝑛(1 − 𝑝) ≥ 5), el teorema central de límite asegura que 𝑋 tendrá
una distribución aproximadamente normal

𝑋 ∼ 𝑁 (𝑛𝑝, √𝑛𝑝(1 − 𝑝)).

En consecuencia, la proporción muestral 𝑝̂ también será normal

𝑋 𝑝(1 − 𝑝)
𝑝̂ = ∼ 𝑁 (𝑝, √ ),
𝑛 𝑛

que es el estimador de referencia.


Trabajando con la distribución del estimador de referencia

𝑝(1 − 𝑝)
𝑝̂ ∼ 𝑁 (𝑝, √ )
𝑛

170
tras tipificar, se pueden encontrar fácilmente, al igual que hicimos antes, valores −𝑧𝛼/2
y 𝑧𝛼/2 que cumplan

𝑝̂ − 𝑝
𝑃 (−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 ) = 1 − 𝛼.
√𝑝(1 − 𝑝)/𝑛

Así pues, deshaciendo la tipificación y razonando como antes, se tiene

𝑝̂ − 𝑝
1 − 𝛼 = 𝑃 (−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 )
√𝑝(1 − 𝑝)/𝑛
√𝑝(1 − 𝑝) √𝑝(1 − 𝑝)
= 𝑃 (−𝑧𝛼/2 ≤ 𝑝̂ − 𝑝 ≤ 𝑧𝛼/2 )
𝑛 𝑛
√𝑝(1 − 𝑝) √𝑝(1 − 𝑝)
= 𝑃 (𝑝̂ − 𝑧𝛼/2 ≤ 𝑝 ≤ 𝑝̂ + 𝑧𝛼/2 )
𝑛 𝑛

Por tanto, el intervalo de confianza para una proporción es

Teorema 6.6 (Intervalo de confianza para una proporción). Si 𝑋 ∼ 𝐵(𝑛, 𝑝), y se cumple
que 𝑛𝑝 ≥ 5 y 𝑛(1 − 𝑝) ≥ 5, entonces el intervalo de confianza para la proporción 𝑝 con
nivel de confianza 1 − 𝛼 es

𝑝(1
̂ − 𝑝)̂ 𝑝(1
̂ − 𝑝)̂
[𝑝̂ − 𝑧𝛼/2 √ , 𝑝̂ + 𝑧𝛼/2 √ ]
𝑛 𝑛

o bien

𝑝(1
̂ − 𝑝)̂
𝑝̂ ± 𝑧𝛼/2 √
𝑛

6.5.5.1 Cálculo del tamaño muestra para estimar una proporción

La amplitud o imprecisión del intervalo para la proporción de una población es

𝑝(1
̂ − 𝑝)̂
𝐴 = 2𝑧𝛼/2 √
𝑛

así que se puede calcular fácilmente el tamaño muestral necesario para conseguir un
intervalo de amplitud 𝐴 con confianza 1 − 𝛼:

171
𝑝(1
̂ − 𝑝)̂ 2 𝑝(1
̂ − 𝑝)̂
𝐴 = 2𝑧𝛼/2 √ ⇔ 𝐴2 = 4𝑧𝛼/2 ,
𝑛 𝑛
de donde se deduce

2 𝑝(1
̂ − 𝑝)̂
𝑛 = 4𝑧𝛼/2
𝐴2
Para poder hacer el cálculo se necesita una estimación de la proporción 𝑝,̂ por lo que
suele tomarse una muestra previa pequeña para calcularla. En el peor de los casos, si no
se dispone de una muestra previa, puede tomarse 𝑝̂ = 0.5.

Ejemplo 6.10. Supóngase que se quiere estimar la proporción de fumadores que hay en
una determinada población. Para ello se toma una muestra de 20 personas y se observa
si fuman (1) o no (0):

0−1−1−0−0−0−1−0−0−1−0−0−0−1−1−0−1−1−0−0

Entonces:
8
• 𝑝̂ = 20 = 0.4, por tanto, se cumple 𝑛𝑝 = 20 ⋅ 0.4 = 8 ≥ 5 y 𝑛(1 − 𝑝) = 20 ⋅ 0.6 =
12 ≥ 5.
• 𝑧𝛼/2 = 𝑧0.025 es el valor de la normal estándar que deja una probabilidad acumulada
superior de 0.025, que vale aproximadamente 1.96.

Sustituyendo estos valores en la fórmula del intervalo, se tiene

𝑝(1
̂ − 𝑝)̂ 0.4 ⋅ 0.6
𝑝̂ ± 𝑧𝛼/2 √ = 0.4 ± 1.96√ = 0.4 ± 0.3 = [0.1, 0.7] .
𝑛 10

Es decir, 𝑝 estaría entre 0.1 y 0.7 con un 95% de confianza.

Ejemplo 6.11. Como se puede apreciar la imprecisión del intervalo anterior es ±0.3,
que es enorme teniendo en cuenta que se trata de un intervalo para una proporción.
Para conseguir intervalos precisos para estimar proporciones se necesitan tamaños mues-
trales bastante grandes. Si por ejemplo se quiere una precisión de ±0.05, el tamaño
muestral necesario sería:

2 𝑝(1
̂ − 𝑝)̂ 0.4 ⋅ 0.6
𝑛 = 4𝑧𝛼/2 2
= 4 ⋅ 1.962 = 368.79.
𝐴 (2 ⋅ 0.05)2

Es decir, se necesitarían al menos 369 individuos para conseguir un intervalo para la


proporción con una confianza del 95%.

172
6.6 Intervalos de confianza para la comparación dos
poblaciones

En muchos estudios el objetivo en sí no es averiguar el valor de un parámetro, sino


compararlo con el de otra población. Por ejemplo, comparar si un determinado parámetro
vale lo mismo en la población de hombres y en la de mujeres.
En estos casos no interesa realmente estimar los dos parámetros por separado, sino hacer
una estimación que permita su comparación.
Se verán tres casos:

• Comparación de medias: Se estima la diferencia de medias 𝜇1 − 𝜇2 .


𝜎2
• Comparación de varianzas: Se estima la razón de varianzas 12 .
𝜎2
• Comparación de proporciones: Se estima la diferencia de proporciones 𝑝1̂ − 𝑝2̂ .

A continuación se presentan los siguientes intervalos de confianza para la comparación


de dos poblaciones:

• Intervalo para la diferencia de medias de dos poblaciones normales con varianzas


conocidas.
• Intervalo para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales.
• Intervalo para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas y diferentes.
• Intervalo para el cociente de varianzas de dos poblaciones normales.
• Intervalo para la diferencia de proporciones de dos poblaciones.

6.6.1 Intervalo de confianza para la diferencia de medias de poblaciones


normales con varianzas conocidas

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes hipótesis:

1. Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


2. Sus medias 𝜇1 y 𝜇2 son desconocidas, pero sus varianzas 𝜎12 y 𝜎22 son conocidas.

Bajo estas hipótesis, si se toman dos muestras independientes, una de cada población,
de tamaños 𝑛1 y 𝑛2 respectivamente, la diferencia de las medias muestrales sigue una
distribución normal

𝑋̄ 1 ∼ 𝑁 (𝜇1 , √𝜎𝑛1 ) ⎫
} 𝜎2 𝜎2
1
⇒ 𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 ⎛
⎜ 𝜇1 − 𝜇 2 , √ 1 + 2⎞
⎟.
𝑋̄ 2 ∼ 𝑁 (𝜇2 , √𝜎𝑛2 ) ⎬
}
⎭ ⎝
𝑛1 𝑛2

2

173
A partir de aquí, tipificando, se pueden buscar los valores de la normal estándar −𝑧𝛼/2
y 𝑧𝛼/2 que cumplen:

⎛ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
𝑃⎜
⎜−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 ⎟
⎟ = 1 − 𝛼.
𝜎12 𝜎22
⎝ √ 𝑛1 + 𝑛2 ⎠

Y deshaciendo la tipificación, se tiene

⎛ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
⎜−𝑧𝛼/2 ≤
1−𝛼=𝑃 ⎜ ≤ 𝑧𝛼/2 ⎟

𝜎12 𝜎22
⎝ √ 𝑛1 + 𝑛2 ⎠
𝜎2 𝜎2 𝜎2 𝜎2
=𝑃⎛
⎜−𝑧𝛼/2 √ 1 + 2 ≤ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ≤ 𝑧𝛼/2 √ 1 + 2 ⎞

𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
𝜎2 𝜎2 𝜎2 𝜎2
⎜𝑋̄ 1 − 𝑋̄ 2 − 𝑧𝛼/2 √ 1 + 2 ≤ 𝜇1 − 𝜇2 ≤ 𝑋̄ 1 − 𝑋̄ 2 + 𝑧𝛼/2 √ 1 + 2 ⎞
=𝑃⎛ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.7 (Intervalo de confianza para la diferencia de medias de poblaciones nor-


males con varianzas conocidas). Si 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ), con 𝜎1 y 𝜎2
conocidas, el intervalo de confianza para la diferencia de medias 𝜇1 − 𝜇2 con nivel de
confianza 1 − 𝛼 es

𝜎2 𝜎2 𝜎2 𝜎2
[𝑋̄ 1 − 𝑋̄ 2 − 𝑧𝛼/2 √ 1 + 2 , 𝑋̄ 1 − 𝑋̄ 2 + 𝑧𝛼/2 √ 1 + 2 ]
𝑛1 𝑛2 𝑛1 𝑛2

o bien

𝜎2 𝜎2
𝑋̄ 1 − 𝑋̄ 2 ± 𝑧𝛼/2 √ 1 + 2
𝑛1 𝑛2

6.6.2 Intervalo de confianza para la diferencia de medias de dos poblaciones


normales con varianzas desconocidas e iguales

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes hipótesis:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).

174
• Sus medias 𝜇1 y 𝜇2 son desconocidas y sus varianzas también, pero son iguales
𝜎12 = 𝜎22 = 𝜎2 .

Cuando se desconoce la varianza poblacional se puede estimar a partir de las muestras


de tamaños 𝑛1 y 𝑛2 de ambas poblaciones mediante la cuasivarianza ponderada:

𝑛1 𝑆12 + 𝑛2 𝑆22
𝑆𝑝2̂ = .
𝑛1 + 𝑛 2 − 2

El estimador de referencia en este caso sigue una distribución T de Student:

𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 (𝜇1 − 𝜇2 , 𝜎√ 𝑛𝑛1 +𝑛 2
) ⎫
} (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
1 𝑛2
2
𝑛1 𝑆1 + 𝑛2 𝑆2 2
⎬ ⇒ ∼ 𝑇 (𝑛1 + 𝑛2 − 2).
∼ 𝜒 2
(𝑛 + 𝑛 − 2) } 𝑆 ̂ √ 𝑛1 +𝑛2
1 2 ⎭ 𝑝 𝑛 𝑛
𝜎2 1 2

𝑛 +𝑛2 −2 𝑛 +𝑛2 −2
A partir de aquí, se pueden buscar los valores de la T de Student −𝑡𝛼/2
1
y 𝑡𝛼/2
1

que cumplen

⎛ 𝑛1 +𝑛2 −2 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) 𝑛1 +𝑛2 −2 ⎞


⎜−𝑡𝛼/2
𝑃⎜ ≤ ≤ 𝑡𝛼/2 ⎟
⎟ = 1 − 𝛼.
𝑆 ̂ √ 𝑛1 +𝑛2
⎝ 𝑝 𝑛1 𝑛2 ⎠

Y deshaciendo la transformación se tiene

⎛ 𝑛1 +𝑛2 −2 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) 𝑛1 +𝑛2 −2 ⎞


1−𝛼=𝑃 ⎜⎜−𝑡𝛼/2 ≤ ≤ 𝑡𝛼/2 ⎟

𝑆 ̂√ 1 2
𝑛 +𝑛
⎝ 𝑝 𝑛 𝑛
1 2 ⎠
𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛 𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
= 𝑃 (−𝑡𝛼/2 𝑆𝑝 √ 1 2
≤ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ≤ 𝑡𝛼/2 𝑆𝑝 √ 1 )
𝑛1 𝑛2 𝑛1 𝑛2
𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2 𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
= 𝑃 (𝑋̄ 1 − 𝑋̄ 2 − 𝑡𝛼/2 𝑆𝑝 √ 1 ≤ 𝜇1 − 𝜇2 ≤ 𝑋̄ 1 − 𝑋̄ 2 + 𝑡𝛼/2 𝑆𝑝 √ 1 ).
𝑛1 𝑛2 𝑛1 𝑛2

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.8 (Intervalo de confianza para la diferencia de medias de poblaciones nor-


males con varianzas desconocidas iguales). Si 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ), con
𝜎1 = 𝜎2 desconocidas, el intervalo de confianza para la diferencia de medias 𝜇1 − 𝜇2 con
nivel de confianza 1 − 𝛼 es

175
𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2 ̄ 𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
[𝑋̄ 1 − 𝑋̄ 2 − 𝑡𝛼/2 𝑆𝑝 √ 1 , 𝑋1 − 𝑋̄ 2 + 𝑡𝛼/2 𝑆𝑝 √ 1 ]
𝑛1 𝑛2 𝑛1 𝑛2

o bien

𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
𝑋̄ 1 − 𝑋̄ 2 ± 𝑡𝛼/2 𝑆𝑝 √ 1
𝑛1 𝑛2

Si [𝑙𝑖 , 𝑙𝑠 ] es un intervalo de confianza de nivel 1 − 𝛼 para la diferencia de medias 𝜇1 − 𝜇2 ,


entonces

𝜇1 − 𝜇2 ∈ [𝑙𝑖 , 𝑙𝑠 ]

con una confianza del 1 − 𝛼%.


Por consiguiente, según los valores del intervalo de confianza se tiene:

• Si todos los valores del intervalo son negativos (𝑙𝑠 < 0), entonces se puede concluir
que 𝜇1 − 𝜇2 < 0 y por tanto 𝜇1 < 𝜇2 .
• Si todos los valores del intervalo son positivos (𝑙𝑖 > 0), entonces se puede concluir
que 𝜇1 − 𝜇2 > 0 y por tanto 𝜇1 > 𝜇2 .
• Si el intervalo tiene tanto valores positivos como negativos, y por tanto contiene al
0 (0 ∈ [𝑙𝑖 , 𝑙𝑠 ]), entonces no se puede afirmar que una media sea mayor que la otra.
En este caso se suele asumir la hipótesis de que las medias son iguales 𝜇1 = 𝜇2 .

Tanto en el primer como en el segundo caso se dice que entre las medias hay diferencias
estadísticamente significativas.

Ejemplo 6.12. Supóngase que se quiere comparar el rendimiento académico de dos


grupos de alumnos, uno con 10 alumnos y otro con 12, que han seguido metodologías
diferentes. Para ello se les realiza un examen y se obtienen las siguientes puntuaciones:

𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7

Si se supone que ambas variables tienen la misma varianza, se tiene

• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
4 +⋯+3
2
• 𝑆1 = 10 − 5.3 = 3.21 y 𝑆2 = 8 +⋯+3
2 2
12 − 6.752 = 2.6875 puntos2 .
• 𝑆𝑝2̂ = 10⋅3.21+12⋅2.6875
10+12−2 = 3.2175 puntos2 , y 𝑆𝑝̂ = 1.7937.

176
𝑛 +𝑛 −2
• 𝑡𝛼/2
1 2
= 𝑡20
0.025 es el valor de la T de Student de 20 grados de libertad que deja
una probabilidad acumulada superior de 0.025, y que vale aproximadamente 2.09.

Y sustituyendo en la fórmula del intervalo llegamos a

10 + 12
5.3 − 6.75 ± 2.086 ⋅ 1.7937√ = −1.45 ± 1.6021 = [−3.0521, 0.1521] puntos.
10 ⋅ 12

Es decir, la diferencia de puntuaciones medias 𝜇1 −𝜇2 está entre −3.0521 y 0.1521 puntos
con una confianza del 95%.
A la vista del intervalo se puede concluir que, puesto que el intervalo contiene tanto
valores positivos como negativos, y por tanto contiene al 0, no puede afirmarse que una
de las medias se mayor que la otra, de modo que se supone que son iguales y no se puede
decir que haya diferencias significativas entre los grupos.

6.6.3 Intervalo de confianza para la diferencia de medias de dos poblaciones


normales con varianzas desconocidas y distintas

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes hipótesis:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 , 𝜇2 y varianzas 𝜎12 , 𝜎22 , son desconocidas, pero 𝜎12 ≠ 𝜎22 .

En este caso el estimador de referencia sigue una distribución T de Student

(𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
∼ 𝑇 (𝑔),
̂
2 𝑆22̂
√ 𝑆𝑛1 + 𝑛2
1

donde el número de grados de libertad es 𝑔 = 𝑛1 + 𝑛2 − 2 − Δ, siendo

( 𝑛𝑛2 −1 𝑆12̂ −
𝑛1 −1 2̂ 2
𝑛2 𝑆2 )
Δ= 1
𝑛2 −1 4̂ 𝑛1 −1 4̂
.
𝑛12 𝑆1 + 𝑛22 𝑆 2

A partir de aquí, una vez más, se pueden buscar los valores de la T de Student −𝑡𝑔𝛼/2 y
𝑡𝑔𝛼/2 que cumplen


⎜ 𝑔 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
𝑔 ⎟
𝑃⎜
⎜ −𝑡 ≤ ≤ 𝑡 ⎟ = 1 − 𝛼.
𝛼/2 ⎟
⎜ 𝛼/2 2̂ ̂
2 ⎟
√ 𝑆𝑛1 + 𝑆𝑛2
⎝ 1 2 ⎠

177
Y deshaciendo la transformación se llega a


⎜ 𝑔 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞

1−𝛼=𝑃 ⎜
⎜−𝑡𝛼/2 ≤ ≤ 𝑡𝑔𝛼/2 ⎟

⎜ 𝑆12̂ 𝑆22̂

√𝑛 + 𝑛
⎝ 1 2 ⎠
𝑆 2̂ 𝑆 2̂ 𝑆 2̂ 𝑆 2̂
=𝑃⎛
⎜−𝑡𝑔𝛼/2 √ 1 + 2 ≤ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ≤ 𝑡𝑔𝛼/2 √ 1 + 2 ⎞ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
𝑆 2̂ 𝑆 2̂ 𝑆 2̂ 𝑆 2̂
=𝑃⎛
⎜𝑋̄ 1 − 𝑋̄ 2 − 𝑡𝑔𝛼/2 √ 1 + 2 ≤ 𝜇1 − 𝜇2 ≤ 𝑋̄ 1 − 𝑋̄ 2 + 𝑡𝑔𝛼/2 √ 1 + 2 ⎞ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.9 (Intervalo de confianza para la diferencia de medias de poblaciones nor-


males con varianzas desconocidas distintas). Si 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ), con
𝜎1 ≠ 𝜎2 desconocidas, el intervalo de confianza para la diferencia de medias 𝜇1 − 𝜇2 con
nivel de confianza 1 − 𝛼 es

2̂ 2̂ 2̂ 2̂
⎡𝑋̄ − 𝑋̄ − 𝑡𝑔 √ 𝑆1 + 𝑆2 , 𝑋̄ − 𝑋̄ − 𝑡𝑔 √ 𝑆1 + 𝑆2 ⎤
⎢ 1 2 𝛼/2 𝑛1 𝑛2 1 2 𝛼/2 𝑛1 𝑛2 ⎥
⎣ ⎦

o bien

𝑆 2̂ 𝑆 2̂
𝑋̄ 1 − 𝑋̄ 2 ± 𝑡𝑔𝛼/2 √ 1 + 2
𝑛1 𝑛2

Como se acaba de ver, existen dos intervalos posibles para estimar la diferencia de medias:
uno para cuando las varianzas poblacionales son iguales y otro para cuando no lo son.
Ahora bien, si las varianzas poblacionales son desconocidas,

¿cómo saber qué intervalo utilizar?

La respuesta está en el próximo intervalo que se verá, que permite estimar la razón de
2
varianzas 𝜎𝜎22 y por tanto, su comparación.
1

Así pues, antes de calcular el intervalo de confianza para la comparación de medias,


cuando las varianzas poblacionales sean desconocidas, es necesario calcular el intervalo
de confianza para la razón de varianzas y elegir el intervalo para la comparación de
medias en función del valor de dicho intervalo.

178
6.6.4 Intervalo de confianza para el cociente de varianzas

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes hipótesis:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 , 𝜇2 y varianzas 𝜎12 , 𝜎22 son desconocidas.

En este caso, para muestras de ambas poblaciones de tamaños 𝑛1 y 𝑛2 respectivamente,


el estimador de referencia sigue una distribución F de Fisher-Snedecor:

(𝑛1 − 1)𝑆12̂ ⎫ (𝑛2 −1)𝑆2


̂
2
∼ 𝜒2 (𝑛1 − 1) } 𝜎2
𝜎12 } 2
𝑛2 −1 𝜎12 𝑆22̂
(𝑛2 − 1)𝑆22̂ ⎬⇒ (𝑛1 −1)𝑆2
̂
1
=
𝜎22 𝑆12̂
∼ 𝐹 (𝑛2 − 1, 𝑛1 − 1).
∼ 𝜒2 (𝑛2 − 1) }
} 𝜎21
𝜎22 ⎭ 𝑛1 −1

Como la distribución F de Fisher-Snedecor no es simétrica respecto al 0, se toman dos


𝑛2 −1,𝑛1 −1 𝑛2 −1,𝑛1 −1
valores 𝑓𝛼/2 y 𝑓1−𝛼/2 que dejen sendas colas de probabilidad acumulada inferior
de 𝛼/2 y 1 − 𝛼/2 respectivamente.

Distribución 𝐹(𝑛1 − 1, 𝑛2 − 1)
Densidad 𝑓 (𝑥)

1 − 𝛼/2
𝛼/2 𝛼/2
𝑛1 −1,𝑛2 −1 𝑛1 −1,𝑛2 −1
𝑓𝛼/2 𝑓1−𝛼/2
𝐹

Así pues, se tiene

179
𝑛 −1,𝑛1 −1 𝜎12 𝑆22̂ 𝑛2 −1,𝑛1 −1
1 − 𝛼 = 𝑃 (𝑓𝛼/2
2
≤ ≤ 𝑓1−𝛼/2 )=
𝜎22 𝑆12̂
2̂ 2̂
𝑛 −1,𝑛1 −1 𝑆1 𝜎12 𝑛2 −1,𝑛1 −1 𝑆1
= 𝑃 (𝑓𝛼/2
2
≤ ≤ 𝑓 1−𝛼/2 )
𝑆22̂ 𝜎22 𝑆22̂

Por tanto, el intervalo de confianza para la comparación de varianzas de dos poblaciones


normales es

Teorema 6.10 (Intervalo de confianza para el cociente de varianzas de poblaciones


normales). Si 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ), el intervalo de confianza para el
cociente de varianzas 𝜎1 /𝜎2 con nivel de confianza 1 − 𝛼 es

2̂ 2̂
𝑛 −1,𝑛1 −1 𝑆1 𝑛 −1,𝑛1 −1 𝑆1
[𝑓𝛼/2
2
, 𝑓1−𝛼/2
2
]
𝑆22̂ 𝑆22̂

𝜎12
Si [𝑙𝑖 , 𝑙𝑠 ] es un intervalo de confianza de nivel 1 − 𝛼 para la razón de varianzas 𝜎22
,
entonces

𝜎12
∈ [𝑙𝑖 , 𝑙𝑠 ]
𝜎22

con una confianza del 1 − 𝛼%.


Por consiguiente, según los valores del intervalo de confianza se tiene:

• Si todos los valores del intervalo son menores que 1 (𝑙𝑠 < 1), entonces se puede
2
concluir que 𝜎𝜎12 < 1 y por tanto 𝜎12 < 𝜎22 .
2
• Si todos los valores del intervalo son mayores que 1 (𝑙𝑖 > 1), entonces se puede
2
concluir que 𝜎𝜎12 > 1 y por tanto 𝜎12 > 𝜎22 .
2
• Si el intervalo tiene tanto valores mayores como menores que 1, y por tanto contiene
al 1 (1 ∈ [𝑙𝑖 , 𝑙𝑠 ]), entonces no se puede afirmar que una varianza sea mayor que
la otra. En este caso se suele asumir la hipótesis de que las varianzas son iguales
𝜎12 = 𝜎22 .

Ejemplo 6.13. Siguiendo con el ejemplo de las puntuaciones en dos grupos:

𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7

180
Para calcular el intervalo de confianza para la razón de varianzas con una confianza del
95%, se tiene:

• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2̂ (4−5.3)2 +⋯+(3−5.3)2 2 2
• 𝑆1 = 9 = 3.5667 puntos2 y 𝑆22̂ = (8−6.75) +⋯+(3−6.75)
11 = 2.9318
puntos2 .
𝑛2 −1,𝑛1 −1 11,9
• 𝑓𝛼/2 = 𝑓0.025 es el valor de la F de Fisher de 11 y 9 grados de libertad que
deja una probabilidad acumulada inferior de 0.025, y que vale aproximadamente
0.2787.
𝑛2 −1,𝑛1 −1 11,9
• 𝑓1−𝛼/2 = 𝑓0.975 es el valor de la F de Fisher de 11 y 9 grados de libertad que
deja una probabilidad acumulada inferior de 0.975, y que vale aproximadamente
3.9121.

Sustituyendo en la fórmula del intervalo se llega a

3.5667 3.5667
[0.2787 , 3.9121 ] = [0.3391, 4.7591] puntos2 .
2.9318 2.9318

𝜎12
Es decir, la razón de varianzas 𝜎22
está entre 0.3391 y 4.7591 con una confianza del
95%.
Como el intervalo tiene tanto valores menores como mayores que 1, no se puede concluir
que una varianza sea mayor que la otra, y por tanto se mantiene la hipótesis de que
ambas varianzas son iguales.
Si ahora se quisiesen comparar las medias de ambas poblaciones, el intervalo de confianza
para la diferencia de medias que habría que tomar es el que parte de la hipótesis de
igualdad de varianzas, que precisamente es el que se ha utilizado antes.

6.6.5 Intervalo de confianza para la diferencia de proporciones

Para comparar las proporciones 𝑝1 y 𝑝2 de individuos que presentan una determinada


característica en dos poblaciones independientes, se estima su diferencia 𝑝1 − 𝑝2 .
Si se toma una muestra de cada población, de tamaños 𝑛1 y 𝑛2 respectivamente, las
variables que miden el número de individuos que presentan la característica en cada una
de ellas siguen distribuciones

𝑋1 ∼ 𝐵(𝑛1 , 𝑝1 ) y 𝑋2 ∼ 𝐵(𝑛2 , 𝑝2 )

Cuando los tamaños muestrales son grandes (en realidad basta que se cumpla 𝑛1 𝑝1 ≥ 5,
𝑛1 (1 − 𝑝1 ) ≥ 5, 𝑛2 𝑝2 ≥ 5 y 𝑛2 (1 − 𝑝2 ) ≥ 5), el teorema central de límite asegura que 𝑋1
y 𝑋2 tendrán distribuciones normales

181
𝑋1 ∼ 𝑁 (𝑛1 𝑝1 , √𝑛1 𝑝1 (1 − 𝑝1 )) y 𝑋2 ∼ 𝑁 (𝑛2 𝑝2 , √𝑛2 𝑝2 (1 − 𝑝2 )),

y las proporciones muestrales

𝑋1 𝑝 (1 − 𝑝1 ) 𝑋2 𝑝 (1 − 𝑝2 )
𝑝1̂ = ∼ 𝑁 (𝑝1 , √ 1 ) y 𝑝2̂ = ∼ 𝑁 (𝑝2 , √ 2 )
𝑛1 𝑛1 𝑛2 𝑛2

A partir de las proporciones muestrales se construye el estimador de referencia

𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
𝑝1̂ − 𝑝2̂ ∼ 𝑁 (𝑝1 − 𝑝2 , √ + ).
𝑛1 𝑛2

Tipificando, se buscan valores −𝑧𝛼/2 y 𝑧𝛼/2 que cumplan

⎛ (𝑝̂ − 𝑝2̂ ) − (𝑝1 − 𝑝2 ) ⎞


⎜−𝑧𝛼/2 ≤ 1
𝑃⎜ ≤ 𝑧𝛼/2 ⎟
⎟ = 1 − 𝛼.
𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
⎝ √ 𝑛1 + 𝑛2 ⎠

Y deshaciendo la tipificación, se llega a

⎛ (𝑝1̂ − 𝑝2̂ ) − (𝑝1 − 𝑝2 ) ⎞


1−𝛼=𝑃 ⎜
⎜−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 ⎟

𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
⎝ √ 𝑛 + 𝑛 ⎠
1 2

𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) 𝑝 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
= 𝑃 (−𝑧𝛼/2 √ + ≤ (𝑝1̂ − 𝑝2̂ ) − (𝑝1 − 𝑝2 ) ≤ 𝑧𝛼/2 √ 1 + )
𝑛1 𝑛2 𝑛1 𝑛2

𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) 𝑝 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
= 𝑃 (𝑝1̂ − 𝑝2̂ − 𝑧𝛼/2 √ + ≤ 𝑝1̂ − 𝑝2̂ + 𝑝1 − 𝑝2 ≤ 𝑧𝛼/2 √ 1 +
𝑛1 𝑛2 𝑛1 𝑛2

Así pues, el intervalo de confianza para la diferencia de proporciones es

Teorema 6.11 (Intervalo de confianza para la diferencia de proporciones). Si 𝑋1 ∼


𝐵(𝑛1 , 𝑝1 ) y 𝑋2 ∼ 𝐵(𝑛2 , 𝑝2 ), con 𝑛1 𝑝1 ≥ 5, 𝑛1 (1 − 𝑝1 ) ≥ 5, 𝑛2 𝑝2 ≥ 5 y 𝑛2 (1 − 𝑝2 ) ≥ 5, el
intervalo de confianza para la diferencia de proporciones 𝑝1 − 𝑝2 con nivel de confianza
1 − 𝛼 es

𝑝1̂ (1 − 𝑝1̂ ) 𝑝2̂ (1 − 𝑝2̂ )


𝑝1̂ − 𝑝2̂ ± 𝑧𝛼/2 √ +
𝑛1 𝑛2

182
Ejemplo 6.14. Supóngase que se quieren comparar las proporciones o porcentajes de
aprobados en dos grupos que han seguido metodologías distintas. En el primer grupo
han aprobado 24 alumnos de un total de 40, mientras que en el segundo han aprobado
48 de 60.
Para calcular el intervalo de confianza para la diferencia de proporciones con un nivel
de confianza del 95%, se tiene:

• 𝑝1̂ = 24/40 = 0.6 y 𝑝2̂ = 48/60 = 0.8, de manera que se cumplen las hipótesis
𝑛1 𝑝1̂ = 40⋅0.6 = 24 ≥ 5, 𝑛1 (1− 𝑝1̂ ) = 40(1−0.6) = 26 ≥ 5, 𝑛2 𝑝2̂ = 60⋅0.8 = 48 ≥ 5
y 𝑛2 (1 − 𝑝2̂ ) = 60(1 − 0.8) = 12 ≥ 5.
• 𝑧𝛼/2 = 𝑧0.025 = 1.96.

Sustituyendo en la fórmula del intervalo se tiene

0.6(1 − 0.6) 0.8(1 − 0.8)


0.6 − 0.8 ± 1.96√ + = −0.2 ± 0.17 = [−0.37, −0.03].
40 60

Como el intervalo es negativo se tiene 𝑝1 − 𝑝2 < 0 ⇒ 𝑝1 < 𝑝2 , y se puede concluir que


hay diferencias significativas en el porcentaje de aprobados.

183
7 Contrastes de hipótesis paramétricos

7.1 Hipótesis estadística y tipos de contrastes

En muchos estudios estadísticos, el objetivo, más que estimar el valor de un parámetro


desconocido en la población, es comprobar la veracidad de una hipótesis formulada sobre
la población objeto de estudio.
El investigador, de acuerdo a su experiencia o a estudios previos, suele tener conjeturas
sobre la población estudiada que expresa en forma de hipótesis.

Definición 7.1 (Hipótesis estadística). Una hipótesis estadística es cualquier afirmación


o conjetura que determina, total o parcialmente, la distribución de una o varias variables
de la población.

Ejemplo 7.1. Para contrastar el rendimiento académico de un grupo de alumnos en una


determinada asignatura, podríamos platear la hipótesis de si el porcentaje de aprobados
es mayor del 50%.

7.1.1 Contraste de hipótesis

En general nunca se sabrá con absoluta certeza si una hipótesis estadística es cierta o
falsa, ya que para ello habría que estudiar a todos los individuos de la población.
Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas con
los resultados empíricos obtenidos de las muestras. Si los resultados observados en las
muestras coinciden, dentro del margen de error admisible debido al azar, con lo que
cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará como
verdadera, mientras que en caso contrario se rechazará como falsa y se buscarán nuevas
hipótesis capaces de explicar los datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una
hipótesis estadística se tomará sobre una base de probabilidad.
La metodología que se encarga de contrastar la veracidad de las hipótesis estadísticas se
conoce como contraste de hipótesis.

184
7.1.2 Tipos de contrastes de hipótesis

• Contrastes de bondad de ajuste: El objetivo es comprobar una hipótesis sobre


la forma de la distribución de la población.
Por ejemplo, contrastar si las notas de un grupo de alumnos siguen una distribución
normal.
• Contrastes de conformidad: El objetivo es comprobar una hipótesis sobre al-
guno de los parámetros de la población.
Por ejemplo, contrastar si las nota media en un grupo de alumnos es igual a 5.
• Contrastes de homogeneidad : El objetivo es comparar dos poblaciones con
respecto a alguno de sus parámetros.
Por ejemplo, contrastar si el rendimiento de dos grupos de alumnos es el mismo
comparando sus notas medias.
• Contrastes de independencia: El objetivo es comprobar si existe relación entre
dos variables de la población.
Por ejemplo, contrastar si existe relación entre la notas de dos asignaturas diferen-
tes.

Cuando las hipótesis se plantean sobre parámetros de la población, también se habla de


contrastes paramétricos.

7.1.3 Hipótesis nula e hipótesis alternativa

En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis
antagonistas:

• Hipótesis nula: Es la hipótesis conservadora, ya que se mantendrá mientras que


los datos de las muestras no reflejen claramente su falsedad. Se representa como
𝐻0 .
• Hipótesis alternativa: Es la negación de la hipótesis nula y generalmente repre-
senta la afirmación que se pretende probar. Se representa como 𝐻1 .

Ambas hipótesis se eligen de acuerdo con el principio de simplicidad científica:

“Solamente se debe abandonar un modelo simple por otro más complejo cuando
la evidencia a favor del último sea fuerte.” (Navaja de Occam)

Por ejemplo, en el caso de un juicio, en el que el juez debe decidir si el acusado es culpable
o inocente, la elección de hipótesis debería ser

185
𝐻0 ∶ Inocente
𝐻1 ∶ Culpable

ya que la inocencia se asume, mientras que la culpabilidad hay que demostrarla.


Según esto, el juez sólo aceptaría la hipótesis alternativa cuando hubiese pruebas signi-
ficativas de la culpabilidad del acusado.
El investigador jugaría el papel del fiscal, ya que su objetivo consistiría en intentar
rechazar la hipótesis nula, es decir, demostrar culpabilidad del acusado.

Á Advertencia

¡Esta metodología siempre favorece a la hipótesis nula!

7.1.4 Contrastes de hipótesis paramétricos

En muchos contrastes, sobre todo en las pruebas de conformidad y de homogeneidad,


las hipótesis se formulan sobre parámetros desconocidos de la población como puede ser
una media, una varianza o una proporción.
En tal caso, la hipótesis nula siempre asigna al parámetro un valor concreto, mientras
que la alternativa suele ser una hipótesis abierta que, aunque opuesta a la hipótesis nula,
no fija el valor del parámetro.
Esto da lugar a tres tipos de contrastes:

Bilateral Unilateral menor Unilateral mayor


𝐻0 : 𝜃 = 𝜃 0 𝐻0 : 𝜃 = 𝜃 0 𝐻0 : 𝜃 = 𝜃 0
𝐻1 : 𝜃 ≠ 𝜃 0 𝐻1 : 𝜃 < 𝜃 0 𝐻1 : 𝜃 > 𝜃0

Ejemplo 7.2. Supóngase que existen sospechas de que en una población hay menos
hombres que mujeres.
¿Qué tipo de contraste debería plantearse para validar o refutar esta sospecha?

1. Las sospechas se refieren al porcentaje o la proporción 𝑝 de hombres en la población,


por lo que se trata de un contraste paramétrico.
2. El objetivo es averiguar el valor de 𝑝, por lo que se trata de una prueba de confor-
midad. En la hipótesis nula el valor de 𝑝 se fijará a 0.5 ya que, de acuerdo a las leyes
de la genética, en la población debería haber la misma proporción de hombres que
de mujeres.

186
3. Finalmente, existen sospechas de que el porcentaje de hombres es menor que el de
mujeres, por lo que la hipótesis alternativa será de menor 𝑝 < 0.5.

Así pues, el contraste que debería plantearse es el siguiente:

𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5

7.2 Metodología para realizar un contraste de hipótesis

7.2.1 Estadístico del contraste

La aceptación o rechazo de la hipótesis nula depende, en última instancia, de lo que se


observe en la muestra.
La decisión se tomará según el valor que presente algún estadístico de la muestra rela-
cionado con el parámetro o característica que se esté contrastando, y cuya distribución
de probabilidad debe ser conocida suponiendo cierta la hipótesis nula y una vez fijado el
tamaño de la muestra. Este estadístico recibe el nombre de estadístico del contras-
te.
Para cada muestra, el estadístico dará una estimación a partir de la cual se tomará
la decisión: si la estimación difiere demasiado del valor esperado bajo la hipótesis 𝐻0 ,
entonces se rechazará, y en caso contrario se aceptará.
La lógica que guía la decisión es la de mantener la hipótesis nula a no ser que en la
muestra haya pruebas contundentes de su falsedad. Siguiendo con el símil del juicio, se
trataría de mantener la inocencia mientras no haya pruebas claras de culpabilidad.

Ejemplo 7.3. Volviendo al ejemplo del contraste sobre la proporción de hombres de


una población

𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5

Si para resolver el contraste se toma una muestra aleatoria de 10 personas, podría to-
marse como estadístico del contraste 𝑋 el número de hombres en la muestra.
Suponiendo cierta la hipótesis nula, el estadístico del contraste seguiría una distribución
binomial 𝑋 ∼ 𝐵(10, 0.5), de manera que el número esperado de hombres en la muestra
sería 5.

187
Así pues, es lógico aceptar la hipótesis nula si en la muestra se obtiene un número de
hombres próximo a 5 y rechazarla cuando el número de hombres sea muy inferior a 5.
Pero, ¿dónde poner el límite entre los valores 𝑋 que lleven a la aceptación y los que
lleven al rechazo?

7.2.2 Regiones de aceptación y de rechazo

Una vez elegido el estadístico del contraste, lo siguiente es decidir para qué valores de
este estadístico se decidirá aceptar la hipótesis nula y para que valores se rechazará. Esto
divide del conjunto de valores posibles del estadístico en dos regiones:

• Región de aceptación: Es el conjunto de valores del estadístico del contraste a


partir de los cuales se decidirá aceptar la hipótesis nula.
• Región de rechazo: Es el conjunto de valores del estadístico del contraste a partir
de los cuales se decidirá rechazar la hipótesis nula, y por tanto, aceptar la hipótesis
alternativa.

Dependiendo de la dirección del contraste, la región de rechazo quedará a un lado u otro


del valor esperado del estadístico del contraste según la hipótesis nula:

• Contraste bilateral 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 ≠ 𝜃0 .

• Contraste unilateral de menor 𝐻0 ∶ 𝜃 = 𝜃0 &H_1: �<�_0$.

• Contraste unilateral de mayor 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 > 𝜃0 .

188
Ejemplo 7.4. Siguiendo con el ejemplo del contraste sobre la proporción de hombres
de una población

𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5

Como el estadístico del contraste tenía una distribución binomial 𝑋 ∼ 𝐵(10, 0.5) supo-
niendo cierta la hipótesis nula, su recorrido será de 0 a 10 y su valor esperado 5, por lo
que, al tratarse de un contraste unilateral de menor, la región de rechazo quedará por
debajo del 5. Pero, ¿dónde poner el límite entre las regiones de aceptación y de rechazo?

7.2.3 Errores en un contraste de hipótesis

Hemos visto que un contraste de hipótesis se realiza mediante una regla de decisión que
permite aceptar o rechazar la hipótesis nula dependiendo del valor que tome el estadístico
del contraste.
Al final el contraste se resuelve tomando una decisión de acuerdo a esta regla. El problema
es que nunca se conocerá con absoluta certeza la veracidad o falsedad de una hipótesis,
de modo que al aceptarla o rechazarla es posible que se esté tomando una decisión
equivocada.
Los errores que se pueden cometer en un contraste de hipótesis son de dos tipos:

• Error de tipo I: Se comete cuando se rechaza la hipótesis nula siendo esta ver-
dadera.

189
• Error de tipo II: Se comete cuando se acepta la hipótesis nula siendo esta falsa.

Decisión 𝐻0 cierta 𝐻1 cierta


Aceptar 𝐻0 Decisión correcta Error de tipo II
Rechazar 𝐻0 Error de tipo I Decisión correcta

7.2.4 Riesgos de los errores de un contraste de hipótesis

Los riesgos de cometer cada tipo de error se cuantifican mediante probabilidades:

Definición 7.2 (Riesgos 𝛼 y 𝛽). En un contraste de hipótesis, se define el riesgo 𝛼 como


la máxima probabilidad de cometer un error de tipo I, es decir,

𝑃 (Rechazar 𝐻0 |𝐻0 ) ≤ 𝛼,

y se define el riesgo 𝛽 como la máxima probabilidad de cometer un error de tipo II, es


decir,

𝑃 (Aceptar 𝐻0 |𝐻1 ) ≤ 𝛽.

Á Advertencia

En principio, puesto que esta metodología favorece a la hipótesis nula, el error del
tipo I suele ser más grave que el error del tipo II, y por tanto, el riesgo 𝛼 suele
fijarse a niveles bajos de 0.1, 0.05 o 0.01, siendo 0.05 lo más habitual.

Debe tenerse cuidado al interpretar el riesgo 𝛼 ya que se trata de una probabilidad


condicionada a que la hipótesis nula sea cierta. Por tanto, cuando se rechace la hipótesis
nula con un riesgo 𝛼 = 0.05, es erróneo decir 5 de cada 100 veces nos equivocaremos, ya
que esto sería cierto sólo si la hipótesis nula fuese siempre verdadera.
Tampoco tiene sentido hablar de la probabilidad de haberse equivocado una vez tomada
una decisión a partir de una muestra concreta, pues en tal caso, si se ha tomado la
decisión acertada, la probabilidad de error es 0 y si se ha tomado la decisión equivocada,
la probabilidad de error es 1.

190
7.2.5 Determinación de las regiones de aceptación y de rechazo en función
del riesgo 𝛼

Una vez fijado el riesgo 𝛼 que se está dispuesto a tolerar, es posible delimitar las regiones
de aceptación y de rechazo para el estadístico del contraste de manera que la probabilidad
acumulada en la región de rechazo sea 𝛼, suponiendo cierta la hipótesis nula.

191
Ejemplo 7.5. Siguiendo con el contraste sobre la proporción de hombres de una pobla-
ción, como el estadístico del contraste sigue una distribución binomial 𝑋 ∼ 𝐵(10, 0.5),
si se decide rechazar la hipótesis nula cuando en la muestra haya 2 o menos hombres, la
probabilidad de cometer un error de tipo I será

𝑃 (𝑋 ≤ 2) = 𝑓(0) + 𝑓(1) + 𝑓(2) = 0.0010 + 0.0098 + 0.0439 = 0.0547.

Si riesgo máximo de error de tipo I que se está dispuesto a tolerar es 𝛼 = 0.05, ¿qué
valores del estadístico permitirán rechazar la hipótesis nula?
𝑃 (𝑋 ≤ 1) = 𝑓(0) + 𝑓(1) = 0.0010 + 0.0098 = 0.0107.
Es decir, sólo se podría rechazar la hipótesis nula con 0 o 1 hombres en la muestra.

192
7.2.6 Riesgo 𝛽 y tamaño del efecto

Aunque el error de tipo II pueda parecer menos grave, también interesa que el riesgo 𝛽
sea bajo, ya que de lo contrario será difícil rechazar la hipótesis nula (que es lo que se
persigue la mayoría de las veces), aunque haya pruebas muy claras de su falsedad.
El problema, en el caso de contrastes paramétricos, es que la hipótesis alternativa es una
hipótesis abierta en la que no se fija el valor del parámetro a contrastar, de modo que,
para poder calcular el riesgo 𝛽 es necesario fijar dicho valor.
Lo normal es fijar el valor del parámetro del contraste a la mínima cantidad para admitir
diferencias significativas desde un punto de vista práctico o clínico. Esa mínima diferencia
que se considera clínicamente significativa se conoce como tamaño del efecto y se
representa por 𝛿.

7.2.7 Potencia de un contraste

Puesto que el objetivo del investigador suele ser rechazar la hipótesis nula, a menudo,
lo más interesante de un contraste es su capacidad para detectar la falsedad de la hipó-
tesis nula cuando realmente hay diferencias mayores que 𝛿 entre el verdadero valor del
parámetro y el que establece la hipótesis nula.

Definición 7.3 (Potencia de un contraste). La potencia de un contraste de hipótesis se


define como

Potencia = 𝑃 (Rechazar 𝐻0 |𝐻1 ) = 1 − 𝑃 (Aceptar 𝐻0 |𝐻1 ) = 1 − 𝛽.

Así pues, al reducir el riesgo 𝛽 se aumentará la potencia del contraste.


Un contraste poco potente no suele ser interesante ya que no permitirá rechazar la
hipótesis nula aunque haya evidencias en su contra.

7.2.8 Cálculo del riesgo 𝛽 y de la potencia 1 − 𝛽

:::{#exm-** Supóngase que en el contraste sobre la proporción de hombres no se consi-


dera importante una diferencia de menos de un 10% con respecto al valor que establece
la hipótesis nula, es decir, 𝛿 = 0.1.
Esto permite fijar la hipótesis alternativa

𝐻1 ∶ 𝑝 = 0.5 − 0.1 = 0.4.

193
Suponiendo cierta esta hipótesis el estadístico del contraste seguiría una distribución
binomial 𝑋 ∼ 𝐵(10, 0.4).
En tal caso, el riesgo 𝛽 para las regiones de aceptación y rechazo fijadas antes será

𝛽 = 𝑃 (Aceptar 𝐻0 |𝐻1 ) = 𝑃 (𝑋 ≥ 2) = 1 − 𝑃 (𝑋 < 2) = 1 − 0.0464 = 0.9536.

Como puede apreciarse, se trata de un riesgo 𝛽 muy alto, por lo que la potencia del
contraste sería sólo de

1 − 𝛽 = 1 − 0.9536 = 0.0464,

lo que indica que no se trataría de un buen contraste para detectar diferencias de un


10% en el valor del parámetro.

7.2.9 Relación del riesgo 𝛽 y el tamaño del efecto 𝛿

El riesgo 𝛽 depende directamente de la mínima diferencia 𝛿 que se desea detectar con


respecto al valor del parámetro que establece la hipótesis nula.

194
Ejemplo 7.6. Si en el contraste sobre la proporción de hombres se desease detectar una
diferencia de al menos un 20% con respecto al valor que establece la hipótesis nula, es
decir, 𝛿 = 0.2, entonces la hipótesis alternativa se fijaría a

𝐻1 ∶ 𝑝 = 0.5 − 0.2 = 0.3,

y bajo esta hipótesis el estadístico del contraste seguiría una distribución binomial 𝑋 ∼
𝐵(10, 0.3).
En tal caso, el riesgo 𝛽 para las regiones de aceptación y rechazo fijadas antes sería

𝛽 = 𝑃 (Aceptar 𝐻0 |𝐻1 ) = 𝑃 (𝑋 ≥ 2) = 1 − 𝑃 (𝑋 < 2) = 1 − 0.1493 = 0.8507,

por lo que el riesgo riesgo 𝛽 disminuiría y la potencia del contraste aumentaría

1 − 𝛽 = 1 − 0.8507 = 0.1493,

aunque seguiría siendo un contraste poco potente.

195
7.2.10 Relación entre los riesgos 𝛼 y 𝛽

Los riesgos 𝛼 y 𝛽 están enfrentados, es decir, cuando uno aumenta el otro disminuye y
viceversa.

196
Ejemplo 7.7. Si en el contraste sobre la proporción de hombres toma como riesgo
𝛼 = 0.1, entonces la región de rechazo sería 𝑋 ≤ 2 ya que, suponiendo cierta la hipótesis
nula, 𝑋 ∼ 𝐵(10, 0.5), y

𝑃 (𝑋 ≤ 2) = 0.0547 ≤ 0.1 = 𝛼.

Entonces, para una diferencia mínima 𝛿 = 0.1 y suponiendo cierta la hipótesis alternativa,
𝑋 ∼ 𝐵(10, 0.4), el riesgo 𝛽 será

𝛽 = 𝑃 (Aceptar 𝐻0 |𝐻1 ) = 𝑃 (𝑋 ≥ 3) = 1 − 𝑃 (𝑋 < 3) = 1 − 0.1673 = 0.8327,

y ahora la potencia ha subido hasta

1 − 𝛽 = 1 − 0.8327 = 0.1673.

7.2.11 Relación de los riesgos de error y el tamaño muestral

Los riesgos de error también dependen el tamaño de la muestra, ya que al aumentar el


tamaño de la muestra, la dispersión del estadístico del contraste disminuye y con ello
también lo hacen los riesgos de error.

197
Ejemplo 7.8. Si para realizar el contraste sobre la proporción de hombres se hubiese
tomado una muestra de tamaño 100, en lugar de 10, entonces, bajo la suposición de
certeza de la hipótesis nula, el estadístico del contraste seguiría una distribución binomial
𝐵(100, 0.5), y ahora la región de rechazo sería 𝑋 ≤ 41, ya que

𝑃 (𝑋 ≤ 41) = 0.0443 ≤ 0.05 = 𝛼.

Entonces, para 𝛿 = 0.1 y suponiendo cierta la hipótesis alternativa, 𝑋 ∼ 𝐵(100, 0.4), el


riesgo 𝛽 sería

𝛽 = 𝑃 (Aceptar 𝐻0 |𝐻1 ) = 𝑃 (𝑋 ≥ 42) = 0.3775,

y ahora la potencia habría aumentado considerablemente

1 − 𝛽 = 1 − 0.3775 = 0.6225.

Este contraste sería mucho más útil para detectar una diferencia de al menos un 10%
con respecto al valor del parámetro que establece la hipótesis nula.

198
7.3 Curva de potencia

La potencia de un contraste depende del valor del parámetro que establezca la hipótesis
alternativa y, por tanto, es una función de este

Potencia(𝑥) = 𝑃 (Rechazar 𝐻0 |𝜃 = 𝑥).

Esta función da la probabilidad de rechazar la hipótesis nula para cada valor del pará-
metro y se conoce como curva de potencia.
Cuando no se puede fijar el valor concreto del parámetro en la hipótesis alternativa,
resulta útil representar esta curva para ver la bondad del contraste cuando no se rechaza
la hipótesis nula. También es útil cuando sólo de dispone de un número determinado de
individuos en la muestra, para ver si merece la pena hacer el estudio.
Un contraste será mejor cuanto mayor sea el área encerrada por debajo de la curva de
potencia.

Ejemplo 7.9. La curva de potencia correspondiente al contraste sobre la proporción de


hombres en la población es la siguiente

199
7.3.1 𝑝-valor de un contraste de hipótesis

En general, siempre que la estimación del estadístico caiga dentro de la región de rechazo,
rechazaremos la hipótesis nula, pero evidentemente, si dicha estimación se aleja bastante
de la región de aceptación tendremos más confianza en el rechazo que si la estimación
está cerca del límite entre las regiones de aceptación y rechazo.
Por este motivo, al realizar un contraste, también se calcula la probabilidad de obtener
una discrepancia mayor o igual a la observada entre la estimación del estadístico del
contraste y su valor esperado según la hipótesis nula.

Definición 7.4 (𝑝-valor). En un contraste de hipótesis, para cada estimación 𝑥0 del


estadístico del contraste 𝑋, dependiendo del tipo de contraste, se define el 𝑝-valor del
contraste como

Contraste bilateral ∶ 2𝑃 (𝑋 ≥ 𝑥0 |𝐻0 )


Contraste unilateral de menor ∶ 𝑃 (𝑋 ≤ 𝑥0 |𝐻0 )
Contraste unilateral de mayor ∶ 𝑃 (𝑋 ≥ 𝑥0 |𝐻0 )

En cierto modo, el 𝑝-valor expresa la confianza que se tiene al tomar la decisión de


rechazar la hipótesis nula. Cuanto más próximo esté el 𝑝-valor a 1, mayor confianza
existe al aceptar la hipótesis nula, y cuanto más próximo esté a 0, mayor confianza hay
al rechazarla.

7.3.2 Regla de decisión de un contraste

Una vez fijado el riesgo 𝛼, la regla de decisión para realizar un contraste también puede
expresarse de la siguiente manera:

Ĺ Interpretación

Regla de decisión

Si 𝑝-valor ≤ 𝛼 → Rechazar 𝐻0
Si 𝑝-valor > 𝛼 → Aceptar 𝐻0 .

De este modo, el 𝑝-valor nos da información de para qué niveles de significación puede
rechazarse la hipótesis nula y para cuales no.

Ejemplo 7.10. Si el contraste sobre la proporción de hombres se toma una muestra


de tamaño 10 y se observa 1 hombre, entonces el 𝑝-valor, bajo a supuesta certeza de la
hipótesis nula, 𝑋 ∼ 𝐵(10, 0.5), será

200
𝑝 = 𝑃 (𝑋 ≤ 1) = 0.0107,

mientras que si en la muestra se observan 0 hombres, entonces el 𝑝-valor será

𝑝 = 𝑃 (𝑋 ≤ 0) = 0.001.

En el primer caso se rechazaría la hipótesis nula para un riesgo 𝛼 = 0.05, pero no podría
rechazarse par un riesgo 𝛼 = 0.01, mientas que en el segundo caso también se rechazaría
para 𝛼 = 0.01. Es evidente que en el segundo la decisión de rechazar la hipótesis nula se
tomaría con mayor confianza.

7.3.3 Pasos para la realización de un contraste de hipótesis

1. Formular la hipótesis nula 𝐻0 y la alternativa 𝐻1 .


2. Fijar los riesgos 𝛼 y 𝛽 deseados.
3. Seleccionar el estadístico del contraste.
4. Fijar la mínima diferencia clínicamente significativa (tamaño del efecto) 𝛿.
5. Calcular el tamaño muestral necesario 𝑛.
6. Delimitar las regiones de aceptación y rechazo.
7. Tomar una muestra de tamaño 𝑛.
8. Calcular el estadístico del contraste en la muestra.
9. Rechazar la hipótesis nula si la estimación cae en la región de rechazo o bien si el
𝑝-valor es menor que el riesgo 𝛼 y aceptarla en caso contrario.

7.4 Contrastes paramétricos más importantes

Pruebas de conformidad:

• Contraste para la media de una población normal con varianza conocida.


• Contraste para la media de una población normal con varianza desconocida.
• Contraste para la media de una población con varianza desconocida a partir de
muestras grandes.
• Contraste para la varianza de una población normal.
• Contraste para un proporción de una población.

Pruebas de homogeneidad:

• Contraste de comparación de medias de dos poblaciones normales con varianzas


conocidas.
• Contraste de comparación de medias de dos poblaciones normales con varianzas
desconocidas pero iguales.

201
• Contraste de comparación de medias de dos poblaciones normales con varianzas
desconocidas y diferentes.
• Contraste de comparación de varianzas de dos poblaciones normales.
• Contraste de comparación de proporciones de dos poblaciones.

7.5 Contraste para la media de una población normal con


varianza conocida

Sea 𝑋 una variable aleatoria que cumple las siguientes condiciones:

• Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


• La media 𝜇 es desconocida, pero su varianza 𝜎2 es conocida.

Contraste:

𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0

Estadístico del contraste:

𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑍 = √ ∼ 𝑁 (0, 1).
𝑛 𝜎/ 𝑛

Región de aceptación: 𝑧𝛼/2 < 𝑍 < 𝑧1−𝛼/2 .


Región de rechazo: 𝑍 ≤ 𝑧𝛼/2 y 𝑍 ≥ 𝑧1−𝛼/2 .

7.6 Contraste para la media de una población normal con


varianza desconocida

Sea 𝑋 una variable aleatoria que cumple las siguientes condiciones:

• Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

Contraste:

𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0

202
Estadístico del contraste: Utilizando la cuasivarianza como estimador de la varianza
poblacional se tiene

𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑇 = √ ∼ 𝑇 (𝑛 − 1).
𝑛 𝑠/̂ 𝑛

Región de aceptación: 𝑡𝑛−1 𝑛−1


𝛼/2 < 𝑇 < 𝑡1−𝛼/2 .
Región de rechazo: 𝑇 ≤ 𝑡𝑛−1 𝑛−1
𝛼/2 y 𝑇 ≥ 𝑡1−𝛼/2 .

Ejemplo 7.11. En un grupo de alumnos se quiere contrastar si la nota media de esta-


dística es mayor que 5 puntos. Para ello se toma la siguiente muestra:

6.3, 5.4, 4.1, 5.0, 8.2, 7.6, 6.4, 5.6, 4.3, 5.2

El contraste que se plantea es

𝐻0 ∶ 𝜇 = 5 𝐻1 ∶ 𝜇 > 5

Para realizar el contraste se tiene:


6.3+⋯+5.2
• 𝑥̄ = 10 = 58.1
10 = 5.81 puntos.
2 (6.3−5.81) +⋯+(5.2−5.81)2
2
15.949
• 𝑠̂ = 9 = 9 = 1.7721 puntos2 , y 𝑠 ̂ = 1.3312 puntos.

Y el estadístico del contraste vale

𝑥 ̄ − 𝜇0 5.81 − 5
𝑇 = √ = √ = 1.9246.
𝑠/̂ 𝑛 1.3312/ 10

El 𝑝-valor del contraste es 𝑃 (𝑇 (9) ≥ 1.9246) = 0.04323, lo que indica que se rechazaría
la hipótesis nula para 𝛼 = 0.05.
La región de rechazo es

𝑥̄ − 5 1.3312
𝑇 = √ ≥ 𝑡90.95 = 1.8331 ⇔ 𝑥̄ ≥ 5 + 1.8331 √ = 5.7717,
1.3312/ 10 10

de modo que se rechazará la hipótesis nula siempre que la media de la muestra sea mayor
que 5.7717 y se aceptará en caso contrario.
Suponiendo que en la práctica la mínima diferencia importante en la nota media fuese
de un punto 𝛿 = 1, entonces bajo la hipótesis alternativa 𝐻1 ∶ 𝜇 = 6, si se decidiese
rechazar la hipótesis nula, el riesgo 𝛽 sería

203
5.7717 − 6
𝛽 = 𝑃 (𝑇 (9) ≤ √ ) = 𝑃 (𝑇 (9) ≤ −0.5424) = 0.3004,
1.3312 10

de manera que la potencia del contraste para detectar una diferencia de 𝛿 = 1 punto
sería 1 − 𝛽 = 1 − 0.3004 = 0.6996.

7.6.1 Determinación del tamaño muestral en un contraste para la media

Se ha visto que para un riesgo 𝛼 la región de rechazo era

𝑥 ̄ − 𝜇0
𝑇 = √ ≥ 𝑡𝑛−1
1−𝛼 ≈ 𝑧1−𝛼 para 𝑛 ≥ 30.
𝑠/̂ 𝑛

o lo que es equivalente

𝑠̂
𝑥̄ ≥ 𝜇0 + 𝑧1−𝛼 √ .
𝑛

Si el tamaño del efecto es 𝛿, para una hipótesis alternativa 𝐻1 ∶ 𝜇 = 𝜇0 + 𝛿, el riesgo 𝛽


es

𝜇0 + 𝑧1−𝛼 √𝑠𝑛̂ − (𝜇0 + 𝛿) 𝑧1−𝛼 √𝑠𝑛̂ − 𝛿


𝛽 = 𝑃 (𝑍 < ) = 𝑃 (𝑍 < ).
√𝑠 ̂ √𝑠 ̂
𝑛 𝑛

de modo que

𝑧1−𝛼 √𝑠𝑛̂ − 𝛿 𝑠̂ 𝑠2̂ 𝑠2̂


𝑧𝛽 = ⇔ 𝛿 = (𝑧1−𝛼 − 𝑧𝛽 ) √ ⇔ 𝑛 = (𝑧1−𝛼 − 𝑧𝛽 )2 2 = (𝑧𝛼 + 𝑧𝛽 )2 2 .
√𝑠 ̂ 𝑛 𝛿 𝛿
𝑛

Ejemplo 7.12. Se ha visto en el ejemplo anterior que la potencia del contraste para
detectar una diferencia en la nota media de 1 punto era del 69.96%. Para aumentar la
potencia del test hasta un 90%, ¿cuántos alumnos habría que tomar en la muestra?
Como se desea una potencia 1 − 𝛽 = 0.9, el riesgo 𝛽 = 0.1 y mirando en la tabla de la
normal estándar se puede comprobar que 𝑧𝛽 = 𝑧0.1 = 1.2816.
Aplicando la fórmula anterior para determinar el tamaño muestral necesario, se tiene

𝑠2̂ 1.7721
𝑛 = (𝑧𝛼 + 𝑧𝛽 )2 2
= (1.6449 + 1.2816)2 = 15.18,
𝛿 12
de manera que habría que haber tomado al menos 16 alumnos.

204
7.7 Contraste para la media de una población con varianza
desconocida y muestras grandes

Sea 𝑋 una variable aleatoria que cumple las siguientes condiciones:

• Su distribución puede ser de cualquier tipo.


• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

Contraste:

𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0

Estadístico del contraste: Utilizando la cuasivarianza como estimador de la varianza


poblacional y gracias al teorema central del límite por tratarse de muestras grandes
(𝑛 ≥ 30) se tiene

𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑍 = √ ∼ 𝑁 (0, 1).
𝑛 𝑠/̂ 𝑛

Región de aceptación: −𝑧𝛼/2 < 𝑍 < 𝑧𝛼/2 .


Región de rechazo: 𝑍 ≤ −𝑧𝛼/2 y 𝑍 ≥ 𝑧𝛼/2 .

7.8 Contraste para la varianza de una población normal

Sea 𝑋 una variable aleatoria que cumple las siguientes hipótesis:

• Su distribución es normal 𝑋 ∼ 𝑁 (𝜇, 𝜎).


• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.

Contraste:

𝐻0 ∶ 𝜎 = 𝜎0
𝐻1 ∶ 𝜎 ≠ 𝜎0

Estadístico del contraste: Partiendo de la cuasivarianza muestral como estimador de


la varianza poblacional, se tiene

205
𝑛𝑆 2 (𝑛 − 1)𝑆 2̂
𝐽= = ∼ 𝜒2 (𝑛 − 1),
𝜎02 𝜎02

que sigue una distribución chi-cuadrado de 𝑛 − 1 grados de libertad.


Región de aceptación: 𝜒𝑛−1 𝑛−1
𝛼/2 < 𝐽 < 𝜒1−𝛼/2 .
Región de rechazo: 𝐽 ≤ 𝜒𝑛−1 𝑛−1
𝛼/2 y 𝐽 ≥ 𝜒1−𝛼/2 .

Ejemplo 7.13. En un grupo de alumnos se quiere contrastar si la desviación típica de


la nota es mayor de 1 punto. Para ello se toma la siguiente muestra:

6.3, 5.4, 4.1, 5.0, 8.2, 7.6, 6.4, 5.6, 4.3, 5.2

El contraste que se plantea es

𝐻0 ∶ 𝜎 = 1 𝐻1 ∶ 𝜎 > 1

Para realizar el contraste se tiene:


6.3+⋯+5.2
• 𝑥̄ = 10 = 58.1
10 = 5.81 puntos.
2 (6.3−5.81) +⋯+(5.2−5.81)2
2
15.949
• 𝑠̂ = 9 = 9 = 1.7721 puntos2 .

El estadístico del contraste vale

(𝑛 − 1)𝑆 2̂ 9 ⋅ 1.7721
𝐽= 2
= = 15.949,
𝜎0 12

y el 𝑝-valor del contraste es 𝑃 (𝜒(9) ≥ 15.949) = 0.068, por lo que no se puede rechazar
la hipótesis nula para 𝛼 = 0.05.

7.9 Contraste para proporción de una población

Sea 𝑝 la proporción de individuos de una población que tienen una determinada carac-
terística.
Contraste:

𝐻0 ∶ 𝑝 = 𝑝0
𝐻1 ∶ 𝑝 ≠ 𝑝0

206
Estadístico del contraste: La variable que mide el número de individuos con la
característica en una muestra aleatoria de tamaño 𝑛 sigue una distribución binomial
𝑋 ∼ 𝐵(𝑛, 𝑝0 ). De acuerdo al teorema central del límite, para muestras grandes (𝑛𝑝 ≥ 5
y 𝑛(1 − 𝑝) ≥ 5), 𝑋 ∼ 𝑁 (𝑛𝑝0 , √𝑛𝑝0 (1 − 𝑝0 )), y se cumple

𝑋 𝑝 (1 − 𝑝0 ) 𝑝 ̂ − 𝑝0
𝑝̂ = ∼ 𝑁 (𝑝0 , √ 0 )⇒𝑍= ∼ 𝑁 (0, 1).
𝑛 𝑛 √𝑝0 (1 − 𝑝0 )/𝑛

Región de aceptación: 𝑧𝛼/2 < 𝑍 < 𝑧1−𝛼/2 .


Región de rechazo: 𝑍 ≤ 𝑧𝛼/2 y 𝑍 ≥ 𝑧1−𝛼/2 .

Ejemplo 7.14. En un grupo de alumnos se desea estimar si el porcentaje de aprobados


es mayor del 50%. Para ello se toma una muestra de 80 alumnos entre los que hay 50
aprobados.
El contraste que se plantea es

𝐻0 ∶ 𝑝 = 0.5
𝐻1 ∶ 𝑝 > 0.5

Para realizar el contraste se tiene que 𝑝̂ = 50/80 = 0.625 y como se cumple 𝑛𝑝̂ =
80 ⋅ 0.625 = 50 ≥ 5 y 𝑛(1 − 𝑝)̂ = 80(1 − 0.625) = 30 ≥ 5, el estadístico del contraste vale

𝑝 ̂ − 𝑝0 0.625 − 0.5
𝑍= = = 2.2361.
√𝑝0 (1 − 𝑝0 )/𝑛 √0.5(1 − 0.5)/80

y el 𝑝-valor del contraste es 𝑃 (𝑍 ≥ 2.2361) = 0.0127, por lo que se rechaza la hipótesis


nula para 𝛼 = 0.05 y se concluye que el porcentaje de aprobados es mayor de la mitad.

7.10 Contraste de comparación de medias de dos poblaciones


normales con varianzas conocidas

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes condiciones:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 y 𝜇2 son desconocidas, pero sus varianzas 𝜎12 y 𝜎22 son conocidas.

207
Contraste:

𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2

Estadístico del contraste:

𝑋̄ 1 ∼ 𝑁 (𝜇1 , √𝜎𝑛1 ) ⎫
}
1

𝑋̄ 2 ∼ 𝑁 (𝜇2 , √𝑛2 ) ⎬
𝜎
}

2

𝜎2 𝜎2 𝑋̄ 1 − 𝑋̄ 2
⇒ 𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 ⎛
⎜𝜇1 − 𝜇2 , √ 1 + 2 ⎞
⎟⇒𝑍= ∼ 𝑁 (0, 1).
𝑛1 𝑛2 2
√ 𝑛𝜎1 + 𝑛𝜎2
2
⎝ ⎠ 1 2

Región de aceptación: −𝑧𝛼/2 < 𝑍 < 𝑧𝛼/2 .


Región de rechazo: 𝑍 ≤ −𝑧𝛼/2 y 𝑍 ≥ 𝑧𝛼/2 .

7.11 Contraste de comparación de medias de dos poblaciones


normales con varianzas desconocidas e iguales

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes condiciones:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 y 𝜇2 son desconocidas y sus varianzas también, pero son iguales
𝜎12 = 𝜎22 = 𝜎2 .

Contraste:

𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2

Estadístico del contraste:

𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 (𝜇1 − 𝜇2 , 𝜎√ 𝑛𝑛1 +𝑛 2
) ⎫
} 𝑋̄ 1 − 𝑋̄ 2
1 𝑛2
𝑛1 𝑆12 + 𝑛2 𝑆22 ⇒𝑇 = ∼ 𝑇 (𝑛1 + 𝑛2 − 2).
2 ⎬ ̂ √ 𝑛1 +𝑛2
∼ 𝜒 (𝑛1 + 𝑛 2 − 2) } 𝑆𝑝
𝜎2 ⎭ 𝑛1 𝑛2

𝑛 +𝑛2 −2 𝑛 +𝑛2 −2
Región de aceptación: −𝑡𝛼/2
1
< 𝑇 < 𝑡𝛼/2
1
.
𝑛1 +𝑛2 −2 𝑛1 +𝑛2 −2
Región de rechazo: 𝑇 ≤ −𝑡𝛼/2 y𝑇 ≥ 𝑡𝛼/2 .

208
Ejemplo 7.15. Se quiere comparar el rendimiento académico de dos grupos de alumnos,
uno con 10 alumnos y otro con 12, que han seguido metodologías diferentes. Para ello
se les realiza un examen y se obtienen las siguientes puntuaciones:

𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7

El contraste que se plantea es

𝐻0 ∶ 𝜇1 = 𝜇2 𝐻1 ∶ 𝜇1 ≠ 𝜇2

Para realizar el contraste, se tiene

• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
4 +⋯+3
2
• 𝑆1 = 10 − 5.3 = 3.21 puntos y 𝑆2 = 8 +⋯+3
2 2 2
12 − 6.752 = 2.69 puntos2 .
• 𝑆𝑝2̂ = 10⋅3.21+12⋅2.6875
10+12−2 = 3.2175 puntos2 , y 𝑆𝑝̂ = 1.7937.

Si se suponen varianzas iguales, el estadístico del contraste vale

𝑋̄ 1 − 𝑋̄ 2 5.3 − 6.75
𝑇 = = = −1.8879,
𝑆𝑝̂ √ 𝑛 𝑛
𝑛1 +𝑛 2
1.7937√ 10+12
10⋅12
1 2

y el 𝑝-valor del contraste es 2𝑃 (𝑇 (20) ≤ −1.8879) = 0.0736, de modo que no se puede


rechazar la hipótesis nula y se concluye que no hay diferencias significativas entre las
notas medias de los grupos.

7.12 Contraste de comparación de medias de dos poblaciones


normales con varianzas desconocidas

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes condiciones:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 , 𝜇2 y varianzas 𝜎12 , 𝜎22 , son desconocidas, pero 𝜎12 ≠ 𝜎22 .

Contraste:

𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2

209
Estadístico del contraste:

(𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
𝑇 = ∼ 𝑇 (𝑔),
̂
2 𝑆22̂
√ 𝑆𝑛1 + 𝑛2
1

con 𝑔 = 𝑛1 + 𝑛2 − 2 − Δ y

( 𝑛𝑛2 −1 𝑆12̂ −
𝑛1 −1 2̂ 2
𝑛2 𝑆2 )
Δ= 1
𝑛2 −1 4̂ 𝑛1 −1 4̂
.
𝑛12 𝑆1 + 𝑛22 𝑆 2

Región de aceptación: −𝑡𝑔𝛼/2 < 𝑇 < 𝑡𝑔𝛼/2 .


Región de rechazo: 𝑇 ≤ −𝑡𝑔𝛼/2 y 𝑇 ≥ 𝑡𝑔𝛼/2 .

7.13 Contraste de comparación de varianzas de dos


poblaciones normales

Sean 𝑋1 y 𝑋2 dos variables aleatorias que cumplen las siguientes condiciones:

• Su distribución es normal 𝑋1 ∼ 𝑁 (𝜇1 , 𝜎1 ) y 𝑋2 ∼ 𝑁 (𝜇2 , 𝜎2 ).


• Sus medias 𝜇1 , 𝜇2 y varianzas 𝜎12 , 𝜎22 son desconocidas.

Contraste:

𝐻0 ∶ 𝜎 1 = 𝜎 2
𝐻1 ∶ 𝜎 1 ≠ 𝜎 2

Estadístico del contraste:

(𝑛1 − 1)𝑆12̂ ⎫ (𝑛1 −1)𝑆2


̂
1
∼ 𝜒2 (𝑛1 − 1) } 𝜎2
𝜎12 } 1
𝑛1 −1 𝜎22 𝑆12̂
(𝑛2 − 1)𝑆22̂ ⎬⇒𝐹 = (𝑛2 −1)𝑆2
̂
2
=
𝜎12 𝑆22̂
∼ 𝐹 (𝑛1 − 1, 𝑛2 − 1).
∼ 𝜒2 (𝑛2 − 1) }
} 𝜎22
𝜎22 ⎭ 𝑛2 −1

𝑛 −1,𝑛2 −1 𝑛 −1,𝑛2 −1
Región de aceptación: 𝐹𝛼/2
1
< 𝐹 < 𝐹1−𝛼/2
1
.
𝑛1 −1,𝑛2 −1 𝑛1 −1,𝑛2 −1
Región de rechazo: 𝐹 ≤ 𝐹𝛼/2 y𝐹 ≥ 𝐹1−𝛼/2 .

210
Ejemplo 7.16. Siguiendo con el ejemplo de las puntuaciones en dos grupos:

𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7

Si se desea comparar las varianzas, el contraste que se plantea es

𝐻0 ∶ 𝜎 1 = 𝜎 2 𝐻1 ∶ 𝜎1 ≠ 𝜎2

Para realizar el contraste, se tiene

• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
• 𝑆12̂ = (4−5.3) +⋯+(3−5.3)
9 = 3.5667 y 𝑆22̂ = (8−6.75) +⋯+(3−6.75)
11 = 2.9318 puntos2 .

El estadístico del contraste vale

𝑆12̂ 3.5667
𝐹 = = = 1.2165,
𝑆22̂ 2.9318

y el 𝑝-valor del contraste es 2𝑃 (𝐹 (9, 11) ≤ 1.2165) = 0.7468, por lo que se mantiene la
hipótesis de igualdad de varianzas.

7.14 Contraste de comparación de proporciones de dos


poblaciones

Sean 𝑝1 y 𝑝2 las respectivas proporciones de individuos que presentan una determinada


característica en dos poblaciones.
Contraste:

𝐻0 ∶ 𝑝1 = 𝑝2 𝐻1 ∶ 𝑝1 ≠ 𝑝2

Estadístico del contraste: Las variables que miden el número de individuos con
la característica en dos muestras aleatorias de tamaños 𝑛1 y 𝑛2 respectivamente, si-
guen distribuciones binomiales 𝑋1 ∼ 𝐵(𝑛1 , 𝑝1 ) y 𝑋2 ∼ 𝐵(𝑛2 , 𝑝2 ). Si las muestras
son grandes (𝑛𝑖 𝑝𝑖 ≥ 5 y 𝑛𝑖 (1 − 𝑝𝑖 ) ≥ 5), de acuerdo al teorema central del límite,
𝑋1 ∼ 𝑁 (𝑛𝑝1 , √𝑛𝑝1 (1 − 𝑝1 )) y 𝑋2 ∼ 𝑁 (𝑛𝑝2 , √𝑛𝑝2 (1 − 𝑝2 )), y se cumple

211
𝑝1̂ = 𝑋1
𝑛1 ∼ 𝑁 (𝑝1 , √ 𝑝1 (1−𝑝
𝑛1
1)
) ⎫
} 𝑝1̂ − 𝑝2̂
⎬ ⇒ 𝑍 = ∼ 𝑁 (0, 1)
𝑋2
𝑝2̂ = 𝑛2 ∼ 𝑁 (𝑝2 , √ 𝑝2 (1−𝑝
𝑛2
2)
) }
⎭ √ 𝑝1 (1−𝑝1 )
𝑛1 + 𝑝2 (1−𝑝2 )
𝑛2

Región de aceptación: 𝑧𝛼/2 < 𝑍 < 𝑧1−𝛼/2 .


Región de rechazo: 𝑧 ≤ 𝑧𝛼/2 y 𝑧 ≥ 𝑧1−𝛼/2 .

Ejemplo 7.17. Se quiere comparar los porcentajes de aprobados en dos grupos que han
seguido metodologías distintas. En el primer grupo han aprobado 24 alumnos de un total
de 40, mientras que en el segundo han aprobado 48 de 60.
El contraste que se plantea es

𝐻0 ∶ 𝑝1 = 𝑝2 𝐻1 ∶ 𝑝1 ≠ 𝑝2

Para realizar el contraste, se tiene 𝑝1̂ = 24/40 = 0.6 y 𝑝2̂ = 48/60 = 0.8, de manera que
se cumplen las condiciones 𝑛1 𝑝1̂ = 40 ⋅ 0.6 = 24 ≥ 5, 𝑛1 (1 − 𝑝1̂ ) = 40(1 − 0.6) = 26 ≥ 5,
𝑛2 𝑝2̂ = 60⋅0.8 = 48 ≥ 5 y 𝑛2 (1− 𝑝2̂ ) = 60(1−0.8) = 12 ≥ 5, y el estadístico del contraste
vale

𝑝1̂ − 𝑝2̂ 0.6 − 0.8


𝑍= = = −2.1483,
𝑝1 (1−𝑝1 )
√ 𝑛 + 𝑝2 (1−𝑝
𝑛2
2)
√ 0.6(1−0.6)
40 + 0.8(1−0.8)
60
1

y el 𝑝-valor del contraste es 2𝑃 (𝑍 ≤ −2.1483) = 0.0317, de manera que se rechaza la


hipótesis nula para 𝛼 = 0.05 y se concluye que hay diferencias.

7.15 Realización de contrastes mediante intervalos de


confianza

Una interesante alternativa a la realización de un contraste

𝐻0 ∶ 𝜃 = 𝜃 0 𝐻1 ∶ 𝜃 ≠ 𝜃0

con un riesgo 𝛼, es calcular el intervalo de confianza para 𝜃 con un nivel de confianza


1 − 𝛼, ya que este intervalo se puede interpretar como el conjunto aceptable de hipótesis
para 𝜃, de manera que si 𝜃0 está fuera del intervalo, la hipótesis nula es poco creíble y
puede rechazarse, mientras que si está dentro la hipótesis es creíble y se acepta.
Cuando el contraste sea unilateral de menor, el contraste se realizaría comparando 𝜃0
con el límite superior del intervalo de confianza para 𝜃 con un nivel de confianza 1 − 2𝛼,

212
mientras que si el contraste es unilateral de mayor, se comparará con el límite inferior
del intervalo.

Contraste Intervalo de confianza Decisión


Bilateral [𝑙𝑖 , 𝑙𝑠 ] con nivel de confianza 1 − 𝛼 Rechazar 𝐻0 si 𝜃0 ∉ [𝑙𝑖 , 𝑙𝑠 ]
Unilateral [−∞, 𝑙𝑠 ] con nivel de confianza Rechazar 𝐻0 si 𝜃0 ≥ 𝑙𝑠
menor 1 − 2𝛼
Unilateral [𝑙𝑖 , ∞] con nivel de confianza 1 − 2𝛼 Rechazar 𝐻0 si 𝜃0 ≤ 𝑙𝑖
mayor

Ejemplo 7.18. Volviendo al contraste para comparar el rendimiento académico de dos


grupos de alumnos que han obtenido las siguientes puntuaciones:

𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7

El contraste que se planteaba era

𝐻0 ∶ 𝜇1 = 𝜇2 𝐻1 ∶ 𝜇1 ≠ 𝜇2

Como se trata de un contraste bilateral, el intervalo de confianza para la diferencia de


medias 𝜇1 − 𝜇2 con nivel de confianza 1 − 𝛼 = 0.95, suponiendo varianzas iguales, vale
[−3.0521, 0.1521] puntos. Y como según la hipótesis nula 𝜇1 − 𝜇2 = 0, y el 0 cae dentro
del intervalo, se acepta la hipótesis nula.
La ventaja del intervalo es que, además de permitirnos realizar el contraste, nos da una
idea de la magnitud de la diferencia entre las medias de los grupos.

213
8 Análisis de la Varianza

8.1 Análisis de la varianza de 1 factor

El Análisis de la Varianza con un Factor (ANOVA por sus siglas en inglés), es una
técnica estadística de contraste de hipótesis, que sirve para comparar las medias una
variable cuantitativa, que suele llamarse variable dependiente o respuesta, en distintos
grupos o muestras definidas por una variable cualitativa, llamada variable independiente
o factor. Las distintas categorías del factor que definen los grupos a comparar se conocen
como niveles o tratamientos del factor.
Se trata, por tanto, de una generalización de la prueba T para la comparación de medias
de dos muestras independientes, para diseños experimentales con más de dos muestras. Y
se diferencia de un análisis de regresión simple, donde tanto la variable dependiente como
la independiente eran cuantitativas, en que en el análisis de la varianza de un factor, la
variable independiente o factor es una variable cualitativa, aunque como veremos más
adelante en los contrastes de regresión, se puede plantear un contraste de ANOVA como
si fuese un contraste de regresión lineal.
Un ejemplo de aplicación de esta técnica podría ser la comparación del nivel de coles-
terol medio según el grupo sanguíneo. En este caso, la dependiente o factor es el grupo
sanguíneo, con cuatro niveles (A, B, O, AB), mientras que la variable respuesta es el
nivel de colesterol.
Para comparar las medias de la variable respuesta según los diferentes niveles del factor,
se plantea un contraste de hipótesis en el que la hipótesis nula, 𝐻0 , es que la variable
respuesta tiene igual media en todos los niveles, mientras que la hipótesis alternativa, 𝐻1 ,
es que hay diferencias estadísticamente significativas entre al menos dos de las medias.
Dicho contraste se realiza mediante la descomposición de la varianza total de la variable
respuesta; de ahí procede el nombre de esta técnica.

8.1.1 El contraste de ANOVA

La notación habitual en ANOVA es la siguiente:

• 𝑘: es el número de niveles del factor.


• 𝑛𝑖 : es el tamaño de la muestra aleatoria correspondiente al nivel 𝑖-ésimo del factor.
𝑘
• 𝑛 = ∑𝑖=1 𝑛𝑖 : es el número total de observaciones.

214
• 𝑋𝑖𝑗 (𝑖 = 1, ..., 𝑘; 𝑗 = 1, ..., 𝑛𝑖 ): es una variable aleatoria que indica la respuesta del
𝑗-ésimo individuo al 𝑖-ésimo nivel del factor.
• 𝑥𝑖𝑗 : es el valor concreto, en una muestra dada, de la variable 𝑋𝑖𝑗 .

Niveles del factor


1 2 ⋯ 𝑘
𝑋11 𝑋21 ⋯ 𝑋𝑘1
𝑋12 𝑋22 ⋯ 𝑋𝑘2
⋮ ⋮ ⋮ ⋮
𝑋1𝑛1 𝑋2𝑛2 ⋯ 𝑋𝑘𝑛𝑘

• 𝜇𝑖 : es la media de la población del nivel 𝑖.


𝑛𝑖
• 𝑋̄ 𝑖 = ∑𝑗=1 𝑋𝑖𝑗 /𝑛𝑖 : es la variable media muestral del nivel 𝑖, y estimador de 𝜇𝑖 .
𝑛
• 𝑥𝑖̄ = ∑𝑗=1𝑖
𝑥𝑖𝑗 /𝑛𝑖 : es la estimación concreta para una muestra dada de la variable
media muestral del nivel 𝑖.
• 𝜇: es la media global de la población (incluidos todos los niveles).
𝑘 𝑛𝑖
• 𝑋̄ = ∑𝑖=1 ∑𝑗=1 𝑋𝑖𝑗 /𝑛: es la variable media muestral de todas las respuestas, y
estimador de 𝜇.
𝑘 𝑛𝑖
• 𝑥̄ = ∑𝑖=1 ∑𝑗=1 𝑥𝑖𝑗 /𝑛: es la estimación concreta para una muestra dada de la
variable media muestral.

Con esta notación podemos expresar la variable respuesta mediante un modelo matemá-
tico que la descompone en componentes atribuibles a distintas causas:

𝑋𝑖𝑗 = 𝜇 + (𝜇𝑖 − 𝜇) + (𝑋𝑖𝑗 − 𝜇𝑖 ),

es decir, la respuesta 𝑗-ésima en el nivel 𝑖-ésimo puede descomponerse como resultado


de una media global, más la desviación con respecto a la media global debida al hecho
de que recibe el tratamiento 𝑖-ésimo, más una nueva desviación con respecto a la media
del nivel debida a influencias aleatorias.
Sobre este modelo se plantea la hipótesis nula: las medias correspondientes a todos los
niveles son iguales; y su correspondiente alternativa: al menos hay dos medias de nivel
que son diferentes.

𝐻0 ∶𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
𝐻1 ∶𝜇𝑖 ≠ 𝜇𝑗 para algún 𝑖 ≠ 𝑗.

Para poder realizar el contraste con este modelo es necesario plantear ciertas hipótesis
estructurales (supuestos del modelo):

215
• ndependencia: Las 𝑘 muestras, correspondientes a los 𝑘 niveles del fac-
tor,representan muestras aleatorias independientes de 𝑘 poblaciones con medias
𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 desconocidas.
• Normalidad: Cada una de las 𝑘 poblaciones es normal.
• Homocedasticidad: Cada una de las 𝑘 poblaciones tiene la misma varianza 𝜎2 .

Teniendo en cuenta la hipótesis nula y los supuestos del modelo, si se sustituye en el


modelo las medias poblacionales por sus correspondientes estimadores muestrales, se
tiene

𝑋𝑖𝑗 = 𝑋̄ + (𝑋̄ 𝑖 − 𝑋)̄ + (𝑋𝑖𝑗 − 𝑋̄ 𝑖 ),


o lo que es lo mismo,
𝑋𝑖𝑗 − 𝑋̄ = (𝑋̄ 𝑖 − 𝑋)̄ + (𝑋𝑖𝑗 − 𝑋̄ 𝑖 ).

Elevando al cuadrado y teniendo en cuenta las propiedades de los sumatorios, se llega a


la ecuación que recibe el nombre de identidad de la suma de cuadrados:

𝑘 𝑛𝑖 𝑘 𝑘 𝑛𝑖
∑ ∑(𝑋𝑖𝑗 − 𝑋)̄ 2 = ∑ 𝑛𝑖 (𝑋̄ 𝑖 − 𝑋)̄ 2 + ∑ ∑(𝑋𝑖𝑗 − 𝑋̄ 𝑖 )2 ,
𝑖=1 𝑗=1 𝑖=1 𝑖=1 𝑗=1

donde:
𝑘 𝑛
• ∑𝑖=1 ∑𝑗=1 𝑖
(𝑋𝑖𝑗 − 𝑋)̄ 2 : recibe el nombre de suma total de cuadrados, (𝑆𝑇 𝐶), y es
la suma de cuadrados de las desviaciones con respecto a la media global; por lo
tanto, una medida de la variabilidad total de los datos.
𝑘
• ∑𝑗=1 𝑛𝑖 (𝑋̄ 𝑖 − 𝑋)̄ 2 : recibe el nombre de suma de cuadrados de los tratamientos o
suma de cuadrados intergrupos, (𝑆𝐶𝐼𝑛𝑡𝑒𝑟), y es la suma ponderada de cuadrados
de las desviaciones de la media de cada nivel con respecto a la media global; por lo
tanto, una medida de la variabilidad atribuida al hecho de que se utilizan diferentes
niveles o tratamientos.
𝑘 𝑛𝑖
• ∑𝑖=1 ∑𝑗=1 (𝑋𝑖𝑗 − 𝑋̄ 𝑖 )2 : recibe el nombre de suma de cuadrados residual o suma de
cuadrados intragrupos, (𝑆𝐶𝐼𝑛𝑡𝑟𝑎), y es la suma de cuadrados de las desviaciones de
las observaciones con respecto a las medias de sus respectivos niveles o tratamientos;
por lo tanto, una medida de la variabilidad en los datos atribuida a las fluctuaciones
aleatorias dentro del mismo nivel.

Con esta notación la identidad de suma de cuadrados se expresa:

𝑆𝐶𝑇 = 𝑆𝐶𝐼𝑛𝑡𝑒𝑟 + 𝑆𝐶𝐼𝑛𝑡𝑟𝑎

Y un último paso para llegar al estadístico que permitirá contrastar 𝐻0 , es la definición


de los Cuadrados Medios, que se obtienen al dividir cada una de las sumas de cuadrados

216
por sus correspondientes grados de libertad. Para 𝑆𝐶𝑇 el número de grados de libertad
es 𝑛 − 1; para 𝑆𝐶𝐼𝑛𝑡𝑒𝑟 es 𝑘 − 1; y para 𝑆𝐶𝐼𝑛𝑡𝑟𝑎 es 𝑛 − 𝑘.
Por lo tanto,

𝑆𝐶𝑇
𝐶𝑀 𝑇 =
𝑛−1
𝑆𝐶𝐼𝑛𝑡𝑒𝑟
𝐶𝑀 𝐼𝑛𝑡𝑒𝑟 =
𝑘−1
𝑆𝐶𝐼𝑛𝑡𝑟𝑎
𝐶𝑀 𝐼𝑛𝑡𝑟𝑎 =
𝑛−𝑘

Y se podría demostrar que, en el supuesto de ser cierta la hipótesis nula y los supuestos
del modelo, el cociente

𝐶𝑀 𝐼𝑛𝑡𝑒𝑟
𝐶𝑀 𝐼𝑛𝑡𝑟𝑎

sigue una distribución 𝐹 de Fisher con 𝑘 − 1 y 𝑛 − 𝑘 grados de libertad.


De esta forma, si 𝐻0 es cierta, el valor del cociente para un conjunto de muestras dado,
estará próximo a 0 (aún siendo siempre mayor que 0); pero si no se cumple 𝐻0 crece la
variabilidad intergrupos y la estimación del estadístico crece. En definitiva, realizaremos
un contraste de hipótesis unilateral con cola a la derecha de igualdad de varianzas, y para
ello calcularemos el 𝑝-valor de la estimación de 𝐹 obtenida y aceptaremos o rechazaremos
en función del nivel de significación fijado.

8.1.1.1 Tabla de ANOVA

Todos los estadísticos planteados en el apartado anterior se recogen en una tabla denomi-
nada Tabla de ANOVA, en la que se ponen los resultados de las estimaciones de dichos
estadísticos en las muestras concretas objeto de estudio. Esas tablas también son las
que aportan como resultado de cualquier ANOVA los programas estadísticos, que suelen
añadir al final de la tabla el 𝑝-valor del estadístico 𝐹 calculado, y que permite aceptar
o rechazar la hipótesis nula de que las medias correspondientes a todos los niveles del
factor son iguales.

Suma de Grados de Cuadrados Estadístico


cuadrados libertad medios F p-valor
𝐶𝑀𝐼𝑛𝑡𝑒𝑟
Intergrupos 𝑆𝐶𝐼𝑛𝑡𝑒𝑟 𝑘−1 𝐶𝑀 𝐼𝑛𝑡𝑒𝑟 = 𝑓= 𝐶𝑀𝐼𝑛𝑡𝑟𝑎 𝑃 (𝐹 > 𝑓)
𝑆𝐶𝐼𝑛𝑡𝑒𝑟
𝑘−1
Intragrupos 𝑆𝐶𝐼𝑛𝑡𝑟𝑎 𝑛−𝑘 𝐶𝑀 𝐼𝑛𝑡𝑟𝑎 =
𝑆𝐶𝐼𝑛𝑡𝑟𝑎
𝑛−𝑘

217
Suma de Grados de Cuadrados Estadístico
cuadrados libertad medios F p-valor
Total 𝑆𝐶𝑇 𝑛−1

8.1.2 Test de comparaciones múltiples y por parejas

Una vez realizado el ANOVA de un factor para comparar las 𝑘 medias correspondientes
a los 𝑘 niveles o tratamientos del factor, se puede concluir aceptando la hipótesis nula, en
cuyo caso se da por concluido el análisis de los datos en cuanto a detección de diferencias
entre los niveles, o rechazándola, en cuyo caso es natural continuar con el análisis para
tratar de localizar con precisión dónde está la diferencia, cuáles son los niveles cuyas
respuestas son estadísticamente diferentes.
En el segundo caso, hay varios métodos que permiten detectar las diferencias entre
las medias de los diferentes niveles, y que reciben el nombre de test de comparaciones
múltiples. A su vez este tipo de test se suele clasificar en:

• Test de comparaciones por parejas: Su objetivo es la comparación una a una de


todas las posibles parejas de medias que se pueden tomar al considerar los diferentes
niveles. Su resultado es una tabla en la que se reflejan las diferencias entre todas
las posibles parejas y los intervalos de confianza para dichas diferencias, con la
indicación de si hay o no diferencias significativas entre las mismas. Hay que aclarar
que los intervalos obtenidos no son los mismos que resultarían si se considera cada
pareja de medias por separado, ya que el rechazo de 𝐻0 en el contraste general
de ANOVA implica la aceptación de una hipótesis alternativa en la que están
involucrados varios contrastes individuales a su vez; y si queremos mantener un
nivel de significación 𝛼 en el general, en los individuales debemos utilizar un 𝛼′
considerablemente más pequeño.
• Test de rango múltiple: Su objetivo es la identificación de subconjuntos homogéneos
de medias que no se diferencian entre sí.

Para los primeros se puede utilizar el test de Bonferroni; para los segundos, el test de
Duncan; y para ambas categorías a la vez los test HSD de Tukey y Scheffé.

8.2 ANOVA de dos o más factores

En muchos problemas aparece no ya un único factor que permite clasificar los individuos
de la muestra en 𝑘 diferentes niveles, sino que pueden presentarse dos o más factores que
permiten clasificar a los individuos de la muestra en múltiples grupos según diferentes
criterios, que se pueden analizar para ver si hay o no diferencias significativas entre las
medias de la variable respuesta.

218
Para tratar con este tipo de problemas surge el ANOVA de Dos o Más Factores (o
también ANOVA de Dos o Más Vías) como una generalización del proceso de un factor,
que además de permitir el análisis de la influencia de cada uno de los factores por
separado también hace posible el estudio de la interacción entre ellos.
Por otra parte, también son frecuentes los problemas en los que se toma más de una
medida de una variable cuantitativa (respuesta) en cada sujeto de la muestra, y se
procede al análisis de las diferencias entre las diferentes medidas. Si sólo se toman dos,
el procedimiento adecuado es la T de Student de datos pareados, o su correspondiente
no paramétrico, el test de Wilcoxon; pero si se han tomado tres o más medidas, el
test paramétrico correspondiente a la T de Student de datos pareados es el ANOVA de
Medidas Repetidas.
Incluso también se puede dar el caso de un problema en el que se analice una misma
variable cuantitativa medida en varias ocasiones en cada sujeto de la muestra pero te-
niendo en cuenta a la vez la influencia de uno, dos o más factores que permiten clasificar
a los individuos en varios subgrupos diferentes. En definitiva, pueden aparecer problemas
donde a la par que un ANOVA de medidas repetidas se requiera realizar un ANOVA de
dos o más vías.
Por último, la situación más compleja que se puede plantear en el análisis de una res-
puesta cuantitativa se presenta cuando, añadida a medidas repetidas y dos o más vías
o factores de clasificación, se tienen una o más variables cuantitativas, llamadas cova-
riables, que se piensa que pueden influir en la variable respuesta. Se procede entonces
a realizar un ANCOVA o Análisis de Covarianza, con el que se pretende analizar la
influencia de los factores y también ver si hay diferencias entre las medidas repetidas
pero habiendo eliminado previamente la influencia (variabilidad) debida a la presencia
de las covariables que se pretenden controlar.

8.2.1 ANOVA de dos factores con dos niveles cada factor

Para entender qué es un ANOVA de dos o más factores, conviene partir de un caso
sencillo con dos factores y dos niveles en cada factor. Por ejemplo, se puede plantear
un experimento con individuos que siguen o no una dieta (primer factor: dieta, con dos
niveles: sí y no), y que a su vez toman o no un determinado fármaco (segundo factor:
fármaco, con dos niveles: sí y no) para reducir su peso corporal (variable respuesta
numérica: reducción del peso corporal expresada en Kg). En esta situación, se generan
cuatro grupos diferentes: los que no hacen dieta ni toman fármaco (No-No), los que no
hacen dieta pero sí toman fármaco (No-Sí), los que hacen dieta y no toman fármaco
(Sí-No), y los que hacen dieta y toman fármaco (Sí-Sí). Y se pueden plantear tres efectos
diferentes:

• El de la dieta: viendo si hay o no diferencias significativas en los Kg perdidos entre


los individuos que la han seguido y los que no.

219
• El del fármaco: viendo si hay o no diferencias significativas en los Kg perdidos
entre los individuos que lo han tomado y los que no.
• El de la interacción: viendo si el efecto combinado de dieta y fármaco es diferente
del que tendrían sumando sus efectos por separado, y entonces se diría que sí que
hay interacción; o si por el contrario el efecto de la combinación de dieta y fármaco
es el mismo que la suma de los efectos por separado, y entonces se diría que no
hay interacción.
A su vez, si hay interacción se puede dar en dos sentidos: si la combinación de dieta
y fármaco ha hecho perder más kilos a los pacientes de los que cabría esperar con
la suma de dieta y fármaco por separado, entonces la interacción de ambos factores
ha actuado en sinergia con los mismos, mientras que si la combinación ha hecho
perder menos kilos de los que cabría esperar con dieta y fármaco por separado,
entonces la interacción ha actuado en antagonismo con ambos.

Siguiendo con el ejemplo, supongamos que la tabla que aparece a continuación refleja
la media de Kg perdidos dentro de cada uno de los grupos comentados. Por simplificar
el ejemplo, no se reflejan los Kg en cada individuo con la consiguiente variabilidad
de los mismos, pero el ANOVA de dos vías sí que tendría en cuenta esa variabilidad
para poder hacer inferencia estadística, plantear contrastes de hipótesis y calcular sus
correspondientes p-valores.

Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 8

Si los resultados obtenidos fuesen los de la tabla anterior, se diría que no hay interacción
entre fármaco y dieta, ya que el efecto del fármaco en el grupo de los que no hacen dieta
ha hecho perder 5 Kg en media a los individuos, el efecto de la dieta en el grupo de
los que no toman fármaco les ha hecho perder 3 Kg en media, y el efecto combinado de
dieta y fármaco ha hecho perder 8 Kg con respecto a los que no hacen dieta y tampoco
toman fármaco. Estos 8 Kg son iguales a la suma de 3 y 5, es decir iguales a la suma
de los efectos de los factores por separado, sin ningún tipo de interacción (de término
añadido) que cambie el resultado de la suma.
Con las medias de los cuatro grupos que se generan en el cruce de los dos factores,
cada uno con dos niveles (2x2), se representan los gráficos de medias que aparecen más
adelante. En estos gráficos, cuando no hay interacción las rectas que unen las medias
correspondientes a un mismo nivel de uno de los factores son paralelas dentro de cierto
margen de variabilidad.

220
9

6
Kg perdidos

5
Fármaco No
4
Fármaco Sí
3

0
Dieta No Dieta Sí

Figura 8.1: Gráfico de medias de dos factores sin interacción

Por el contrario, también podría obtenerse una tabla en la que la suma de los efectos
por separado fuese menor que el efecto combinado de dieta y fármaco:

Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 12

En este caso, dejando al margen las variabilidad dentro de cada uno de los grupos y
suponiendo que la misma es lo suficientemente pequeña como para que las diferencias
sean significativas, los 8 Kg en media que se perderían al sumar los efectos por separado
de dieta y fármaco son menores que los 12 que, en media, han perdido los individuos
que han tomado el fármaco y han seguido la dieta a la vez. Por lo tanto, se ha producido
una interacción de los dos factores que, al unirlos, ha servido para potenciar sus efectos
por separado. Dicho de otra forma, para explicar el resultado final de los individuos que
han tomado el fármaco y también han seguido la dieta habría que introducir un nuevo
término en la suma, el término de interacción, que contribuiría con 4 Kg de pérdida
añadidos a los 8 Kg que se perderían considerando simplemente la suma de dieta y
fármaco. Como este nuevo término contribuye a aumentar la pérdida que se obtendría al

221
sumar los efectos por separado de ambos factores, se trataría de un caso de interacción
en sinergia con los dos factores de partida.

14

12

10
Kg perdidos

Fármaco No
6 Fármaco Sí

0
Dieta No Dieta Sí

Figura 8.2: Gráfico de medias de dos factores con interacción sinérgica

Por último, también se podría obtener una tabla en la que la suma de los efectos por
separado fuese mayor que el efecto combinado de los dos factores:

Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 4

Igualmente, en este nuevo ejemplo los 8 Kg en media que se perderían al sumar los
efectos por separado de los dos factores son mayores que los 4 que en realidad pierden,
en media, los individuos que han seguido la dieta y utilizado el fármaco. Por lo tanto,
para explicar el resultado obtenido en el grupo de los que toman el fármaco y siguen
la dieta habría que introducir un término añadido a la suma de efectos sin más, que
se restaría a los 8 Kg hasta dejarlos en 4 Kg. Se trataría de un caso de interacción en
antagonismo con los dos factores de partida.

222
6

4
Kg perdidos

3 Fármaco No
Fármaco Sí
2

0
Dieta No Dieta Sí

Figura 8.3: Gráfico de medias de dos factores con interacción antagónica

En realidad, la interacción también puede producirse en sinergia con uno de los factores y
en antagonismo con el otro, ya que a veces los dos factores pueden producir un efecto con
signo contrario. Por ejemplo, al hablar del factor dieta, se tiende a pensar que se trata
de una dieta que sirve para bajar el peso, pero también cabe plantearse un experimento
con personas que siguen una dieta de alto contenido calórico que en principio debería
hacerles subir peso y ver qué evolución siguen cuando a la vez toman un fármaco para
bajarlo.
Como puede deducirse fácilmente de las tablas y gráficas anteriores, la presencia de
interacción implica que la diferencia entre las medias de los dos grupos dentro de un
mismo nivel de uno de los factores no es la misma que para el otro nivel. Por ejemplo, en
la segunda tabla, la diferencia entre las medias de Kg perdidos entre los que sí que toman
el fármaco y los que no lo toman vale: 5-0=5 Kg en los que no hacen dieta, y 12-3=9
Kg en los que sí que hacen dieta. Lo cual gráficamente se traduce en que la pendiente
de la recta que une las medias dentro del grupo de los que sí que toman el fármaco es
diferente de la pendiente que une las medias dentro del grupo de los que no lo toman.
En las ideas anteriores se basará el planteamiento del contraste de hipótesis para ver si
la interacción ha resultado o no significativa.
Como ya se ha comentado, en cualquiera de las tablas anteriores se podrían analizar
tres efectos diferentes: el de la dieta, el del fármaco y el de la interacción de dieta con
fármaco; lo cual, en términos matemáticos, se traduce en tres contrastes de hipótesis
diferentes:

223
1. Efecto de la dieta sobre la cantidad de peso perdido:
𝐻0 ∶ 𝜇con dieta = 𝜇sin dieta
𝐻1 ∶ 𝜇con dieta ≠ 𝜇sin dieta
2. Efecto del fármaco sobre la cantidad de peso perdido:
𝐻0 ∶ 𝜇con fármaco = 𝜇sin fármaco
𝐻1 ∶ 𝜇con fármaco ≠ 𝜇sin fármaco
3. Efecto de la interacción entre dieta y fármaco, que a su vez se puede plantear de
dos formas equivalentes:

a. Viendo si dentro dentro de los grupos definidos en función de la dieta la


diferencia de Kg perdidos entre los que toman fármaco y los que no lo toman
es la misma:
𝐻0 ∶ (𝜇con fármaco − 𝜇sin fármaco )sin dieta = (𝜇con fármaco − 𝜇sin fármaco )con dieta
𝐻1 ∶ (𝜇con fármaco − 𝜇sin fármaco )sin dieta ≠ (𝜇con fármaco − 𝜇sin fármaco )con dieta
b. Viendo si dentro de los grupos definidos en función del fármaco la diferencia
de Kg perdidos entre los que hacen dieta y los que no la hacen es la misma:
𝐻0 ∶ (𝜇con dieta − 𝜇sin dieta )sin fármaco = (𝜇con dieta − 𝜇sin dieta )con fármaco
𝐻1 ∶ (𝜇con dieta − 𝜇sin dieta )sin fármaco ≠ (𝜇con dieta − 𝜇sin dieta )con fármaco

Aunque los detalles matemáticos más precisos sobre cómo el ANOVA de dos o más
vías da respuesta a los contrastes expuestos quedan fuera del nivel de esta práctica, la
idea general es sencilla y muy parecida a la explicada con más detalle en la práctica
de ANOVA de una vía. En el ANOVA de una vía, la variabilidad total de los datos,
expresada como suma de distancias al cuadrado con respecto a la media global (llamada
Suma de Cuadrados Total), se descompone en dos diferentes fuentes de variabilidad: las
distancias al cuadrado de los datos de cada grupo con respecto a la media del grupo,
Suma de Cuadrados Intra, más las distancias al cuadrado entre las diferentes medias
de los grupos y la media general, Suma de Cuadrados Inter. La suma de cuadrados
intra-grupos es también llamada Variabilidad Residual o Suma de Cuadrados Residual,
ya que su cuantía es una medida de la dispersión residual, remanente incluso después de
haber dividido los datos en grupos. Estas sumas de cuadrados, una vez divididas por sus
correspondientes grados de libertad, generan varianzas llamadas Cuadrados Medios, y el
cociente de cuadrados medios (cuadrado medio inter dividido entre cuadrado medio intra)
bajo la hipótesis nula de igualdad de medias en todos los grupos sigue una distribución
F de Fisher que se puede utilizar para calcular un 𝑝-valor del contraste de igualdad de
medias. En el ANOVA de dos factores, en lugar de dos fuentes de variabilidad tenemos
cuatro: una por el primer factor, otra por el segundo, otra por la interacción y otra más
que contempla la variabilidad residual o variabilidad intragrupos. En el ejemplo anterior,
las cuatro fuentes de variabilidad son:

1. La debida al primer factor: la dieta.

224
2. La debida al segundo factor: el fármaco.
3. La debida a la interacción entre ambos.
4. La residual.

Las tres primeras fuentes de variabilidad llevan asociadas sus correspondientes sumas
de cuadrados, similares a la suma de cuadrados inter del ANOVA de una vía, mientras
que la variabilidad residual lleva asociada su suma de cuadrados residual, similar a la
suma de cuadrados intra del ANOVA de una vía. Dividiendo las sumas de cuadrados
entre sus respectivos grados de libertad se obtienen varianzas, que divididas entre la
varianza residual generan, bajo la hipótesis nula de igualdad de medias, valores f de la
distribución F de Fisher que pueden utilizarse para calcular el p-valor del correspondiente
contraste.
Lo anterior se resume en forma de tabla de un ANOVA de dos vías, considerando un
primer factor con 𝑘1 niveles, un segundo factor con 𝑘2 niveles y un total de datos 𝑛. Si
se denomina F1 al primer factor, F2 al segundo, I a la interacción y R al residual, la
tabla de un ANOVA de dos vías tiene la siguiente forma:

Fuente Suma Cuad Grad Lib Cuad Medios f 𝑝-valor


𝑆𝐹 1 𝐶𝐹 1
F1 𝑆𝐹 1 𝐺𝐹 1 = 𝑘1 − 1 𝐶𝐹 1 = 𝑓1 = 𝑃 (𝐹 > 𝑓1)
𝐺𝐹 1 𝐶𝑅
𝑆𝐹 2 𝐶𝐹 2
F2 𝑆𝐹 2 𝐺𝐹 2 = 𝑘2 − 1 𝐶𝐹 2 = 𝑓2 = 𝑃 (𝐹 > 𝑓2)
𝐺𝐹 2 𝐶𝑅
𝑆𝐼 𝐶𝐼
I 𝑆𝐼 𝐺𝐼 = 𝐺𝐹 1 ⋅ 𝐺𝐹 2 𝐶𝐼 = 𝑓𝐼 = 𝑃 (𝐹 > 𝑓𝐼)
𝐺𝐼 𝐶𝑅
𝑆𝑅
R 𝑆𝑅 𝐺𝑅 = 𝑛 − 1 − 𝐺𝐹 1 − 𝐺𝐹 2 − 𝐺𝐼 𝐶𝑅 =
𝐺𝑅
Total 𝑆𝑇 𝐺𝑇 = 𝑛 − 1

Una vez obtenida la tabla, habitualmente mediante un programa de estadística para


evitar realizar la gran cantidad de cálculos que conlleva (los distintos programas pueden
proporcionar tablas ligeramente diferentes a la expuesta en esta práctica, en las que
pueden aparecer filas añadidas cuya interpretación dependerá del programa utilizado),
el siguiente paso es la interpretación de los 𝑝-valores obtenidos en cada uno de los factores
y en la interacción. Para ello, resulta clave el 𝑝-valor de la interacción porque condicionará
completamente el análisis:

• Si la interacción no ha resultado significativa (𝑝-valor de la interacción mayor que


el nivel de significación, habitualmente 0.05), se puede considerar por separado
la actuación de los dos factores y ver si hay o no diferencias significativas en sus
niveles atendiendo al 𝑝-valor que aparece en la tabla para cada uno de ellos. Por
ejemplo, en la primera de las tablas del análisis de Kg perdidos en función de la
dieta y el fármaco, se obtendría que la interacción no es significativa, lo cual im-
plicaría que habría que analizar el efecto de los factores por separado. Para ello,
se acudiría al 𝑝-valor del factor dieta y si es menor que el nivel de significación

225
fijado, entonces el factor dieta habría resultado significativo, lo cual quiere decir
que habría diferencias significativas (más allá de las asumibles por azar) entre los
Kg perdidos por los individuos que hacen dieta y los que no; y todo ello, indepen-
dientemente de si los individuos están tomando o no el fármaco, ya que no hay
una interacción significativa que ligue los resultados de la dieta con el fármaco.
Igualmente, con el factor fármaco, se acudiría a su 𝑝-valor y se vería si hay o no
diferencias significativas entre los Kg perdidos por los que toman el fármaco y los
que no lo hacen, independientemente de si siguen o no la dieta.
• Si la interacción ha resultado significativa (𝑝-valor de la interacción menor que el
nivel de significación, habitualmente 0.05), no se puede considerar por separado
la actuación de los dos factores, la presencia de uno de los factores condiciona lo
que sucede en el otro y el análisis de diferencias debidas al segundo factor debe
realizarse por separado dentro de cada uno de los niveles del primero; y a la inversa,
el análisis de diferencias debidas al primero debe realizarse por separado dentro de
cada uno de los niveles del segundo. Por ejemplo, en la segunda de las tablas del
análisis de Kg perdidos en función de la dieta y el fármaco, muy probablemente se
obtendría que la interacción sí que es significativa, con lo cual no habría un único
efecto del fármaco: en el grupo de los que no toman el fármaco, la diferencia de Kg
perdidos entre los que sí que hacen dieta y los que no la hacen no sería la misma
que en el grupo de los que sí que toman el fármaco. E igualmente, tampoco habría
un único efecto de la dieta: en el grupo de los que no hacen dieta, la diferencia de
Kg perdidos entre los que sí que toman el fármaco y los que no lo hacen no sería
la misma que en el grupo de los que sí que hacen dieta.

Una aclaración final importante es que en ningún caso un ANOVA de dos factores con
dos niveles en cada vía equivale a hacer por separado una T de Student de datos inde-
pendientes en cada uno de los factores. Ni siquiera en el caso de que no haya interacción
el 𝑝-valor que se obtiene en cada uno de los dos factores coincide con el que se obtendría
en la comparación de los niveles mediante la T de Student. El ANOVA de dos factores
es una técnica multivariante que cuantifica la influencia de cada una de las variables
independientes en la variable dependiente después de haber eliminado la parte de la va-
riabilidad que se debe a las otras variables independientes que forman parte del modelo.
En el ejemplo de los Kg perdidos, no sería lo mismo analizar la influencia de la variable
dieta después de eliminar la variabilidad explicada mediante la variable fármaco e incluso
la interacción entre dieta y fármaco, que es lo que haría el ANOVA de dos factores, que
analizar simplemente la influencia de la variable dieta sin más, o fármaco sin más, que es
lo que podríamos hacer mediante una T de Student de datos independientes. Tampoco el
análisis de la interacción en el ANOVA de dos factores equivale a realizar un ANOVA de
una vía considerando una nueva variable independiente con cuatro categorías diferentes
(1:Sí-Sí, 2:Sí-No, 3:No-Sí, 4:No-No), por el mismo motivo: las conclusiones del ANOVA
de dos vías hay que entenderlas en el contexto de una técnica multivariante en que la
importancia de cada variable independiente se obtiene después de eliminar de los datos
la variabilidad debida a las demás.

226
8.2.2 ANOVA de dos factores con tres o más niveles en algún factor

El planteamiento y resolución de un ANOVA de dos factores con tres o más niveles en


algún factor es muy parecido al ya expuesto de dos niveles en cada factor. Únicamente
cambian ligeramente las hipótesis nulas planteadas en los factores en las que habría
que incluir la igualdad de tantas medias como niveles tenga el factor analizado, y las
alternativas en las que se supone que alguna de las medias es diferente. En cuanto a las
interacciones, también se contemplarían diferencias de medias pero teniendo en cuenta
que hay más diferencias posibles al tener más niveles dentro de cada factor.
En cuanto a la interpretación final de los resultados de la tabla del ANOVA, si no hay
interacción y sin embargo hay diferencias significativas en cualquiera de los factores con
3 o más niveles, el siguiente paso sería ver entre qué medias se dan esas diferencias.
Por ejemplo, si no hay interacción y se ha rechazado la hipótesis nula de igualdad de
medias entre los tres niveles del factor 1, habría que ver si esas diferencias aparecen entre
los niveles 1 y 2, o entre el 1 y 3, e incluso entre el 2 y el 3, independientemente del
factor 2; e igualmente con el factor 2. Para poder ver entre qué niveles hay diferencias,
habría que realizar Test de Comparaciones Múltiples y por Parejas; por ejemplo un test
de Bonferroni o cualquier otro de los vistos en la práctica de ANOVA de una vía. Si la
interacción saliese significativa, habría que hacer lo mismo pero considerando las posibles
diferencias entre los 3 niveles del factor 1 dentro de cada nivel del factor 2 y viceversa.
Como ya se ha comentado para el ANOVA de dos factores con dos niveles en cada factor
y la T de Student de datos independientes, igualmente el ANOVA de dos factores con
tres o más niveles en algún factor no equivale a dos ANOVAS de una vía. El 𝑝-valor que
se obtiene en el de dos factores no es el mismo que que se obtendría en los ANOVAS de
una vía realizados teniendo en cuenta cada uno de los factores por separado,incluso si la
interacción no es significativa.

8.2.3 ANOVA de tres o más factores

Aunque los fundamentos del ANOVA de tres o más factores son muy parecidos a los
de dos y la tabla obtenida es muy similar, la complejidad en la interpretación sube un
escalón. Por ejemplo, en un ANOVA de tres factores la tabla presentaría los tres efectos
de cada uno de los factores por separado, las tres interacciones dobles (1 con 2, 1 con
3 y 2 con 3), e incluso también podría mostrar la interacción triple (los programas de
estadística permiten considerar o no las interacciones de cualquier orden). Si la interac-
ción triple fuese significativa, entonces no se podría hablar del efecto general del factor
1, sino que habría que analizar el efecto del factor 1 dentro de cada nivel del 2 y a
su vez dentro de cada nivel del 3, y así sucesivamente. Si la interacción triple no fuese
significativa pero sí que lo fuese la del factor 1 con el 2, entonces habría que analizar
el efecto del factor 1 dentro de cada uno de los niveles del 2 pero independientemente
del factor 3. Y así hasta completar un conjunto muy grande de análisis posibles y de
Test de Comparaciones Múltiples aplicados. No obstante, es el propio experimentador el

227
que debe limitar el conjunto de análisis a realizar con un planteamiento muy claro del
experimento, reduciendo en la medida de lo posible el número de factores considerados
y teniendo claro que no merece la pena considerar interacciones triples, o de órdenes
superiores, si no hay forma clara de interpretar su resultado.
En ningún caso un ANOVA de tres o más factores equivale a tres ANOVAS de una vía
realizados teniendo en cuenta los factores considerados por separado.

8.2.4 Factores fijos y Factores aleatorios

A la hora de realizar un ANOVA de varios factores, el tratamiento de la variabilidad


debida a cada uno de ellos y también las conclusiones que se pueden obtener después de
realizarlo, son diferentes dependiendo de que los factores sean fijos o aleatorios.
Se entiende como Factor Fijo o Factor de Efectos Fijos aquel cuyos niveles los establece,
los fija de antemano, el investigador (por ejemplo, cantidades concretas de fármaco o de
tiempo transcurrido), o vienen dados por la propia naturaleza del factor (por ejemplo,
el sexo o la dieta). Su variabilidad es más fácil de controlar y también resulta más
sencillo su tratamiento en los cálculos que hay que hacer para llegar a la tabla final
del ANOVA, pero tienen el problema de que los niveles concretos que toma el factor
constituyen la población de niveles sobre los que se hace inferencia. Es decir, no se
pueden sacar conclusiones poblacionales que no se refieran a esos niveles fijos con los que
se ha trabajado.
Por contra, un Factor Aleatorio o Factor de Efectos Aleatorios es aquel cuyos niveles
son seleccionados de forma aleatoria entre todos los posibles niveles del factor (por
ejemplo, cantidad de fármaco, con niveles 23 mg, 132 mg y 245 mg, obtenidos al escoger
3 niveles de forma aleatoria entre 0 y 250 mg). Su tratamiento es más complicado, pero al
constituir una muestra aleatoria de niveles, se pretende sacar conclusiones extrapolables
a todos los niveles posibles.

8.2.4.1 Supuestos del modelo de ANOVA de dos o más vías

Como ya sucedía con el ANOVA de una vía, el de dos o más vías es un test paramétrico
que supone que:

• Los qdatos deben seguir distribuciones normales dentro de cada categoría, enten-
diendo por categorías todas las que se forman del cruce de todos los niveles de
todos los factores. Por ejemplo, en un ANOVA de 2 factores con 3 niveles en cada
factor, se tienen 32 categorías diferentes.
• Todas las distribuciones normales deben tener igualdad de varianzas (homocedas-
ticidad).

228
Cuando no se cumplen las condiciones anteriores y además las muestras son pequeñas,
no se debería aplicar el ANOVA de dos o más vías, con el problema añadido de que
no hay un test no paramétrico que lo sustituya. Mediante test no paramétricos (sobre
todo mediante el test de Kruskall-Wallis) se podría controlar la influencia de cada uno
de los factores por separado en los datos, pero nunca el importantísimo papel de la
interacción.

8.3 ANOVA de medidas repetidas

En muchos problemas se cuantifica el valor de una variable dependiente en varias oca-


siones en el mismo sujeto (por ejemplo: en un grupo de individuos que están siguiendo
una misma dieta, se puede anotar el peso perdido al cabo de un mes, al cabo de dos y al
cabo de tres), y se intenta comparar la media de esa variable en las diferentes ocasiones
en que se ha medido, es decir, ver si ha habido una evolución de la variable a lo largo
de las diferentes medidas (en el ejemplo anterior, una evolución del peso perdido). Con-
ceptualmente es una situación análoga a la estudiada al comparar dos medias con datos
emparejados mediante una T de Student de datos emparejados, o su correspondiente
no paramétrico, el test de Wilcoxon, pero ahora hay más de dos medidas emparejadas,
realizadas en el mismo individuo. En estas situaciones se utiliza el ANOVA de medidas
repetidas.
El ANOVA de medidas repetidas, como también sucede con cualquier otro test que
utilice datos emparejados, tiene la ventaja de que las comparaciones que se realizan
están basadas en lo que sucede dentro de cada sujeto (intra-sujetos), lo cual reduce el
ruido o variabilidad que se produce en comparaciones entre diferentes grupos de sujetos.
Por ejemplo, en el estudio sobre la evolución del peso perdido con personas que siguen
la misma dieta, se podría haber cuantificado la variable al cabo de uno, dos y tres meses,
pero en tres grupos diferentes que hubiesen seguido la misma dieta, pero con este diseño
del estudio no se controlan otras variables que pueden influir en el resultado final, por
ejemplo el sexo, la edad, o la cantidad de ejercicio que se hace al día. Dicho de otra
forma, en el diseño con grupos independientes es posible que alguno de los grupos tenga
una media de edad superior, o no haya igual número de hombres que de mujeres, y todo
ello tener su reflejo en el número de Kg perdidos. Mientras que, con el diseño de datos
emparejados, la segunda medida se compara con la primera que también se ha realizado
en la misma persona, y por lo tanto es igual su sexo, su edad y la cantidad de deporte
que realiza; y así con todas las demás medidas que se comparan entre sí pero dentro del
mismo individuo. Eso permite controlar la variabilidad y detectar pequeñas diferencias
que de otra forma serían indetectables.

229
8.3.0.1 ANOVA de medidas repetidas como ANOVA de dos vías sin interacción

El ANOVA de medidas repetidas puede realizarse como un ANOVA de dos vías sin
interacción sin más que realizar los cálculos oportunos introduciendo adecuadamente los
datos en un programa estadístico.
En la situación de partida, si suponemos que tenemos 𝑘 medidas emparejadas de una
variable dependiente numérica y 𝑛 individuos en los que hemos tomado las medidas, los
datos se pueden organizar como aparecen en la tabla siguientes:

2-5 VarDep 1 VarDep 2 ... VarDep k


Individuo 1 𝑥1,1 𝑥1,2 ... 𝑥1,𝑘
Individuo 2 𝑥2,1 𝑥2,2 ... 𝑥2,𝑘
... ... ... ... ...
Individuo n 𝑥𝑛,1 𝑥𝑛,2 ... 𝑥𝑛,𝑘

Pero esos mismos datos también se pueden ordenar en un formato de tabla mucho más
conveniente para poderles aplicar un ANOVA de dos vías:

2-4 Var Dep Individuo Medida


Fila 1 𝑥1,1 1 1
Fila 2 𝑥2,1 2 1
... ... ... ...
Fila n 𝑥𝑛,1 n 1
Fila n+1 𝑥1,2 1 2
Fila n+2 𝑥2,2 2 2
... ... ... ...
Fila 2n 𝑥𝑛,2 n 2
... ... ... ...
Fila (k-1)n+1 𝑥1,𝑘 1 k
Fila (k-1)n+2 𝑥2,𝑘 2 k
... ... ... ..
Fila kn 𝑥𝑛,𝑘 n k

Con ello, tanto Individuo como Medida son variables categóricas que dividen la muestra
total (𝑛 ⋅ 𝑘 datos de la variable dependiente) en grupos: 𝑛 grupos en la variable Individuo
y 𝑘 grupos en la variable Medida. Además, considerando el cruce de ambas variables
(Medida x Individuo) se forman 𝑛 ⋅ 𝑘 grupos con un único dato de la variable dependiente
en cada grupo.
Para explicar la variabilidad de los datos de la variable dependiente cuantitativa se
pueden considerar tres fuentes: la debida a la variable Medida, la debida a la variable

230
Individuo, y la residual. Ahora no cabe hablar de la variabilidad debida a la interacción
entre Medida e Individuo ya que los grupos que surgen del cruce de los dos factores sólo
tienen un dato y no es viable calcular medias y dispersiones dentro de un grupo con un
único dato. Y el análisis de la influencia de cada uno de los factores se realiza mediante
un ANOVA de dos factores sin interacción, que genera la siguiente tabla:

Fuente Suma Cuad Grad Lib Cuad Med F p-valor


𝑆𝐹 1 𝐶𝐹 1
F1=Medida 𝑆𝐹 1 𝐺𝐹 1 = 𝑘 − 1 𝐶𝐹 1 = 𝑓1 = 𝑃 (𝐹 > 𝑓1)
𝐺𝐹 1 𝐶𝑅
𝑆𝐹 2 𝐶𝐹 2
F2=Individuo 𝑆𝐹 2 𝐺𝐹 2 = 𝑛 − 1 𝐶𝐹 2 = 𝑓2 = 𝑃 (𝐹 > 𝑓2)
𝐺𝐹 2 𝐶𝑅
𝑆𝑅
Residual 𝑆𝑅 𝐺𝑅 = (𝑛 ⋅ 𝑘) − 1 − 𝐺𝐹 1 − 𝐺𝐹 2 𝐶𝑅 =
𝐺𝑅
Total 𝑆𝑇 𝐺𝑇 = (𝑛 ⋅ 𝑘) − 1

Y permite dar respuesta a los siguientes contrastes:

1. En la variable Medida:
𝐻0 ∶ 𝜇Medida 1 = 𝜇Medida 2 = ... = 𝜇Medida k
𝐻1 : Alguna de las medias es diferente.
Si el 𝑝-valor obtenido es menor que el nivel de significación fijado querrá decir que
alguna de las medias es significativamente diferente del resto. Este es el contraste
más importante del ANOVA de medidas repetidas y supone que la variabilidad
dentro de cada individuo (intra-sujeto) es lo suficientemente grande como para
que se descarte el azar como su causa. Por lo tanto la variable Medida ha tenido
un efecto significativo.
2. En la variable Individuo:
𝐻0 ∶ 𝜇Individuo 1 = 𝜇Individuo 2 = ... = 𝜇Individuo n
𝐻1 : Alguna de las medias es diferente.
Si el 𝑝-valor obtenido es menor que el nivel de significación fijado querrá decir
que alguna de las medias es significativamente diferente del resto, y por lo tanto
alguno de los individuos analizados ha tenido un comportamiento en la variable
dependiente diferente del resto. En realidad no es un contraste importante en el
ANOVA de medidas repetidas ya que supone un análisis de la variabilidad entre
individuos (inter-sujetos), pero es muy difícil que en un experimento dado esta
variabilidad no esté presente.

Si la conclusión del ANOVA es que hay que rechazar alguna de las dos hipótesis nulas,
ya sea la de igualdad de medias en los grupos formados por la variable Medida o la
de igualdad de medias en los grupos formados por la variable Individuo, entonces en el
siguiente paso se podría aplicar un Test de Comparaciones Múltiples y por Parejas, por

231
ejemplo un test de Bonferroni, para ver qué medias son diferentes, especialmente para
ver entre qué niveles del la variable Medida se dan las diferencias.

8.3.0.2 Supuestos del ANOVA de medidas repetidas

Como en cualquier otro ANOVA, en el de medidas repetidas se exige que:

• Los datos de la variable dependiente deben seguir distribuciones normales dentro


de cada grupo, ya sea formado por la variable Medida o por la variable Individuo.
Como el contraste más importante se realiza en la variable Medida, resultará espe-
cialmente importante que sean normales las distribuciones de todas las Medidas.
• Todas las distribuciones normales deben tener igualdad de varianzas (homocedas-
ticidad), especialmente las de las diferentes Medidas.

Cuando en un ANOVA de medidas repetidas se cumple la normalidad y la homocedasti-


cidad de todas las distribuciones se dice que se cumple la Esfericidad de los datos, y hay
tests estadísticos especialmente diseñados para contrastar la esfericidad como la prueba
de Mauchly.
Cuando no se cumplen las condiciones anteriores y además las muestras son pequeñas, no
se debería aplicar el ANOVA de medidas repetidas, pero al menos sí que hay una prueba
no paramétrica que permite realizar el contraste de si hay o no diferencias significativas
entre los distintos niveles de la variable Medida, que es el test de Friedman.

8.3.1 ANOVA de medidas repetidas + ANOVA de una o más vías

No son pocos los problemas en los que, además de analizar el efecto intra-sujetos en una
variable dependiente cuantitativa medida varias veces en los mismos individuos para
el que cabría plantear un ANOVA de medidas repetidas, también aparecen variables
cualitativas que se piensa que pueden estar relacionadas con la variable dependiente.
Estas últimas variables introducen un efecto que aunque habitualmente es catalogado
como inter-sujetos más bien se trataría de un efecto inter-grupos, yaque permiten definir
grupos entre los que se podría plantear un ANOVA de una o más vías. Por ejemplo, se
podría analizar la pérdida de peso en una muestra de individuos al cabo de uno, dos
y tres meses de tratamiento (ANOVA de medidas repetidas), pero teniendo en cuenta
que los individuos de la muestra han sido divididos en seis grupos que se forman por
el cruce de dos factores, Dieta y Ejercicio, con tres dietas diferentes: a, b y c, y dos
niveles de ejercicio físico diferentes: bajo y alto. Para analizar la influencia de estos
dos factores inter-sujetos, habría que plantear un ANOVA de dos vías con interacción.
Para un ejemplo como el comentado, aunque los datos podrían disponerse de una forma
similar a la que permite realizar el ANOVA de medidas repetidas como un ANOVA
de dos factores (variables Medida e Individuo), y añadirle dos factores más (Dieta y
Ejercicio), no resulta cómodo tener que introducir en la matriz de datos varias filas para

232
un mismo individuo (tantas como medidas repetidas diferentes se hayan realizado). Por
ello, determinados programas de estadística, como PASW, permiten realizar ANOVAs
de medidas repetidas introduciendo los datos en el formato clásico, una fila para cada
individuo y una variable para cada una de las medidas repetidas, definiendo factores
intra-sujeto que en realidad estarían compuestos por todas las variables que forman
parte de las medidas repetidas. Además, a los factores intra-sujeto permiten añadirle
nuevos factores inter-sujeto (categorías) que pueden influir en las variables respuesta
(las diferentes medidas), e incluso comprobar si hay o no interacción entre los factores
inter-sujeto entre sí y con los factores intra-sujeto. Por lo tanto, son procedimientos que
realizan a la vez un ANOVA de medidas repetidas y un ANOVA de una o más vías, con
la ventaja de que se pueden introducir los datos en la forma clásica: una fila para cada
individuo.
El resultado de la aplicación de estos procedimientos es muy parecido a los comentados
en apartados previos: se generan tablas de ANOVA en las que se calcula un 𝑝-valor
para cada uno de los factores, ya sean intra-sujeto (medidas repetidas) o inter-sujeto
(categorías), y también para la interacción, ya sea de los factores inter-sujeto entre sí o
de factores inter-sujeto con los intra-sujeto.

8.4 Análisis de la covarianza: ANCOVA

El análisis de la covarianza, ANCOVA, es una extensión del ANOVA (ya sea de una o va-
rias vías y de medidas repetidas), que permite analizar la influencia que sobre la variable
dependiente cuantitativa tienen todas las variables independientes categóricas (factores)
y las medidas repetidas contempladas en el ANOVA, pero, además, eliminando el efecto
que otra u otras variables independientes cuantitativas podrían tener sobre la variable
respuesta. Las variables independientes cuyo efecto se pretende eliminar (controlar o
ajustar) son llamadas Covariables o Covariantes porque se se espera que covaríen, es
decir, que estén correlacionadas con la variable dependiente.
Aunque la explicación detallada de cómo se realiza el ANCOVA va más allá del nivel de
lo expuesto en esta práctica, la idea es sencilla: se puede plantear un análisis de regresión
de la variable dependiente en función de la covariable (o de las covariables si hay más
de una), y eliminar la parte de la variabilidad de la dependiente que se puede explicar
gracias a la covariable sin más que trabajar con los residuos del modelo de regresión en
lugar de con los datos originales. Posteriormente, se procede a realizar una ANOVA, de
uno o varios factores e incluso de medidas repetidas, aplicado a los residuos.
El resultado final de la aplicación del ANCOVA es una tabla muy parecida a la del
ANOVA, pero con una línea añadida por para cada una de las covariables. En esas
líneas se recoge la cantidad de variabilidad explicada por cada una de las covariables
y su correspondiente 𝑝-valor, que da respuesta al contraste de si la covariable es o no
prescindible para explicar lo que sucede en la variable dependiente (en términos más

233
técnicos, el contraste sería si la pendiente del modelo de regresión de la variable indepen-
diente en función de la covariable puede o no ser igual a 0). En la tabla del ANCOVA
no hay ninguna línea añadida que contemple la posible interacción entre la covariable y
los distintos factores inter-sujetos, simplemente porque si hubiese interacción no debería
aplicarse un modelo de ANCOVA ya que el efecto del factor no podría estimarse porque
dependería del valor concreto considerado en la covariable, que, por ser continua, tiene
infinitos valores, luego habría infinitos diferentes efectos del factor y no se le podría
asignar un 𝑝-valor concreto. Pero sí que la tabla añade una línea para la interacción de
cada uno de los factores intra-sujetos con cada una de las covariables, ya que cada factor
intra-sujetos internamente está compuesto por varias variables cuantitativas que pueden
presentar diferentes pendientes en la regresión en función de la covariable.
Si la representación gráfica habitual para ver si una serie de factores influyen o no en
una variable respuesta cuantitativa (ANOVA) es el denominado gráfico de medias, en
el ANCOVA el efecto de la covariable en la variable respuesta se puede ver mediante
la nube puntos de la variable respuesta en función de la covariable, que presentará un
aspecto más o menos rectilíneo dependiendo del nivel de correlación lineal entre ambas.
Además, también se puede intuir si un determinado factor influye en la variable respuesta
una vez eliminada la influencia de la covariable:

• Si la nube de puntos puede ajustarse adecuadamente mediante una única recta


de pendente nula, independientemente de los niveles del factor, entonces quiere
decir que ni la covariable ni el factor son significativos para explicar la variable
respuesta.
• Si la nube de puntos se ajusta adecuadamente mediante una única recta de pen-
diente no nula, independientemente de los niveles del factor, entonces quiere decir
que la covariable sí que es significativa pero no así el factor, ya que, una vez elimi-
nada la influencia de la covariable (es decir, tomando como variable dependiente
los residuos del ajuste inicial) no habría diferencias entre los distintos niveles (los
puntos de las diferentes categorías quedarían a la misma altura).
Por ejemplo, en la siguiente figura aparece el resultado de un experimento en el que
se han anotado los Kg perdidos por personas que han seguido dos tipos diferentes
de dieta, pero teniendo en cuenta como covariable el índice de masa corporal, que
se piensa que también puede influir en el número de Kg perdidos pero que, sin
embargo, no se ha controlado a la hora de elaborar los grupos y claramente han
quedado desequilibrados en la covariable (los que han tomado la dieta 2 tienen en
media mayor índice de masa corporal que los que han tomado la dieta 1). Según la
figura, cabría esperar que haya diferencias significativas en los Kg perdidos según
la dieta (parece que la dieta 2 hace perder más Kg que la dieta 1), pero en realidad
todo se debe a la covariable, y eliminado su efecto (si la pendiente de la recta fuese
0) los dos grupos habrían perdido cantidades muy similares de peso. En definitiva,
en similares condiciones de índice de masa corporal, la dieta 2 no haría perder más
Kg.

234
12

10

8
Kg perdidos

6
Dieta1
4 Dieta2

0
15 20 25 30 35
IMC

Figura 8.4: Nube de puntos con covariable significativa y factor no significativo

• Si la nube de puntos se ajusta adecuadamente mediante varias rectas de pendiente


nula, una por cada nivel del factor, entonces la covariable no es significativa, pero
sí el factor.
• Si la nube de puntos se ajusta adecuadamente con rectas, una por cada nivel del
factor, con igual pendiente no nula, y al menos una de las rectas es diferente de
todas las demás (al menos uno de los niveles aparece desplazado), entonces tanto
la covariable como el factor serían significativos a la hora de explicar la variable
dependiente.
Por ejemplo, en la siguiente figura aparece el resultado de un experimento similar
al ya comentado: Kg perdidos en función de la dieta y de la covariable índice
de masa corporal que no se ha controlado adecuadamente a la hora de hacer los
grupos (el grupo de los que toman la dieta 2 tiene mayor IMC de partida). A la
vista de la gráfica incluso parece que hay diferencias significativas en el número
de Kg perdidos de tal forma que los de la dieta 2 haría perder más, pero todo es
consecuencia de la covariable; eliminado su efecto, el número de Kg perdidos por

235
los individuos que toman la dieta 1 es mayor (eliminada la pendiente de la recta,
los puntos de la dieta 1 quedarían por arriba).

14

12

10
Kg perdidos

6 Dieta1
Dieta2
4

0
15 20 25 30 35
IMC

Figura 8.5: Nube de puntos con covariable significativa y factor también significativo

• Si la nube de puntos se ajusta adecuadamente con diferentes rectas, una por cada
nivel del factor, con pendientes no nulas pero diferentes, entonces quiere decir que
habría interacción entre covariable y factor y no debería plantearse un modelo de
ANCOVA.

236

También podría gustarte