Manual de Estadística para Ingenieros
Manual de Estadística para Ingenieros
Prefacio 3
Licencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1 Introducción a la Estadística 4
1.1 La estadística como herramienta científica . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué es la estadística? . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 La variabilidad de nuestro mundo . . . . . . . . . . . . . . . . . . . 4
1.2 Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Población estadística . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Inconvenientes en el estudio de la población . . . . . . . . . . . . . 5
1.2.3 Muestra estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Determinación del tamaño muestral . . . . . . . . . . . . . . . . . 6
1.2.5 Tipos de razonamiento . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Modalidades de muestreo . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Variables estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Tipos de estudios estadísticos . . . . . . . . . . . . . . . . . . . . . 14
1.3.5 La tabla de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.6 Fases del análisis estadístico . . . . . . . . . . . . . . . . . . . . . . 15
2 Estadística Descriptiva 17
2.1 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Clasificación de la muestra . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Recuento de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Frecuencias muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Construcción de clases . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.4 La distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.1 Tratamiento de los datos atípicos . . . . . . . . . . . . . . . . . . . 43
2.5 Estadísticos muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2
2.6 Estadísticos de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6.1 Media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.6.4 ¿Qué estadístico de tendencia central usar? . . . . . . . . . . . . . 51
2.6.5 Medidas de posición no centrales . . . . . . . . . . . . . . . . . . . 52
2.7 Estadísticos de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.1 Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.2 Rango intercuartílico . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.7.3 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . 56
2.7.4 Varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 59
2.7.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Estadísticos de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.8.1 Coeficiente de asimetría . . . . . . . . . . . . . . . . . . . . . . . . 63
2.8.2 Coeficiente de apuntamiento o curtosis . . . . . . . . . . . . . . . . 67
2.8.3 Distribuciones no normales . . . . . . . . . . . . . . . . . . . . . . 70
2.9 Transformaciones de variables . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.9.1 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . 73
2.9.2 Transformación de tipificación y puntuaciones típicas . . . . . . . . 73
2.9.3 Variables clasificadoras o factores . . . . . . . . . . . . . . . . . . . 76
3 Regresión 79
3.1 Distribución de frecuencias conjunta . . . . . . . . . . . . . . . . . . . . . 79
3.1.1 Frecuencias conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.2 Distribución de frecuencias bidimensional . . . . . . . . . . . . . . 80
3.1.3 Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.4 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . 83
3.2 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3 Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.1 Modelos de regresión simple . . . . . . . . . . . . . . . . . . . . . . 88
3.3.2 Residuos o errores predictivos . . . . . . . . . . . . . . . . . . . . . 88
3.3.3 Ajuste de mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . 89
3.3.4 Coeficiente de determinación . . . . . . . . . . . . . . . . . . . . . 90
3.3.5 Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 92
3.3.6 Distintos grados de correlación . . . . . . . . . . . . . . . . . . . . 93
3.3.7 Fiabilidad de las predicciones de un modelo de regresión . . . . . . 93
3.4 Regresión no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.4.1 Transformación de modelos de regresión no lineales . . . . . . . . . 94
3.4.2 Relación exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.5 Riesgos de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.5.1 La falta de ajuste no significa independencia . . . . . . . . . . . . 99
3.5.2 Datos atípicos en regresión . . . . . . . . . . . . . . . . . . . . . . 99
3.5.3 La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . . 101
3
4 Relaciones entre variables cualitativas 103
4.1 Relación entre atributos ordinales . . . . . . . . . . . . . . . . . . . . . . . 103
4.1.1 Coeficiente de correlación de Spearman . . . . . . . . . . . . . . . 103
4.2 Relación entre atributos nominales . . . . . . . . . . . . . . . . . . . . . . 105
4.2.1 Frecuencias teóricas o esperadas . . . . . . . . . . . . . . . . . . . 106
4.2.2 Coeficiente chi-cuadrado 𝜒2 . . . . . . . . . . . . . . . . . . . . . . 106
4.2.3 Coeficiente de contingencia . . . . . . . . . . . . . . . . . . . . . . 107
5 Probabilidad 109
5.1 Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.1 Espacio de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.2 Unión de suscesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.3 Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.1.4 Contrario de un suceso . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.1.5 Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.1.6 Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2.1 Definición clásica de probabilidad . . . . . . . . . . . . . . . . . . . 114
5.2.2 Definición frecuentista de probabilidad . . . . . . . . . . . . . . . . 115
5.2.3 Definición axiomática de probabilidad . . . . . . . . . . . . . . . . 116
5.2.4 Interpretación de la probabilidad . . . . . . . . . . . . . . . . . . . 118
5.3 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3.1 Experimentos condicionados . . . . . . . . . . . . . . . . . . . . . . 119
5.3.2 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . 120
5.3.3 Probabilidad del suceso intersección . . . . . . . . . . . . . . . . . 120
5.3.4 Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . 121
5.4 Espacio probabilístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.4.1 Árboles de probabilidad con variables dependientes . . . . . . . . . 122
5.4.2 Árboles de probabilidad con variables independientes . . . . . . . . 122
5.5 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 123
5.5.1 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 124
5.6 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.7 Epidemiología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.7.1 Prevalencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.7.2 Incidencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.7.3 Tasa de incidencia o Riesgo absoluto . . . . . . . . . . . . . . . . . 128
5.7.4 Prevalencia vs Incidencia . . . . . . . . . . . . . . . . . . . . . . . 128
5.7.5 Comparación de riesgos . . . . . . . . . . . . . . . . . . . . . . . . 129
5.7.6 Riesgo atribuible o diferencia de riesgos 𝑅𝐴 . . . . . . . . . . . . . 129
5.7.7 Riesgo relativo 𝑅𝑅 . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.7.8 Odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.7.9 Odds ratio 𝑂𝑅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.7.10 Riesgo relativo vs Odds ratio . . . . . . . . . . . . . . . . . . . . . 133
4
5.8 Tests diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.8.1 Sensibilidad y especificidad de un test diagnóstico . . . . . . . . . 136
5.8.2 Valores predictivos de un test diagnóstico . . . . . . . . . . . . . . 138
5.8.3 Razón de verosimilitud de un test diagnóstico . . . . . . . . . . . . 139
5
7.2.5 Determinación de las regiones de aceptación y de rechazo en fun-
ción del riesgo 𝛼 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.2.6 Riesgo 𝛽 y tamaño del efecto . . . . . . . . . . . . . . . . . . . . . 189
7.2.7 Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.8 Cálculo del riesgo 𝛽 y de la potencia 1 − 𝛽 . . . . . . . . . . . . . . 189
7.2.9 Relación del riesgo 𝛽 y el tamaño del efecto 𝛿 . . . . . . . . . . . . 190
7.2.10 Relación entre los riesgos 𝛼 y 𝛽 . . . . . . . . . . . . . . . . . . . . 192
7.2.11 Relación de los riesgos de error y el tamaño muestral . . . . . . . . 193
7.3 Curva de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7.3.1 𝑝-valor de un contraste de hipótesis . . . . . . . . . . . . . . . . . 196
7.3.2 Regla de decisión de un contraste . . . . . . . . . . . . . . . . . . . 196
7.3.3 Pasos para la realización de un contraste de hipótesis . . . . . . . 197
7.4 Contrastes paramétricos más importantes . . . . . . . . . . . . . . . . . . 197
7.5 Contraste para la media de una población normal con varianza conocida . 198
7.6 Contraste para la media de una población normal con varianza desconocida198
7.6.1 Determinación del tamaño muestral en un contraste para la media 200
7.7 Contraste para la media de una población con varianza desconocida y
muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.8 Contraste para la varianza de una población normal . . . . . . . . . . . . 201
7.9 Contraste para proporción de una población . . . . . . . . . . . . . . . . . 202
7.10 Contraste de comparación de medias de dos poblaciones normales con
varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.11 Contraste de comparación de medias de dos poblaciones normales con
varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . . . . . 204
7.12 Contraste de comparación de medias de dos poblaciones normales con
varianzas desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.13 Contraste de comparación de varianzas de dos poblaciones normales . . . 206
7.14 Contraste de comparación de proporciones de dos poblaciones . . . . . . . 207
7.15 Realización de contrastes mediante intervalos de confianza . . . . . . . . . 208
6
Prefacio
Licencia
Esta obra está bajo una licencia Reconocimiento – No comercial – Compartir bajo la
misma licencia 3.0 España de Creative Commons. Para ver una copia de esta licencia,
visite https://creativecommons.org/licenses/by-nc-sa/3.0/es/.
Con esta licencia eres libre de:
Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licencia de
esta obra.
Estas condiciones pueden no aplicarse si se obtiene el permiso del titular de los derechos
de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.
7
1 Introducción a la Estadística
El científico trata de estudiar el mundo que le rodea; un mundo que está lleno de varia-
ciones que dificultan la determinación del comportamiento de las cosas.
La estadística actúa como disciplina puente entre la realidad del mundo y los modelos
matemáticos que tratan de explicarla, proporcionando una metodología para evaluar las
discrepancias entre la realidad y los modelos teóricos.
Esto la convierte en una herramienta indispensable en las ciencias aplicadas que requieran
el análisis de datos y el diseño de experimentos.
8
1.2 Población y muestra
A veces, no todos los elementos de la población están accesibles para su estudio. Entonces
se distingue entre:
Ejemplo 1.2. En el caso del estudio de una enfermedad, la población teórica sería todas
las personas que contraigan la enfermedad, incluso si aún no han nacido, mientras que la
población estudiada se limitaría al número de personas enfermas que realmente podemos
estudiar (obsérvese que incluso quedarían fuera las personas enfermas pero de las que
no podemos conseguir información).
9
1.2.3 Muestra estadística
Una de las preguntas más interesantes que surge inmediatamente es: ¿cuántos individuos
es necesario tomar en la muestra para tener un conocimiento aproximado pero suficiente
de la población?
La respuesta depende de varios factores, como la variabilidad de la población o la fiabi-
lidad deseada para las extrapolaciones que se hagan hacia la población.
Por desgracia no se podrá responder hasta casi el final del curso, pero en general, cuantos
más individuos haya en la muestra, más fiables serán las conclusiones sobre la población,
pero también será más lento y costoso el estudio.
Ejemplo 1.3. Para entender a qué nos referimos cuando hablamos de un tamaño mues-
tral suficiente para comprender lo que ocurre en la población, podemos utilizar el si-
guiente símil en que se trata de comprender el motivo que representa una fotografía.
Una fotografía digital está formada por multitud de pequeños puntitos llamados pixels
que se dispone en una enorme tabla de filas y columnas (cuantas más filas y columnas
haya se habla de que la foto tiene más resolución). Aquí la población estaría formada
por todos y cada uno de los píxeles que forman la foto. Por otro lado cada pixel tiene un
color y es la variedad de colores a lo largo de los pixels la que permite formar la imagen
de la fotografía.
¿Cuántos píxeles debemos tomar en una muestra para averiguar la imagen de la foto?
La respuesta depende de la variabilidad de colores en la foto. Si todos los pixels de la
foto son del mismo color, entonces un sólo pixel basta para desvelar la imagen. Pero, si la
foto tiene mucha variabilidad de colores, necesitaremos muchos más pixels en la muestra
para descubrir el motivo de la foto.
10
La imagen siguiente contiene una muestra pequeña de píxeles de una foto. ¿Puedes
averiguar el motivo de a foto?
11
Figura 1.3: Muestra mayor de píxeles de una foto.
12
Figura 1.4: Población de píxeles de una foto.
Lo importante es que ¡No es necesario conocer todos los píxeles para averiguar la imagen!
13
Figura 1.5: Tipos de razonamiento.
14
• Características de la inducción: No garantiza la certeza de las conclusiones (si algo
se cumple en la muestra, puede que no se cumpla en la población, así que ¡cuidado
con las extrapolaciones!), pero ¡es la única forma de generar conocimiento nuevo!
1.3 Muestreo
Sólo las técnicas aleatorias evitan el sesgo de selección, y por tanto, garantizan la repre-
sentatividad de la muestra extraída, y en consecuencia la validez de las conclusiones.
Las técnicas no aleatorias no sirven para hacer generalizaciones, ya que no garantizan
la representatividad de la muestra. Sin embargo, son menos costosas y pueden utilizarse
en estudios exploratorios.
15
1.3.2 Muestreo aleatorio simple
Todo estudio estadístico comienza por la identificación de las características que interesa
estudiar en la población y que se medirán en los individuos de la muestra.
Definición 1.7 (Variable estadística). Una variable estadística es una propiedad o ca-
racterística medida en los individuos de la población.
Los datos son los valores observados en las variables estadísticas.
16
Estas características pueden ser de distintos tipos de acuerdo a su naturaleza y su esca-
la:
Las variables cualitativas y discretas se conocen también con variables categóricas y sus
valores categorías.
17
• Nivel de fumador: No fuma / ocasional / moderado / bastante / empedernido.
(Ordinal)
• Número de cigarros diarios: 0,1,2,… (Discreta)
De acuerdo al papel que juegan en el estudio las variables también pueden clasificarse
como:
18
• No experimentales: Cuando las variables independientes no son manipuladas.
Esto no significa que sea imposible hacerlo, sino que es difícil o poco ético hacerlo.
Los estudios experimentales permiten identificar causas y efectos entre las variables
del estudio, mientras que los no experimentales sólo permiten identificar relaciones de
asociación entre las variables.
Las variables a estudiar se medirán en cada uno de los individuos de la muestra, obte-
niendo un conjunto de datos que suele organizarse en forma de matriz que se conoce
como tabla de datos_.
En esta tabla cada columna contiene la información de una variable y cada fila la infor-
mación de un individuo.
Ejemplo 1.8. La siguiente tabla contiene información de las variables Nombre, Edad,
Sexo, Peso y Altura de una muestra de 6 personas.
1. El estudio comienza por el diseño previo del mismo en el que se establezcan los
objetivos del mismo, la población, las variables que se medirán y el tamaño muestral
requerido.
19
2. A continuación se seleccionará una muestra representativa del tamaño establecido
y se medirán las variables en los individuos de la muestra obteniendo la tabla de
datos. De esto se encarga el Muestreo.
3. El siguiente paso consiste en describir y resumir la información que contiene la
muestra. De esto se encarga la Estadística Descriptiva.
4. La información obtenida es proyectada sobre un modelo matemático que intenta
explicar el comportamiento de la población y el modelo se valida. De todo esto se
encarga la Estadística Inferencial.
5. Finalmente, el modelo validado nos permite hacer predicciones y sacar conclusiones
sobre la población de partida con cierta confianza.
20
2 Estadística Descriptiva
Ĺ Interpretación
No tiene poder inferencial, por lo que nunca deben sacarse conclusiones sobre la
población a partir de las medidas resumen que aporta la Estadística Descriptiva.
El estudio de una variable estadística comienza por medir la variable en los individuos
de la muestra y clasificar los valores obtenidos.
Existen dos formas de clasificar estos valores:
• Sin agrupar: Ordenar todos los valores obtenidos en la muestra de menor a mayor.
Se utiliza con atributos y variables discretas con pocos valores diferentes.
• Agrupados: Agrupar los valores en clases (intervalos) y ordenar dichas clases de
menor a mayor. Se utiliza con variables continuas y con variables discretas con
muchos valores diferentes.
21
2.1.1 Clasificación de la muestra
Consiste colocar juntos los valores iguales y ordenarlos si existe un orden entre ellos.
22
2.1.2 Recuento de frecuencias
Definición 2.1 (Frecuencias muestrales). Dada una muestra de tamaño 𝑛 de una varia-
ble 𝑋, para cada valor de la variable 𝑥𝑖 observado en la muestra, se define
23
• Frecuencia Relativa 𝑓𝑖 : Es la proporción de veces que el valor 𝑥𝑖 aparece en la
muestra.
𝑛
𝑓𝑖 = 𝑖
𝑛
• Frecuencia Absoluta Acumulada 𝑁𝑖 : Es el número de valores en la muestra
menores o iguales que 𝑥𝑖 .
𝑁𝑖 = 𝑛1 + ⋯ + 𝑛𝑖 = 𝑁𝑖−1 + 𝑛𝑖
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
0 2 0.08 2 0.08
1 6 0.24 8 0.32
2 14 0.56 22 0.88
3 2 0.08 24 0.96
4 1 0.04 25 1
∑ 25 1
24
Ejemplo 2.2 (Variable cuantitativa y datos agrupados). Se ha medido la estatura (en
cm) de 30 universitarios obteniendo:
179, 173, 181, 170, 158, 174, 172, 166, 194, 185, 162, 187, 198, 177, 178, 165, 154, 188,
166, 171, 175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
La tabla de frecuencias de la estatura en a esta muestra es
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
(150, 160] 2 0.07 2 0.07
(160, 170] 8 0.27 10 0.34
(170, 180] 11 0.36 21 0.70
(180, 190] 7 0.23 28 0.93
(190, 200] 2 0.07 30 1
∑ 30 1
• El número de intervalos no debe ser muy grande ni muy pequeño. Una regla orien-
√
tativa es tomar un número de intervalos próximo a 𝑛 o log2 (𝑛).
• Los intervalos no deben solaparse y deben cubrir todo el rango de valores. Es
indiferente si se abren por la izquierda y se cierran por la derecha o al revés.
• El valor más pequeño debe caer dentro del primer intervalo y el más grande dentro
del último.
Ejemplo 2.3 (Variable cualitativa). Los grupos sanguíneos de una muestra de 30 per-
sonas son:
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB, A, A, A, B, 0, B, B, B, A, A, A, 0, A,
AB, 0.
La tabla de frecuencias del grupo sanguíneo en esta muestra es
𝑥𝑖 𝑛𝑖 𝑓𝑖
0 5 0.16
A 14 0.47
B 8 0.27
AB 3 0.10
∑ 30 1
25
Á Advertencia
Obsérvese que en este caso las frecuencias acumuladas no tienen sentido al no existir
un orden entre los valores de la variable.
• Diagrama de barras
• Histograma
• Diagrama de líneas o polígonos.
• Diagrama de sectores.
df <- read.csv("datos/hijos-coches.csv")
p <- ggplot(df, aes(x=Hijos)) +
geom_bar(fill=blueceu, width = 0.5) +
ylab("Frecuencia")
p
26
10
Frecuencia
0
0 1 2 3 4
Hijos
p <- p +
geom_freqpoly(bins=5, col=redceu)
p
10
Frecuencia
0
0 2 4
Hijos
27
El diagrama de barras que aparece a continuación muestra la distribución de frecuencias
relativas del número de hijos en la muestra anterior.
0.4
0.2
0.0
0 1 2 3 4
Hijos
28
25
20
Frecuencia acumulada
15
10
0
0 1 2 3 4
Hijos
29
Frecuencia relativa acumulada 1.00
0.75
0.50
0.25
0.00
0 1 2 3 4
Hijos
30
Frecuencia relativa acumulada 1.00
0.75
0.50
0.25
0.00
0 1 2 3 4
Hijos
2.3.2 Histograma
df <- read.csv("datos/estatura-peso.csv")
p <- ggplot(df, aes(x=Estatura)) +
geom_histogram(breaks = seq(150, 200, 10), col="white", fill=blueceu) +
ylab("Frecuencia")
p
31
9
Frecuencia
0
150 160 170 180 190 200
Estatura
El siguiente histograma muestra la distribución de frecuencias relativas con el polígono
de frecuencias.
32
0.03
Frecuencia relativa
0.02
0.01
0.00
140 160 180 200
Estatura
33
Frecuencia relativa acumulada 1.00
0.75
0.50
0.25
0.00
150 160 170 180 190 200
Estatura
Obsérvese que en la ojiva se unen los vértices superiores derechos de cada barra con
segmentos, en lugar de los puntos centrales, ya que no se consigue alcanzar la frecuencia
acumulada correspondiente a la clase hasta que no se alcanza el final del intervalo.
Un diagrama de sectores consiste en un círculo divido en porciones, uno por cada valor
o categoría de la variable. Cada porción se conoce como sector y su ángulo o área es
proporcional a la correspondiente frecuencia del valor o categoría.
Los diagramas de sectores pueden representar frecuencias absolutas o relativas, pero
no pueden representar frecuencias acumuladas, y se utilizan sobre todo con atributos
nominales. Para atributos ordinales o variables cuantitativas es mejor utilizar diagramas
de barras, ya es más fácil percibir las diferencias en una dimensión (altura de las barras)
que en dos dimensiones (áreas de los sectores).
df <- read.csv("datos/grupo-sanguineo.csv")
tab <- table(df[["Grupo.Sanguineo.Hijo"]])
labels <- names(tab)
pctg <- round(tab/sum(tab)*100, 2)
labels <- paste(labels, pctg) # add percents to labels
34
labels <- paste(labels,"%",sep="") # ad % to labels
pie(tab, main="Distribución de los grupos sanguineos", labels=labels, col=c(greenceu, red
A 46.67% 0 16.67%
B 26.67%
AB 10%
35
Distribución de ingresos familiares en USA
0.009
Frecuencia relativa
0.006
0.003
0.000
0 50 100 150 200
Ingresos anuales (miles de $)
counts <- c(65, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152,
breaks <- seq(0,100,5)
df <- data.frame(Edad = rep(breaks, counts))
p <- ggplot(df, aes(x=Edad)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Edad de fallecimiento") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de la edad de fallecimiento de hombres australianos.")
p
36
Distribución de la edad de fallecimiento de hombres australianos.
0.03
Frecuencia relativa
0.02
0.01
0.00
0 25 50 75 100
Edad de fallecimiento
set.seed(123)
time <- runif(1000, min = 0, max = 15)
breaks <- seq(0, 15)
df <- data.frame(Tiempo = time)
p <- ggplot(df, aes(x=Tiempo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Tiempo de espera (min)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del tiempo de espera del metro.")
p
37
Distribución del tiempo de espera del metro.
0.06
Frecuencia relativa
0.04
0.02
0.00
0 5 10 15
Tiempo de espera (min)
counts <- c(35, 20, 18, 48, 75, 67, 43, 22, 14, 21, 23, 47, 63, 44, 25, 15)
breaks <- seq(8.5,23.5,1)
df <- data.frame(Tiempo = rep(breaks, counts))
breaks <- seq(8,24)
p <- ggplot(df, aes(x=Tiempo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Tiempo") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del tiempo de llegada de clientes a un restaurante")
p
38
Distribución del tiempo de llegada de clientes a un restaurante
0.10
Frecuencia relativa
0.05
0.00
10 15 20
Tiempo
Las distribuciones con forma de campana se presentan muy a menudo en las variables
biológicas.
set.seed(123)
df <- data.frame(Peso = rnorm(10000, mean = 88, sd = 12))
breaks <- seq(40, 140, 2)
p <- ggplot(df, aes(x = Peso)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Peso (kg)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del peso de los hombres")
p
39
Distribución del peso de los hombres
0.03
Frecuencia relativa
0.02
0.01
0.00
60 90 120
Peso (kg)
set.seed(1234)
df <- data.frame(Estatura = rnorm(10000, mean = 164, sd = 8))
breaks <- seq(130, 200, 2)
p <- ggplot(df, aes(x = Estatura)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Estatura (cm)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de la estatura de las mujeres")
p
40
Distribución de la estatura de las mujeres
0.04
Frecuencia relativa
0.02
0.00
140 160 180 200
Estatura (cm)
set.seed(1234)
n <- 10000
mujeres <- rnorm(n, mean = 164, sd = 8)
hombres <- rnorm(n, mean = 175, sd = 9)
df <- data.frame(Estatura = c(mujeres, hombres), Sexo = c(rep("Mujer",n), rep("Hombre", n
breaks <- seq(130, 210, 2)
p <- ggplot(df, aes(x = Estatura, fill = Sexo)) +
geom_histogram(aes(y = ..density..), breaks = breaks, position = "identity", col = "w
xlab("Estatura (cm)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de estaturas según sexo")
p
41
Distribución de estaturas según sexo
0.04
Frecuencia relativa
Sexo
Hombre
Mujer
0.02
0.00
150 175 200
Estatura (cm)
42
Distribución de estaturas de hombres y mujeres
0.04
0.03
Frecuencia relativa
0.02
0.01
0.00
150 175 200
Estatura (cm)
set.seed(123)
df <- data.frame(Colesterol = rnorm(10000, mean = 192, sd = 18))
breaks <- seq(120, 265, 5)
p <- ggplot(df, aes(x = Colesterol)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Colesterol (mg/dl)") +
ylab("Frecuencia relativa") +
ggtitle("Distribución del colesterol")
p
43
Distribución del colesterol
0.020
Frecuencia relativa
0.015
0.010
0.005
0.000
120 160 200 240
Colesterol (mg/dl)
set.seed(123)
df <- data.frame(Nota = rnorm(1000, mean = 5.5, sd = 1.4))
breaks <- seq(0, 10, 0.5)
p <- ggplot(df, aes(x = Nota)) +
geom_histogram(aes(y = ..density..), breaks = breaks, col = "white", fill = blueceu)
xlab("Nota") +
ylab("Frecuencia relativa") +
ggtitle("Distribución de notas de Estadística")
p
44
Distribución de notas de Estadística
0.3
Frecuencia relativa
0.2
0.1
0.0
0.0 2.5 5.0 7.5 10.0
Nota
Uno de los principales problemas de las muestras son los datos atípicos, que son valores
de la variable que se diferencian mucho del resto de los valores en la muestra.
45
Gauss bell
46
Es muy importante detectar los datos atípicos antes de realizar cualquier análisis de los
datos, pues suelen distorsionar los resultados.
Aparecen siempre en los extremos de la distribución, y pueden detectarse con un diagra-
ma de caja y bigotes (tal y como veremos más adelante).
Cuando trabajemos con muestras grandes, los datos atípicos tienen menor influencia y
pueden dejarse en la muestra.
Cuando trabajemos con muestras pequeñas tenemos varias opciones:
47
2.6 Estadísticos de posición
• Media aritmética
• Mediana
• Moda
• Cuartiles.
• Deciles.
• Percentiles.
Definición 2.2 (Media aritmética muestral 𝑥).̄ La media aritmética muestral de una
variable 𝑋 es la suma de los valores observados en la muestra dividida por el tamaño
muestral
∑ 𝑥𝑖
𝑥̄ =
𝑛
∑ 𝑥𝑖 𝑛𝑖
𝑥̄ = = ∑ 𝑥𝑖 𝑓𝑖
𝑛
Á Advertencia
48
Ejemplo 2.18 (Datos no agrupados). Utilizando los datos de la muestra del número de
hijos en las familias, la media aritmética es
1+2+4+2+2+2+3+2+1+1+0+2+2
𝑥̄ = +
25
0+2+2+1+2+2+3+1+2+2+1+2 44
+ = = 1.76 hijos.
25 25
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 𝑓𝑖
0 2 0.08 0 0
1 6 0.24 6 0.24
2 14 0.56 28 1.12
3 2 0.08 6 0.24
4 1 0.04 4 0.16
∑ 25 1 44 1.76
∑ 𝑥𝑖 𝑛𝑖 44
𝑥̄ = = = 1.76 hijos 𝑥̄ = ∑ 𝑥𝑖 𝑓𝑖 = 1.76 hijos.
𝑛 25
Esto significa que el valor que mejor representa el número de hijos en las familias de la
muestra es 1.76 hijos.
𝑋 𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖 𝑓𝑖
(150, 160] 155 2 0.07 310 10.33
(160, 170] 165 8 0.27 1320 44.00
(170, 180] 175 11 0.36 1925 64.17
(180, 190] 185 7 0.23 1295 43.17
(190, 200] 195 2 0.07 390 13
∑ 30 1 5240 174.67
∑ 𝑥 𝑖 𝑛𝑖 5240
𝑥̄ = = = 174.67 cm 𝑥̄ = ∑ 𝑥𝑖 𝑓𝑖 = 174.67 cm.
𝑛 30
49
Obsérvese que al calcular la media desde la tabla de frecuencias el resultado difiere
ligeramente del valor real obtenido directamente desde la muestra, ya que los valores
usados en los cálculos no son los datos reales sino las marcas de clase.
En algunos casos, los valores de la muestra no tienen la misma importancia. En este caso
la importancia o peso de cada valor de la muestra debe tenerse en cuenta al calcular la
media.
Definición 2.3 (Media ponderada muestral 𝑥𝑝̄ ). Dada una muestra de valores 𝑥1 , … , 𝑥𝑛
donde cada valor 𝑥𝑖 tiene asociado un peso 𝑝𝑖 , la media ponderada muestral de la variable
𝑋 es la suma de los productos de cada valor observado en la muestra por su peso, dividida
por la suma de todos los pesos
∑ 𝑥𝑖 𝑝𝑖
𝑥𝑝̄ =
∑ 𝑝𝑖
∑ 𝑥𝑖 𝑝𝑖 𝑛𝑖
𝑥𝑝̄ =
∑ 𝑝𝑖
Ejemplo 2.20. Supóngase que un estudiante quiere calcular una medida que represente
su rendimiento en el curso. La nota obtenida en cada asignatura y sus créditos son
∑ 𝑥𝑖 5+3+6
𝑥̄ = = = 4.67 puntos.
𝑛 3
Sin embargo, esta nota no representa bien el rendimiento académico del alumno ya que
no todas las asignaturas tienen la misma importancia ni requieren el mismo esfuerzo
para aprobar. Las asignaturas con más créditos requieren más trabajo y deben tener
más peso en el cálculo de la media.
50
Es más lógico usar la media ponderada como medida del rendimiento del estudiante,
tomando como pesos los créditos de cada asignatura
∑ 𝑥𝑖 𝑝𝑖 5⋅6+3⋅4+6⋅8 90
𝑥𝑝̄ = = = = 5 puntos.
∑ 𝑝𝑖 6+4+8 18
2.6.2 Mediana
Á Advertencia
51
:::{#exm-mediana-datos-no-agrupados} Utilizando los datos del número de hijos de las
familias, el tamaño muestral es 25, que es impar, y la mediana es el valor que ocupa la
posición 25+1
2 = 13 de la muestra ordenada.
0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 , 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4
y la mediana es 2 hijos.
Si se trabaja con la tabla de frecuencias, la mediana es el valor más pequeño con una
frecuencia acumulada mayor o igual a 13, o con una frecuencia relativa acumulada mayor
o igual que 0.5.
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
0 2 0.08 2 0.08
1 6 0.24 8 0.32
2 14 0.56 22 0.88
3 2 0.08 24 0.96
4 1 0.04 25 1
∑ 25 1
52
Ambas expresiones son iguales ya que el ángulo 𝛼 es el mismo, y resolviendo la ecuación
se tiene la siguiente fórmula para calcular la mediana
Ejemplo 2.21 (Datos agrupados). Utilizando los datos de la muestra de las estaturas
de estudiantes, la mediana cae en la clase (170,180].
53
Figura 2.8: Ejemplo de cálculo de la mediana con datos agrupados.
Esto significa que la mitad de los estudiantes tienen estaturas menores o iguales que
174.54 cm y la otra mitad mayores o iguales.
2.6.3 Moda
Definición 2.5 (Moda muestral 𝑀 𝑜). La moda muestral de una variable 𝑋 es el valor
de la variable más frecuente en la muestra.
Con datos agrupados la clase modal es la clase con mayor frecuencia en la muestra.
Puede calcularse para todos los tipos de variables (cuantitativas y cualitativas).
Las distribuciones pueden tener más de una moda.
54
Figura 2.9: Cálculo de la moda.
Ejemplo 2.22. Utilizando los datos de la muestra del número de hijos en las familias,
el valor con mayor frecuencia es 2, y por tanto la moda es 𝑀 𝑜 = 2.
𝑥𝑖 𝑛𝑖
0 2
1 6
2 14
3 2
4 1
𝑋 𝑛𝑖
(150, 160] 2
(160, 170] 8
(170, 180] 11
(180, 190] 7
(190, 200] 2
En general, siempre que puedan calcularse los estadísticos de tendencia central, es reco-
mendable utilizarlos como valores representativos en el siguiente orden:
1. Media. La media utiliza más información que el resto ya que para calcularla se
tiene en cuenta la magnitud de los datos.
55
2. Mediana. La mediana utiliza menos información que la media, pero más que la
moda, ya que para calcularla se tiene en cuenta el orden de los datos.
3. Moda. La moda es la que menos información utiliza ya que para calcularla sólo se
tienen en cuenta las frecuencias absolutas.
Á Advertencia
Hay que tener cuidado con los datos atípicos, ya que la media puede distorsionarse
cuando hay datos atípicos. En tal caso es mejor utilizar la mediana como valor más
representativo.
56
Figura 2.10: Cuartiles, deciles y percentiles.
Obsérvese que hay una correspondencia entre los cuartiles, los deciles y los percentiles.
Por ejemplo, el primer cuartil coincide con el percentil 25, y el cuarto decil coincide con
el percentil 40.
Los cuantiles se calculan de forma similar a la mediana. La única diferencia es la fre-
cuencia relativa acumulada que corresponde a cada cuantil.
57
Figura 2.11: Cálculo de cuartiles, deciles y percentiles.
Ejemplo 2.25. Utilizando los datos de la muestra del número de hijos de las familias,
la frecuencia relativa acumulada era
𝑥𝑖 𝐹𝑖
0 0.08
1 0.32
2 0.88
3 0.96
4 1
58
2.7 Estadísticos de dispersión
• Recorrido.
• Rango Intercuartílico.
• Varianza.
• Desviación Típica.
• Coeficiente de Variación.
2.7.1 Recorrido
Definición 2.6 (Recorrido muestral 𝑅𝑒). El recorrido muestral o rango muestral de una
variable 𝑋 se define como la diferencia entre el máximo y el mínimo de los valores en la
muestra.
𝑅𝑒 = max − min
𝑥𝑖 𝑥𝑖
El recorrido mide la máxima variación que hay entre los datos muestrales. No obstante,
es muy sensible a datos atípicos ya que suelen aparecer justo en los extremos de la
distribución, por lo que no se suele utilizar mucho.
Para evitar el problema de los datos atípicos en el recorrido, se puede utilizar el primer
y tercer cuartil en lugar del mínimo y el máximo.
59
Definición 2.7 (Rango intercuartílico muestral 𝑅𝐼). El rango intercuartílico muestral
de una variable 𝑋 se define como la diferencia entre el tercer y el primer cuartil de la
muestra.
𝑅𝐼 = 𝐶3 − 𝐶1
• Sirve para medir la dispersión de los datos ya que representa el rango y el rango
intercuartílico.
• Sirve para detectar datos atípicos, que son los valores que quedan fuera del intervalo
definido por los bigotes.
• Sirve para medir la simetría de la distribución, comparando la longitud de las cajas
y de los bigotes por encima y por debajo de la mediana.
60
Figura 2.14: Diagrama de caja y bigotes del peso de recién nacidos.
Para construir el diagrama de caja y bigotes hay que seguir los siguientes pasos:
𝑣1 = 𝑄1 − 1.5 IQR
𝑣2 = 𝑄3 + 1.5 IQR
Las vallas definen el intervalo donde los datos se consideran normales. Cualquier
valor fuera de ese intervalo se considera un dato atípico.
El bigote superior se dibuja desde el borde inferior de la caja hasta el menor valor
de la muestra que es mayor o igual a la valla inferior, y el bigote superior se dibuja
61
desde el borde superior de la caja hasta el mayor valor de la muestra que es menor
o igual a la valla superior.
Á Advertencia
5. Finalmente, si en la muestra hay algún dato atípico, se dibuja un punto para cada
uno de ellos.
Ejemplo 2.26. El diagrama de caja y bigotes de la muestra del número de hijos de las
familias se muestra a continuación.
62
Para ello se suele medir la distancia de cada valor a la media. A ese valor se le llama
desviación de la media.
Si las desviaciones son grandes la media no será tan representativa como cuando la
desviaciones sean pequeñas.
Ejemplo 2.27. La siguiente tabla contiene las notas de 3 estudiantes en un curso con
las asignaturas 𝐴, 𝐵 y 𝐶.
𝐴 𝐵 𝐶 𝑥̄
0 5 10 5
4 5 6 5
5 5 5 5
Todos los estudiantes tienen la misma media, pero, en qué caso la media representa mejor
el rendimiento en el curso?
∑(𝑥𝑖 − 𝑥)̄ 2 𝑛𝑖
𝑠2 = = ∑(𝑥𝑖 − 𝑥)̄ 2 𝑓𝑖
𝑛
63
También puede calcularse de manera más sencilla mediante la fórmula
∑ 𝑥2𝑖 𝑛𝑖
𝑠2 = − 𝑥2̄ = ∑ 𝑥2𝑖 𝑓𝑖 − 𝑥2̄
𝑛
La varianza tiene las unidades de la variable al cuadrado, por lo que para facilitar su
interpretación se suele utilizar su raíz cuadrada.
Definición 2.9 (Desviación típica 𝑠). La desviación típica muestral de una variable 𝑋
se define como la raíz cuadrada positiva de su varianza muestral.
√
𝑠 = + 𝑠2
Ď Tip
Ejemplo 2.28. Las siguientes muestras contienen las notas de dos estudiantes en dos
asignaturas.
64
Ejemplo 2.29 (Datos no agrupados). Utilizando los datos de la muestra del número de
hijos de las familias, con una media 𝑥̄ = 1.76 hijos, y añadiendo una nueva columna a la
tabla de frecuencias con los cuadrados de los valores,
𝑥𝑖 𝑛𝑖 𝑥2𝑖 𝑛𝑖
0 2 0
1 6 6
2 14 56
3 2 18
4 1 16
∑ 25 96
∑ 𝑥2𝑖 𝑛𝑖 96 2
𝑠2 = − 𝑥2̄ = − 1.762 = 0.7424 hijos .
𝑛 25
√
y la desviación típica es 𝑠 = 0.7424 = 0.8616 hijos.
Comparado este valor con el recorrido, que va de 0 a 4 hijos se observa que no es dema-
siado grande por lo que se puede concluir que no hay mucha dispersión y en consecuencia
la media de 1.76 hijos representa bien el número de hijos de las familias de la muestra.
𝑋 𝑥𝑖 𝑛𝑖 𝑥2𝑖 𝑛𝑖
(150, 160] 155 2 48050
(160, 170] 165 8 217800
(170, 180] 175 11 336875
(180, 190] 185 7 239575
(190, 200] 195 2 76050
∑ 30 918350
∑ 𝑥2𝑖 𝑛𝑖 918350
𝑠2 = − 𝑥2̄ = − 174.672 = 102.06 cm2 ,
𝑛 30
√
y la desviación típica es 𝑠 = 102.06 = 10.1 cm.
Este valor es bastante pequeño, comparado con el recorrido de la variable, que va de 150
a 200 cm, por lo que la variable tiene poca dispersión y en consecuencia su media es muy
representativa.
65
2.7.5 Coeficiente de variación
Tanto la varianza como la desviación típica tienen unidades y eso dificulta a veces su
interpretación, especialmente cuando se compara la dispersión de variables con diferentes
unidades.
Por este motivo, es también común utilizar la siguiente medida de dispersión que no
tiene unidades.
𝑠
𝑐𝑣 =
|𝑥|̄
Ď Tip
Ejemplo 2.31. En la muestra del número de hijos, donde la media era 𝑥̄ = 1.76 hijos
y la desviación típica 𝑠 = 0.8616 hijos, el coeficiente de variación vale
𝑠 0.8616
𝑐𝑣 = = = 0.49.
|𝑥|̄ |1.76|
𝑠 10.1
𝑐𝑣 = = = 0.06.
|𝑥|̄ |174.67|
Esto significa que la dispersión relativa en la muestra de estaturas es mucho menor que
en la del número de hijos, por lo que la media de las estaturas será más representativa
que la media del número de hijos.
66
2.8 Estadísticos de forma
Ď Tip
• 𝑔1 = 0 indica que hay el mismo número de valores por encima y por debajo
de la media e igualmente alejados de ella (simétrica).
67
Figura 2.18: Distribución simétrica.
• 𝑔1 < 0 indica que la mayoría de los valores son mayores que la media, pero
los valores menores están más alejados de ella (asimétrica a la izquierda).
68
Figura 2.19: Distribución asimétrica hacia la izquierda.
• 𝑔1 > 0 indica que la mayoría de los valores son menores que la media, pero
los valores mayores están más alejados de ella (asimétrica a la derecha).
69
Figura 2.20: Distribución asimétrica hacia la derecha.
𝑋 𝑥𝑖 𝑛𝑖 𝑥𝑖 − 𝑥̄ (𝑥𝑖 − 𝑥)̄ 3 𝑛𝑖
(150, 160] 155 2 −19.67 −15221.00
(160, 170] 165 8 −9.67 −7233.85
(170, 180] 175 11 0.33 0.40
(180, 190] 185 7 10.33 7716.12
(190, 200] 195 2 20.33 16805.14
∑ 30 2066.81
Como está cerca de 0, eso significa que la distribución de las estaturas es casi simétrica.
70
2.8.2 Coeficiente de apuntamiento o curtosis
Ď Tip
71
• 𝑔2 < 0 indica que la distribución tiene menos apuntamiento de lo normal, es
decir, la concentración de valores en torno a la media es menor que en una
campana de Gauss (platicúrtica).
72
Figura 2.23: Distribución leptocúrtica.
𝑋 𝑥𝑖 𝑛𝑖 𝑥𝑖 − 𝑥̄ (𝑥𝑖 − 𝑥)̄ 4 𝑛𝑖
(150, 160] 155 2 −19.67 299396.99
(160, 170] 165 8 −9.67 69951.31
(170, 180] 175 11 0.33 0.13
(180, 190] 185 7 10.33 79707.53
(190, 200] 195 2 20.33 341648.49
∑ 30 790704.45
Como se trata de un valor negativo, aunque cercano a 0, podemos decir que la distribu-
ción es ligeramente platicúrtica.
Como se verá más adelante en la parte de inferencia, muchas de las pruebas estadísticas
solo pueden aplicarse a poblaciones normales.
73
Las poblaciones normales se caracterizan por ser simétricas y mesocúrticas, de manera
que, tanto el coeficiente de asimetría como el de apuntamiento pueden utilizarse para
contrastar si los datos de la muestra provienen de una población normal.
Ď Tip
74
2.8.3.2 Distribución asimétrica a la izquierda no normal
75
Figura 2.26: Distribucion de la hora de llegada de los clientes de un restaurante.
En muchas ocasiones se suelen transformar los datos brutos para corregir alguna anorma-
lidad de la distribución o simplemente para trabajar con unas unidades más cómodas.
Por ejemplo, si estamos trabajando con estaturas medidas en metros y tenemos los
siguientes valores:
podemos evitar los decimales multiplicando por 100, es decir, pasando de metros a cen-
tímetros:
76
10cm, 0cm, 15cm,
Está claro que este conjunto de datos es mucho más sencillo que el original. En el fondo
lo que se ha hecho es aplicar a los datos la transformación:
𝑌 = 100𝑋 − 165
𝑌 = 𝑎 + 𝑏𝑋.
Teorema 2.1. Dada una variable muestral 𝑋, si 𝑌 es la variable muestral que resulta
de aplicar a 𝑋 la transformación lineal 𝑌 = 𝑎 + 𝑏𝑋, entonces
𝑦 ̄ = 𝑎 + 𝑏𝑥,̄
𝑠𝑦 = |𝑏|𝑠𝑥
Ĺ Demostración
𝑋 − 𝑥̄
𝑍=
𝑠𝑥
Para cada valor 𝑥𝑖 de la muestra, la puntuación típica es el valor que resulta de aplicarle
la transformación de tipificación
77
𝑥𝑖 − 𝑥̄
𝑧𝑖 = .
𝑠𝑥
Ď Tip
𝑧̄= 0 𝑠𝑧 = 1.
Ĺ Demostración
Alumno: 1 2 3 4 5
𝑋∶ 2 5 4 8 6 𝑥̄ = 5 𝑠𝑥 = 2
𝑌 ∶ 1 9 8 5 2 𝑦̄ = 5 𝑠𝑦 = 3.16
Alumno: 1 2 3 4 5
𝑋∶ −1.50 0.00 −0.50 1.50 0.50
𝑌 ∶ −1.26 1.26 0.95 0.00 −0.95
Es decir, el alumno que tiene un 8 en 𝑋 está 1.5 veces la desviación típica por encima de
la media de 𝑋, mientras que el alumno que tiene un 8 en 𝑌 sólo está 0.95 desviaciones
típicas por encima de la media de 𝑌 . Así pues, el primer alumno tuvo un rendimiento
superior al segundo.
Siguiendo con el ejemplo anterior y considerando ambas asignaturas, ¿cuál es el mejor
alumno?
78
Si simplemente se suman las puntuaciones de cada asignatura se tiene:
Alumno: 1 2 3 4 5
𝑋∶ 2 5 4 8 6
𝑌 ∶ 1 9 8 5 2
∑ 3 14 12 13 8
Alumno: 1 2 3 4 5
𝑋 ∶ −1.50 0.00 −0.50 1.50 0.50
𝑌 ∶ −1.26 1.26 0.95 0.00 −0.95
∑ −2.76 1.26 0.45 1.5 −0.45
79
√
Las transformaciones 𝑌 = 𝑥, 𝑌 = log 𝑋 y 𝑌 = 1/𝑋 comprimen la escala para valo-
res altos y la expanden para valores pequeños, de manera que son útiles para corregir
asimetrías hacia la derecha.
Ejemplo 2.34. Dividiendo la muestra de estaturas según el sexo se obtienen dos sub-
muestras:
Mujeres 173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168.
Hombres 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187.
80
Figura 2.29: Histograma de estaturas por sexo.
81
Figura 2.30: Diagramas de cajas de estaturas por sexo.
82
3 Regresión
83
• Frecuencia relativa 𝑓𝑖𝑗 : Es la proporción de veces que el par (𝑥𝑖 , 𝑦𝑗 ) aparece en
la muestra.
𝑛𝑖𝑗
𝑓𝑖𝑗 =
𝑛
Á Advertencia
𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑖 𝑛𝑖1 ⋯ 𝑛𝑖𝑗 ⋯ 𝑛𝑖𝑞
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞
Ejemplo 3.1. La estatura (en cm) y el peso (en Kg) de una muestra de 30 estudiantes
es:
(179,85), (173,65), (181,71), (170,65), (158,51), (174,66), (172,62), (166,60), (194,90),
(185,75), (162,55), (187,78), (198,109), (177,61), (178,70), (165,58), (154,50), (183,93),
(166,51), (171,65), (175,70), (182,60), (167,59), (169,62), (172,70), (186,71), (172,54),
(176,68),(168,67), (187,80).
La tabla de frecuencias bidimensional es
𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110)
(150, 160] 2 0 0 0 0 0
(160, 170] 4 4 0 0 0 0
(170, 180] 1 6 3 1 0 0
(180, 190] 0 1 4 1 1 0
(190, 200] 0 0 0 0 1 1
84
3.1.3 Diagrama de dispersión
85
Figura 3.2: Diagrama de dispersión de estaturas y pesos.
Ĺ Interpretación
86
3.1.4 Distribuciones marginales
A cada una de las distribuciones de las variables que conforman la variable bidimensional
se les llama .
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias
bidimensional, sumando las frecuencias por filas y columnas.
𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞 𝑛𝑥
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞 𝑛𝑥1
⋮ ⋮ ⋮ ↓+ ⋮ ⋮ ⋮
+ +
𝑥𝑖 𝑛𝑖1 → 𝑛𝑖𝑗 → 𝑛𝑖𝑞 𝑛𝑥𝑖
⋮ ⋮ ⋮ ↓+ ⋮ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞 𝑛𝑥𝑝
𝑛𝑦 𝑛𝑦1 ⋯ 𝑛𝑦𝑗 ⋯ 𝑛𝑦𝑞 𝑛
Ejemplo 3.3. En el ejemplo anterior de las estaturas y los pesos, las distribuciones
marginales son
𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) 𝑛𝑥
(150, 160] 2 0 0 0 0 0 2
(160, 170] 4 4 0 0 0 0 8
(170, 180] 1 6 3 1 0 0 11
(180, 190] 0 1 4 1 1 0 7
(190, 200] 0 0 0 0 1 1 2
𝑛𝑦 7 11 7 2 2 1 30
3.2 Covarianza
Para analizar la relación entre dos variables cuantitativas es importante hacer un estudio
conjunto de las desviaciones respecto de la media de cada variable.
87
Figura 3.4: Desviaciones de las medias en un diagrama de dispersión.
88
Figura 3.5: Cuadrantes de un diagrama de dispersión.
Si la relación entre las variables es lineal y creciente, entonces la mayor parte de los
puntos estarán en los cuadrantes 1 y 3 y la suma de los productos de desviaciones será
positiva.
∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)̄ > 0
89
Si la relación entre las variables es lineal y decreciente, entonces la mayor parte de los
puntos estarán en los cuadrantes 2 y 4 y la suma de los productos de desviaciones será
negativa.
∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)̄ = −
Usando el producto de las desviaciones respecto de las medias surge el siguiente estadís-
tico.
∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)𝑛
̄ 𝑖𝑗
𝑠𝑥𝑦 =
𝑛
∑ 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗
𝑠𝑥𝑦 = − 𝑥𝑦.
̄ ̄
𝑛
90
Ĺ Interpretación
𝑋/𝑌 [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) 𝑛𝑥
(150, 160] 2 0 0 0 0 0 2
(160, 170] 4 4 0 0 0 0 8
(170, 180] 1 6 3 1 0 0 11
(180, 190] 0 1 4 1 1 0 7
(190, 200] 0 0 0 0 1 1 2
𝑛𝑦 7 11 7 2 2 1 30
𝑥̄ = 174.67 cm 𝑦 ̄ = 69.67 Kg
la covarianza vale
Esto indica que existe una relación lineal creciente entre la estatura y el peso.
3.3 Regresión
En muchos casos el objetivo de un estudio no es solo detectar una relación entre dos
variables, sino explicarla mediante alguna función matemática
𝑦 = 𝑓(𝑥)
91
3.3.1 Modelos de regresión simple
Modelo Ecuación
Lineal 𝑦 = 𝑎 + 𝑏𝑥
Cuadrático 𝑦 = 𝑎 + 𝑏𝑥 + 𝑐𝑥2
Cúbico 𝑦 = 𝑎 + 𝑏𝑥 + 𝑐𝑥2 + 𝑑𝑥3
Potencial 𝑦 = 𝑎 ⋅ 𝑥𝑏
Exponencial 𝑦 = 𝑒𝑎+𝑏𝑥
Logarítmico 𝑦 = 𝑎 + 𝑏 log 𝑥
Inverso 𝑦 = 𝑎 + 𝑥𝑏
𝑏
Sigmoidal 𝑦 = 𝑒𝑎+ 𝑥
La elección de un tipo u otro depende de la forma que tenga la nube de puntos del
diagrama de dispersión.
Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se deter-
mina, dentro de dicha familia, la curva que mejor se ajusta a la distribución, es decir, la
función que mejor predice la variable dependiente.
El objetivo es encontrar la función de regresión que haga mínimas las distancias entre
los valores de la variable dependiente observados en la muestra, y los predichos por la
función de regresión. Estas distancias se conocen como residuos o errores predictivos.
𝑒𝑖𝑗 = 𝑦𝑗 − 𝑓(𝑥𝑖 ).
92
Figura 3.8: Residuos de un modelo de regresión.
∑ 𝑒2𝑖𝑗 .
En el caso de un modelo de regresión lineal 𝑓(𝑥) = 𝑎 + 𝑏𝑥, como la recta depende de dos
parámetros (el término independiente 𝑎 y la pendiente 𝑏), la suma también dependerá
de estos parámetros
Así pues, todo se reduce a buscar los valores 𝑎 y 𝑏 que hacen mínima esta suma.
Considerando la suma de los cuadrados de los residuos como una función de dos variables
𝜃(𝑎, 𝑏), se pueden calcular los valores de los parámetros del modelo que hacen mínima
esta suma derivando e igualando a 0 las derivadas con respecto a 𝑎 y 𝑏.
93
𝜕𝜃(𝑎, 𝑏) 𝜕 ∑(𝑦𝑗 − 𝑎 − 𝑏𝑥𝑖 )2
= =0
𝜕𝑎 𝜕𝑎
𝜕𝜃(𝑎, 𝑏) 𝜕 ∑(𝑦𝑗 − 𝑎 − 𝑏𝑥𝑖 )2
= =0
𝜕𝑏 𝜕𝑏
𝑠𝑥𝑦 𝑠𝑥𝑦
𝑎 = 𝑦̄ − 𝑥̄ 𝑏=
𝑠2𝑥 𝑠2𝑥
Estos valores hacen mínimos los residuos en 𝑌 y por tanto dan la recta de regresión
óptima.
A partir de la varianza residual se puede definir otro estadístico más sencillo de interpre-
tar.
𝑠2𝑟𝑦
𝑟2 = 1 −
𝑠2𝑦
Á Advertencia
Como la varianza residual puede tomar valores entre 0 y 𝑠2𝑦 , se tiene que
0 ≤ 𝑟2 ≤ 1
Ĺ Interpretación
Cuanto mayor sea 𝑟2 , mejor explicará el modelo de regresión la relación entre las
variables, en particular:
94
Á Advertencia
𝑠2𝑥𝑦
𝑟2 = .
𝑠2𝑥 𝑠2𝑦
Ĺ Demostración
2
𝑠𝑥𝑦
𝑠2𝑟𝑦 = ∑ 𝑒2𝑖𝑗 𝑓𝑖𝑗 2
= ∑(𝑦𝑗 − 𝑓(𝑥𝑖 )) 𝑓𝑖𝑗 = ∑ (𝑦𝑗 − 𝑦 ̄ − 2 (𝑥𝑖 − 𝑥))
̄ 𝑓𝑖𝑗 =
𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦
= ∑ ((𝑦𝑗 − 𝑦)̄ 2 + 4
(𝑥𝑖 − 𝑥)̄ 2 − 2 2 (𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦))
̄ 𝑓𝑖𝑗 =
𝑠𝑥 𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦
= ∑(𝑦𝑗 − 𝑦)̄ 2 𝑓𝑖𝑗 + 4
∑(𝑥𝑖 − 𝑥)̄ 2 𝑓𝑖𝑗 − 2 2 ∑(𝑥𝑖 − 𝑥)(𝑦
̄ 𝑗 − 𝑦)𝑓
̄ 𝑖𝑗 =
𝑠𝑥 𝑠𝑥
𝑠2𝑥𝑦 𝑠𝑥𝑦 𝑠2𝑥𝑦
= 𝑠2𝑦 + 4 𝑠2𝑥 − 2 2 𝑠𝑥𝑦 = 𝑠2𝑦 − 2 .
𝑠𝑥 𝑠𝑥 𝑠𝑥
𝑠2
𝑠2𝑟𝑦 𝑠2𝑦 − 𝑠𝑥𝑦
2 𝑠2𝑥𝑦 𝑠2𝑥𝑦
2
𝑟 =1− 2 =1− 𝑥
= 1 − 1 + = .
𝑠𝑦 𝑠2𝑦 𝑠2𝑥 𝑠2𝑦 𝑠2𝑥 𝑠2𝑦
95
Esto indica que la recta de regresión del peso sobre la estatura explica el 65% de la
variabilidad del peso, y de igual modo, la recta de regresión de la estatura sobre el peso
explica el 65% de la variabilidad de la estatura.
Definición 3.5 (Coeficiente de correlación lineal muestral). Dada una variable bidi-
mensional (𝑋, 𝑌 ), el coeficiente de correlación lineal muestral es la raíz cuadrada de su
coeficiente de determinación lineal, con signo el de la covarianza
√ 𝑠𝑥𝑦
𝑟= 𝑟2 = .
𝑠𝑥 𝑠𝑦
Á Advertencia
−1 ≤ 𝑟 ≤ 1
Ĺ Interpretación
𝑠𝑥𝑦 104.07 cm ⋅ Kg
𝑟= = = +0.8.
𝑠𝑥 𝑠𝑦 10.1 cm ⋅ 12.82 Kg
Esto indica que la relación lineal entre el peso y la estatura es fuerte, y además crecien-
te.
96
3.3.6 Distintos grados de correlación
Los siguientes diagramas de dispersión muestran modelos de regresión lineales con dife-
rentes grados de correlación.
• El coeficiente de determinación: Cuanto mayor sea, menores serán los errores pre-
dictivos y mayor la fiabilidad de las predicciones.
• La variabilidad de la población: Cuanto más variable es una población, más difícil
es predecir y por tanto menos fiables serán las predicciones.
• El tamaño muestral: Cuanto mayor sea, más información tendremos y, en conse-
cuencia, más fiables serán las predicciones.
97
Á Advertencia
Además, hay que tener en cuenta que un modelo de regresión es válido únicamente
para el rango de valores observados en la muestra. Fuera de ese rango no hay
información del tipo de relación entre las variables, por lo que no deben hacerse
predicciones para valores lejos de los observados en la muestra.
𝑦 = 𝑎 + 𝑏 log 𝑥 = 𝑎 + 𝑏𝑡.
𝑦 = 𝑎 + 𝑏(1/𝑥) = 𝑎 + 𝑏𝑡.
98
• Sigmoidal: Un modelo curva S 𝑦 = 𝑒𝑎+𝑏/𝑥 se convierte en un modelo lineal ha-
ciendo los cambios 𝑡 = 1/𝑥 y 𝑧 = log 𝑦:
Horas Bacterias
0 25
1 28
2 47
3 65
4 86
5 121
6 190
7 290
8 362
99
Figura 3.10: Diagrama de dispersión de la evolución de bacterias.
100
Figura 3.11: Regresión lineal de la evolución de un cultivo de bacterias.
101
Horas Bacterias log(Bacterias)
0 25 3.22
1 28 3.33
2 47 3.85
3 65 4.17
4 86 4.45
5 121 4.80
6 190 5.25
7 290 5.67
8 362 5.89
Ahora sólo queda calcular la recta de regresión del logaritmo de Bacterias sobre Horas
102
Figura 3.13: Regresión exponencial de la evolución de las bacterias de un cultivo.
Como se puede apreciar, el modelo exponencial se ajusta mucho mejor que el modelo
lineal.
Es importante señalar que cada modelo de regresión tiene su propio coeficiente de deter-
minación.
Á Advertencia
Los datos atípicos en un estudio de regresión son los puntos que claramente no siguen la
tendencia del resto de los puntos en el diagrama de dispersión, incluso si los valores del
par no se pueden considerar atípicos para cada variable por separado.
103
(a) Modelo de regresión lineal en una relación(b) Modelo de regresión cuadrático en una rela-
cuadrática. ción cuadrática.
Á Advertencia
104
(a) Modelo de regresión lineal con datos atípicos.(b) Modelo de regresión lineal sin datos atípicos.
Figura 3.17: Paradoja de Simpson. Relación inversa entre las horas de estudio para un
examen y la nota obtenida.
105
Pero si se divide la muestra en dos grupos (buenos y malos estudiantes) se obtienen
diferentes tendencias y ahora la relación es directa, lo que tiene más lógica.
Figura 3.18: Paradoja de Simpson. Relación directa entre las horas de estudio para un
examen y la nota obtenida.
106
4 Relaciones entre variables cualitativas
Los modelos de regresión vistos en el capítulo anterior solamente pueden aplicarse cuando
las variables estudiadas son cuantitativas.
Cuando se desea estudiar la relación entre atributos, tanto ordinales como nominales, es
necesario recurrir a otro tipo de medidas de relación o de asociación. En este capítulo
veremos tres de ellas:
Cuando se quiere estudiar la relación entre dos atributos ordinales, o entre un atribu-
to ordinal y una variable cuantitativa, es importante tener en cuenta el orden de las
categorías. En estos casos se puede utilizar el siguiente coeficiente.
Cuando se tengan atributos ordinales es posible ordenar sus categorías y asignarles va-
lores ordinales, de manera que se puede calcular el coeficiente de correlación lineal entre
estos valores ordinales.
Esta medida de relación entre el orden que ocupan las categorías de dos atributos ordi-
nales se conoce como coeficiente de correlación de Spearman.
6 ∑ 𝑑𝑖2
𝑟𝑠 = 1 −
𝑛(𝑛2 − 1)
107
ĺ Importante
−1 ≤ 𝑟𝑠 ≤ 1,
Ĺ Interpretación
En general, cuanto más cerca de 1 o −1 esté 𝑟𝑠 , mayor será la relación entre los
atributos, y cuanto más cerca de 0, menor será la relación.
Alumnos 𝑋 𝑌 𝑑𝑖 𝑑𝑖2
Alumno 1 2 3 −1 1
Alumno 2 5 4 1 1
Alumno 3 1 2 −1 1
Alumno 4 3 1 2 4
Alumno 5 4 5 −1 1
∑ 0 8
6 ∑ 𝑑𝑖2 6⋅8
𝑟𝑠 = 1 − 2
=1− = 0.6.
𝑛(𝑛 − 1) 5(52 − 1)
Esto indica que existe bastante relación directa entre las destrezas manifestadas en ambas
tareas.
Ejemplo 4.2 (Empates). Cuando hay empates en el orden de las categorías se atribuye
a cada valor empatado la media aritmética de los valores ordinales que hubieran ocupado
esos individuos en caso de no haber estado empatados.
108
Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera
tarea y los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se
tendría
Alumnos 𝑋 𝑌 𝑑𝑖 𝑑𝑖2
Alumno 1 2 3 −1 1
Alumno 2 5 4 1 1
Alumno 3 1 1.5 −0.5 0.25
Alumno 4 3.5 1.5 2 4
Alumno 5 3.5 5 −1.5 2.25
∑ 0 8.5
6 ∑ 𝑑𝑖2 6 ⋅ 8.5
𝑟𝑠 = 1 − =1− = 0.58.
𝑛(𝑛2 − 1) 5(52 − 1)
Cuando se quiere estudiar la relación entre atributos nominales no tiene sentido calcular
el coeficiente de correlación de Spearman ya que las categorías no pueden ordenarse.
Para estudiar la relación entre atributos nominales se utilizan medidas basadas en las
frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar
tabla de contingencia.
Ejemplo 4.3. En un estudio para ver si existe relación entre el sexo y el hábito de fumar
se ha tomado una muestra de 100 personas. La tabla de contingencia resultante es
Sexo\Fuma Si No 𝑛𝑖
Mujer 12 28 40
Hombre 26 34 60
𝑛𝑗 38 62 100
109
4.2.1 Frecuencias teóricas o esperadas
𝑋\𝑌 𝑦1 ⋯ 𝑦𝑗 ⋯ 𝑦𝑞 𝑛𝑥
𝑥1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑞 𝑛𝑥1
⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
𝑥𝑖 𝑛𝑖1 ⋯ 𝑛𝑖𝑗 ⋯ 𝑛𝑖𝑞 𝑛𝑥𝑖
⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
𝑥𝑝 𝑛𝑝1 ⋯ 𝑛𝑝𝑗 ⋯ 𝑛𝑝𝑞 𝑛𝑥𝑝
𝑛𝑦 𝑛𝑦1 ⋯ 𝑛 𝑦𝑗 ⋯ 𝑛 𝑦𝑞 𝑛
𝑛𝑥𝑖 𝑛𝑦𝑗 2
𝑝 𝑞
(𝑛𝑖𝑗 − 𝑛 )
𝜒2 = ∑ ∑ 𝑛𝑥𝑖 𝑛𝑦𝑗 ,
𝑖=1 𝑗=1 𝑛
ĺ Importante
𝜒2 ≥ 0.
110
Ĺ Interpretación
Sexo\Fuma Si No 𝑛𝑖
Mujer 12 28 40
Hombre 26 34 60
𝑛𝑗 38 62 100
Sexo\Fuma Si No 𝑛𝑖
40⋅38 40⋅62
Mujer 100 = 15.2 100 = 24.8 40
60⋅38 60⋅62
Hombre 100 = 22.8 100 = 37.2 60
𝑛𝑗 38 62 100
y el coeficiente 𝜒2 vale
El coeficiente 𝜒2 depende del tamaño muestral, ya que al multiplicar por una constante
las frecuencias de todas las casillas, su valor queda multiplicado por dicha constante,
lo que podría llevarnos al equívoco de pensar que ha aumentado la relación, incluso
cuando las proporciones se mantienen. En consecuencia el valor de 𝜒2 no está acotado
superiormente y resulta difícil de interpretar.
Para evitar estos problemas se suele utilizar el siguiente estadístico.
𝜒2
𝐶=√
𝜒2 + 𝑛
111
ĺ Importante
0 ≤ 𝐶 ≤ 1,
Ĺ Interpretación
Á Advertencia
Aunque 𝐶 nunca puede llegar a valer 1, se puede demostrar que para tablas de
contingencia con 𝑘 filas y 𝑘 columnas, el valor máximo que puede alcanzar 𝐶 es
√(𝑘 − 1)/𝑘.
1.81
𝐶=√ = 0.13.
1.81 + 100
Como se trata de una tabla de contingencia de 2 × 2, el valor máximo que podría tomar
el coeficiente de contingencia es √(2 − 1)/2 = √1/2 = 0.707, y como 0.13 está bastante
lejos de este valor, se puede concluir que no existe demasiada relación entre el hábito de
fumar y el sexo.
112
5 Probabilidad
Ejemplo 5.1. Un ejemplo típico de experimentos aleatorios son los juegos de azar. El
lanzamiento de un dado, por ejemplo, es un experimento aleatorio ya que:
113
Otro ejemplo de experimento aleatorio sería la selección de un individuo de una población
al azar y la determinación de su grupo sanguíneo.
En general, la obtención de cualquier muestra mediante procedimientos aleatorios será
un experimento aleatorio.
En experimentos donde se mide más de una variable, la determinación del espacio mues-
tral puede resultar compleja. En tales casos es recomendable utilizar un para construir
el espacio muestral.
En un diagrama de árbol cada variable se representa en un nivel del árbol y cada posible
valor de la variable como una rama.
Figura 5.1: Diagrama de árbol del espacio muestral del sexo y el grupo sanguineo.
114
Definición 5.3 (Suceso aleatorio). Un suceso aleatorio es cualquier subconjunto del
espacio muestral Ω de un experimento aleatorio.
𝒫(Ω) = {∅, {𝑎}, {𝑏}, {𝑐}, {𝑎, 𝑏}, {𝑎, 𝑐}, {𝑏, 𝑐}, {𝑎, 𝑏, 𝑐}}
Puesto que los sucesos son conjuntos, por medio de la teoría de conjuntos se pueden
definir las siguientes operaciones entre sucesos:
• Unión.
• Intersección.
• Complementario.
• Diferencia.
Definición 5.5 (Suceso unión). Dados dos sucesos 𝐴, 𝐵 ⊆ Ω, se llama suceso unión de
𝐴 y 𝐵, y se denota 𝐴 ∪ 𝐵, al suceso formado por los elementos de 𝐴 junto a los elementos
de 𝐵, es decir,
𝐴 ∪ 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 o 𝑥 ∈ 𝐵}.
115
Figura 5.2: Union de dos sucesos.
𝐴 ∩ 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 y 𝑥 ∈ 𝐵}.
116
5.1.4 Contrario de un suceso
𝐴 = {𝑥 | 𝑥 ∉ 𝐴}.
Definición 5.8 (Suceso diferencia). Dados dos sucesos 𝐴, 𝐵 ⊆ Ω, se llama suceso dife-
rencia de 𝐴 y 𝐵, y se denota 𝐴 − 𝐵, al suceso formado por los elementos de 𝐴 que no
pertenecen a 𝐵, es decir,
𝐴 − 𝐵 = {𝑥 | 𝑥 ∈ 𝐴 y 𝑥 ∉ 𝐵} = 𝐴 ∩ 𝐵.
117
El suceso diferencia 𝐴 − 𝐵 ocurre siempre que ocurre 𝐴 pero no ocurre 𝐵, y también
puede expresarse como 𝐴 ∩ 𝐵.̄
1. 𝐴 ∪ 𝐴 = 𝐴, 𝐴 ∩ 𝐴 = 𝐴 (idempotencia).
2. 𝐴 ∪ 𝐵 = 𝐵 ∪ 𝐴, 𝐴 ∩ 𝐵 = 𝐵 ∩ 𝐴 (conmutativa).
3. (𝐴 ∪ 𝐵) ∪ 𝐶 = 𝐴 ∪ (𝐵 ∪ 𝐶), (𝐴 ∩ 𝐵) ∩ 𝐶 = 𝐴 ∩ (𝐵 ∩ 𝐶) (asociativa).
4. (𝐴 ∪ 𝐵) ∩ 𝐶 = (𝐴 ∩ 𝐶) ∪ (𝐵 ∩ 𝐶), (𝐴 ∩ 𝐵) ∪ 𝐶 = (𝐴 ∪ 𝐶) ∩ (𝐵 ∪ 𝐶) (distributiva).
5. 𝐴 ∪ ∅ = 𝐴, 𝐴 ∩ 𝐸 = 𝐴 (elemento neutro).
6. 𝐴 ∪ 𝐸 = 𝐸, 𝐴 ∩ ∅ = ∅ (elemento absorbente).
7. 𝐴 ∪ 𝐴 = 𝐸, 𝐴 ∩ 𝐴 = ∅ (elemento simétrico complementario).
8. 𝐴 = 𝐴 (doble contrario).
9. 𝐴 ∪ 𝐵 = 𝐴 ∩ 𝐵, 𝐴 ∩ 𝐵 = 𝐴 ∪ 𝐵 (leyes de Morgan).
10. 𝐴 ∩ 𝐵 ⊆ 𝐴 ∪ 𝐵.
• Es necesario que todos los elementos del espacio muestral tengan la misma proba-
bilidad de ocurrir (equiprobabilidad).
• No puede utilizarse con espacios muestrales infinitos, o de los que no se conoce el
número de casos posibles.
118
¾ Precaución
|𝐴| 3
𝑃 (𝐴) = = = 0.5.
|Ω| 6
|𝐴| 1
𝑃 (𝐴) ≠ = = 0.25,
|Ω| 4
ya que los grupos sanguíneos no son igualmente probables en las poblaciones humanas.
Teorema 5.1 (Ley de los grandes números). Cuando un experimento aleatorio se repite
un gran número de veces, las frecuencias relativas de los sucesos del experimento tienden
a estabilizarse en torno a cierto número, que es precisamente su probabilidad.
𝑛𝐴
𝑃 (𝐴) = 𝑙𝑖𝑚𝑛→∞
𝑛
119
Ejemplo 5.11. Dado el espacio muestral correspondiente al lanzamiento de una moneda
Ω = {𝐶, 𝑋}, si después de lanzar la moneda 100 veces obtenemos 54 caras, entonces la
probabilidad de 𝐶 es aproximadamente
𝑛𝐶 54
𝑃 (𝐶) = = = 0.54.
𝑛 100
𝑛𝐴 412
𝑃 (𝐴) = = = 0.412.
𝑛 1000
𝑃 (𝐴) ≥ 0.
𝑃 (Ω) = 1.
𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵).
1. 𝑃 (𝐴) = 1 − 𝑃 (𝐴).
2. 𝑃 (∅) = 0.
3. Si 𝐴 ⊆ 𝐵 entonces 𝑃 (𝐴) ≤ 𝑃 (𝐵).
4. 𝑃 (𝐴) ≤ 1.
5. 𝑃 (𝐴 − 𝐵) = 𝑃 (𝐴) − 𝑃 (𝐴 ∩ 𝐵).
120
6. Si 𝐴 y 𝐵 son sucesos compatibles, es decir, su intersección no es vacía, entonces
𝑛
𝑃 (𝐴) = ∑ 𝑃 (𝑒𝑖 ).
𝑖=1
Ĺ Demostración
Prueba.
1. 𝐴 = Ω ⇒ 𝑃 (𝐴 ∪ 𝐴) = 𝑃 (Ω) ⇒ 𝑃 (𝐴) + 𝑃 (𝐴) = 1 ⇒ 𝑃 (𝐴) = 1 − 𝑃 (𝐴).
2. ∅ = Ω ⇒ 𝑃 (∅) = 𝑃 (Ω) = 1 − 𝑃 (Ω) = 1 − 1 = 0.
3. 𝐵 = 𝐴∪(𝐵−𝐴). Como 𝐴 y 𝐵−𝐴 son incompatibles, 𝑃 (𝐵) = 𝑃 (𝐴∪(𝐵−𝐴)) =
𝑃 (𝐴) + 𝑃 (𝐵 − 𝐴) ≥ 𝑃 (𝐴).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,
4. 𝐴 ⊆ Ω ⇒ 𝑃 (𝐴) ≤ 𝑃 (Ω) = 1.
5. 𝐴 = (𝐴 − 𝐵) ∪ (𝐴 ∩ 𝐵). Como 𝐴 − 𝐵 y 𝐴 ∩ 𝐵 son incompatibles, 𝑃 (𝐴) =
𝑃 (𝐴 − 𝐵) + 𝑃 (𝐴 ∩ 𝐵) ⇒ 𝑃 (𝐴 − 𝐵) = 𝑃 (𝐴) − 𝑃 (𝐴 ∩ 𝐵).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,
121
6. 𝐴 ∪ 𝐵 = (𝐴 − 𝐵) ∪ (𝐵 − 𝐴) ∪ (𝐴 ∩ 𝐵). Como 𝐴 − 𝐵, 𝐵 − 𝐴 y 𝐴 ∩ 𝐵 son
incompatibles, 𝑃 (𝐴 ∪ 𝐵) = 𝑃 (𝐴 − 𝐵) + 𝑃 (𝐵 − 𝐴) + 𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴) −
𝑃 (𝐴 ∩ 𝐵) + 𝑃 (𝐵) − 𝑃 (𝐴 ∩ 𝐵) + 𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴) + 𝑃 (𝐵) − 𝑃 (𝐴 ∪ 𝐵).
Si pensamos en probabilidades como áreas, es fácil de ver gráficamente,
• La mayor incertidumbre corresponde a 𝑃 (𝐴) = 0.5 (Es tan probable que ocurra 𝐴
como que no ocurra).
• La menor incertidumbre corresponde a 𝑃 (𝐴) = 1 (𝐴 sucederá con absoluta certeza)
y 𝑃 (𝐴) = 0 (𝐴 no sucederá con absoluta certeza).
Cuando 𝑃 (𝐴) está más próximo a 0 que a 1, la confianza en que no ocurra 𝐴 es mayor
que la de que ocurra 𝐴. Por el contrario, cuando 𝑃 (𝐴) está más próximo a 1 que a 0, la
confianza en que ocurra 𝐴 es mayor que la de que no ocurra 𝐴.
122
5.3 Probabilidad condicionada
𝑃 (𝐴|𝐵).
Ejemplo 5.12. Supongamos que tenemos una muestra de 100 hombres y 100 mujeres
con las siguientes frecuencias
No fumadores Fumadores
Mujeres 80 20
Hombres 60 40
60
𝑃 (Fumadora) = = 0.3.
200
Sin embargo, si se sabe que la persona elegida es mujer, entonces la muestra se reduce a
la primera fila, y la probabilidad de ser fumadora es
20
𝑃 (Fumadora|Mujer) = = 0.2.
100
123
5.3.2 Probabilidad condicionada
𝑃 (𝐴 ∩ 𝐵)
𝑃 (𝐴|𝐵) = ,
𝑃 (𝐵)
Esta definición permite calcular probabilidades sin tener que alterar el espacio muestral
original del experimento.
Ejemplo 5.14. En una población hay un 30% de fumadores y se sabe que el 40% de los
fumadores tiene cáncer de pulmón. La probabilidad de que una persona elegida al azar
sea fumadora y tenga cáncer de pulmón es
124
5.3.4 Independencia de sucesos
si 𝑃 (𝐴) ≠ 0 y 𝑃 (𝐵) ≠ 0.
Esto significa que la ocurrencia de uno evento no aporta información relevante para
cambiar la incertidumbre sobre el otro.
Cuando dos eventos son independientes, la probabilidad de su intersección es igual al
producto de sus probabilidades,
𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴)𝑃 (𝐵).
1. Para cada nodo del árbol, etiquetar la rama que conduce hasta él con la probabi-
lidad de que la variable en ese nivel tome el valor del nodo, condicionada por los
sucesos correspondientes a sus nodos antecesores en el árbol.
2. La probabilidad de cada suceso elemental en las hojas del árbol es el producto de
las probabilidades de las ramas que van desde la raíz a la hoja del árbol.
125
Figura 5.9: Diagrama de árbol de un espacio probabilístico.
Ejemplo 5.15. Sea una población en la que el 30% de las personas fuman, y que
la incidencia del cáncer de pulmón en fumadores es del 40% mientras que en los no
fumadores es del 10%.
El espacio probabilístico del experimento aleatorio que consiste en elegir una persona al
azar y medir las variables Fumar y Cáncer de pulmón se muestra a continuación.
Figura 5.10: Diagrama de árbol del espacio probabilístico de fumar y tener cáncer de
pulmón.
126
Figura 5.11: Diágrama de árbol del espacio probabilístico del lanzamiento de dos mone-
das.
Ejemplo 5.17. Dada una población en la que hay un 40% de hombres y un 60% de
mujeres, el experimento aleatorio que consiste en tomar una muestra aleatoria de tres
personas tiene el árbol de probabilidad que se muestra a continuación.
Figura 5.12: Diagrama de árbol del espacio probabilístico del sexo de tres individuos
elegidos al azar.
127
2. Son incompatibles dos a dos: 𝐴𝑖 ∩ 𝐴𝑗 = ∅ ∀𝑖 ≠ 𝑗.
𝑛 𝑛
𝑃 (𝐵) = ∑ 𝑃 (𝐴𝑖 ∩ 𝐵) = ∑ 𝑃 (𝐴𝑖 )𝑃 (𝐵|𝐴𝑖 ).
𝑖=1 𝑖=1
Ĺ Demostración
𝐵 = 𝐵 ∩ 𝐸 = 𝐵 ∩ (𝐴1 ∪ ⋯ ∪ 𝐴𝑛 ) = (𝐵 ∩ 𝐴1 ) ∪ ⋯ ∪ (𝐵 ∩ 𝐴𝑛 )
y como estos sucesos son incompatibles entre sí, se tiene
𝑃 (𝐵) = 𝑃 ((𝐵 ∩ 𝐴1 ) ∪ ⋯ ∪ (𝐵 ∩ 𝐴𝑛 )) = 𝑃 (𝐵 ∩ 𝐴1 ) + ⋯ + 𝑃 (𝐵 ∩ 𝐴𝑛 ) =
𝑛
= 𝑃 (𝐴1 )𝑃 (𝐵/𝐴1 ) + ⋯ + 𝑃 (𝐴𝑛 )𝑃 (𝐵/𝐴𝑛 ) = ∑ 𝑃 (𝐴𝑖 )𝑃 (𝐵/𝐴𝑖 ).
𝑖=1
128
Figura 5.14: Teorema de la probabilidad total.
Ejemplo 5.18. Un determinado síntoma 𝑆 puede ser originado por una enfermedad
𝐸 pero también lo pueden presentar las personas sin la enfermedad. Sabemos que la
prevalencia de la enfermedad 𝐸 es 0.2. Además, se sabe que el 90% de las personas con
la enfermedad presentan el síntoma, mientras que sólo el 40% de las personas sin la en-
fermedad lo presentan. Si se toma una persona al azar de la población, ¿qué probabilidad
hay de que tenga el síntoma?
Para responder a la pregunta se puede aplicar el teorema de la probabilidad total usando
el sistema completo {𝐸, 𝐸}:
𝑃 (𝑆) = 𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸) = 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 = 0.5.
129
𝑃 (𝑆) = 𝑃 (𝐸, 𝑆) + 𝑃 (𝐸, 𝑆) = 𝑃 (𝐸)𝑃 (𝑆|𝐸) + 𝑃 (𝐸)𝑃 (𝑆|𝐸)
= 0.2 ⋅ 0.9 + 0.8 ⋅ 0.4 = 0.18 + 0.32 = 0.5.
Ejemplo 5.19. En el ejemplo anterior, una pregunta más interesante es qué diagnosticar
a una persona que presenta el síntoma.
En este caso se puede interpretar 𝐸 y 𝐸 como las dos posibles hipótesis para el síntoma
𝑆. Las probabilidades a priori para ellas son 𝑃 (𝐸) = 0.2 y 𝑃 (𝐸) = 0.8. Esto quiere decir
que si no se dispone de información sobre el síntoma, el diagnóstico será que la persona
no tiene la enfermedad.
Sin embargo, si al reconocer a la persona se observa que presenta el síntoma, dicha
información condiciona a las hipótesis, y para decidir entre ellas es necesario calcular sus
probabilidades a posteriori, es decir, 𝑃 (𝐸|𝑆) y 𝑃 (𝐸|𝑆).
Para calcular las probabilidades a posteriori se puede utilizar el teorema de Bayes:
130
En este caso se dice que el síntoma 𝑆 no es determinante a la hora de diagnosticar la
enfermedad.
5.7 Epidemiología
Una de las ramas de la Medicina que hace un mayor uso de la probabilidad es la , que
estudia la distribución y las causas de las enfermedades en las poblaciones, identificando
factores de riesgos para las enfermedades de cara a la atención médica preventiva.
En Epidemiología interesa la frecuencia de un suceso médico 𝐸 (típicamente una enfer-
medad como la gripe, un factor de riesgo como fumar o un factor de protección como
vacunarse) que se mide mediante una variable nominal con dos categorías (ocurrencia o
no del suceso).
Hay diferentes medidas relativas a la frecuencia de un suceso médico. Las más importan-
tes son:
• Prevalencia
• Incidencia
• Riesgo relativo
• Odds ratio
5.7.1 Prevalencia
Ejemplo 5.20. Para estimar la prevalencia de la gripe se estudió una muestra de 1000
personas de las que 150 presentaron gripe. Así, la prevalencia de la gripe es aproxima-
damente 150/1000 = 0.15, es decir, un 15%.
131
5.7.2 Incidencia
Ejemplo 5.21. Una población contenía inicialmente 1000 personas sin gripe y después
de dos años se observó que 160 de ellas sufrieron gripe. La incidencia acumulada de la
gripe es 160 casos pro 1000 personas por dos años, es decir, 16% en dos años.
Ejemplo 5.22. Una población contenía inicialmente 1000 personas sin gripe y después
de dos años se observó que 160 de ellas sufrieron gripe. Si se considera el año como
intervalo de tiempo, la tasa de incidencia de la gripe es 160 casos dividida por 1000
personas y por dos años, es decir, 80 casos por 1000 personas-año o 8% de personas al
año.
132
La incidencia es más útil cuando se pretende entender la causalidad del suceso: por
ejemplo, si la incidencia de una enfermedad en una población aumenta, seguramente hay
un factor de riesgo que lo está promoviendo.
Cuando la tasa de incidencia es aproximadamente constante en la duración del suceso,
la prevalencia es aproximadamente el producto de la incidencia por la duración media
del suceso, es decir,
Para determinar si un factor o característica está asociada con el suceso médico es nece-
sario comparar el riesgo del suceso en dos poblaciones, una expuesta al factor y la otra
no. El grupo expuesto al factor se conoce como grupo tratamiento o grupo experimental
𝑇 y el grupo no expuesto como grupo control 𝐶.
Habitualmente los casos observados para cada grupo se representan en una tabla de 2×2
como la siguiente:
Suceso 𝐸
No suceso 𝐸
Grupo tratamiento 𝑇
𝑎
𝑏
Grupo control 𝐶
𝑐
𝑑
𝑎 𝑐
𝑅𝐴(𝐸) = 𝑅𝑇 (𝐸) − 𝑅𝐶 (𝐸) = − .
𝑎+𝑏 𝑐+𝑑
133
El riesgo atribuible es el riesgo de un suceso que es debido específicamente al factor de
interés.
Obsérvese que el riesgo atribuible puede ser positivo, cuando el riesgo del grupo trata-
miento es mayor que el del grupo control, o negativo, de lo contrario.
Ejemplo 5.23. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El riesgo atribuible de contraer la gripe cuando se es vacunado es
20 80
𝐴𝑅(𝐷) = − = −0.12.
20 + 480 80 + 420
Esto quiere decir que el riesgo de contraer la gripe es un 12% menor en vacunados que
en no vacunados.
Definición 5.20 (Riesgo relativo). El riesgo relativo de un suceso médico 𝐸 para los
individuos expuestos a un factor es el cociente entre las proporciones de individuos
afectados por el suceso en un periodo de tiempo de los grupos tratamiento y control. Es
decir, el cociente entre las incidencias de grupo tratamiento y el grupo control.
134
Ĺ Interpretación
Ejemplo 5.24. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El riesgo relativo de contraer la gripe cuando se es vacunado es
20/(20 + 480)
𝑅𝑅(𝐷) = = 0.25.
80/(80 + 420)
Así, la probabilidad de contraer la gripe en los individuos vacunados fue la cuarta parte
de la de contraerla en el caso de no haberse vacunado, es decir, la vacuna reduce el riesgo
de gripe un 75%.
135
5.7.8 Odds
A diferencia de la incidencia, que es una proporción menor o igual que 1, el odds puede
ser mayor que 1. No obstante es posible convertir el odds en una probabilidad con al
fórmula
𝑂𝐷𝐷𝑆(𝐸)
𝑃 (𝐸) = .
𝑂𝐷𝐷𝑆(𝐸) + 1
Ejemplo 5.25. Una población contenía inicialmente 1000 personas sin gripe. Después
de un año 160 de ellas tuvieron gripe. Entonces el odds de la gripe es 160/840.
Obsérvese que la incidencia es 160/1000.
Ĺ Interpretación
El odds ratio compara los odds de un suceso médico entre el grupo tratamiento y
control. La interpretación es similar a la del riesgo relativo:
136
Ejemplo 5.26. Para determinar la efectividad de una vacuna contra la gripe, una
muestra de 1000 personas sin gripe fueron seleccionadas al comienzo del año. La mitad
de ellas fueron vacunadas (grupo tratamiento) y la otra mitad recibieron un placebo
(grupo control). La tabla siguiente resume los resultados al final del año.
Gripe 𝐸
No gripe 𝐸
Grupo tratamiento (vacunados)
20
480
Grupo control (No vacunados)
80
420
El odds ratio de sufrir la gripe para los individuos vacunados es
20/480
𝑂𝑅(𝐷) = = 0.21875.
80/420
Esto quiere decir que el odds de sufrir la gripe frente a no sufrirla en los vacunados
es casi un quinto del de los no vacunados, es decir, que aproximadamente por cada 22
personas vacunadas con gripe habrá 100 personas no vacunadas con gripe.
El riesgo relativo y el odds ratio son dos medidas de asociación pero su interpretación
es ligeramente diferente. Mientras que el riesgo relativo expresa una comparación de
riesgos entre los grupos tratamiento y control, el odds ratio expresa una comparación de
odds, que no es lo mismo que el riesgo. Así, un odds ratio de 2 no significa que el grupo
tratamiento tiene el doble de riesgo de adquirir el suceso.
La interpretación del odds ratio es un poco más enrevesada porque es contrafactual, y
nos da cuántas veces es más frecuente el suceso en el grupo tratamiento en comparación
con el control, asumiendo que en el grupo control es tan frecuente que ocurra el suceso
como que no.
La ventaja del odds ratio es que no depende de la prevalencia o la incidencia del suceso,
y debe usarse siempre que el número de individuos que presenta el suceso se selecciona
arbitrariamente en ambos grupos, como ocurre en los estudios casos-control.
137
Ejemplo 5.27. Para determinar la asociación entre el cáncer de pulmón y fumar se
tomaron dos muestras (la segunda con el doble de individuos sin cáncer) obteniendo los
siguientes resultados:
Muestra 1
Cáncer
No cáncer
Fumadores
60
80
No fumadores
40
320
60/(60 + 80)
𝑅𝑅(𝐷) = = 3.86.
40/(40 + 320)
60/80
𝑂𝑅(𝐷) = = 6.
40/320
Muestra 2
Cáncer
No cáncer
Fumadores
60
160
No fumadores
40
640
60/(60 + 160)
𝑅𝑅(𝐷) = = 4.64.
40/(40 + 640)
60/160
𝑂𝑅(𝐷) = = 6.
40/640
138
Así, cuando cambia la incidencia o prevalencia de un suceso (cáncer de pulmón) el riesgo
relativo cambia, mientras que el odds ratio no.
La relación entre el riesgo relativo y el odds ratio viene dada por la siguiente fórmula
𝑂𝑅 1 − 𝑅1
𝑅𝑅 = = 𝑂𝑅 ,
1 − 𝑅0 + 𝑅0 ⋅ 𝑂𝑅 1 − 𝑅0
139
5.8 Tests diagnósticos
𝑉𝑃
𝑃 (+|𝐸) = .
𝑉 𝑃 + 𝐹𝑁
𝑉𝑁
𝑃 (−|𝐸) = .
𝑉 𝑁 + 𝐹𝑃
140
Por otro lado, un test con una alta especificidad descartará la enfermedad en la mayoría
de las personas sin la enfermedad, pero también producirá más falsos negativos que un
test menos específico. Así, un resultado negativo en un test con una gran especificidad
no es útil para descartar la enfermedad, pero un resultado positivo es muy útil para
confirmar la enfermedad, ya que raramente da resultados positivos en personas sin la
enfermedad.
Ejemplo 5.28. Un test diagnóstico para la gripe se ha aplicado a una muestra aleatoria
de 1000 personas. Los resultados aparecen resumidos en la siguiente tabla.
Presencia de gripe 𝐸
Ausencia de gripe 𝐸
Test +
95
90
Test −
5
810
Según esta muestra, la prevalencia de la gripe puede estimarse como
95 + 5
𝑃 (𝐸) = = 0.1.
1000
95
𝑃 (+|𝐸) = = 0.95.
95 + 5
Y la especificidad es
810
𝑃 (−|𝐸) = = 0.9.
90 + 810
Así pues, se trata de un buen test tanto para descartar la enfermedad como para confir-
marla, pero es un poco mejor para confirmarla que para descartarla porque la especifici-
dad es mayor que la sensibilidad.
Decidir entre un test con una gran sensibilidad o un test con una gran especificidad
depende del tipo de enfermedad y el objetivo del test. En general, utilizaremos un test
sensible cuando:
141
• La enfermedad es grave y es importante detectarla.
• La enfermedad es curable.
• Los falsos positivos no provocan traumas serios.
Definición 5.25 (Valor predictivo positivo). El valor predictivo positivo de un test diag-
nóstico es la proporción de personas con la enfermedad entre las personas con resultado
positivo en el test,
𝑉𝑃
𝑃 (𝐸|+) = .
𝑉 𝑃 + 𝐹𝑃
𝑉𝑁
𝑃 (𝐸|−) = .
𝑉 𝑁 + 𝐹𝑁
Ĺ Interpretación
142
𝑃 (𝐸)𝑃 (+|𝐸)
𝑉 𝑃 𝑃 = 𝑃 (𝐸|+) =
𝑃 (𝐸)𝑃 (+|𝐸) + 𝑃 (𝐸)𝑃 (+|𝐸)
𝑃 (𝐸)𝑃 (−|𝐸)
𝑉 𝑃 𝑁 = 𝑃 (𝐸|−) =
𝑃 (𝐸)𝑃 (−|𝐸) + 𝑃 (𝐸)𝑃 (−|𝐸)
Así, con enfermedades frecuentes, el valor predictivo positivo aumenta, y con enferme-
dades raras, el valor predictivo negativo aumenta.
Ejemplo 5.29. Siguiendo con el ejemplo anterior de la gripe, se tiene que el valor
predictivo positivo del test es
95
𝑉 𝑃 𝑃 = 𝑃 (𝐸|+) = = 0.5135.
95 + 90
Como este valor es mayor que 0.5, eso significa que se diagnosticará la gripe si el resultado
del test es positivo. No obstante, la confianza en el diagnóstico será baja, ya que el valor
es poco mayor que 0.5.
Por otro lado, el valor predictivo negativo es
810
𝑉 𝑃 𝑁 = 𝑃 (𝐸|−) = = 0.9939.
5 + 810
Como este valor es casi 1, eso significa que es casi seguro que no se tiene la gripe cuando
el resultado del test es negativo.
Así, se puede concluir que este test es muy potente para descartar la gripe, pero no lo
est tanto para confirmarla.
𝑃 (+|𝐸) Sensibilidad
𝑅𝑉 + = = .
𝑃 (+|𝐸) 1 − Especificidad
143
Definición 5.28 (Razón de verosimilitud negativa). La razón de verosimilitud negativa
de un test diagnóstico es el cociente entre la probabilidad de un resultado negativo en
personas con la enfermedad y personas sin la enfermedad, respectivamente.
𝑃 (−|𝐸) 1 − Sensibilidad
𝑅𝑉 − = = .
𝑃 (−|𝐸) Especificidad
Ĺ Interpretación
144
Figura 5.17: Razón de verosimilitud.
145
6 Estimación de parámetros poblacionales
• Menor coste.
• Mayor rapidez.
• Mayor facilidad.
Los valores de una variable 𝑋 en una muestra de tamaño 𝑛 de una población pueden
verse como el valor de una variable aleatoria 𝑛-dimensional.
146
Definición 6.1 (Variable aleatoria muestral). Una variable aleatoria muestral de una va-
riable 𝑋 estudiada en una población es una colección de 𝑛 variables aleatorias 𝑋1 , … , 𝑋𝑛
tales que:
Los valores que puede tomar esta variable 𝑛 dimensional, serán todas las posibles mues-
tras de tamaño 𝑛 que pueden extraerse de la población.
Las tres características fundamentales de la variable aleatoria muestral son:
Las dos primeras cuestiones pueden resolverse si se utiliza muestreo aleatorio simple
para obtener la muestra. En cuanto a la última, hay que responder, a su vez, a dos
cuestiones:
Distribución Parámetro
Binomial 𝑛, 𝑝
Poisson 𝜆
Uniforme 𝑎, 𝑏
Normal 𝜇, 𝜎
Chi-cuadrado 𝑛
T-Student 𝑛
F-Fisher 𝑚, 𝑛
147
Ejemplo 6.1. Sea una población en la que la cuarta parte de las familias no tienen
hijos, la mitad de las familias tiene 1 hijo, y el resto tiene 2 hijos.
Por ser función de una variable aleatoria, un estadístico en el muestreo es también una
variable aleatoria. Por tanto, su distribución de probabilidad también depende de la
distribución de la población y de los parámetros que la determinan (𝜇, 𝜎, 𝑝, …).
Ejemplo 6.2. Si se toma la media muestral 𝑋̄ de las muestras de tamaño 2 del ejemplo
anterior, su distribución de probabilidad es
Distribución muestral
(𝑋1 , 𝑋2 ) 𝑃(𝑥1 , 𝑥2 )
Distribución
(0, 0) 0.0625 de 𝑥 ̄
(0, 1) 0.1250 𝑋 ̄ 𝑃(𝑥)
(0, 2) 0.0625
𝑋1 +𝑋2 0 0.0625
(1, 0) 0.1250 𝑥̄ = 2 0.5 0.2500
(1, 1) 0.2500
1 0.3750
(1, 2) 0.1250
1.5 0.2500
(2, 0) 0.0625
2 0.0625
(2, 1) 0.1250
(2, 2) 0.0625
¿Cuál es la probabilidad de obtener una media muestral que aproxime la media poblacional
con un error máximo de 0.5?
Como hemos visto, para conocer la distribución de un estadístico muestral, es necesario
conocer la distribución de la población, lo cual no siempre es posible. Afortunadamente,
para muestras grandes es posible aproximar la distribución de algunos estadísticos como
la media, gracias al siguiente teorema:
148
Teorema 6.1 (Teorema central del límite). Si 𝑋1 , … , 𝑋𝑛 son variables aleatorias in-
dependientes (𝑛 ≥ 30) con medias y varianzas 𝜇𝑖 = 𝐸(𝑋𝑖 ), 𝜎𝑖2 = 𝑉 𝑎𝑟(𝑋𝑖 ), 𝑖 = 1, … , 𝑛
respectivamente, entonces la variable aleatoria 𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 sigue una distribución
aproximadamente normal de media la suma de las medias y varianza la suma de las
varianzas
𝑛 𝑛
𝑛≥30
𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 ∼ 𝑁 (∑ 𝜇𝑖 , √∑ 𝜎𝑖2 )
𝑖=1 𝑖=1
𝑋 + ⋯ + 𝑋𝑛 𝑋 𝑋
𝑋̄ = 1 = 1 +⋯+ 𝑛
𝑛 𝑛 𝑛
𝑋𝑖 𝜇 𝑋𝑖 𝜎2
𝐸( )= y 𝑉 𝑎𝑟 ( )= 2
𝑛 𝑛 𝑛 𝑛
149
𝑛 𝑛
̄ 𝜇 𝜎2 𝜎
√
𝑋 ∼ 𝑁 (∑ , ∑ 2 ) = 𝑁 (𝜇, √ ) .
𝑖=1
𝑛 𝑖=1
𝑛 𝑛
Ejemplo 6.3 (Ejemplo para muestras grandes (𝑛 ≥ 30)). Supóngase que se desea
estimar el número medio de hijos de una población con media 𝜇 = 2 hijos y desviación
típica 𝜎 = 1 hijo.
¿Qué probabilidad hay de estimar 𝜇 a partir de 𝑥̄ con un error menor de 0.2?
De acuerdo al teorema central del límite se tiene:
√
1. Para 𝑛 = 30, 𝑥̄ ∼ 𝑁 (2, 1/ 30) y
n=100
n=30
3
Densidad 𝑓 (𝑥)
2
1
0
150
6.1.2 Distribución de una proporción muestral para muestras grandes
(𝑛 ≥ 30)
Una proporción 𝑝 poblacional puede calcularse como la media de una variable dicotómica
(0,1). Esta variable se conoce como variable de Bernouilli 𝐵(𝑝), que es un caso particular
de la binomial para 𝑛 = 1. Por tanto, para una muestra aleatoria de tamaño 𝑛, una
proporción muestral 𝑝̂ también puede expresarse como la suma de 𝑛 variables aleatorias
independientes, idénticamente distribuidas:
𝑋1 + ⋯ + 𝑋𝑛 𝑋 𝑋
𝑝̂ = 𝑋̄ = = 1 + ⋯ + 𝑛 , con 𝑋𝑖 ∼ 𝐵(𝑝)
𝑛 𝑛 𝑛
𝑋𝑖 𝑝 𝑋𝑖 𝑝(1 − 𝑝)
𝐸( )= y 𝑉 𝑎𝑟 ( )=
𝑛 𝑛 𝑛 𝑛2
𝑛 𝑛
𝑝 𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
𝑝̂ ∼ 𝑁 (∑ , √∑ 2
) = 𝑁 (𝑝, √ ).
𝑖=1
𝑛 𝑖=1
𝑛 𝑛
6.2 Estimadores
Los estadísticos muestrales pueden utilizarse para aproximar los parámetros de la pobla-
ción, y cuando un estadístico se utiliza con este fin se le llama estimador del parámetro.
𝜃 ̂ = 𝐹 (𝑋1 , … , 𝑋𝑛 ).
Dada una muestra concreta (𝑥1 , … , 𝑥𝑛 ), el valor del estimador aplicado a ella se conoce
como estimación
𝜃0̂ = 𝐹 (𝑥1 , … , 𝑥𝑛 ).
151
Por ser una función de la variable aleatoria muestral, un estimador es, a su vez, una
variable aleatoria cuya distribución depende de la población de partida.
Mientras que el estimador es una función que es única, la estimación no es única, sino
que depende de la muestra tomada.
Distribución de la población
𝑋 Parámetro poblacional ¿𝜃?
Muestra de tamaño 𝑛
(𝑥1 , … , 𝑥𝑛 ) Estimación 𝜃0̂ = 𝐹(𝑥1 , … , 𝑥𝑛 )
5
∑ 𝑋𝑖
𝑝̂ = 𝑖=1
5
Muestra Estimación
(1, 0, 0, 1, 1) 3/5
(1, 0, 0, 0, 0) 1/5
(0, 1, 0, 0, 1) 2/5
⋯ ⋯
152
La estimación de parámetros puede realizar de de dos formas:
La estimación puntual utiliza un único estimador para estimar el valor del parámetro
desconocido de la población.
En teoría pueden utilizarse distintos estimadores para estimar un mismo parámetro.
Por ejemplo, en el caso de estimar la proporción de fumadores en una ciudad, podrían
haberse utilizado otros posibles estimadores además de la proporción muestral, como
pueden ser:
𝜃1̂ = √
5
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
𝑋 + 𝑋5
𝜃2̂ = 1
2
𝜃3̂ = 𝑋1 ⋯
• Insesgadez
• Eficiencia
• Consistencia
153
• Normalidad asintótica
• Suficiencia
𝐸(𝜃)̂ = 𝜃.
Insesgado
Sesgo -
Sesgo +
0.3
Densidad 𝑓 (𝑥)
0.2
0.1
0.0
𝜃
Valores de los estimadores
𝑆𝑒𝑠𝑔𝑜(𝜃)̂ = 𝐸(𝜃)̂ − 𝜃.
154
Distribuciones de estimadores consistentes sesgados
Distribuciones de estimadores consistentes
0.4
n=10
0.4
n=10 n=50
n=50 n=100
0.3
n=100
0.3
Densidad 𝑓 (𝑥)
Densidad 𝑓 (𝑥)
0.2
0.2
0.1
0.1
0.0
0.0
𝜃
𝜃
Valores de los estimadores
Valores de los estimadores
(b) Distribución de estimadores consistentes se-
(a) Distribución de estimadores consistentes.
gados.
155
Distribuciones de estimadores insesgado y eficiente sesgado
0.4
Insesgado
Eficiente
0.3
Densidad 𝑓 (𝑥)
0.2
0.1
0.0
𝜃
Valores de los estimadores
Como veremos más adelante esta propiedad es muy interesante para hacer estimaciones
de parámetros mediante intervalos.
156
Distribuciones de estimadores asintóticamente normales
n=10
n=50
0.08 n=100
Densidad 𝑓 (𝑥)
0.06
0.04
0.02
0.00
𝜃
Valores de los estimadores
Esto significa que cuando se obtiene una estimación, cualquier otra información es irre-
levante para 𝜃.
El estimador que se suele utilizar para estimar la media poblacional es la media mues-
tral.
Para muestras de tamaño 𝑛 resulta la siguiente variable aleatoria:
𝑋 + ⋯ + 𝑋𝑛
𝑋̄ = 1
𝑛
𝜎2
𝐸(𝑋)̄ = 𝜇 y 𝑉 𝑎𝑟(𝑋)̄ =
𝑛
157
𝑛
∑𝑖=1 (𝑋𝑖 − 𝑋)̄ 2
2
𝑆 =
𝑛
𝑛−1 2
𝐸(𝑆 2 ) = 𝜎 .
𝑛
No obstante, resulta sencillo corregir este sesgo para llegar a un estimador insesgado:
Definición 6.8 (Cuasivarianza muestral). Dada una muestra de tamaño 𝑛 de una va-
riable aleatoria 𝑋, se define la cuasivarianza muestral como
𝑛
∑𝑖=1 (𝑋𝑖 − 𝑋)̄ 2 𝑛
𝑆 2̂ = = 𝑆 2.
𝑛−1 𝑛−1
Estimación puntual
Error
|
𝜃 𝜃0̂
158
Definición 6.9 (Intervalo de confianza). Dados dos estimadores 𝑙𝑖̂ (𝑋1 , … , 𝑋𝑛 ) y
𝑙𝑠̂ (𝑋1 , … , 𝑋𝑛 ), y sus respectivas estimaciones 𝑙1 y 𝑙2 para una muestra concreta, se dice
que el intervalo 𝐼 = [𝑙1 , 𝑙2 ] es un intervalo de confianza para un parámetro poblacional
𝜃, con un nivel de confianza 1 − 𝛼 (o nivel de significación 𝛼), si se cumple
1 − 𝛼 = 0.90 o 𝛼 = 0.10
1 − 𝛼 = 0.95 o 𝛼 = 0.05
1 − 𝛼 = 0.99 o 𝛼 = 0.01
159
Intervalo de confianza 50 intervalos de confianza del 95% para θ
θ
0 20 40 60 80 100
Nº de muestra
𝐴 = 𝑙 𝑠 − 𝑙𝑖 .
160
• El tamaño muestral. Cuanto mayor sea el tamaño muestral, más preciso será el
intervalo.
Densidad 𝑓 (𝑥)
1−𝛼
𝛼/2 𝛼/2
𝑙𝑖 𝑙𝑠
𝑋
161
6.5.1 Intervalo de confianza para la media de una población normal con
varianza conocida
Bajo estas hipótesis, la media muestral, para muestras de tamaño 𝑛, sigue también una
distribución normal
𝜎
𝑋̄ ∼ 𝑁 (𝜇, √ )
𝑛
𝑋̄ − 𝜇
𝑍= √ ∼ 𝑁 (0, 1)
𝜎/ 𝑛
Sobre esta distribución resulta sencillo calcular los valores 𝑧𝑖 y 𝑧𝑠 de manera que
𝑃 (𝑧𝑖 ≤ 𝑍 ≤ 𝑧𝑠 ) = 1 − 𝛼.
Distribución 𝑁(0, 1)
0.4
0.3
Densidad 𝑓 (𝑥)
0.2
1−𝛼
0.1
𝛼/2 𝛼/2
0.0
−𝑧𝛼/2 0 𝑧𝛼/2
𝑍
162
A partir de aquí, deshaciendo la tipificación, resulta sencillo llegar a los estimadores que
darán los extremos del intervalo de confianza:
𝑋̄ − 𝜇
1 − 𝛼 = 𝑃 (−𝑧𝛼/2 ≤ 𝑍 ≤ 𝑧𝛼/2 ) = 𝑃 (−𝑧𝛼/2 ≤ √ ≤ 𝑧𝛼/2 ) =
𝜎/ 𝑛
𝜎 𝜎
= 𝑃 (−𝑧𝛼/2 √ ≤ 𝑋̄ − 𝜇 ≤ 𝑧𝛼/2 √ ) =
𝑛 𝑛
𝜎 𝜎
= 𝑃 (−𝑋̄ − 𝑧𝛼/2 √ ≤ −𝜇 ≤ −𝑋̄ + 𝑧𝛼/2 √ ) =
𝑛 𝑛
𝜎 𝜎
= 𝑃 (𝑋̄ − 𝑧𝛼/2 √ ≤ 𝜇 ≤ 𝑋̄ + 𝑧𝛼/2 √ ) .
𝑛 𝑛
Así pues, el intervalo de confianza para la media de una población normal con varianza
conocida es:
Teorema 6.2 (Intervalo de confianza para la media de una población normal con varian-
za conocida). Si 𝑋 ∼ 𝑁 (𝜇, 𝜎) con 𝜎 conocida, el intervalo de confianza para la media 𝜇
con nivel de confianza 1 − 𝛼 es
𝜎 𝜎
[𝑋̄ − 𝑧𝛼/2 √ , 𝑋̄ + 𝑧𝛼/2 √ ]
𝑛 𝑛
o bien
𝜎
𝑋̄ ± 𝑧𝛼/2 √
𝑛
𝜎
𝑋̄ ± 𝑧𝛼/2 √
𝑛
𝜎
𝐴 = 2𝑧𝛼/2 √
𝑛
163
• 𝑧𝛼/2 : que a su vez depende del nivel de confianza, y cuanto mayor sea 1 − 𝛼, mayor
será la imprecisión.
• 𝑛: cuanto mayor sea el tamaño de la muestra, menor será la imprecisión.
Por tanto, la única forma de reducir la imprecisión del intervalo, manteniendo la con-
fianza, es aumentando el tamaño muestral.
6.5.1.1 Cálculo del tamaño muestra para estimar la media de una población normal
con varianza conocida
Teniendo en cuenta que la amplitud o imprecisión del intervalo para la media de una
población normal con varianza conocida es
𝜎
𝐴 = 2𝑧𝛼/2 √
𝑛
𝜎 √ 𝜎
𝐴 = 2𝑧𝛼/2 √ ⇔ 𝑛 = 2𝑧𝛼/2 ,
𝑛 𝐴
de donde se deduce
2 𝜎2
𝑛 = 4𝑧𝛼/2
𝐴2
4−6−8−7−7−6−5−2−5−3
A partir de esta muestra, podemos calcular el intervalo de confianza para 𝜇 con un nivel
de confianza 1 − 𝛼 = 0.95 (nivel de significación 𝛼 = 0.05):
• 𝑋̄ = 4+⋯+3
10
53
= 10 = 5.3 puntos.
• 𝑧𝛼/2 = 𝑧0.025 es el valor de la normal estándar que deja una probabilidad acumulada
superior de 0.025, que vale aproximadamente 1.96.
164
Sustituyendo estos valores en la fórmula del intervalo, se tiene
𝜎 1.5
𝑋̄ ± 𝑧𝛼/2 √ = 5.3 ± 1.96 √ = 5.3 ± 0.93 = [4.37, 6.23] .
𝑛 10
2 𝜎2 2 1.52
𝑛 = 4𝑧𝛼/2 = 4 ⋅ 1.96 = 34.57.
𝐴2 (2 ⋅ 0.5)2
𝑋̄ ∼ 𝑁 (𝜇, √𝜎𝑛 ) ⎫
} 𝑋̄ − 𝜇
(𝑛 − 1)𝑆 2̂ ⇒ √ ∼ 𝑇 (𝑛 − 1),
∼ 𝜒2 (𝑛 − 1) ⎬
} 𝑆/̂ 𝑛
𝜎2 ⎭
𝑋̄ − 𝜇
1 − 𝛼 = 𝑃 (−𝑡𝑛−1
𝛼/2 ≤
𝑛−1
√ ≤ 𝑡𝛼/2 )
𝑆/̂ 𝑛
𝑆̂ ̂
̄ − 𝜇 ≤ 𝑡𝑛−1 √𝑆 )
= 𝑃 (−𝑡𝑛−1
𝛼/2
√ ≤ 𝑋 𝛼/2
𝑛 𝑛
𝑆̂ ̂
̄ 𝑛−1 √𝑆 )
= 𝑃 (𝑋̄ − 𝑡𝑛−1
𝛼/2
√ ≤ 𝜇 ≤ 𝑋𝑡 𝛼/2
𝑛 𝑛
165
Teorema 6.3 (Intervalo de confianza para la media de una población normal con va-
rianza desconocida). Si 𝑋 ∼ 𝑁 (𝜇, 𝜎) con 𝜎 desconocida, el intervalo de confianza para
la media 𝜇 con nivel de confianza 1 − 𝛼 es
𝑆̂ 𝑆̂
[𝑋̄ − 𝑡𝑛−1
𝛼/2
√ , 𝑋̄ + 𝑡𝑛−1
𝛼/2
√ ]
𝑛 𝑛
o bien
𝑆̂
𝑋̄ ± 𝑡𝑛−1
𝛼/2
√
𝑛
6.5.2.1 Calculo del tamaño muestral para estimar la media de una población
normal con varianza desconocida
Al igual que antes, teniendo en cuenta que la amplitud o imprecisión del intervalo para
la media de una población con varianza desconocida es
𝑆̂
𝐴 = 2𝑡𝑛−1
𝛼/2
√
𝑛
𝑆̂ √ 𝑛−1 𝑆
̂
𝐴 = 2𝑡𝑛−1
𝛼/2
√ ⇔ 𝑛 = 2𝑡 𝛼/2 ,
𝑛 𝐴
de donde se deduce
𝑆 2̂
𝑛 = 4(𝑡𝑛−1
𝛼/2 )
2
𝐴2
El único problema, a diferencia del caso anterior en que 𝜎 era conocida, es que se necesita
𝑆,̂ por lo que se suele tomar una muestra pequeña previa para calcularla. Por otro lado, el
valor de la T de student suele aproximarse asintóticamente por el de la normal estándar
𝑡𝑛−1
𝛼/2 ≈ 𝑧𝛼/2 .
166
Ejemplo 6.7. Supóngase que en el ejemplo anterior no se conoce la varianza poblacional
de las puntuaciones.
Trabajando con la misma muestra de las puntuaciones de 10 estudiantes
4−6−8−7−7−6−5−2−5−3
• 𝑋̄ = 4+⋯+3
10
53
= 10 = 5.3 puntos.
2̂ (4−5.3) +⋯+(3−5.3)2
2 √
• 𝑆 = 9 = 3.5667 y 𝑆 ̂ = 3.5667 = 1.8886 puntos.
• 𝑡𝑛−1 9
𝛼/2 = 𝑡0.025 es el valor de la T de Student de 9 grados de libertad, que deja una
probabilidad acumulada superior de 0.025, que vale 2.2622.
𝑆̂ 1.8886
𝑋̄ ± 𝑡𝑛−1
𝛼/2
√ = 5.3 ± 2.2622 √ = 5.3 ± 1.351 = [3.949, 6.651] .
𝑛 10
𝑆 2̂ 3.5667
𝑛 = 4(𝑧𝛼/2 )2 = 4 ⋅ 1.962 = 54.81.
𝐴2 (2 ⋅ 0.5)2
• Su distribución no es normal.
• Tanto su media 𝜇 como su varianza 𝜎2 son desconocidas.
167
Si la población no es normal las distribuciones de los estimadores de referencia cambian,
de manera que los intervalos anteriores no son válidos.
No obstante, si la muestras es grande (𝑛 ≥ 30), de acuerdo al teorema central del límite,
la distribución de la media muestral se aproximará a una normal, de modo que sigue
siendo cierto
𝜎
𝑋̄ ∼ 𝑁 (𝜇, √ )
𝑛
Teorema 6.4 (Intervalo de confianza para la media de una población no normal con
muestras grandes). Si 𝑋 es una variable con distribución no normal y 𝑛 ≥ 30, el intervalo
de confianza para la media 𝜇 con nivel de confianza 1 − 𝛼 es
𝑆̂
𝑋̄ ± 𝑡𝑛−1
𝛼/2
√
𝑛
Para estimar la varianza de una población normal, se parte del estimador de referencia
𝑛𝑆 2 (𝑛 − 1)𝑆 2̂
= ∼ 𝜒2 (𝑛 − 1),
𝜎2 𝜎2
𝑃 (𝜒𝑖 ≤ 𝜒2 (𝑛 − 1) ≤ 𝜒𝑠 ) = 1 − 𝛼.
168
Distribución 𝜒 2 (𝑛 − 1)
Densidad 𝑓 (𝑥)
1−𝛼
𝛼/2 𝛼/2
𝑛−1
𝜒𝛼/2 𝑛−1
𝜒1−𝛼/2
𝜒2
𝑛𝑆 2 1 𝜎2 1
1 − 𝛼 = 𝑃 (𝜒𝑛−1
𝛼/2 ≤ ≤ 𝜒 𝑛−1
1−𝛼/2 ) = 𝑃 ( ≥ ≥ 𝑛−1 ) =
𝜎2 𝜒𝑛−1
𝛼/2
𝑛𝑆 2 𝜒1−𝛼/2
1 𝜎2 1 𝑛𝑆 2 2 𝑛𝑆 2
=𝑃( ≤ ≤ ) = 𝑃 ( ≤ 𝜎 ≤ ).
𝜒𝑛−1
1−𝛼/2
𝑛𝑆 2 𝜒𝑛−1
𝛼/2 𝜒𝑛−1
1−𝛼/2 𝜒𝑛−1
𝛼/2
Por tanto, el intervalo de confianza para la varianza de una población normal es:
𝑛𝑆 2 𝑛𝑆 2
[ , 𝑛−1 ]
𝜒𝑛−1
1−𝛼/2 𝜒𝛼/2
4−6−8−7−7−6−5−2−5−3
169
para el intervalo de confianza para 𝜎2 con un nivel de confianza 1 − 𝛼 = 0.95 (nivel de
significación 𝛼 = 0.05) se tiene:
2 2
• 𝑆 2 = (4−5.3) +⋯+(3−5.3)
10 = 3.21 puntos2 .
𝑛−1 9
• 𝜒𝛼/2 = 𝜒0.025 es el valor de la chi-cuadrado de 9 grados de libertad, que deja una
probabilidad acumulada inferior de 0.025, y vale 2.7.
• 𝜒𝑛−1 9
1−𝛼/2 = 𝜒0.975 es el valor de la chi-cuadrado de 9 grados de libertad, que deja
una probabilidad acumulada inferior de 0.975, y vale 19.
𝑛𝑆 2 𝑛𝑆 2 10 ⋅ 3.21 10 ⋅ 3.21
[ , 𝑛−1 ] = [ , ] = [1.69, 11.89] puntos2 .
𝜒𝑛−1
1−𝛼/2 𝜒𝛼/2
19 2.7
Para estimar la proporción 𝑝 de individuos de una población que presentan una deter-
minada característica, se parte de la variable que mide el número de individuos que la
presentan en una muestra de tamaño 𝑛. Dicha variable sigue una distribución binomial
𝑋 ∼ 𝐵(𝑛, 𝑝)
Como ya se vio, si el tamaño muestral es suficientemente grande (en realidad basta que
se cumpla 𝑛𝑝 ≥ 5 y 𝑛(1 − 𝑝) ≥ 5), el teorema central de límite asegura que 𝑋 tendrá
una distribución aproximadamente normal
𝑋 𝑝(1 − 𝑝)
𝑝̂ = ∼ 𝑁 (𝑝, √ ),
𝑛 𝑛
𝑝(1 − 𝑝)
𝑝̂ ∼ 𝑁 (𝑝, √ )
𝑛
170
tras tipificar, se pueden encontrar fácilmente, al igual que hicimos antes, valores −𝑧𝛼/2
y 𝑧𝛼/2 que cumplan
𝑝̂ − 𝑝
𝑃 (−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 ) = 1 − 𝛼.
√𝑝(1 − 𝑝)/𝑛
𝑝̂ − 𝑝
1 − 𝛼 = 𝑃 (−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 )
√𝑝(1 − 𝑝)/𝑛
√𝑝(1 − 𝑝) √𝑝(1 − 𝑝)
= 𝑃 (−𝑧𝛼/2 ≤ 𝑝̂ − 𝑝 ≤ 𝑧𝛼/2 )
𝑛 𝑛
√𝑝(1 − 𝑝) √𝑝(1 − 𝑝)
= 𝑃 (𝑝̂ − 𝑧𝛼/2 ≤ 𝑝 ≤ 𝑝̂ + 𝑧𝛼/2 )
𝑛 𝑛
Teorema 6.6 (Intervalo de confianza para una proporción). Si 𝑋 ∼ 𝐵(𝑛, 𝑝), y se cumple
que 𝑛𝑝 ≥ 5 y 𝑛(1 − 𝑝) ≥ 5, entonces el intervalo de confianza para la proporción 𝑝 con
nivel de confianza 1 − 𝛼 es
𝑝(1
̂ − 𝑝)̂ 𝑝(1
̂ − 𝑝)̂
[𝑝̂ − 𝑧𝛼/2 √ , 𝑝̂ + 𝑧𝛼/2 √ ]
𝑛 𝑛
o bien
𝑝(1
̂ − 𝑝)̂
𝑝̂ ± 𝑧𝛼/2 √
𝑛
𝑝(1
̂ − 𝑝)̂
𝐴 = 2𝑧𝛼/2 √
𝑛
así que se puede calcular fácilmente el tamaño muestral necesario para conseguir un
intervalo de amplitud 𝐴 con confianza 1 − 𝛼:
171
𝑝(1
̂ − 𝑝)̂ 2 𝑝(1
̂ − 𝑝)̂
𝐴 = 2𝑧𝛼/2 √ ⇔ 𝐴2 = 4𝑧𝛼/2 ,
𝑛 𝑛
de donde se deduce
2 𝑝(1
̂ − 𝑝)̂
𝑛 = 4𝑧𝛼/2
𝐴2
Para poder hacer el cálculo se necesita una estimación de la proporción 𝑝,̂ por lo que
suele tomarse una muestra previa pequeña para calcularla. En el peor de los casos, si no
se dispone de una muestra previa, puede tomarse 𝑝̂ = 0.5.
Ejemplo 6.10. Supóngase que se quiere estimar la proporción de fumadores que hay en
una determinada población. Para ello se toma una muestra de 20 personas y se observa
si fuman (1) o no (0):
0−1−1−0−0−0−1−0−0−1−0−0−0−1−1−0−1−1−0−0
Entonces:
8
• 𝑝̂ = 20 = 0.4, por tanto, se cumple 𝑛𝑝 = 20 ⋅ 0.4 = 8 ≥ 5 y 𝑛(1 − 𝑝) = 20 ⋅ 0.6 =
12 ≥ 5.
• 𝑧𝛼/2 = 𝑧0.025 es el valor de la normal estándar que deja una probabilidad acumulada
superior de 0.025, que vale aproximadamente 1.96.
𝑝(1
̂ − 𝑝)̂ 0.4 ⋅ 0.6
𝑝̂ ± 𝑧𝛼/2 √ = 0.4 ± 1.96√ = 0.4 ± 0.3 = [0.1, 0.7] .
𝑛 10
Ejemplo 6.11. Como se puede apreciar la imprecisión del intervalo anterior es ±0.3,
que es enorme teniendo en cuenta que se trata de un intervalo para una proporción.
Para conseguir intervalos precisos para estimar proporciones se necesitan tamaños mues-
trales bastante grandes. Si por ejemplo se quiere una precisión de ±0.05, el tamaño
muestral necesario sería:
2 𝑝(1
̂ − 𝑝)̂ 0.4 ⋅ 0.6
𝑛 = 4𝑧𝛼/2 2
= 4 ⋅ 1.962 = 368.79.
𝐴 (2 ⋅ 0.05)2
172
6.6 Intervalos de confianza para la comparación dos
poblaciones
Bajo estas hipótesis, si se toman dos muestras independientes, una de cada población,
de tamaños 𝑛1 y 𝑛2 respectivamente, la diferencia de las medias muestrales sigue una
distribución normal
𝑋̄ 1 ∼ 𝑁 (𝜇1 , √𝜎𝑛1 ) ⎫
} 𝜎2 𝜎2
1
⇒ 𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 ⎛
⎜ 𝜇1 − 𝜇 2 , √ 1 + 2⎞
⎟.
𝑋̄ 2 ∼ 𝑁 (𝜇2 , √𝜎𝑛2 ) ⎬
}
⎭ ⎝
𝑛1 𝑛2
⎠
2
173
A partir de aquí, tipificando, se pueden buscar los valores de la normal estándar −𝑧𝛼/2
y 𝑧𝛼/2 que cumplen:
⎛ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
𝑃⎜
⎜−𝑧𝛼/2 ≤ ≤ 𝑧𝛼/2 ⎟
⎟ = 1 − 𝛼.
𝜎12 𝜎22
⎝ √ 𝑛1 + 𝑛2 ⎠
⎛ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
⎜−𝑧𝛼/2 ≤
1−𝛼=𝑃 ⎜ ≤ 𝑧𝛼/2 ⎟
⎟
𝜎12 𝜎22
⎝ √ 𝑛1 + 𝑛2 ⎠
𝜎2 𝜎2 𝜎2 𝜎2
=𝑃⎛
⎜−𝑧𝛼/2 √ 1 + 2 ≤ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ≤ 𝑧𝛼/2 √ 1 + 2 ⎞
⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
𝜎2 𝜎2 𝜎2 𝜎2
⎜𝑋̄ 1 − 𝑋̄ 2 − 𝑧𝛼/2 √ 1 + 2 ≤ 𝜇1 − 𝜇2 ≤ 𝑋̄ 1 − 𝑋̄ 2 + 𝑧𝛼/2 √ 1 + 2 ⎞
=𝑃⎛ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
𝜎2 𝜎2 𝜎2 𝜎2
[𝑋̄ 1 − 𝑋̄ 2 − 𝑧𝛼/2 √ 1 + 2 , 𝑋̄ 1 − 𝑋̄ 2 + 𝑧𝛼/2 √ 1 + 2 ]
𝑛1 𝑛2 𝑛1 𝑛2
o bien
𝜎2 𝜎2
𝑋̄ 1 − 𝑋̄ 2 ± 𝑧𝛼/2 √ 1 + 2
𝑛1 𝑛2
174
• Sus medias 𝜇1 y 𝜇2 son desconocidas y sus varianzas también, pero son iguales
𝜎12 = 𝜎22 = 𝜎2 .
𝑛1 𝑆12 + 𝑛2 𝑆22
𝑆𝑝2̂ = .
𝑛1 + 𝑛 2 − 2
𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 (𝜇1 − 𝜇2 , 𝜎√ 𝑛𝑛1 +𝑛 2
) ⎫
} (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
1 𝑛2
2
𝑛1 𝑆1 + 𝑛2 𝑆2 2
⎬ ⇒ ∼ 𝑇 (𝑛1 + 𝑛2 − 2).
∼ 𝜒 2
(𝑛 + 𝑛 − 2) } 𝑆 ̂ √ 𝑛1 +𝑛2
1 2 ⎭ 𝑝 𝑛 𝑛
𝜎2 1 2
𝑛 +𝑛2 −2 𝑛 +𝑛2 −2
A partir de aquí, se pueden buscar los valores de la T de Student −𝑡𝛼/2
1
y 𝑡𝛼/2
1
que cumplen
175
𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2 ̄ 𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
[𝑋̄ 1 − 𝑋̄ 2 − 𝑡𝛼/2 𝑆𝑝 √ 1 , 𝑋1 − 𝑋̄ 2 + 𝑡𝛼/2 𝑆𝑝 √ 1 ]
𝑛1 𝑛2 𝑛1 𝑛2
o bien
𝑛1 +𝑛2 −2 ̂ 𝑛 + 𝑛2
𝑋̄ 1 − 𝑋̄ 2 ± 𝑡𝛼/2 𝑆𝑝 √ 1
𝑛1 𝑛2
𝜇1 − 𝜇2 ∈ [𝑙𝑖 , 𝑙𝑠 ]
• Si todos los valores del intervalo son negativos (𝑙𝑠 < 0), entonces se puede concluir
que 𝜇1 − 𝜇2 < 0 y por tanto 𝜇1 < 𝜇2 .
• Si todos los valores del intervalo son positivos (𝑙𝑖 > 0), entonces se puede concluir
que 𝜇1 − 𝜇2 > 0 y por tanto 𝜇1 > 𝜇2 .
• Si el intervalo tiene tanto valores positivos como negativos, y por tanto contiene al
0 (0 ∈ [𝑙𝑖 , 𝑙𝑠 ]), entonces no se puede afirmar que una media sea mayor que la otra.
En este caso se suele asumir la hipótesis de que las medias son iguales 𝜇1 = 𝜇2 .
Tanto en el primer como en el segundo caso se dice que entre las medias hay diferencias
estadísticamente significativas.
𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7
• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
4 +⋯+3
2
• 𝑆1 = 10 − 5.3 = 3.21 y 𝑆2 = 8 +⋯+3
2 2
12 − 6.752 = 2.6875 puntos2 .
• 𝑆𝑝2̂ = 10⋅3.21+12⋅2.6875
10+12−2 = 3.2175 puntos2 , y 𝑆𝑝̂ = 1.7937.
176
𝑛 +𝑛 −2
• 𝑡𝛼/2
1 2
= 𝑡20
0.025 es el valor de la T de Student de 20 grados de libertad que deja
una probabilidad acumulada superior de 0.025, y que vale aproximadamente 2.09.
10 + 12
5.3 − 6.75 ± 2.086 ⋅ 1.7937√ = −1.45 ± 1.6021 = [−3.0521, 0.1521] puntos.
10 ⋅ 12
Es decir, la diferencia de puntuaciones medias 𝜇1 −𝜇2 está entre −3.0521 y 0.1521 puntos
con una confianza del 95%.
A la vista del intervalo se puede concluir que, puesto que el intervalo contiene tanto
valores positivos como negativos, y por tanto contiene al 0, no puede afirmarse que una
de las medias se mayor que la otra, de modo que se supone que son iguales y no se puede
decir que haya diferencias significativas entre los grupos.
(𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
∼ 𝑇 (𝑔),
̂
2 𝑆22̂
√ 𝑆𝑛1 + 𝑛2
1
( 𝑛𝑛2 −1 𝑆12̂ −
𝑛1 −1 2̂ 2
𝑛2 𝑆2 )
Δ= 1
𝑛2 −1 4̂ 𝑛1 −1 4̂
.
𝑛12 𝑆1 + 𝑛22 𝑆 2
A partir de aquí, una vez más, se pueden buscar los valores de la T de Student −𝑡𝑔𝛼/2 y
𝑡𝑔𝛼/2 que cumplen
⎛
⎜ 𝑔 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
𝑔 ⎟
𝑃⎜
⎜ −𝑡 ≤ ≤ 𝑡 ⎟ = 1 − 𝛼.
𝛼/2 ⎟
⎜ 𝛼/2 2̂ ̂
2 ⎟
√ 𝑆𝑛1 + 𝑆𝑛2
⎝ 1 2 ⎠
177
Y deshaciendo la transformación se llega a
⎛
⎜ 𝑔 (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ⎞
⎟
1−𝛼=𝑃 ⎜
⎜−𝑡𝛼/2 ≤ ≤ 𝑡𝑔𝛼/2 ⎟
⎟
⎜ 𝑆12̂ 𝑆22̂
⎟
√𝑛 + 𝑛
⎝ 1 2 ⎠
𝑆 2̂ 𝑆 2̂ 𝑆 2̂ 𝑆 2̂
=𝑃⎛
⎜−𝑡𝑔𝛼/2 √ 1 + 2 ≤ (𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 ) ≤ 𝑡𝑔𝛼/2 √ 1 + 2 ⎞ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
𝑆 2̂ 𝑆 2̂ 𝑆 2̂ 𝑆 2̂
=𝑃⎛
⎜𝑋̄ 1 − 𝑋̄ 2 − 𝑡𝑔𝛼/2 √ 1 + 2 ≤ 𝜇1 − 𝜇2 ≤ 𝑋̄ 1 − 𝑋̄ 2 + 𝑡𝑔𝛼/2 √ 1 + 2 ⎞ ⎟
𝑛1 𝑛2 𝑛1 𝑛2
⎝ ⎠
2̂ 2̂ 2̂ 2̂
⎡𝑋̄ − 𝑋̄ − 𝑡𝑔 √ 𝑆1 + 𝑆2 , 𝑋̄ − 𝑋̄ − 𝑡𝑔 √ 𝑆1 + 𝑆2 ⎤
⎢ 1 2 𝛼/2 𝑛1 𝑛2 1 2 𝛼/2 𝑛1 𝑛2 ⎥
⎣ ⎦
o bien
𝑆 2̂ 𝑆 2̂
𝑋̄ 1 − 𝑋̄ 2 ± 𝑡𝑔𝛼/2 √ 1 + 2
𝑛1 𝑛2
Como se acaba de ver, existen dos intervalos posibles para estimar la diferencia de medias:
uno para cuando las varianzas poblacionales son iguales y otro para cuando no lo son.
Ahora bien, si las varianzas poblacionales son desconocidas,
La respuesta está en el próximo intervalo que se verá, que permite estimar la razón de
2
varianzas 𝜎𝜎22 y por tanto, su comparación.
1
178
6.6.4 Intervalo de confianza para el cociente de varianzas
Distribución 𝐹(𝑛1 − 1, 𝑛2 − 1)
Densidad 𝑓 (𝑥)
1 − 𝛼/2
𝛼/2 𝛼/2
𝑛1 −1,𝑛2 −1 𝑛1 −1,𝑛2 −1
𝑓𝛼/2 𝑓1−𝛼/2
𝐹
179
𝑛 −1,𝑛1 −1 𝜎12 𝑆22̂ 𝑛2 −1,𝑛1 −1
1 − 𝛼 = 𝑃 (𝑓𝛼/2
2
≤ ≤ 𝑓1−𝛼/2 )=
𝜎22 𝑆12̂
2̂ 2̂
𝑛 −1,𝑛1 −1 𝑆1 𝜎12 𝑛2 −1,𝑛1 −1 𝑆1
= 𝑃 (𝑓𝛼/2
2
≤ ≤ 𝑓 1−𝛼/2 )
𝑆22̂ 𝜎22 𝑆22̂
2̂ 2̂
𝑛 −1,𝑛1 −1 𝑆1 𝑛 −1,𝑛1 −1 𝑆1
[𝑓𝛼/2
2
, 𝑓1−𝛼/2
2
]
𝑆22̂ 𝑆22̂
𝜎12
Si [𝑙𝑖 , 𝑙𝑠 ] es un intervalo de confianza de nivel 1 − 𝛼 para la razón de varianzas 𝜎22
,
entonces
𝜎12
∈ [𝑙𝑖 , 𝑙𝑠 ]
𝜎22
• Si todos los valores del intervalo son menores que 1 (𝑙𝑠 < 1), entonces se puede
2
concluir que 𝜎𝜎12 < 1 y por tanto 𝜎12 < 𝜎22 .
2
• Si todos los valores del intervalo son mayores que 1 (𝑙𝑖 > 1), entonces se puede
2
concluir que 𝜎𝜎12 > 1 y por tanto 𝜎12 > 𝜎22 .
2
• Si el intervalo tiene tanto valores mayores como menores que 1, y por tanto contiene
al 1 (1 ∈ [𝑙𝑖 , 𝑙𝑠 ]), entonces no se puede afirmar que una varianza sea mayor que
la otra. En este caso se suele asumir la hipótesis de que las varianzas son iguales
𝜎12 = 𝜎22 .
𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7
180
Para calcular el intervalo de confianza para la razón de varianzas con una confianza del
95%, se tiene:
• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2̂ (4−5.3)2 +⋯+(3−5.3)2 2 2
• 𝑆1 = 9 = 3.5667 puntos2 y 𝑆22̂ = (8−6.75) +⋯+(3−6.75)
11 = 2.9318
puntos2 .
𝑛2 −1,𝑛1 −1 11,9
• 𝑓𝛼/2 = 𝑓0.025 es el valor de la F de Fisher de 11 y 9 grados de libertad que
deja una probabilidad acumulada inferior de 0.025, y que vale aproximadamente
0.2787.
𝑛2 −1,𝑛1 −1 11,9
• 𝑓1−𝛼/2 = 𝑓0.975 es el valor de la F de Fisher de 11 y 9 grados de libertad que
deja una probabilidad acumulada inferior de 0.975, y que vale aproximadamente
3.9121.
3.5667 3.5667
[0.2787 , 3.9121 ] = [0.3391, 4.7591] puntos2 .
2.9318 2.9318
𝜎12
Es decir, la razón de varianzas 𝜎22
está entre 0.3391 y 4.7591 con una confianza del
95%.
Como el intervalo tiene tanto valores menores como mayores que 1, no se puede concluir
que una varianza sea mayor que la otra, y por tanto se mantiene la hipótesis de que
ambas varianzas son iguales.
Si ahora se quisiesen comparar las medias de ambas poblaciones, el intervalo de confianza
para la diferencia de medias que habría que tomar es el que parte de la hipótesis de
igualdad de varianzas, que precisamente es el que se ha utilizado antes.
𝑋1 ∼ 𝐵(𝑛1 , 𝑝1 ) y 𝑋2 ∼ 𝐵(𝑛2 , 𝑝2 )
Cuando los tamaños muestrales son grandes (en realidad basta que se cumpla 𝑛1 𝑝1 ≥ 5,
𝑛1 (1 − 𝑝1 ) ≥ 5, 𝑛2 𝑝2 ≥ 5 y 𝑛2 (1 − 𝑝2 ) ≥ 5), el teorema central de límite asegura que 𝑋1
y 𝑋2 tendrán distribuciones normales
181
𝑋1 ∼ 𝑁 (𝑛1 𝑝1 , √𝑛1 𝑝1 (1 − 𝑝1 )) y 𝑋2 ∼ 𝑁 (𝑛2 𝑝2 , √𝑛2 𝑝2 (1 − 𝑝2 )),
𝑋1 𝑝 (1 − 𝑝1 ) 𝑋2 𝑝 (1 − 𝑝2 )
𝑝1̂ = ∼ 𝑁 (𝑝1 , √ 1 ) y 𝑝2̂ = ∼ 𝑁 (𝑝2 , √ 2 )
𝑛1 𝑛1 𝑛2 𝑛2
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
𝑝1̂ − 𝑝2̂ ∼ 𝑁 (𝑝1 − 𝑝2 , √ + ).
𝑛1 𝑛2
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) 𝑝 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
= 𝑃 (−𝑧𝛼/2 √ + ≤ (𝑝1̂ − 𝑝2̂ ) − (𝑝1 − 𝑝2 ) ≤ 𝑧𝛼/2 √ 1 + )
𝑛1 𝑛2 𝑛1 𝑛2
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) 𝑝 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
= 𝑃 (𝑝1̂ − 𝑝2̂ − 𝑧𝛼/2 √ + ≤ 𝑝1̂ − 𝑝2̂ + 𝑝1 − 𝑝2 ≤ 𝑧𝛼/2 √ 1 +
𝑛1 𝑛2 𝑛1 𝑛2
182
Ejemplo 6.14. Supóngase que se quieren comparar las proporciones o porcentajes de
aprobados en dos grupos que han seguido metodologías distintas. En el primer grupo
han aprobado 24 alumnos de un total de 40, mientras que en el segundo han aprobado
48 de 60.
Para calcular el intervalo de confianza para la diferencia de proporciones con un nivel
de confianza del 95%, se tiene:
• 𝑝1̂ = 24/40 = 0.6 y 𝑝2̂ = 48/60 = 0.8, de manera que se cumplen las hipótesis
𝑛1 𝑝1̂ = 40⋅0.6 = 24 ≥ 5, 𝑛1 (1− 𝑝1̂ ) = 40(1−0.6) = 26 ≥ 5, 𝑛2 𝑝2̂ = 60⋅0.8 = 48 ≥ 5
y 𝑛2 (1 − 𝑝2̂ ) = 60(1 − 0.8) = 12 ≥ 5.
• 𝑧𝛼/2 = 𝑧0.025 = 1.96.
183
7 Contrastes de hipótesis paramétricos
En general nunca se sabrá con absoluta certeza si una hipótesis estadística es cierta o
falsa, ya que para ello habría que estudiar a todos los individuos de la población.
Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas con
los resultados empíricos obtenidos de las muestras. Si los resultados observados en las
muestras coinciden, dentro del margen de error admisible debido al azar, con lo que
cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará como
verdadera, mientras que en caso contrario se rechazará como falsa y se buscarán nuevas
hipótesis capaces de explicar los datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una
hipótesis estadística se tomará sobre una base de probabilidad.
La metodología que se encarga de contrastar la veracidad de las hipótesis estadísticas se
conoce como contraste de hipótesis.
184
7.1.2 Tipos de contrastes de hipótesis
En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis
antagonistas:
“Solamente se debe abandonar un modelo simple por otro más complejo cuando
la evidencia a favor del último sea fuerte.” (Navaja de Occam)
Por ejemplo, en el caso de un juicio, en el que el juez debe decidir si el acusado es culpable
o inocente, la elección de hipótesis debería ser
185
𝐻0 ∶ Inocente
𝐻1 ∶ Culpable
Á Advertencia
Ejemplo 7.2. Supóngase que existen sospechas de que en una población hay menos
hombres que mujeres.
¿Qué tipo de contraste debería plantearse para validar o refutar esta sospecha?
186
3. Finalmente, existen sospechas de que el porcentaje de hombres es menor que el de
mujeres, por lo que la hipótesis alternativa será de menor 𝑝 < 0.5.
𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5
𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5
Si para resolver el contraste se toma una muestra aleatoria de 10 personas, podría to-
marse como estadístico del contraste 𝑋 el número de hombres en la muestra.
Suponiendo cierta la hipótesis nula, el estadístico del contraste seguiría una distribución
binomial 𝑋 ∼ 𝐵(10, 0.5), de manera que el número esperado de hombres en la muestra
sería 5.
187
Así pues, es lógico aceptar la hipótesis nula si en la muestra se obtiene un número de
hombres próximo a 5 y rechazarla cuando el número de hombres sea muy inferior a 5.
Pero, ¿dónde poner el límite entre los valores 𝑋 que lleven a la aceptación y los que
lleven al rechazo?
Una vez elegido el estadístico del contraste, lo siguiente es decidir para qué valores de
este estadístico se decidirá aceptar la hipótesis nula y para que valores se rechazará. Esto
divide del conjunto de valores posibles del estadístico en dos regiones:
• Contraste bilateral 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 ≠ 𝜃0 .
188
Ejemplo 7.4. Siguiendo con el ejemplo del contraste sobre la proporción de hombres
de una población
𝐻0 ∶𝑝 = 0.5
𝐻1 ∶𝑝 < 0.5
Como el estadístico del contraste tenía una distribución binomial 𝑋 ∼ 𝐵(10, 0.5) supo-
niendo cierta la hipótesis nula, su recorrido será de 0 a 10 y su valor esperado 5, por lo
que, al tratarse de un contraste unilateral de menor, la región de rechazo quedará por
debajo del 5. Pero, ¿dónde poner el límite entre las regiones de aceptación y de rechazo?
Hemos visto que un contraste de hipótesis se realiza mediante una regla de decisión que
permite aceptar o rechazar la hipótesis nula dependiendo del valor que tome el estadístico
del contraste.
Al final el contraste se resuelve tomando una decisión de acuerdo a esta regla. El problema
es que nunca se conocerá con absoluta certeza la veracidad o falsedad de una hipótesis,
de modo que al aceptarla o rechazarla es posible que se esté tomando una decisión
equivocada.
Los errores que se pueden cometer en un contraste de hipótesis son de dos tipos:
• Error de tipo I: Se comete cuando se rechaza la hipótesis nula siendo esta ver-
dadera.
189
• Error de tipo II: Se comete cuando se acepta la hipótesis nula siendo esta falsa.
𝑃 (Rechazar 𝐻0 |𝐻0 ) ≤ 𝛼,
𝑃 (Aceptar 𝐻0 |𝐻1 ) ≤ 𝛽.
Á Advertencia
En principio, puesto que esta metodología favorece a la hipótesis nula, el error del
tipo I suele ser más grave que el error del tipo II, y por tanto, el riesgo 𝛼 suele
fijarse a niveles bajos de 0.1, 0.05 o 0.01, siendo 0.05 lo más habitual.
190
7.2.5 Determinación de las regiones de aceptación y de rechazo en función
del riesgo 𝛼
Una vez fijado el riesgo 𝛼 que se está dispuesto a tolerar, es posible delimitar las regiones
de aceptación y de rechazo para el estadístico del contraste de manera que la probabilidad
acumulada en la región de rechazo sea 𝛼, suponiendo cierta la hipótesis nula.
191
Ejemplo 7.5. Siguiendo con el contraste sobre la proporción de hombres de una pobla-
ción, como el estadístico del contraste sigue una distribución binomial 𝑋 ∼ 𝐵(10, 0.5),
si se decide rechazar la hipótesis nula cuando en la muestra haya 2 o menos hombres, la
probabilidad de cometer un error de tipo I será
Si riesgo máximo de error de tipo I que se está dispuesto a tolerar es 𝛼 = 0.05, ¿qué
valores del estadístico permitirán rechazar la hipótesis nula?
𝑃 (𝑋 ≤ 1) = 𝑓(0) + 𝑓(1) = 0.0010 + 0.0098 = 0.0107.
Es decir, sólo se podría rechazar la hipótesis nula con 0 o 1 hombres en la muestra.
192
7.2.6 Riesgo 𝛽 y tamaño del efecto
Aunque el error de tipo II pueda parecer menos grave, también interesa que el riesgo 𝛽
sea bajo, ya que de lo contrario será difícil rechazar la hipótesis nula (que es lo que se
persigue la mayoría de las veces), aunque haya pruebas muy claras de su falsedad.
El problema, en el caso de contrastes paramétricos, es que la hipótesis alternativa es una
hipótesis abierta en la que no se fija el valor del parámetro a contrastar, de modo que,
para poder calcular el riesgo 𝛽 es necesario fijar dicho valor.
Lo normal es fijar el valor del parámetro del contraste a la mínima cantidad para admitir
diferencias significativas desde un punto de vista práctico o clínico. Esa mínima diferencia
que se considera clínicamente significativa se conoce como tamaño del efecto y se
representa por 𝛿.
Puesto que el objetivo del investigador suele ser rechazar la hipótesis nula, a menudo,
lo más interesante de un contraste es su capacidad para detectar la falsedad de la hipó-
tesis nula cuando realmente hay diferencias mayores que 𝛿 entre el verdadero valor del
parámetro y el que establece la hipótesis nula.
193
Suponiendo cierta esta hipótesis el estadístico del contraste seguiría una distribución
binomial 𝑋 ∼ 𝐵(10, 0.4).
En tal caso, el riesgo 𝛽 para las regiones de aceptación y rechazo fijadas antes será
Como puede apreciarse, se trata de un riesgo 𝛽 muy alto, por lo que la potencia del
contraste sería sólo de
1 − 𝛽 = 1 − 0.9536 = 0.0464,
194
Ejemplo 7.6. Si en el contraste sobre la proporción de hombres se desease detectar una
diferencia de al menos un 20% con respecto al valor que establece la hipótesis nula, es
decir, 𝛿 = 0.2, entonces la hipótesis alternativa se fijaría a
y bajo esta hipótesis el estadístico del contraste seguiría una distribución binomial 𝑋 ∼
𝐵(10, 0.3).
En tal caso, el riesgo 𝛽 para las regiones de aceptación y rechazo fijadas antes sería
1 − 𝛽 = 1 − 0.8507 = 0.1493,
195
7.2.10 Relación entre los riesgos 𝛼 y 𝛽
Los riesgos 𝛼 y 𝛽 están enfrentados, es decir, cuando uno aumenta el otro disminuye y
viceversa.
196
Ejemplo 7.7. Si en el contraste sobre la proporción de hombres toma como riesgo
𝛼 = 0.1, entonces la región de rechazo sería 𝑋 ≤ 2 ya que, suponiendo cierta la hipótesis
nula, 𝑋 ∼ 𝐵(10, 0.5), y
𝑃 (𝑋 ≤ 2) = 0.0547 ≤ 0.1 = 𝛼.
Entonces, para una diferencia mínima 𝛿 = 0.1 y suponiendo cierta la hipótesis alternativa,
𝑋 ∼ 𝐵(10, 0.4), el riesgo 𝛽 será
1 − 𝛽 = 1 − 0.8327 = 0.1673.
197
Ejemplo 7.8. Si para realizar el contraste sobre la proporción de hombres se hubiese
tomado una muestra de tamaño 100, en lugar de 10, entonces, bajo la suposición de
certeza de la hipótesis nula, el estadístico del contraste seguiría una distribución binomial
𝐵(100, 0.5), y ahora la región de rechazo sería 𝑋 ≤ 41, ya que
1 − 𝛽 = 1 − 0.3775 = 0.6225.
Este contraste sería mucho más útil para detectar una diferencia de al menos un 10%
con respecto al valor del parámetro que establece la hipótesis nula.
198
7.3 Curva de potencia
La potencia de un contraste depende del valor del parámetro que establezca la hipótesis
alternativa y, por tanto, es una función de este
Esta función da la probabilidad de rechazar la hipótesis nula para cada valor del pará-
metro y se conoce como curva de potencia.
Cuando no se puede fijar el valor concreto del parámetro en la hipótesis alternativa,
resulta útil representar esta curva para ver la bondad del contraste cuando no se rechaza
la hipótesis nula. También es útil cuando sólo de dispone de un número determinado de
individuos en la muestra, para ver si merece la pena hacer el estudio.
Un contraste será mejor cuanto mayor sea el área encerrada por debajo de la curva de
potencia.
199
7.3.1 𝑝-valor de un contraste de hipótesis
En general, siempre que la estimación del estadístico caiga dentro de la región de rechazo,
rechazaremos la hipótesis nula, pero evidentemente, si dicha estimación se aleja bastante
de la región de aceptación tendremos más confianza en el rechazo que si la estimación
está cerca del límite entre las regiones de aceptación y rechazo.
Por este motivo, al realizar un contraste, también se calcula la probabilidad de obtener
una discrepancia mayor o igual a la observada entre la estimación del estadístico del
contraste y su valor esperado según la hipótesis nula.
Una vez fijado el riesgo 𝛼, la regla de decisión para realizar un contraste también puede
expresarse de la siguiente manera:
Ĺ Interpretación
Regla de decisión
Si 𝑝-valor ≤ 𝛼 → Rechazar 𝐻0
Si 𝑝-valor > 𝛼 → Aceptar 𝐻0 .
De este modo, el 𝑝-valor nos da información de para qué niveles de significación puede
rechazarse la hipótesis nula y para cuales no.
200
𝑝 = 𝑃 (𝑋 ≤ 1) = 0.0107,
𝑝 = 𝑃 (𝑋 ≤ 0) = 0.001.
En el primer caso se rechazaría la hipótesis nula para un riesgo 𝛼 = 0.05, pero no podría
rechazarse par un riesgo 𝛼 = 0.01, mientas que en el segundo caso también se rechazaría
para 𝛼 = 0.01. Es evidente que en el segundo la decisión de rechazar la hipótesis nula se
tomaría con mayor confianza.
Pruebas de conformidad:
Pruebas de homogeneidad:
201
• Contraste de comparación de medias de dos poblaciones normales con varianzas
desconocidas y diferentes.
• Contraste de comparación de varianzas de dos poblaciones normales.
• Contraste de comparación de proporciones de dos poblaciones.
Contraste:
𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0
𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑍 = √ ∼ 𝑁 (0, 1).
𝑛 𝜎/ 𝑛
Contraste:
𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0
202
Estadístico del contraste: Utilizando la cuasivarianza como estimador de la varianza
poblacional se tiene
𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑇 = √ ∼ 𝑇 (𝑛 − 1).
𝑛 𝑠/̂ 𝑛
6.3, 5.4, 4.1, 5.0, 8.2, 7.6, 6.4, 5.6, 4.3, 5.2
𝐻0 ∶ 𝜇 = 5 𝐻1 ∶ 𝜇 > 5
𝑥 ̄ − 𝜇0 5.81 − 5
𝑇 = √ = √ = 1.9246.
𝑠/̂ 𝑛 1.3312/ 10
El 𝑝-valor del contraste es 𝑃 (𝑇 (9) ≥ 1.9246) = 0.04323, lo que indica que se rechazaría
la hipótesis nula para 𝛼 = 0.05.
La región de rechazo es
𝑥̄ − 5 1.3312
𝑇 = √ ≥ 𝑡90.95 = 1.8331 ⇔ 𝑥̄ ≥ 5 + 1.8331 √ = 5.7717,
1.3312/ 10 10
de modo que se rechazará la hipótesis nula siempre que la media de la muestra sea mayor
que 5.7717 y se aceptará en caso contrario.
Suponiendo que en la práctica la mínima diferencia importante en la nota media fuese
de un punto 𝛿 = 1, entonces bajo la hipótesis alternativa 𝐻1 ∶ 𝜇 = 6, si se decidiese
rechazar la hipótesis nula, el riesgo 𝛽 sería
203
5.7717 − 6
𝛽 = 𝑃 (𝑇 (9) ≤ √ ) = 𝑃 (𝑇 (9) ≤ −0.5424) = 0.3004,
1.3312 10
de manera que la potencia del contraste para detectar una diferencia de 𝛿 = 1 punto
sería 1 − 𝛽 = 1 − 0.3004 = 0.6996.
𝑥 ̄ − 𝜇0
𝑇 = √ ≥ 𝑡𝑛−1
1−𝛼 ≈ 𝑧1−𝛼 para 𝑛 ≥ 30.
𝑠/̂ 𝑛
o lo que es equivalente
𝑠̂
𝑥̄ ≥ 𝜇0 + 𝑧1−𝛼 √ .
𝑛
de modo que
Ejemplo 7.12. Se ha visto en el ejemplo anterior que la potencia del contraste para
detectar una diferencia en la nota media de 1 punto era del 69.96%. Para aumentar la
potencia del test hasta un 90%, ¿cuántos alumnos habría que tomar en la muestra?
Como se desea una potencia 1 − 𝛽 = 0.9, el riesgo 𝛽 = 0.1 y mirando en la tabla de la
normal estándar se puede comprobar que 𝑧𝛽 = 𝑧0.1 = 1.2816.
Aplicando la fórmula anterior para determinar el tamaño muestral necesario, se tiene
𝑠2̂ 1.7721
𝑛 = (𝑧𝛼 + 𝑧𝛽 )2 2
= (1.6449 + 1.2816)2 = 15.18,
𝛿 12
de manera que habría que haber tomado al menos 16 alumnos.
204
7.7 Contraste para la media de una población con varianza
desconocida y muestras grandes
Contraste:
𝐻0 ∶ 𝜇 = 𝜇0
𝐻1 ∶ 𝜇 ≠ 𝜇0
𝜎 𝑥 ̄ − 𝜇0
𝑥̄ ∼ 𝑁 (𝜇0 , √ ) ⇒ 𝑍 = √ ∼ 𝑁 (0, 1).
𝑛 𝑠/̂ 𝑛
Contraste:
𝐻0 ∶ 𝜎 = 𝜎0
𝐻1 ∶ 𝜎 ≠ 𝜎0
205
𝑛𝑆 2 (𝑛 − 1)𝑆 2̂
𝐽= = ∼ 𝜒2 (𝑛 − 1),
𝜎02 𝜎02
6.3, 5.4, 4.1, 5.0, 8.2, 7.6, 6.4, 5.6, 4.3, 5.2
𝐻0 ∶ 𝜎 = 1 𝐻1 ∶ 𝜎 > 1
(𝑛 − 1)𝑆 2̂ 9 ⋅ 1.7721
𝐽= 2
= = 15.949,
𝜎0 12
y el 𝑝-valor del contraste es 𝑃 (𝜒(9) ≥ 15.949) = 0.068, por lo que no se puede rechazar
la hipótesis nula para 𝛼 = 0.05.
Sea 𝑝 la proporción de individuos de una población que tienen una determinada carac-
terística.
Contraste:
𝐻0 ∶ 𝑝 = 𝑝0
𝐻1 ∶ 𝑝 ≠ 𝑝0
206
Estadístico del contraste: La variable que mide el número de individuos con la
característica en una muestra aleatoria de tamaño 𝑛 sigue una distribución binomial
𝑋 ∼ 𝐵(𝑛, 𝑝0 ). De acuerdo al teorema central del límite, para muestras grandes (𝑛𝑝 ≥ 5
y 𝑛(1 − 𝑝) ≥ 5), 𝑋 ∼ 𝑁 (𝑛𝑝0 , √𝑛𝑝0 (1 − 𝑝0 )), y se cumple
𝑋 𝑝 (1 − 𝑝0 ) 𝑝 ̂ − 𝑝0
𝑝̂ = ∼ 𝑁 (𝑝0 , √ 0 )⇒𝑍= ∼ 𝑁 (0, 1).
𝑛 𝑛 √𝑝0 (1 − 𝑝0 )/𝑛
𝐻0 ∶ 𝑝 = 0.5
𝐻1 ∶ 𝑝 > 0.5
Para realizar el contraste se tiene que 𝑝̂ = 50/80 = 0.625 y como se cumple 𝑛𝑝̂ =
80 ⋅ 0.625 = 50 ≥ 5 y 𝑛(1 − 𝑝)̂ = 80(1 − 0.625) = 30 ≥ 5, el estadístico del contraste vale
𝑝 ̂ − 𝑝0 0.625 − 0.5
𝑍= = = 2.2361.
√𝑝0 (1 − 𝑝0 )/𝑛 √0.5(1 − 0.5)/80
207
Contraste:
𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2
𝑋̄ 1 ∼ 𝑁 (𝜇1 , √𝜎𝑛1 ) ⎫
}
1
⇒
𝑋̄ 2 ∼ 𝑁 (𝜇2 , √𝑛2 ) ⎬
𝜎
}
⎭
2
𝜎2 𝜎2 𝑋̄ 1 − 𝑋̄ 2
⇒ 𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 ⎛
⎜𝜇1 − 𝜇2 , √ 1 + 2 ⎞
⎟⇒𝑍= ∼ 𝑁 (0, 1).
𝑛1 𝑛2 2
√ 𝑛𝜎1 + 𝑛𝜎2
2
⎝ ⎠ 1 2
Contraste:
𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2
𝑋̄ 1 − 𝑋̄ 2 ∼ 𝑁 (𝜇1 − 𝜇2 , 𝜎√ 𝑛𝑛1 +𝑛 2
) ⎫
} 𝑋̄ 1 − 𝑋̄ 2
1 𝑛2
𝑛1 𝑆12 + 𝑛2 𝑆22 ⇒𝑇 = ∼ 𝑇 (𝑛1 + 𝑛2 − 2).
2 ⎬ ̂ √ 𝑛1 +𝑛2
∼ 𝜒 (𝑛1 + 𝑛 2 − 2) } 𝑆𝑝
𝜎2 ⎭ 𝑛1 𝑛2
𝑛 +𝑛2 −2 𝑛 +𝑛2 −2
Región de aceptación: −𝑡𝛼/2
1
< 𝑇 < 𝑡𝛼/2
1
.
𝑛1 +𝑛2 −2 𝑛1 +𝑛2 −2
Región de rechazo: 𝑇 ≤ −𝑡𝛼/2 y𝑇 ≥ 𝑡𝛼/2 .
208
Ejemplo 7.15. Se quiere comparar el rendimiento académico de dos grupos de alumnos,
uno con 10 alumnos y otro con 12, que han seguido metodologías diferentes. Para ello
se les realiza un examen y se obtienen las siguientes puntuaciones:
𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7
𝐻0 ∶ 𝜇1 = 𝜇2 𝐻1 ∶ 𝜇1 ≠ 𝜇2
• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
4 +⋯+3
2
• 𝑆1 = 10 − 5.3 = 3.21 puntos y 𝑆2 = 8 +⋯+3
2 2 2
12 − 6.752 = 2.69 puntos2 .
• 𝑆𝑝2̂ = 10⋅3.21+12⋅2.6875
10+12−2 = 3.2175 puntos2 , y 𝑆𝑝̂ = 1.7937.
𝑋̄ 1 − 𝑋̄ 2 5.3 − 6.75
𝑇 = = = −1.8879,
𝑆𝑝̂ √ 𝑛 𝑛
𝑛1 +𝑛 2
1.7937√ 10+12
10⋅12
1 2
Contraste:
𝐻0 ∶ 𝜇1 = 𝜇2
𝐻1 ∶ 𝜇1 ≠ 𝜇2
209
Estadístico del contraste:
(𝑋̄ 1 − 𝑋̄ 2 ) − (𝜇1 − 𝜇2 )
𝑇 = ∼ 𝑇 (𝑔),
̂
2 𝑆22̂
√ 𝑆𝑛1 + 𝑛2
1
con 𝑔 = 𝑛1 + 𝑛2 − 2 − Δ y
( 𝑛𝑛2 −1 𝑆12̂ −
𝑛1 −1 2̂ 2
𝑛2 𝑆2 )
Δ= 1
𝑛2 −1 4̂ 𝑛1 −1 4̂
.
𝑛12 𝑆1 + 𝑛22 𝑆 2
Contraste:
𝐻0 ∶ 𝜎 1 = 𝜎 2
𝐻1 ∶ 𝜎 1 ≠ 𝜎 2
𝑛 −1,𝑛2 −1 𝑛 −1,𝑛2 −1
Región de aceptación: 𝐹𝛼/2
1
< 𝐹 < 𝐹1−𝛼/2
1
.
𝑛1 −1,𝑛2 −1 𝑛1 −1,𝑛2 −1
Región de rechazo: 𝐹 ≤ 𝐹𝛼/2 y𝐹 ≥ 𝐹1−𝛼/2 .
210
Ejemplo 7.16. Siguiendo con el ejemplo de las puntuaciones en dos grupos:
𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7
𝐻0 ∶ 𝜎 1 = 𝜎 2 𝐻1 ∶ 𝜎1 ≠ 𝜎2
• 𝑋̄ 1 = 4+⋯+3
10 = 5.3 puntos y 𝑋̄ 2 = 8+⋯+7
12 = 6.75 puntos.
2 2 2 2
• 𝑆12̂ = (4−5.3) +⋯+(3−5.3)
9 = 3.5667 y 𝑆22̂ = (8−6.75) +⋯+(3−6.75)
11 = 2.9318 puntos2 .
𝑆12̂ 3.5667
𝐹 = = = 1.2165,
𝑆22̂ 2.9318
y el 𝑝-valor del contraste es 2𝑃 (𝐹 (9, 11) ≤ 1.2165) = 0.7468, por lo que se mantiene la
hipótesis de igualdad de varianzas.
𝐻0 ∶ 𝑝1 = 𝑝2 𝐻1 ∶ 𝑝1 ≠ 𝑝2
Estadístico del contraste: Las variables que miden el número de individuos con
la característica en dos muestras aleatorias de tamaños 𝑛1 y 𝑛2 respectivamente, si-
guen distribuciones binomiales 𝑋1 ∼ 𝐵(𝑛1 , 𝑝1 ) y 𝑋2 ∼ 𝐵(𝑛2 , 𝑝2 ). Si las muestras
son grandes (𝑛𝑖 𝑝𝑖 ≥ 5 y 𝑛𝑖 (1 − 𝑝𝑖 ) ≥ 5), de acuerdo al teorema central del límite,
𝑋1 ∼ 𝑁 (𝑛𝑝1 , √𝑛𝑝1 (1 − 𝑝1 )) y 𝑋2 ∼ 𝑁 (𝑛𝑝2 , √𝑛𝑝2 (1 − 𝑝2 )), y se cumple
211
𝑝1̂ = 𝑋1
𝑛1 ∼ 𝑁 (𝑝1 , √ 𝑝1 (1−𝑝
𝑛1
1)
) ⎫
} 𝑝1̂ − 𝑝2̂
⎬ ⇒ 𝑍 = ∼ 𝑁 (0, 1)
𝑋2
𝑝2̂ = 𝑛2 ∼ 𝑁 (𝑝2 , √ 𝑝2 (1−𝑝
𝑛2
2)
) }
⎭ √ 𝑝1 (1−𝑝1 )
𝑛1 + 𝑝2 (1−𝑝2 )
𝑛2
Ejemplo 7.17. Se quiere comparar los porcentajes de aprobados en dos grupos que han
seguido metodologías distintas. En el primer grupo han aprobado 24 alumnos de un total
de 40, mientras que en el segundo han aprobado 48 de 60.
El contraste que se plantea es
𝐻0 ∶ 𝑝1 = 𝑝2 𝐻1 ∶ 𝑝1 ≠ 𝑝2
Para realizar el contraste, se tiene 𝑝1̂ = 24/40 = 0.6 y 𝑝2̂ = 48/60 = 0.8, de manera que
se cumplen las condiciones 𝑛1 𝑝1̂ = 40 ⋅ 0.6 = 24 ≥ 5, 𝑛1 (1 − 𝑝1̂ ) = 40(1 − 0.6) = 26 ≥ 5,
𝑛2 𝑝2̂ = 60⋅0.8 = 48 ≥ 5 y 𝑛2 (1− 𝑝2̂ ) = 60(1−0.8) = 12 ≥ 5, y el estadístico del contraste
vale
𝐻0 ∶ 𝜃 = 𝜃 0 𝐻1 ∶ 𝜃 ≠ 𝜃0
212
mientras que si el contraste es unilateral de mayor, se comparará con el límite inferior
del intervalo.
𝑋1 ∶ 4 − 6 − 8 − 7 − 7 − 6 − 5 − 2 − 5 − 3
𝑋2 ∶ 8 − 9 − 5 − 3 − 8 − 7 − 8 − 6 − 8 − 7 − 5 − 7
𝐻0 ∶ 𝜇1 = 𝜇2 𝐻1 ∶ 𝜇1 ≠ 𝜇2
213
8 Análisis de la Varianza
El Análisis de la Varianza con un Factor (ANOVA por sus siglas en inglés), es una
técnica estadística de contraste de hipótesis, que sirve para comparar las medias una
variable cuantitativa, que suele llamarse variable dependiente o respuesta, en distintos
grupos o muestras definidas por una variable cualitativa, llamada variable independiente
o factor. Las distintas categorías del factor que definen los grupos a comparar se conocen
como niveles o tratamientos del factor.
Se trata, por tanto, de una generalización de la prueba T para la comparación de medias
de dos muestras independientes, para diseños experimentales con más de dos muestras. Y
se diferencia de un análisis de regresión simple, donde tanto la variable dependiente como
la independiente eran cuantitativas, en que en el análisis de la varianza de un factor, la
variable independiente o factor es una variable cualitativa, aunque como veremos más
adelante en los contrastes de regresión, se puede plantear un contraste de ANOVA como
si fuese un contraste de regresión lineal.
Un ejemplo de aplicación de esta técnica podría ser la comparación del nivel de coles-
terol medio según el grupo sanguíneo. En este caso, la dependiente o factor es el grupo
sanguíneo, con cuatro niveles (A, B, O, AB), mientras que la variable respuesta es el
nivel de colesterol.
Para comparar las medias de la variable respuesta según los diferentes niveles del factor,
se plantea un contraste de hipótesis en el que la hipótesis nula, 𝐻0 , es que la variable
respuesta tiene igual media en todos los niveles, mientras que la hipótesis alternativa, 𝐻1 ,
es que hay diferencias estadísticamente significativas entre al menos dos de las medias.
Dicho contraste se realiza mediante la descomposición de la varianza total de la variable
respuesta; de ahí procede el nombre de esta técnica.
214
• 𝑋𝑖𝑗 (𝑖 = 1, ..., 𝑘; 𝑗 = 1, ..., 𝑛𝑖 ): es una variable aleatoria que indica la respuesta del
𝑗-ésimo individuo al 𝑖-ésimo nivel del factor.
• 𝑥𝑖𝑗 : es el valor concreto, en una muestra dada, de la variable 𝑋𝑖𝑗 .
Con esta notación podemos expresar la variable respuesta mediante un modelo matemá-
tico que la descompone en componentes atribuibles a distintas causas:
𝐻0 ∶𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
𝐻1 ∶𝜇𝑖 ≠ 𝜇𝑗 para algún 𝑖 ≠ 𝑗.
Para poder realizar el contraste con este modelo es necesario plantear ciertas hipótesis
estructurales (supuestos del modelo):
215
• ndependencia: Las 𝑘 muestras, correspondientes a los 𝑘 niveles del fac-
tor,representan muestras aleatorias independientes de 𝑘 poblaciones con medias
𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 desconocidas.
• Normalidad: Cada una de las 𝑘 poblaciones es normal.
• Homocedasticidad: Cada una de las 𝑘 poblaciones tiene la misma varianza 𝜎2 .
𝑘 𝑛𝑖 𝑘 𝑘 𝑛𝑖
∑ ∑(𝑋𝑖𝑗 − 𝑋)̄ 2 = ∑ 𝑛𝑖 (𝑋̄ 𝑖 − 𝑋)̄ 2 + ∑ ∑(𝑋𝑖𝑗 − 𝑋̄ 𝑖 )2 ,
𝑖=1 𝑗=1 𝑖=1 𝑖=1 𝑗=1
donde:
𝑘 𝑛
• ∑𝑖=1 ∑𝑗=1 𝑖
(𝑋𝑖𝑗 − 𝑋)̄ 2 : recibe el nombre de suma total de cuadrados, (𝑆𝑇 𝐶), y es
la suma de cuadrados de las desviaciones con respecto a la media global; por lo
tanto, una medida de la variabilidad total de los datos.
𝑘
• ∑𝑗=1 𝑛𝑖 (𝑋̄ 𝑖 − 𝑋)̄ 2 : recibe el nombre de suma de cuadrados de los tratamientos o
suma de cuadrados intergrupos, (𝑆𝐶𝐼𝑛𝑡𝑒𝑟), y es la suma ponderada de cuadrados
de las desviaciones de la media de cada nivel con respecto a la media global; por lo
tanto, una medida de la variabilidad atribuida al hecho de que se utilizan diferentes
niveles o tratamientos.
𝑘 𝑛𝑖
• ∑𝑖=1 ∑𝑗=1 (𝑋𝑖𝑗 − 𝑋̄ 𝑖 )2 : recibe el nombre de suma de cuadrados residual o suma de
cuadrados intragrupos, (𝑆𝐶𝐼𝑛𝑡𝑟𝑎), y es la suma de cuadrados de las desviaciones de
las observaciones con respecto a las medias de sus respectivos niveles o tratamientos;
por lo tanto, una medida de la variabilidad en los datos atribuida a las fluctuaciones
aleatorias dentro del mismo nivel.
216
por sus correspondientes grados de libertad. Para 𝑆𝐶𝑇 el número de grados de libertad
es 𝑛 − 1; para 𝑆𝐶𝐼𝑛𝑡𝑒𝑟 es 𝑘 − 1; y para 𝑆𝐶𝐼𝑛𝑡𝑟𝑎 es 𝑛 − 𝑘.
Por lo tanto,
𝑆𝐶𝑇
𝐶𝑀 𝑇 =
𝑛−1
𝑆𝐶𝐼𝑛𝑡𝑒𝑟
𝐶𝑀 𝐼𝑛𝑡𝑒𝑟 =
𝑘−1
𝑆𝐶𝐼𝑛𝑡𝑟𝑎
𝐶𝑀 𝐼𝑛𝑡𝑟𝑎 =
𝑛−𝑘
Y se podría demostrar que, en el supuesto de ser cierta la hipótesis nula y los supuestos
del modelo, el cociente
𝐶𝑀 𝐼𝑛𝑡𝑒𝑟
𝐶𝑀 𝐼𝑛𝑡𝑟𝑎
Todos los estadísticos planteados en el apartado anterior se recogen en una tabla denomi-
nada Tabla de ANOVA, en la que se ponen los resultados de las estimaciones de dichos
estadísticos en las muestras concretas objeto de estudio. Esas tablas también son las
que aportan como resultado de cualquier ANOVA los programas estadísticos, que suelen
añadir al final de la tabla el 𝑝-valor del estadístico 𝐹 calculado, y que permite aceptar
o rechazar la hipótesis nula de que las medias correspondientes a todos los niveles del
factor son iguales.
217
Suma de Grados de Cuadrados Estadístico
cuadrados libertad medios F p-valor
Total 𝑆𝐶𝑇 𝑛−1
Una vez realizado el ANOVA de un factor para comparar las 𝑘 medias correspondientes
a los 𝑘 niveles o tratamientos del factor, se puede concluir aceptando la hipótesis nula, en
cuyo caso se da por concluido el análisis de los datos en cuanto a detección de diferencias
entre los niveles, o rechazándola, en cuyo caso es natural continuar con el análisis para
tratar de localizar con precisión dónde está la diferencia, cuáles son los niveles cuyas
respuestas son estadísticamente diferentes.
En el segundo caso, hay varios métodos que permiten detectar las diferencias entre
las medias de los diferentes niveles, y que reciben el nombre de test de comparaciones
múltiples. A su vez este tipo de test se suele clasificar en:
Para los primeros se puede utilizar el test de Bonferroni; para los segundos, el test de
Duncan; y para ambas categorías a la vez los test HSD de Tukey y Scheffé.
En muchos problemas aparece no ya un único factor que permite clasificar los individuos
de la muestra en 𝑘 diferentes niveles, sino que pueden presentarse dos o más factores que
permiten clasificar a los individuos de la muestra en múltiples grupos según diferentes
criterios, que se pueden analizar para ver si hay o no diferencias significativas entre las
medias de la variable respuesta.
218
Para tratar con este tipo de problemas surge el ANOVA de Dos o Más Factores (o
también ANOVA de Dos o Más Vías) como una generalización del proceso de un factor,
que además de permitir el análisis de la influencia de cada uno de los factores por
separado también hace posible el estudio de la interacción entre ellos.
Por otra parte, también son frecuentes los problemas en los que se toma más de una
medida de una variable cuantitativa (respuesta) en cada sujeto de la muestra, y se
procede al análisis de las diferencias entre las diferentes medidas. Si sólo se toman dos,
el procedimiento adecuado es la T de Student de datos pareados, o su correspondiente
no paramétrico, el test de Wilcoxon; pero si se han tomado tres o más medidas, el
test paramétrico correspondiente a la T de Student de datos pareados es el ANOVA de
Medidas Repetidas.
Incluso también se puede dar el caso de un problema en el que se analice una misma
variable cuantitativa medida en varias ocasiones en cada sujeto de la muestra pero te-
niendo en cuenta a la vez la influencia de uno, dos o más factores que permiten clasificar
a los individuos en varios subgrupos diferentes. En definitiva, pueden aparecer problemas
donde a la par que un ANOVA de medidas repetidas se requiera realizar un ANOVA de
dos o más vías.
Por último, la situación más compleja que se puede plantear en el análisis de una res-
puesta cuantitativa se presenta cuando, añadida a medidas repetidas y dos o más vías
o factores de clasificación, se tienen una o más variables cuantitativas, llamadas cova-
riables, que se piensa que pueden influir en la variable respuesta. Se procede entonces
a realizar un ANCOVA o Análisis de Covarianza, con el que se pretende analizar la
influencia de los factores y también ver si hay diferencias entre las medidas repetidas
pero habiendo eliminado previamente la influencia (variabilidad) debida a la presencia
de las covariables que se pretenden controlar.
Para entender qué es un ANOVA de dos o más factores, conviene partir de un caso
sencillo con dos factores y dos niveles en cada factor. Por ejemplo, se puede plantear
un experimento con individuos que siguen o no una dieta (primer factor: dieta, con dos
niveles: sí y no), y que a su vez toman o no un determinado fármaco (segundo factor:
fármaco, con dos niveles: sí y no) para reducir su peso corporal (variable respuesta
numérica: reducción del peso corporal expresada en Kg). En esta situación, se generan
cuatro grupos diferentes: los que no hacen dieta ni toman fármaco (No-No), los que no
hacen dieta pero sí toman fármaco (No-Sí), los que hacen dieta y no toman fármaco
(Sí-No), y los que hacen dieta y toman fármaco (Sí-Sí). Y se pueden plantear tres efectos
diferentes:
219
• El del fármaco: viendo si hay o no diferencias significativas en los Kg perdidos
entre los individuos que lo han tomado y los que no.
• El de la interacción: viendo si el efecto combinado de dieta y fármaco es diferente
del que tendrían sumando sus efectos por separado, y entonces se diría que sí que
hay interacción; o si por el contrario el efecto de la combinación de dieta y fármaco
es el mismo que la suma de los efectos por separado, y entonces se diría que no
hay interacción.
A su vez, si hay interacción se puede dar en dos sentidos: si la combinación de dieta
y fármaco ha hecho perder más kilos a los pacientes de los que cabría esperar con
la suma de dieta y fármaco por separado, entonces la interacción de ambos factores
ha actuado en sinergia con los mismos, mientras que si la combinación ha hecho
perder menos kilos de los que cabría esperar con dieta y fármaco por separado,
entonces la interacción ha actuado en antagonismo con ambos.
Siguiendo con el ejemplo, supongamos que la tabla que aparece a continuación refleja
la media de Kg perdidos dentro de cada uno de los grupos comentados. Por simplificar
el ejemplo, no se reflejan los Kg en cada individuo con la consiguiente variabilidad
de los mismos, pero el ANOVA de dos vías sí que tendría en cuenta esa variabilidad
para poder hacer inferencia estadística, plantear contrastes de hipótesis y calcular sus
correspondientes p-valores.
Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 8
Si los resultados obtenidos fuesen los de la tabla anterior, se diría que no hay interacción
entre fármaco y dieta, ya que el efecto del fármaco en el grupo de los que no hacen dieta
ha hecho perder 5 Kg en media a los individuos, el efecto de la dieta en el grupo de
los que no toman fármaco les ha hecho perder 3 Kg en media, y el efecto combinado de
dieta y fármaco ha hecho perder 8 Kg con respecto a los que no hacen dieta y tampoco
toman fármaco. Estos 8 Kg son iguales a la suma de 3 y 5, es decir iguales a la suma
de los efectos de los factores por separado, sin ningún tipo de interacción (de término
añadido) que cambie el resultado de la suma.
Con las medias de los cuatro grupos que se generan en el cruce de los dos factores,
cada uno con dos niveles (2x2), se representan los gráficos de medias que aparecen más
adelante. En estos gráficos, cuando no hay interacción las rectas que unen las medias
correspondientes a un mismo nivel de uno de los factores son paralelas dentro de cierto
margen de variabilidad.
220
9
6
Kg perdidos
5
Fármaco No
4
Fármaco Sí
3
0
Dieta No Dieta Sí
Por el contrario, también podría obtenerse una tabla en la que la suma de los efectos
por separado fuese menor que el efecto combinado de dieta y fármaco:
Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 12
En este caso, dejando al margen las variabilidad dentro de cada uno de los grupos y
suponiendo que la misma es lo suficientemente pequeña como para que las diferencias
sean significativas, los 8 Kg en media que se perderían al sumar los efectos por separado
de dieta y fármaco son menores que los 12 que, en media, han perdido los individuos
que han tomado el fármaco y han seguido la dieta a la vez. Por lo tanto, se ha producido
una interacción de los dos factores que, al unirlos, ha servido para potenciar sus efectos
por separado. Dicho de otra forma, para explicar el resultado final de los individuos que
han tomado el fármaco y también han seguido la dieta habría que introducir un nuevo
término en la suma, el término de interacción, que contribuiría con 4 Kg de pérdida
añadidos a los 8 Kg que se perderían considerando simplemente la suma de dieta y
fármaco. Como este nuevo término contribuye a aumentar la pérdida que se obtendría al
221
sumar los efectos por separado de ambos factores, se trataría de un caso de interacción
en sinergia con los dos factores de partida.
14
12
10
Kg perdidos
Fármaco No
6 Fármaco Sí
0
Dieta No Dieta Sí
Por último, también se podría obtener una tabla en la que la suma de los efectos por
separado fuese mayor que el efecto combinado de los dos factores:
Fármaco No Fármaco Sí
Dieta No 0 5
Dieta Sí 3 4
Igualmente, en este nuevo ejemplo los 8 Kg en media que se perderían al sumar los
efectos por separado de los dos factores son mayores que los 4 que en realidad pierden,
en media, los individuos que han seguido la dieta y utilizado el fármaco. Por lo tanto,
para explicar el resultado obtenido en el grupo de los que toman el fármaco y siguen
la dieta habría que introducir un término añadido a la suma de efectos sin más, que
se restaría a los 8 Kg hasta dejarlos en 4 Kg. Se trataría de un caso de interacción en
antagonismo con los dos factores de partida.
222
6
4
Kg perdidos
3 Fármaco No
Fármaco Sí
2
0
Dieta No Dieta Sí
En realidad, la interacción también puede producirse en sinergia con uno de los factores y
en antagonismo con el otro, ya que a veces los dos factores pueden producir un efecto con
signo contrario. Por ejemplo, al hablar del factor dieta, se tiende a pensar que se trata
de una dieta que sirve para bajar el peso, pero también cabe plantearse un experimento
con personas que siguen una dieta de alto contenido calórico que en principio debería
hacerles subir peso y ver qué evolución siguen cuando a la vez toman un fármaco para
bajarlo.
Como puede deducirse fácilmente de las tablas y gráficas anteriores, la presencia de
interacción implica que la diferencia entre las medias de los dos grupos dentro de un
mismo nivel de uno de los factores no es la misma que para el otro nivel. Por ejemplo, en
la segunda tabla, la diferencia entre las medias de Kg perdidos entre los que sí que toman
el fármaco y los que no lo toman vale: 5-0=5 Kg en los que no hacen dieta, y 12-3=9
Kg en los que sí que hacen dieta. Lo cual gráficamente se traduce en que la pendiente
de la recta que une las medias dentro del grupo de los que sí que toman el fármaco es
diferente de la pendiente que une las medias dentro del grupo de los que no lo toman.
En las ideas anteriores se basará el planteamiento del contraste de hipótesis para ver si
la interacción ha resultado o no significativa.
Como ya se ha comentado, en cualquiera de las tablas anteriores se podrían analizar
tres efectos diferentes: el de la dieta, el del fármaco y el de la interacción de dieta con
fármaco; lo cual, en términos matemáticos, se traduce en tres contrastes de hipótesis
diferentes:
223
1. Efecto de la dieta sobre la cantidad de peso perdido:
𝐻0 ∶ 𝜇con dieta = 𝜇sin dieta
𝐻1 ∶ 𝜇con dieta ≠ 𝜇sin dieta
2. Efecto del fármaco sobre la cantidad de peso perdido:
𝐻0 ∶ 𝜇con fármaco = 𝜇sin fármaco
𝐻1 ∶ 𝜇con fármaco ≠ 𝜇sin fármaco
3. Efecto de la interacción entre dieta y fármaco, que a su vez se puede plantear de
dos formas equivalentes:
Aunque los detalles matemáticos más precisos sobre cómo el ANOVA de dos o más
vías da respuesta a los contrastes expuestos quedan fuera del nivel de esta práctica, la
idea general es sencilla y muy parecida a la explicada con más detalle en la práctica
de ANOVA de una vía. En el ANOVA de una vía, la variabilidad total de los datos,
expresada como suma de distancias al cuadrado con respecto a la media global (llamada
Suma de Cuadrados Total), se descompone en dos diferentes fuentes de variabilidad: las
distancias al cuadrado de los datos de cada grupo con respecto a la media del grupo,
Suma de Cuadrados Intra, más las distancias al cuadrado entre las diferentes medias
de los grupos y la media general, Suma de Cuadrados Inter. La suma de cuadrados
intra-grupos es también llamada Variabilidad Residual o Suma de Cuadrados Residual,
ya que su cuantía es una medida de la dispersión residual, remanente incluso después de
haber dividido los datos en grupos. Estas sumas de cuadrados, una vez divididas por sus
correspondientes grados de libertad, generan varianzas llamadas Cuadrados Medios, y el
cociente de cuadrados medios (cuadrado medio inter dividido entre cuadrado medio intra)
bajo la hipótesis nula de igualdad de medias en todos los grupos sigue una distribución
F de Fisher que se puede utilizar para calcular un 𝑝-valor del contraste de igualdad de
medias. En el ANOVA de dos factores, en lugar de dos fuentes de variabilidad tenemos
cuatro: una por el primer factor, otra por el segundo, otra por la interacción y otra más
que contempla la variabilidad residual o variabilidad intragrupos. En el ejemplo anterior,
las cuatro fuentes de variabilidad son:
224
2. La debida al segundo factor: el fármaco.
3. La debida a la interacción entre ambos.
4. La residual.
Las tres primeras fuentes de variabilidad llevan asociadas sus correspondientes sumas
de cuadrados, similares a la suma de cuadrados inter del ANOVA de una vía, mientras
que la variabilidad residual lleva asociada su suma de cuadrados residual, similar a la
suma de cuadrados intra del ANOVA de una vía. Dividiendo las sumas de cuadrados
entre sus respectivos grados de libertad se obtienen varianzas, que divididas entre la
varianza residual generan, bajo la hipótesis nula de igualdad de medias, valores f de la
distribución F de Fisher que pueden utilizarse para calcular el p-valor del correspondiente
contraste.
Lo anterior se resume en forma de tabla de un ANOVA de dos vías, considerando un
primer factor con 𝑘1 niveles, un segundo factor con 𝑘2 niveles y un total de datos 𝑛. Si
se denomina F1 al primer factor, F2 al segundo, I a la interacción y R al residual, la
tabla de un ANOVA de dos vías tiene la siguiente forma:
225
fijado, entonces el factor dieta habría resultado significativo, lo cual quiere decir
que habría diferencias significativas (más allá de las asumibles por azar) entre los
Kg perdidos por los individuos que hacen dieta y los que no; y todo ello, indepen-
dientemente de si los individuos están tomando o no el fármaco, ya que no hay
una interacción significativa que ligue los resultados de la dieta con el fármaco.
Igualmente, con el factor fármaco, se acudiría a su 𝑝-valor y se vería si hay o no
diferencias significativas entre los Kg perdidos por los que toman el fármaco y los
que no lo hacen, independientemente de si siguen o no la dieta.
• Si la interacción ha resultado significativa (𝑝-valor de la interacción menor que el
nivel de significación, habitualmente 0.05), no se puede considerar por separado
la actuación de los dos factores, la presencia de uno de los factores condiciona lo
que sucede en el otro y el análisis de diferencias debidas al segundo factor debe
realizarse por separado dentro de cada uno de los niveles del primero; y a la inversa,
el análisis de diferencias debidas al primero debe realizarse por separado dentro de
cada uno de los niveles del segundo. Por ejemplo, en la segunda de las tablas del
análisis de Kg perdidos en función de la dieta y el fármaco, muy probablemente se
obtendría que la interacción sí que es significativa, con lo cual no habría un único
efecto del fármaco: en el grupo de los que no toman el fármaco, la diferencia de Kg
perdidos entre los que sí que hacen dieta y los que no la hacen no sería la misma
que en el grupo de los que sí que toman el fármaco. E igualmente, tampoco habría
un único efecto de la dieta: en el grupo de los que no hacen dieta, la diferencia de
Kg perdidos entre los que sí que toman el fármaco y los que no lo hacen no sería
la misma que en el grupo de los que sí que hacen dieta.
Una aclaración final importante es que en ningún caso un ANOVA de dos factores con
dos niveles en cada vía equivale a hacer por separado una T de Student de datos inde-
pendientes en cada uno de los factores. Ni siquiera en el caso de que no haya interacción
el 𝑝-valor que se obtiene en cada uno de los dos factores coincide con el que se obtendría
en la comparación de los niveles mediante la T de Student. El ANOVA de dos factores
es una técnica multivariante que cuantifica la influencia de cada una de las variables
independientes en la variable dependiente después de haber eliminado la parte de la va-
riabilidad que se debe a las otras variables independientes que forman parte del modelo.
En el ejemplo de los Kg perdidos, no sería lo mismo analizar la influencia de la variable
dieta después de eliminar la variabilidad explicada mediante la variable fármaco e incluso
la interacción entre dieta y fármaco, que es lo que haría el ANOVA de dos factores, que
analizar simplemente la influencia de la variable dieta sin más, o fármaco sin más, que es
lo que podríamos hacer mediante una T de Student de datos independientes. Tampoco el
análisis de la interacción en el ANOVA de dos factores equivale a realizar un ANOVA de
una vía considerando una nueva variable independiente con cuatro categorías diferentes
(1:Sí-Sí, 2:Sí-No, 3:No-Sí, 4:No-No), por el mismo motivo: las conclusiones del ANOVA
de dos vías hay que entenderlas en el contexto de una técnica multivariante en que la
importancia de cada variable independiente se obtiene después de eliminar de los datos
la variabilidad debida a las demás.
226
8.2.2 ANOVA de dos factores con tres o más niveles en algún factor
Aunque los fundamentos del ANOVA de tres o más factores son muy parecidos a los
de dos y la tabla obtenida es muy similar, la complejidad en la interpretación sube un
escalón. Por ejemplo, en un ANOVA de tres factores la tabla presentaría los tres efectos
de cada uno de los factores por separado, las tres interacciones dobles (1 con 2, 1 con
3 y 2 con 3), e incluso también podría mostrar la interacción triple (los programas de
estadística permiten considerar o no las interacciones de cualquier orden). Si la interac-
ción triple fuese significativa, entonces no se podría hablar del efecto general del factor
1, sino que habría que analizar el efecto del factor 1 dentro de cada nivel del 2 y a
su vez dentro de cada nivel del 3, y así sucesivamente. Si la interacción triple no fuese
significativa pero sí que lo fuese la del factor 1 con el 2, entonces habría que analizar
el efecto del factor 1 dentro de cada uno de los niveles del 2 pero independientemente
del factor 3. Y así hasta completar un conjunto muy grande de análisis posibles y de
Test de Comparaciones Múltiples aplicados. No obstante, es el propio experimentador el
227
que debe limitar el conjunto de análisis a realizar con un planteamiento muy claro del
experimento, reduciendo en la medida de lo posible el número de factores considerados
y teniendo claro que no merece la pena considerar interacciones triples, o de órdenes
superiores, si no hay forma clara de interpretar su resultado.
En ningún caso un ANOVA de tres o más factores equivale a tres ANOVAS de una vía
realizados teniendo en cuenta los factores considerados por separado.
Como ya sucedía con el ANOVA de una vía, el de dos o más vías es un test paramétrico
que supone que:
• Los qdatos deben seguir distribuciones normales dentro de cada categoría, enten-
diendo por categorías todas las que se forman del cruce de todos los niveles de
todos los factores. Por ejemplo, en un ANOVA de 2 factores con 3 niveles en cada
factor, se tienen 32 categorías diferentes.
• Todas las distribuciones normales deben tener igualdad de varianzas (homocedas-
ticidad).
228
Cuando no se cumplen las condiciones anteriores y además las muestras son pequeñas,
no se debería aplicar el ANOVA de dos o más vías, con el problema añadido de que
no hay un test no paramétrico que lo sustituya. Mediante test no paramétricos (sobre
todo mediante el test de Kruskall-Wallis) se podría controlar la influencia de cada uno
de los factores por separado en los datos, pero nunca el importantísimo papel de la
interacción.
229
8.3.0.1 ANOVA de medidas repetidas como ANOVA de dos vías sin interacción
El ANOVA de medidas repetidas puede realizarse como un ANOVA de dos vías sin
interacción sin más que realizar los cálculos oportunos introduciendo adecuadamente los
datos en un programa estadístico.
En la situación de partida, si suponemos que tenemos 𝑘 medidas emparejadas de una
variable dependiente numérica y 𝑛 individuos en los que hemos tomado las medidas, los
datos se pueden organizar como aparecen en la tabla siguientes:
Pero esos mismos datos también se pueden ordenar en un formato de tabla mucho más
conveniente para poderles aplicar un ANOVA de dos vías:
Con ello, tanto Individuo como Medida son variables categóricas que dividen la muestra
total (𝑛 ⋅ 𝑘 datos de la variable dependiente) en grupos: 𝑛 grupos en la variable Individuo
y 𝑘 grupos en la variable Medida. Además, considerando el cruce de ambas variables
(Medida x Individuo) se forman 𝑛 ⋅ 𝑘 grupos con un único dato de la variable dependiente
en cada grupo.
Para explicar la variabilidad de los datos de la variable dependiente cuantitativa se
pueden considerar tres fuentes: la debida a la variable Medida, la debida a la variable
230
Individuo, y la residual. Ahora no cabe hablar de la variabilidad debida a la interacción
entre Medida e Individuo ya que los grupos que surgen del cruce de los dos factores sólo
tienen un dato y no es viable calcular medias y dispersiones dentro de un grupo con un
único dato. Y el análisis de la influencia de cada uno de los factores se realiza mediante
un ANOVA de dos factores sin interacción, que genera la siguiente tabla:
1. En la variable Medida:
𝐻0 ∶ 𝜇Medida 1 = 𝜇Medida 2 = ... = 𝜇Medida k
𝐻1 : Alguna de las medias es diferente.
Si el 𝑝-valor obtenido es menor que el nivel de significación fijado querrá decir que
alguna de las medias es significativamente diferente del resto. Este es el contraste
más importante del ANOVA de medidas repetidas y supone que la variabilidad
dentro de cada individuo (intra-sujeto) es lo suficientemente grande como para
que se descarte el azar como su causa. Por lo tanto la variable Medida ha tenido
un efecto significativo.
2. En la variable Individuo:
𝐻0 ∶ 𝜇Individuo 1 = 𝜇Individuo 2 = ... = 𝜇Individuo n
𝐻1 : Alguna de las medias es diferente.
Si el 𝑝-valor obtenido es menor que el nivel de significación fijado querrá decir
que alguna de las medias es significativamente diferente del resto, y por lo tanto
alguno de los individuos analizados ha tenido un comportamiento en la variable
dependiente diferente del resto. En realidad no es un contraste importante en el
ANOVA de medidas repetidas ya que supone un análisis de la variabilidad entre
individuos (inter-sujetos), pero es muy difícil que en un experimento dado esta
variabilidad no esté presente.
Si la conclusión del ANOVA es que hay que rechazar alguna de las dos hipótesis nulas,
ya sea la de igualdad de medias en los grupos formados por la variable Medida o la
de igualdad de medias en los grupos formados por la variable Individuo, entonces en el
siguiente paso se podría aplicar un Test de Comparaciones Múltiples y por Parejas, por
231
ejemplo un test de Bonferroni, para ver qué medias son diferentes, especialmente para
ver entre qué niveles del la variable Medida se dan las diferencias.
No son pocos los problemas en los que, además de analizar el efecto intra-sujetos en una
variable dependiente cuantitativa medida varias veces en los mismos individuos para
el que cabría plantear un ANOVA de medidas repetidas, también aparecen variables
cualitativas que se piensa que pueden estar relacionadas con la variable dependiente.
Estas últimas variables introducen un efecto que aunque habitualmente es catalogado
como inter-sujetos más bien se trataría de un efecto inter-grupos, yaque permiten definir
grupos entre los que se podría plantear un ANOVA de una o más vías. Por ejemplo, se
podría analizar la pérdida de peso en una muestra de individuos al cabo de uno, dos
y tres meses de tratamiento (ANOVA de medidas repetidas), pero teniendo en cuenta
que los individuos de la muestra han sido divididos en seis grupos que se forman por
el cruce de dos factores, Dieta y Ejercicio, con tres dietas diferentes: a, b y c, y dos
niveles de ejercicio físico diferentes: bajo y alto. Para analizar la influencia de estos
dos factores inter-sujetos, habría que plantear un ANOVA de dos vías con interacción.
Para un ejemplo como el comentado, aunque los datos podrían disponerse de una forma
similar a la que permite realizar el ANOVA de medidas repetidas como un ANOVA
de dos factores (variables Medida e Individuo), y añadirle dos factores más (Dieta y
Ejercicio), no resulta cómodo tener que introducir en la matriz de datos varias filas para
232
un mismo individuo (tantas como medidas repetidas diferentes se hayan realizado). Por
ello, determinados programas de estadística, como PASW, permiten realizar ANOVAs
de medidas repetidas introduciendo los datos en el formato clásico, una fila para cada
individuo y una variable para cada una de las medidas repetidas, definiendo factores
intra-sujeto que en realidad estarían compuestos por todas las variables que forman
parte de las medidas repetidas. Además, a los factores intra-sujeto permiten añadirle
nuevos factores inter-sujeto (categorías) que pueden influir en las variables respuesta
(las diferentes medidas), e incluso comprobar si hay o no interacción entre los factores
inter-sujeto entre sí y con los factores intra-sujeto. Por lo tanto, son procedimientos que
realizan a la vez un ANOVA de medidas repetidas y un ANOVA de una o más vías, con
la ventaja de que se pueden introducir los datos en la forma clásica: una fila para cada
individuo.
El resultado de la aplicación de estos procedimientos es muy parecido a los comentados
en apartados previos: se generan tablas de ANOVA en las que se calcula un 𝑝-valor
para cada uno de los factores, ya sean intra-sujeto (medidas repetidas) o inter-sujeto
(categorías), y también para la interacción, ya sea de los factores inter-sujeto entre sí o
de factores inter-sujeto con los intra-sujeto.
El análisis de la covarianza, ANCOVA, es una extensión del ANOVA (ya sea de una o va-
rias vías y de medidas repetidas), que permite analizar la influencia que sobre la variable
dependiente cuantitativa tienen todas las variables independientes categóricas (factores)
y las medidas repetidas contempladas en el ANOVA, pero, además, eliminando el efecto
que otra u otras variables independientes cuantitativas podrían tener sobre la variable
respuesta. Las variables independientes cuyo efecto se pretende eliminar (controlar o
ajustar) son llamadas Covariables o Covariantes porque se se espera que covaríen, es
decir, que estén correlacionadas con la variable dependiente.
Aunque la explicación detallada de cómo se realiza el ANCOVA va más allá del nivel de
lo expuesto en esta práctica, la idea es sencilla: se puede plantear un análisis de regresión
de la variable dependiente en función de la covariable (o de las covariables si hay más
de una), y eliminar la parte de la variabilidad de la dependiente que se puede explicar
gracias a la covariable sin más que trabajar con los residuos del modelo de regresión en
lugar de con los datos originales. Posteriormente, se procede a realizar una ANOVA, de
uno o varios factores e incluso de medidas repetidas, aplicado a los residuos.
El resultado final de la aplicación del ANCOVA es una tabla muy parecida a la del
ANOVA, pero con una línea añadida por para cada una de las covariables. En esas
líneas se recoge la cantidad de variabilidad explicada por cada una de las covariables
y su correspondiente 𝑝-valor, que da respuesta al contraste de si la covariable es o no
prescindible para explicar lo que sucede en la variable dependiente (en términos más
233
técnicos, el contraste sería si la pendiente del modelo de regresión de la variable indepen-
diente en función de la covariable puede o no ser igual a 0). En la tabla del ANCOVA
no hay ninguna línea añadida que contemple la posible interacción entre la covariable y
los distintos factores inter-sujetos, simplemente porque si hubiese interacción no debería
aplicarse un modelo de ANCOVA ya que el efecto del factor no podría estimarse porque
dependería del valor concreto considerado en la covariable, que, por ser continua, tiene
infinitos valores, luego habría infinitos diferentes efectos del factor y no se le podría
asignar un 𝑝-valor concreto. Pero sí que la tabla añade una línea para la interacción de
cada uno de los factores intra-sujetos con cada una de las covariables, ya que cada factor
intra-sujetos internamente está compuesto por varias variables cuantitativas que pueden
presentar diferentes pendientes en la regresión en función de la covariable.
Si la representación gráfica habitual para ver si una serie de factores influyen o no en
una variable respuesta cuantitativa (ANOVA) es el denominado gráfico de medias, en
el ANCOVA el efecto de la covariable en la variable respuesta se puede ver mediante
la nube puntos de la variable respuesta en función de la covariable, que presentará un
aspecto más o menos rectilíneo dependiendo del nivel de correlación lineal entre ambas.
Además, también se puede intuir si un determinado factor influye en la variable respuesta
una vez eliminada la influencia de la covariable:
234
12
10
8
Kg perdidos
6
Dieta1
4 Dieta2
0
15 20 25 30 35
IMC
235
los individuos que toman la dieta 1 es mayor (eliminada la pendiente de la recta,
los puntos de la dieta 1 quedarían por arriba).
14
12
10
Kg perdidos
6 Dieta1
Dieta2
4
0
15 20 25 30 35
IMC
Figura 8.5: Nube de puntos con covariable significativa y factor también significativo
• Si la nube de puntos se ajusta adecuadamente con diferentes rectas, una por cada
nivel del factor, con pendientes no nulas pero diferentes, entonces quiere decir que
habría interacción entre covariable y factor y no debería plantearse un modelo de
ANCOVA.
236