0% encontró este documento útil (0 votos)

776 vistas207 páginas

Estadistica

probabilidades

Cargado por

Laly Huarca Ccansaya

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

776 vistas207 páginas

Estadistica

probabilidades

Cargado por

Laly Huarca Ccansaya

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Guillermo Ayala and Francisco Montes Universidad de Valencia

Estadística Básica
2
Copyright ©1 de octubre de 2019
Guillermo Ayala
[Link]@[Link]
This work is free. You can redistribute it and/or modify it under the terms of
the Do What The Fuck You Want To Public License, Version 2, as published by
Sam Hocevar. See [Link] for more details.
ii
Índice general

1 Datos y R 1
1.1 Bibliografía comentada . . . . . . . . . . . . . . . . . 1
1.2 Lo primero . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Lectura y escritura de datos . . . . . . . . . . . . . . . 3
1.3.1 Con Calc de LibreOffice . . . . . . . . . . . . . 4
1.3.2 Lectura de un fichero texto . . . . . . . . . . . 5
1.4 Sobre lo imprescindible en R . . . . . . . . . . . . . . 5
1.4.1 La función c . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Selección de casos . . . . . . . . . . . . . . . . 6
1.5 Algunas cosas útiles R . . . . . . . . . . . . . . . . . . 8
1.5.1 De cómo guardar un dibujo . . . . . . . . . . . 8
1.5.2 De cómo conseguir ayuda con R . . . . . . . . 8
1.5.3 De cómo trabajar con R . . . . . . . . . . . . . 8
1.6 Seguimos con lo básico de R . . . . . . . . . . . . . . . 9
1.7 Dato faltante . . . . . . . . . . . . . . . . . . . . . . . 12
1.8 Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Datos de precipitaciones y temperaturas en la
Comunidad Valenciana . . . . . . . . . . . . . . 12
1.8.2 Concentraciones de ozono . . . . . . . . . . . . 14

2 Estadística descriptiva 15
2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Descriptivas numéricas . . . . . . . . . . . . . . . . . . 16
2.2.1 Media muestral . . . . . . . . . . . . . . . . . . 16
2.2.2 Media ajustada . . . . . . . . . . . . . . . . . . 17
2.2.3 Percentiles . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Varianza y desviación estándar muestrales . . . 19
2.2.5 Rango . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Rango intercuartílico . . . . . . . . . . . . . . 20
2.2.7 La función genérica summary . . . . . . . . . . 20
2.2.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 21
2.3 Descripciones gráficas de los datos . . . . . . . . . . . 21
2.3.1 Añadimos variables y seleccionamos casos o va-
riables . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Frecuencias . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Histograma . . . . . . . . . . . . . . . . . . . . 23
2.3.4 Diagramas de cajas . . . . . . . . . . . . . . . . 23
2.3.5 Estimadores kernel de la densidad . . . . . . . 24
2.3.6 Función de distribución muestral . . . . . . . . 25
2.3.7 Buscando datos anómalos . . . . . . . . . . . . 25
2.3.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 27
2.4 Un dibujo . . . . . . . . . . . . . . . . . . . . . . . . . 28

iii
iv ÍNDICE GENERAL

3 Probabilidad 33
3.1 Determinismo e incertidumbre . . . . . . . . . . . . . . 33
3.2 Probabilidad y sus reglas . . . . . . . . . . . . . . . . 33
3.2.1 Lenguaje y notación . . . . . . . . . . . . . . . 34
3.2.2 Reglas de la probabilidad . . . . . . . . . . . . 35
3.3 La fórmula de Laplace . . . . . . . . . . . . . . . . . . 38
3.3.1 Un poco de teoría . . . . . . . . . . . . . . . . 39
3.4 Probabilidad condicional . . . . . . . . . . . . . . . . . 40
3.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . 40
3.6 Una aplicación de la independencia y de la probabilidad
condicional: el pueblo contra Collins . . . . . . . . . . 41
3.7 Teorema de la probabilidad total . . . . . . . . . . . . 44
3.7.1 Encuesta sobre cuestiones delicadas . . . . . . . 44
3.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . 45
3.8.1 Padre a cara o cruz . . . . . . . . . . . . . . . . 46
3.8.2 Filtrado del correo spam . . . . . . . . . . . . . 47
3.9 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.10 Simulando un experimento con sample . . . . . . . . . 50
3.10.1 Contando: variaciones, permutaciones y combi-
naciones . . . . . . . . . . . . . . . . . . . . . 53
3.10.2 Ejercicios . . . . . . . . . . . . . . . . . . . . . 56

4 Variables aleatorias 59
4.1 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . 60
4.2 La variable aleatoria como modelo probabilístico . . . 60
4.3 Función de distribución de una variable aleatoria . . . 62
4.4 Variable aleatoria discreta . . . . . . . . . . . . . . . . 64
4.4.1 Función de probabilidad o cuantía . . . . . . . 65
4.4.2 Ejercicios . . . . . . . . . . . . . . . . . . . . . 66
4.4.3 Relación con la función de probabilidad y la de
distribución . . . . . . . . . . . . . . . . . . . . 66
4.4.4 Media y varianza de una variable aleatoria dis-
creta . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.5 Variables aleatorias discretas más notables . . . 69
4.4.6 Modelo binomial . . . . . . . . . . . . . . . . . 70
4.4.7 Media y varianza de una variable binomial . . 76
4.4.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 77
4.5 Variable aleatoria continua . . . . . . . . . . . . . . . 78
4.5.1 Función de densidad de probabilidad . . . . . . 79
4.5.2 Relación entre la función de densidad y la de
distribución . . . . . . . . . . . . . . . . . . . . 80
4.5.3 Media y varianza de una variable aleatoria con-
tinua . . . . . . . . . . . . . . . . . . . . . . . . 80
4.5.4 Variable aleatoria uniforme . . . . . . . . . . . 80
4.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6.1 Variable aleatoria normal . . . . . . . . . . . . 83
4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.7.1 Aproximación de la binomial mediante la normal 90

5 Distribución muestral 93
5.1 Población y muestra aleatoria . . . . . . . . . . . . . . 93
5.2 Distribución muestral de una variable binomial . . . . 93
5.2.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 95
5.3 Distribución muestral de la media bajo normalidad . . 95
ÍNDICE GENERAL v

5.3.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 98
5.4 Distribución muestral de la media en poblaciones no
normales. Teorema central del límite . . . . . . . . . . 99
5.4.1 Aproximación de la distribución binomial . . . 99
5.4.2 Ilustración del teorema central del límite . . . . 99
5.4.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . 100

6 Estimación 101
6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2 La población . . . . . . . . . . . . . . . . . . . . . . . 101
6.3 Estimación puntual . . . . . . . . . . . . . . . . . . . . 102
6.4 Algunas definiciones . . . . . . . . . . . . . . . . . . . 103
6.5 Estimación puntual de la media . . . . . . . . . . . . . 104
6.6 Intervalo de confianza para la media . . . . . . . . . . 104
6.6.1 Asumimos que conocemos la varianza . . . . . 104
6.6.2 No asumimos la varianza conocida . . . . . . . 107
6.6.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . 113
6.7 Error absoluto y tamaño de la muestra . . . . . . . . . 113
6.7.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 116
6.8 Estimación de la varianza en poblaciones normales . . 117
6.8.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 118
6.9 Estimación de una proporción . . . . . . . . . . . . . . 118
6.9.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 120
6.10 Tamaño de la muestra en la estimación de una proporción120
6.10.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 121

7 Contraste de hipótesis 123

7.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 123
7.2 Constrastes para una muestra . . . . . . . . . . . . . . 123
7.2.1 Un contraste unilateral . . . . . . . . . . . . . 124
7.2.2 Otro problema de contraste unilateral . . . . . 129
7.2.3 Y, finalmente, el contraste bilateral . . . . . . 131
7.3 Intervalo de confianza y contraste de hipótesis . . . . . 132
7.4 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.5 Contraste de normalidad . . . . . . . . . . . . . . . . 135
7.5.1 Gráficos para evaluar la normalidad . . . . . . 135
7.6 Constrastes de normalidad . . . . . . . . . . . . . . . . 139
7.6.1 Test de Shapiro–Wilk . . . . . . . . . . . . . . 139
7.6.2 Test ji-cuadrado . . . . . . . . . . . . . . . . . 140
7.6.3 Test de Kolmogorov-Smirnov . . . . . . . . . . 140
7.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 141

8 Comparación de dos poblaciones normales 143

8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 143
8.2 Comparación descriptiva de las muestras . . . . . . . . 143
8.3 Comparando las medias de dos poblaciones normales . 147
8.3.1 Estimación de la diferencia de medias . . . . . 147
8.3.2 Contraste de hipótesis . . . . . . . . . . . . . . 150
8.3.3 Los contrastes unilaterales o direccionales . . . 151
8.3.4 Ejercicios . . . . . . . . . . . . . . . . . . . . . 153
8.4 Inferencia sobre las varianzas de dos poblaciones normales153
8.4.1 Estimación del cociente de varianzas . . . . . . 153
8.4.2 Contraste de hipótesis para el cociente de va-
rianzas . . . . . . . . . . . . . . . . . . . . . . 155
8.4.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . 156
vi ÍNDICE GENERAL

8.5 Comparación de medias con muestras apareadas . . . 157

8.5.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 160
8.6 Test de Kolmogorov-Smirnov para dos muestras . . . 162
8.6.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 164
8.7 Ejercicios globales . . . . . . . . . . . . . . . . . . . . 164

9 Correlación y regresión 167

9.1 Curva de descenso de residuo . . . . . . . . . . . . . . 167
9.2 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.3 Regresión lineal simple . . . . . . . . . . . . . . . . . . 168
9.3.1 Intervalos de confianza y contrastes para los co-
eficientes . . . . . . . . . . . . . . . . . . . . . 172
9.3.2 Ejercicios . . . . . . . . . . . . . . . . . . . . . 174
9.4 Coeficiente de correlación de Pearson . . . . . . . . . . 175
9.5 Regresión lineal múltiple . . . . . . . . . . . . . . . . . 178
9.6 Estimación de β . . . . . . . . . . . . . . . . . . . . . 178
9.7 Bondad de ajuste . . . . . . . . . . . . . . . . . . . . 180
9.8 Inferencia sobre el modelo . . . . . . . . . . . . . . . . 182
9.8.1 ¿Podemos prescindir de todas las variables pre-
dictoras? . . . . . . . . . . . . . . . . . . . . . 182
9.8.2 ¿Podemos prescindir de una variable predictora? 183
9.8.3 ¿Podemos prescindir de un conjunto dado de
variables? . . . . . . . . . . . . . . . . . . . . . 184
9.9 Ejemplos de regresión lineal múltiple . . . . . . . . . . 185
9.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 193

10 Soluciones ejercicios seleccionados 199

Capítulo 1

Datos y R

Introducción
Este texto no es más que unas notas de clase con una introducción
a la Estadística básica. Los datos que utilizamos son, en lo posible,
de aplicaciones medioambientales. Sin embargo, las técnicas estadíti-
cas son esencialmente las mismas y con una presentación similar a la
que podemos encontrar en, por ejemplo, un texto de Bioestadística.
Por esta razón en la bibliografía se incluyen buenas referencias biblio-
gráficas de Estadística aplicada a datos medioambientales y a otros
tipos de datos. No asumimos ningún tipo de conocimiento previo de la
Probabilidad. Intentar estudiar Estadística con una orientación (muy
fuertemente) aplicada es inútil si no se dispone de una herramienta
informática de calidad. En nuestro caso la herramienta es [10, R]. 1
La sección § 1.1 comenta las referencias básicas de donde sacamos
el material de la asignatura. En la sección § 1.8 describimos algunos
de los ficheros de datos que utilizamos. 2

1.1 Bibliografía comentada

Estas notas están tomadas (como todo material docente) de otros
textos que son la referencia fundamental. No hay nada de mayor im-
portancia en el estudio que la consulta de los libros, de varios libros,
de modo que busquemos problemas para intentar resolverlos, que vea-
mos distintas notaciones (similares pero no iguales), que veamos cómo
se pueden decir las cosas (otra vez, similares pero no iguales). Que nos
acostumbremos a la búsqueda del material. En esta (desgraciada) épo-
ca lo que no falta es el acceso a la información (y, con más frecuencia,
a la desinformación que surge del exceso de material a consultar). Sin
duda, lo primero en una asignatura es hablar de los libros de los cuales
se nutre y, a los cuales, no se pretende sustituir.
Vamos a comentar algunas referencias bibliográficas generales que
se utilizan en esta asignatura. En cada tema indicaremos la referencia
a consultar indicando siempre que se pueda las páginas concretas.
1 A lo largo de estos apuntes se introducen notas bien a pié de página bien al

margen. No es necesario leerlas para seguir el curso. Es material que no se considera

evaluable en este curso. De hecho, llevan material adicional y no necesario para
seguir las notas. En ocasiones son comentarios para hacer más llevadera la lectura
de este tostón. Una de las muchas pruebas que Dios nos manda.
2 Se pueden encontrar en el directorio DATOS de Aula Virtual.

1
2 CAPÍTULO 1. DATOS Y R

Es importante utilizar la bibliografía. Estas notas son una especie

de guión para estas clases presenciales pero no hay un tratamiento
extenso de los conceptos. Para ello está la bibliografía.
Nuestra referencia básica es [15]. Es un texto no específicamente
dedicado a Estadística medio ambiental pero es correcto y breve. Un
buen libro de texto (muy largo para nuestros objetivos) que inclu-
ye lo que vemos aquí y más cosas es [12]. Es un texto maravilloso
y, con tiempo, el que utilizaríamos como referencia única. Su mayor
inconveniente para esta asignatura es su orientación médica.
Todos los tratamientos estadíticos los realizaremos con [10]. En
particular los autores del texto [11] han desarrollado y lo vamos a
usar sus datos el paquete StatDA.
Otros libros que utilizamos (fundamentalmente para conseguir pro-
blemas) en lo que sigue son [11, 1, 6, 7, 8]. De todos ellos es especial-
mente útil [1].
Para un uso básico de R sin un interés especial sobre datos me-
dioambientales se puede consultar [13, 3]. En particular, el texto [13]
es muy adecuado para el manejo del programa aunque sufre la par-
te de explicación estadítica. Recomendable para aprender R pero no
Estadística. En versiones libres se puede encontrar en
• [Link]
• [Link]
Un texto muy recomendable aunque hace un uso más sofisticado
de R que los anteriores es [2].
Una referencia en castellano muy útil puede ser [Link]
[Link]/moodle/course/[Link]?id=37.

1.2 Lo primero
Vamos a empezar con el manejo básico del lenguaje R. Una vi-
sión general del software y sus posibilidades la podemos encontrar en
[Link]

Instalación Los pasos a seguir son los siguientes:

1. Bajamos el programa de la siguiente dirección [Link]
[Link]/.
2. Podemos bajar y utilizar la versión que necesitemos. En
este curso utilizaremos la versión para Windows 3 aunque
se pueden utilizar las versiones para Linux/GNU o bien
para MacOS X.
3. Una vez hemos bajado el paquete se instala ejecutándolo
con las opciones por defecto.
Inicio de una sesión En el escritorio tenemos el icono de R. Sim-
plemente clicando el icono iniciamos la sesión de trabajo.
Instalación de un paquete R tiene muchos paquetes que extien-
den el R base que acabamos de instalar. De hecho, es casi im-
posible realizar un análisis estadístico por sencillo que sea sin
3 Los comentarios se referirán a la versión de Windows. Un consejo: usad cual-

quiera de las otras y abandonad Windows. Si alguna persona usa Linux que me
consulte.
1.3. LECTURA Y ESCRITURA DE DATOS 3

utilizar paquetes de R. Vamos a instalar el paquete [14]. Es un

paquete con herramientas para la enseñanza de Estadística bá-
sica. Lo podemos hacer de distintas formas.

1. Utilizando Paquetes-Instalar paquetes. Elegimos pre-

viamente el espejo desde donde vamos a bajar este paque-
te.
2. Utilizando [Link], es el procedimiento más sim-
ple.
[Link](``UsingR'')

Cargando un paquete Una vez instalado el paquete, para poder

usar las funciones o datos que contenga, debemos cargarlo me-
diante

library(UsingR)

Ahora podemos utilizar las extensiones que proporciona a R este

paquete.

1.3 Lectura y escritura de datos

Supongamos que hemos recogido unos datos y queremos analizar-
los con R. Hemos de leer estos datos desde R. Hay muchas opciones
para hacerlo.
Lo primero que necesitamos es algún programa para introducirlos
en un fichero que luego leeremos desde R. Utilizamos unos datos reales.
En concreto son las temperaturas máxima y mínima en la ciudad de
Alicante en los años 1939 y 1940 durante cada uno de los 12 meses del
año. Tenemos pues 12 observaciones (meses) y, para cada observación,
las temperaturas máxima y mínima en el año 1939 y 1940. Estas
temperaturas son las variables observadas. Los datos (en décimas de
grado) son los siguientes: tenemos 12 observaciones (corresponden con
las distintas filas) y hemos observado 4 variables (que corresponden
con las cuatro columnas).

1 182 154 82 62
2 180 79
3 183 209 64 93
4 205 224 88 100
5 239 255 112 123
6 267 275 149 150
7 302 303 183 180
8 310 313 189 195
9 291 287 181 164
10 241 237 139 119
11 211 201 90 90
12 176 166 70 54

Hemos de darle un nombre a las columnas que nos identifique la va-

riable. Por ejemplo, los nombres que vamos a usar pueden ser las
siguientes

Mes Nos indica el mes del año.

4 CAPÍTULO 1. DATOS Y R

MaxAlicante39 Temperatura máxima en Alicante en 1939.

MaxAlicante40 Temperatura máxima en Alicante en 1940.

MinAlicante39 Temperatura mínima en Alicante en 1939.

MinAlicante39 Temperatura mínima en Alicante en 1940.

Es importante notar que hay huecos. ¿A qué corresponden estos hue-

cos? Son datos faltantes. En concreto podemos ver en febrero (segun-
da fila) del año 1939 no se observó la temperatera máxima y mínima
(segunda y cuarta columna).
¿Cómo podemos introducir estos datos en un fichero de algún tipo
que luego leamos desde R?

1.3.1 Con Calc de LibreOffice

Podemos utilizar una aplicación como Calc (de LibreOffice) 4 que
nos produzca un fichero texto y luego utilizaremos la función [Link]
para leer los datos.
Es frecuente que se introduzcan datos utilizando una hoja de cálcu-
lo. Una opción cómoda y segura es Calc, versión libre de Excel, in-
cluida en LibreOffice. Se encuentra disponible en la versión Windows
y todos los sistemas operativos. Los pasos a seguir son los siguientes

1. Empezamos por abrir un documento LibreOffice y elegimos la

opción Calc.

2. En la primera línea es conveniente (pero no imprescindible) po-

ner los nombres de las variables. Podemos utilizar los nombres
que sugerimos para nuestros datos. En cualquier caso los nom-
bres de las variables no han de tener blancos y, para no com-
plicarse la vida, lo mejor es que empiecen con alguna letra y
contenga letras y números exclusivamente. Notemos que R di-
ferencia mayúsculas y minúsculas.

3. En la columna correspondiente introducimos los datos anterio-

res, cada variable en una columna distinta. Si no disponemos del
dato (como así es en un par de casos) dejamos en blanco la casi-
lla. Dependiendo de la configuración que tengamos es probable
que Calc necesite la coma para indicar la coma decimal.

4. En Archivo-Guardar como elegimos Texto CSV. Indicamos un

nombre para el fichero, por ejemplo, temperaturas_Alicante_39-
[Link].

5. Marcamos Editar configuración de filtros.

6. Como separador de campo elegimos “;”.5

7. Y ya tenemos un fichero texto.

Nos falta leerlo desde R.

4 La suite LibreOffice la podemos conseguir en [Link] En

este curso todo el software que se utiliza es software libre. Soy de la opinión de
que en educación se debe utilizar exclusivamente software libre.
5 Tiene la ventaja de que no confundimos con la coma decimal.
1.4. SOBRE LO IMPRESCINDIBLE EN R 5

1.3.2 Lectura de un fichero texto

Si tenemos los datos en un fichero texto de modo que en cada línea
tenemos una observación y en cada columna una variable. El fichero a
leer será temperaturas_Alicante_39-[Link]. ¿Cómo leemos estos datos
desde R? Una opción sencilla es con [Link].

x = [Link](file="../data/temperaturas_Alicante_39-[Link]",
dec=".",sep = ";",header = TRUE)

Si el punto decimal lo hemos con una coma entonces cambiamos

dec=”.” por dec=”,”.6 en la primera fila de los datos hemos puesto los
nombres de las variables y esto lo indicamos con header = TRUE.
Podemos ver los datos que acabamos de introducir con

## Mes MaxAlicante39 MaxAlicante40 MinAlicante39

## 1 1 182 154 82
## 2 2 NA 180 NA
## 3 3 183 209 64
## 4 4 205 224 88
## 5 5 239 255 112
## 6 6 267 275 149
## 7 7 302 303 183
## 8 8 310 313 189
## 9 9 291 287 181
## 10 10 241 237 139
## 11 11 211 201 90
## 12 12 176 166 70
## MinAlicante40
## 1 62
## 2 79
## 3 93
## 4 100
## 5 123
## 6 150
## 7 180
## 8 195
## 9 164
## 10 119
## 11 90
## 12 54

1.4 Sobre lo imprescindible en R

En esta sección vamos a ver las funciones que, en mi opinión, son
básicas cuando trabajamos con R.

6 Un consejo, olvidad el sistema español e indicad siempre el decimal con un

punto. Evitaréis problemas. Bueno casi olvidaros de España y viviréis mejor. El

Polo Sur es un buen lugar para establecerse. Al menos, mejor que nuestro país.
6 CAPÍTULO 1. DATOS Y R

1.4.1 La función c
Otro modo (menos elegante) de declararle a R datos es la siguiente.

x = c(35.84122,28.95458,36.02971,33.13809,39.55091,39.48182,27.52009,32.58105,
31.54865,36.73312,33.87558,30.05730,29.45515,38.70321,34.80034,35.86523,
32.76480,35.94576,30.44356,38.75483,31.21475,33.15148,36.17373,28.34059,
40.52086,39.34035,34.26828,41.92718,34.83630,43.46855)

La función c nos sirva para concatenar uno detrás de otro los datos
numéricos. Veamos si lo hemos hecho bien.
x

## [1] 35.84122 28.95458 36.02971 33.13809 39.55091

## [6] 39.48182 27.52009 32.58105 31.54865 36.73312
## [11] 33.87558 30.05730 29.45515 38.70321 34.80034
## [16] 35.86523 32.76480 35.94576 30.44356 38.75483
## [21] 31.21475 33.15148 36.17373 28.34059 40.52086
## [26] 39.34035 34.26828 41.92718 34.83630 43.46855

1.4.2 Selección de casos

¿Cuál es el primer valor de este vector de datos?

x[1]

## [1] 35.84122

¿Y el que ocupa la posición 13?

x[13]

## [1] 29.45515

Podemos ver los datos que están entre el 13 y el 23. Para ello
fijémonos en el siguiente código.

13:23

## [1] 13 14 15 16 17 18 19 20 21 22 23

Cuando ponemos dos enteros separados por : nos devuelve todos

los enteros entre el primero y el segundo. Ahora podemos ver los datos
que ocupan estas posiciones en el vector x.

x[13:23]

## [1] 29.45515 38.70321 34.80034 35.86523 32.76480

## [6] 35.94576 30.44356 38.75483 31.21475 33.15148
## [11] 36.17373

Podemos tener interés en saber los valores de los datos que ocupan
las posiciones 7, 9 y de la 20 a la 25. Estas posiciones las podemos
obtener con
1.4. SOBRE LO IMPRESCINDIBLE EN R 7

c(7,9,20:25)

## [1] 7 9 20 21 22 23 24 25

y los valores de x serían

x[c(7,9,20:25)]

## [1] 27.52009 31.54865 38.75483 31.21475 33.15148

## [6] 36.17373 28.34059 40.52086

Puede que nuestro interés en ver los datos no venga dado por la
posición que ocupan sino por su valor. Por ejemplo, queremos saber
cuántos de estos datos superan o son iguales a 35. ¿Cómo lo hacemos?
Lo lógico es comparar los valores de x con 35. Lo hacemos con

x >= 35

## [1] TRUE FALSE TRUE FALSE TRUE TRUE FALSE

## [8] FALSE FALSE TRUE FALSE FALSE FALSE TRUE
## [15] FALSE TRUE FALSE TRUE FALSE TRUE FALSE
## [22] FALSE TRUE FALSE TRUE TRUE FALSE TRUE
## [29] FALSE TRUE

Vemos que nos devuelve un vector diciéndonos si es cierta o no la

condición que hemos preguntado, si es mayor o igual a 35. Pero: ¿qué
valores son? Si hacemos

x[x >= 35]

## [1] 35.84122 36.02971 39.55091 39.48182 36.73312

## [6] 38.70321 35.86523 35.94576 38.75483 36.17373
## [11] 40.52086 39.34035 41.92718 43.46855

Nos devuelve los datos que ocupan las posiciones donde se daba la
condición, donde la condición era cierta. Podemos saber qué valores
toman los datos que son mayores que 37 con

x[x > 37]

## [1] 39.55091 39.48182 38.70321 38.75483 40.52086

## [6] 39.34035 41.92718 43.46855

o bien los datos que son mayores que 35 y menores o iguales que
37.

x[x > 35 & x <= 37]

## [1] 35.84122 36.02971 36.73312 35.86523 35.94576

## [6] 36.17373

Podemos querer que los casos que estamos seleccionando estén en

un nuevo vector.
8 CAPÍTULO 1. DATOS Y R

y = x[x > 35 & x <= 37]

y podemos ver los valores de y.

## [1] 35.84122 36.02971 36.73312 35.86523 35.94576

## [6] 36.17373

1.5 Algunas cosas útiles R

1.5.1 De cómo guardar un dibujo
Primero hemos de hacerlo. Supongamos que queremos un histo-
grama de los datos que tenemos en el vector x (figura 5.1) y lo pre-
tendemos guardar en una imagen con formato png.

library(ggplot2)
df = [Link](x)
p = ggplot(df,aes(x=x)) + geom_histogram()
ggsave("figures/[Link]",p)

1.5.2 De cómo conseguir ayuda con R

Supongamos que buscamos ayuda sobre las opciones de la función
Figura 1.1: Histograma que nos dibuja un histograma, hist.
Lo más simple es utilizar la ayuda en html. Utilizamos la siguiente
función.

[Link]()

Vemos que nos abre el navegador y nos ofrece distintas opciones.

Quizás la opción más simple sea utilizar la herramienta de búsqueda.
Otra opción es, en línea de comandos escribir

?hist

O simplemente,

help(hist)

1.5.3 De cómo trabajar con R

Hay dos formas de trabajar con R. La primera opción es utilizar
un editor en el que escribimos código de R. Lo copiamos y luego lo
pegamos en la línea de comandos de R.7 Dentro de esta manera de
trabajar podemos utilizar distintas editores (que llevan herramientas
para facilitarnos el trabajo).
7 Es la opción más educativa en donde aprendemos realmente a trabajar con el

programa.
1.6. SEGUIMOS CON LO BÁSICO DE R 9

Con el editor de R El propio programa lleva un editor incorpora-

do. Es básico pero suficiente. Es la opción que utilizaremos en
las clases prácticas.

TinnR En Windows se puede usar el programa TinnR que lo pode-

mos descargar desde [Link]

Bloc de notas Por último una opción simple y efectiva es abrir un

editor de textos (como el bloc de notas pero no el Word) e ir
escribiendo el código allí. Luego aplicamos el famoso copiar y
pegar.

RStudio Quizás ahora mismo sea la mejor opción. Es un programa

que incorpora el editor, nos muestra las salidas, los gráficos y la
historia previa. De manejo muy simple. [Link]

Otra opción es utilizar un interfaz gráfico. La opción a la que más

acostumbrados estamos y, creemos, es más sencilla.8
Una vez hemos instalado RStudio lo ejecutamos pinchando en el
icono y obtenemos una pantalla como aparece en la figura 1.2.

Figura 1.2: Pantalla de inicio de RStudio.

1.6 Seguimos con lo básico de R

En esta sección pretendemos ver cómo trabajar de un modo simple
con las variables que componen el banco de datos. Vamos a utilizar
unos datos sobre calidad del aire. Estos datos los tenemos en el pa-
quete [R-datasets]. por lo que empezamos cargando el paquete.

8 No es mi opinión. Encuentro mucho más difícil esta opción pero para gustos
...
10 CAPÍTULO 1. DATOS Y R

library(datasets)

Los datos se llaman airquality. Con el siguiente código podemos

obtener información sobre los datos que vamos a manejar.

help(airquality)

Adjuntamos para poder usar los nombres de las variables.

attach(airquality)

Nos fijamos en lo que sigue en las variables Ozone y Month (cuyo

significado podemos consultar con la ayuda anterior).
Podemos ver las cinco primeras mediciones de ozono con

Ozone[1:5]

## [1] 41 36 12 18 NA

o bien la muestra que ocupa la posición 100 en el vector de datos.

Ozone[100]

## [1] 89

También podemos queremos ver conjuntamente los datos de la

muestra 23, esto es, tanto el ozono como el mes con

c(Ozone[23],Month[23])

## [1] 4 5

Podemos querer conocer qué cuáles son los datos correspondientes

a mayo con

which(Month == 5)

## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
## [16] 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
## [31] 31

y las concentraciones serían

Ozone[which(Month == 5)]

## [1] 41 36 12 18 NA 28 23 19 8 NA 7
## [12] 16 11 14 18 14 34 6 30 11 1 11
## [23] 4 32 NA NA NA 23 45 115 37

Podemos contar el número de datos que tenemos de cada mes con

1.6. SEGUIMOS CON LO BÁSICO DE R 11

length(which(Month == 5))

## [1] 31

length(which(Month == 6))

## [1] 30

length(which(Month == 7))

## [1] 31

Una forma bastante más sencilla de hacerlo es hacer una tabla que
nos lo cuente. Por ejemplo con

table(Month)

## Month
## 5 6 7 8 9
## 31 30 31 31 30

¿ Qué observación corresponde con la máxima concentración de

ozono?

[Link](Ozone)

## [1] 117

y toda la información de dicha observación vendría dada por

airquality[[Link](Ozone),]

## Ozone Solar.R Wind Temp Month Day

## 117 168 238 3.4 81 8 25

Cuando nos planteamos transformar los datos originales aplicando

alguna función como la raiz cuadrada simplemente hemos de hacer lo
siguiente (mostramos los cinco primeros datos)

sqrt(Ozone)[1:5]

## [1] 6.403124 6.000000 3.464102 4.242641 NA

Podemos plantearnos ver cuántos valores superan una concentra-

ción de 40 unidades. Esto lo podemos hacer con

which(Ozone >= 40)

## [1] 1 29 30 40 62 63 66 67 68 69 70
## [12] 71 77 79 80 81 85 86 88 89 90 91
## [23] 92 96 98 99 100 101 104 106 109 112 116
## [34] 117 118 120 121 122 123 124 125 126 127 128
## [45] 134 139
12 CAPÍTULO 1. DATOS Y R

1.7 Dato faltante

Con mucha frecuencia no tenemos todas las variables observadas
sobre todas las observaciones, esto es, no tenemos observaciones com-
pletas. Por ejemplo, en la serie de temperaturas en Alicante nos faltan
datos del año 1939. ¿Cómo manejamos los datos faltantes con R? Te-
nemos distintas opciones.
Si los datos los hemos introducido en un fichero utilizando Calc (o
Excel) entonces cuando no tenemos el dato correspondiente dejamos
en blanco la casilla. Cuando luego leemos los datos en R ese dato lo
tendrá como dato faltante.
Si utilizamos un editor de texto (como Bloc de Notas en Windows)
entonces con NA indicamos que tenemos un dato faltante. No podemos
dejar el hueco sin más.
Por ejemplo, consideremos los siguientes datos.

1 182 154 82 62
2 NA 180 NA 79
3 183 209 64 93
4 205 224 88 100
5 239 255 112 123
6 267 275 149 150
7 302 303 183 180
8 310 313 189 195
9 291 287 181 164
10 241 237 139 119
11 211 201 90 90
12 176 166 70 54

Podemos copiar y pegar las filas anteriores en un fichero de texto.

Cuando leemos los datos con [Link] las variables donde hemos
indicado NA las entiende como dato faltante.

1.8 Datos
En este curso usaremos distintos bancos de datos. Algunos de ellos
son datos propios que podéis encontrar en el Aula Virtual.

1.8.1 Datos de precipitaciones y temperaturas en

la Comunidad Valenciana
Comentamos distintos datos de precipitaciones y temperaturas co-
rrespondientes a las poblaciones de Orihuela, Alicante, Utiel, Valen-
cia, Castellón y Morella. 9 Todos los datos están en décimas de grados
(para las temperaturas) o en décimas de mm (1 mm de lluvia = 1
litro/m2).

Pdiaria Nuestro banco de datos se refiere a la precipitación diaria

de 7 de la mañana de un día a 7 de la mañana del día siguiente en
2010. Las variables son que aparecen en este banco de datos son:

INDICATIVO Un código indicativo de la población.

9 Estos datos han sido proporcionados amablemente por la Agencia Estatal de

Metereología. Agradezco especialmente a Braulio Aguilar su colaboración.

1.8. DATOS 13

ANYO Año.

MES Mes del año indicado con el número.

NOMBRE Nombre de la población.

ALTITUD En metros.

CX Coordenada geográfica x.

CY Coordenada geográfica y.

P1 Precipitación el día 1. De un modo análogo P2 indica precipita-

ción el segundo día y así sucesivamente.

Las precipitaciones son indicadas en décimas de milímetro de modo

que un milímetro de lluvia corresponde con un litro por metro cua-
drado. El valor -3 indica que la cantidad registrada es inapreciable.
El valor -4 indica que el valor que observamos es un valor acumulado
de días consecutivos (no se realizó la medida en sus días correspon-
dientes).

Tdiaria Nuestro banco de datos se refiere a las temperaturas má-

xima y mínima en cada día. Las variables son:

INDICATIVO Un código indicativo de la población.

ANYO Año.

MES Mes del año indicado con el número.

NOMBRE Nombre de la población.

ALTITUD

CX Coordenada geográfica.

CY Coordenada geográfica.

TMAX1 Temperatura máxima el día 1. Análogamente tenemos las

variables que nos dan la temperatura para cada día del mes.

TMIN1 Temperatura mínima el día 1. Análogamente tenemos las

variables que nos dan la temperatura mínima para cada día del
mes.

Las temperaturas aparecen en décimas de grado.

Precipitacion1964-2011 Recoge la precipitación mensual, desde

que se tienen registros, para distintas localidades de la Comunidad
Valenciana.

INDICATIVO Un código indicativo de la población.

ANYO Año.

MES Mes del año indicado con el número.

NOMBRE Nombre de la población.

ALTITUD En metros.
14 CAPÍTULO 1. DATOS Y R

CX Coordenada geográfica.
CY Coordenada geográfica.
PMES77 Es la precipitación mensual obtenida sumando las precipi-
taciones diarias de 7 de la mañana de un día a 7 de la mañana
del día siguiente.
PMAX Es la precipitación diaria máxima en ese mes. No se indica
el día que se produjo.

Temperatura1964-2011 Es la temperatura máxima y mínima

mensual de distintas estaciones desde que se tienen registros para
distintas localidades de la Comunidad Valenciana.

alicante_temperaturas_mes_1939_2010 Son datos relativos

a temperaturas en la ciudad de Alicante desde el año 1939 hasta el
año 2010. Las observaciones corresponden con meses del año. Como
variables tenemos el mes así como las temperaturas máxima y míni-
ma en cada uno de los años considerados. Las variables tmax1939 y
tmin1939 corresponden con la temperatura máxima y mínima en el
año 1939.

alicante_temperaturas_anyo_1939_2010 Son datos relati-

vos a temperaturas en la ciudad de Alicante desde el año 1939 hasta
el año 2010. Las observaciones corresponden con los años. Como va-
riables tenemos el año en que observamos así como las temperaturas
máxima y mínima en cada uno de los meses. En concreto las variables
tmax1 y tmin1 corresponden con la temperatura máxima y mínima
en el primer mes, es decir, enero.

1.8.2 Concentraciones de ozono

El fichero [Link] tiene los datos sobre las concentraciones
de ozono en distintas ciudades durante el año 2011 (son datos modi-
ficados a partir de datos reales). La unidad son partes por cada mil
millones. Una concentración alta en el aire es un problema de salud
de importancia. Las normativas de los distintos países fijan los niveles
máximos (y el tiempo que se pueden sobrepasar). Las variables que
aparecen el banco de datos son:

dia Día del año (de 1 a 365).

estacion La estación.
Santiago La concentración media durante el día en Santiago. De
un modo análogo las variables Madrid, Murcia, Godella,
Zaragoza contiene la concentración en el día correspondiente
en estas ciudades.
Ej. 1 — Bajar del Aula Virtual el fichero alicante_temperaturas_1939_2010.txt
y leed los datos utilizando las funciones [Link] y [Link].
¿Cuántas variables tenemos? ¿De qué tipo son? ¿Cuántas observa-
ciones tenemos?
1
El paquete datasets forma Ej. 2 — Cargar en R los datos airquality del paquete datasets.1
parte de R base.
Capítulo 2

Estadística descriptiva

2.1 Introducción
Tenemos unos datos numéricos. Ejemplos de datos medio ambien-
tales son temperaturas o precipitaciones observados en una localiza-
ción geográfica y un día determinado. Podemos tener muestras de agua
en las que determinamos la demanda química o biológica de oxígeno.

Ejemplo 2.1 Se han tomado mediciones de la concentración de ni-

trito en agua utilizando el método de electrodo directo selectivo de
iones (ISE). Los datos son los siguientes:
0.32 0.36 0.24 0.11 0.11 0.44 2.79 2.99 3.47 0.23 0.55
3.21 4.02 0.23

En el ejemplo 2.1 tenemos unos datos que hemos observados en

distintas muestras de agua. De un modo genérico denotaremos por
x1 el primer valor observado, por x2 el segundo valor observado y así
sucesivamente. En el lenguaje estadístico a esto se le llama una mues-
tra. Por ello, diremos que tenemos una muestra x1 , . . . , xn de n datos.
Se entiende que estos datos se han tomado en unas condiciones simi-
lares. ¿Cómo son estos datos? Pretendemos describirlos de un modo
sencillo. Esta descripción será de dos tipos: una descripción numérica,
describimos muchos números con unos pocos números que tengan un
sentido claro; y una descripción gráfica. Describimos los números con
gráficos que destaquen sus propiedades básicas. Al conjunto de técni-
cas que nos dan descripciones numéricas y gráficas de un conjunto de
datos reciben el nombre de Estadística descriptiva y, con frecuen-
cia, simplemente descriptiva. Se habla de la descriptiva de los datos.
Veremos que son ideas sencillas pero de un uso constante.
Cuando se describen los datos las preguntas básicas que hemos de
tener en la cabeza pueden ser:
1. ¿De qué orden son?
2. ¿Cómo de dispersos están?
3. ¿Hay datos anormales que estén muy alejados de los demás?
En la primera pregunta intentamos localizar los valores: ¿estamos
alrededor de 2?, ¿o bien alrededor de 20?, ¿o alrededor de 200000?
Pretendemos localizar la muestra, dar un valor representativo de todos
ellos. En la segunda pregunta nos preguntamos si los datos se agrupan

15
16 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

si están próximos entre sí. Por último, nos planteamos si tenemos datos
que son anormales. Obviamente lo que es anormal depende de cómo
son los otros. Por ejemplo, si medimos nivel de radioactividad cerca
de un reactor nuclear podemos observar valores que serían anormales
si los agrupamos con mediciones tomadas en una zona muy alejada
de cualquier central nuclear. Sin embargo, no lo son en el entorno de
dicha central.

2.2 Descriptivas numéricas

Empezamos con las descripciones numéricas. Leemos los datos del
ejemplo 2.1.

x = c(0.32,0.36,0.24,0.11,0.11,0.44,2.79,2.99,3.47,0.23,0.55,
3.21,4.02,0.23)

De un modo genérico se pretende describir un conjunto de datos

numéricos mediante unos pocos números (elegidos, eso sí, con gracia).
En particular vamos a considerar medidas de localización y medidas de
dispersión. Las medidas de localización intentan responder la pregun-
ta que veíamos antes de: ¿de qué orden son los datos? Las medidas
de dispersión intentan responder a la segunda pregunta, ¿cómo de
dispersos son los datos? ¿Cómo de variables son los datos?
Como medidas de localización veremos la media y medianas mues-
trales fundamentalmente y como medidas de dispersión básicas vere-
mos la varianza y desviación típica muestrales.

2.2.1 Media muestral

La medida de localización más utilizada es la media aritmética o
media muestral (que es el nombre habitualmente usado en Estadística)
que se define como
Xn
xi
x̄ = . (2.1)
i=1
n

La podemos calcular con

mean(x)

## [1] 1.362143

Notemos que si conocemos solamente la variable x y queremos

saber cuántos datos tenemos lo mejor es hacer

length(x)

## [1] 14

Y, aunque no muy recomendable, otro modo de calcular la media

muestral es calcular la suma y dividir por el número de términos que
estamos sumando. Esto lo podemos hacer utilizando las funciones sum
y length.
2.2. DESCRIPTIVAS NUMÉRICAS 17

sum(x)/length(x)

## [1] 1.362143

2.2.2 Media ajustada

La media muestral es, sin duda, la mejor forma de localizar una
muestra. No obstante es muy sensible a datos anómalos o extremos
(y que con frecuencia son errores introducidos en el banco de datos).
Por ejemplo, a nuestros datos originales les vamos a añadir un dato
anómalo. Le añadimos el valor 34.

(xx = c(x,34))

## [1] 0.32 0.36 0.24 0.11 0.11 0.44 2.79

## [8] 2.99 3.47 0.23 0.55 3.21 4.02 0.23
## [15] 34.00

Podemos comparar la media original y la nueva media muestral.

mean(x)

## [1] 1.362143

mean(xx)

## [1] 3.538

Se ha modificado muchísimo. Puede que el dato sea real pero pue-

de que sea un error. En cualquier caso es un único valor entre otros
muchos. Puede interesarnos localizar nuestra muestra sin atender a
estos datos anómalos. ¿Cómo? Una opción simple es fijarnos en una
cierta proporción de los datos, por ejemplo, una proporción α y elimi-
nar el α por uno de los datos más pequeños y el α por uno de los más
grandes. La media de los que quedan es la media ajustada. La media
ajustada se obtiene con mean indicándole un parámetro adicional.

mean(x,trim=.1)

## [1] 1.245

Estamos eliminando el 10% de los datos mayores y el 10% de los

datos menores. La media de los restantes es nuestra media ajustada.
Ahora podemos comparar la media ajustada de los datos originales y
de los datos con la observación anómala.

mean(x,trim=.1)

## [1] 1.245

mean(xx,trim=.1)

## [1] 1.458462

Vemos cómo no se ha modificado demasiado. Estamos describiendo

la localización de la parte central de los datos despreciando los datos
extremos a ambos lados.
18 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

2.2.3 Percentiles
Otro manera de localizar los datos es utilizar los percentiles mues-
trales. Supongamos que tomamos un valor p entre 0 y 1. El percentil
de orden p es un valor que tiene por debajo el 100 × p por ciento de
los datos y por encima el 100 × (1 − p) por ciento. Denotaremos el
percentil de orden p como qp . De un modo algo más formal podemos
definir un percentil de orden p como el valor qp tal que

|{xi : xi ≤ qp }
≥p (2.2)
n
y
|{xi : xi ≥ qp }
≥1−p (2.3)
n
Ordenamos nuestros datos de menor a mayor con la función sort.

sort(x)

## [1] 0.11 0.11 0.23 0.23 0.24 0.32 0.36 0.44 0.55
## [10] 2.79 2.99 3.21 3.47 4.02

¿Cuántos de los datos originales son menores o iguales a 1? Po-

demos contar a mano. 1 Otra posibilidad es utilizar la función ecdf.

Fn = ecdf(x)
Fn(1)

## [1] 0.6428571

Vemos pues que la proporción de datos que son inferiores a 1 es de

0.6428571. O dicho de otro modo: el valor 1 es el percentil de orden
0.6428571 de los datos.
La función básica para calcular los cuantiles es quantile. El detalle
exacto del procedimiento utilizado para estimar estos valores se puede
consultar con help(quantile). 2
La mediana muestral es el percentil de orden 0.5 esto es por debajo
tiene al menos la mitad de los datos y por encima la otra mitad. La
podemos obtener con

median(x)

## [1] 0.4

De hecho, podemos plantearnos cómo conseguir un percentil de

orden p (con 0 < p < 1) arbitrario. Tomemos p = 0.27.

quantile(x,probs = 0.27)

## 27%
## 0.2351
1 Cosa antigua en franco retroceso y que no está prohibido hacer. El inconve-

niente es cuando tenemos centenares o miles de observaciones.

2 Se pueden ver hasta nueve procedimientos distintos.
2.2. DESCRIPTIVAS NUMÉRICAS 19

O bien p = 0.76

quantile(x,probs = 0.76)

## 76%
## 2.966

Cuando p = 0.25 al percentil le llamamos cuartil inferior. Si p =

0.75 tenemos el cuartil superior.

quantile(x,probs = c(0.25,0.75))

## 25% 75%
## 0.2325 2.9400

En general los cuartiles son

quantile(x,probs = c(.25,.5,.75))

## 25% 50% 75%

## 0.2325 0.4000 2.9400

2.2.4 Varianza y desviación estándar muestrales

Ahora pretendemos cuantificar lo dispersos que están nuestros da-
tos. Las dos medidas más utilizadas son la varianza y la desviación
estándar. La varianza muestral se define como
X
n
(xi − x̄)2
s2 = , (2.4)
i=1
n−1

y la desviación estándar (o típica) muestral se define como

v
u n
√ uX (xi − x̄)2
s= s =t2 . (2.5)
i=1
n−1

La varianza se puede calcular con

var(x)

## [1] 2.32071

y la desviación estándar la obtenemos con

sd(x)

## [1] 1.523388

2.2.5 Rango
El mínimo y el máximo lo podemos obtener con
20 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

range(x)

## [1] 0.11 4.02

o bien con

min(x)

## [1] 0.11

max(x)

## [1] 4.02

El rango, esto es, el máximo valor menos el mínimo valor lo pode-

mos obtener con

max(x)-min(x)

## [1] 3.91

o bien con

diff(range(x))

## [1] 3.91

2.2.6 Rango intercuartílico

Una medida más robusta que el rango es el rango intercuartílico.
Se define como la diferencia entre los percentiles de orden 0.75 y 0.25,
es decir, el cuartil superior menos el cuartil inferior. Se puede obtener
con

IQR(x)

## [1] 2.7075

2.2.7 La función genérica summary

Es una función que nos proporciona una descripción básica de los
datos. En concreto, nos da el mínimo, el primer cuartil, la media, la
mediana, el tercer cuartil y el máximo.

summary(x)

## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 0.1100 0.2325 0.4000 1.3621 2.9400 4.0200

Sin duda, es la opción más simple para obtener una descripción

rápida de los datos.
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 21

2.2.8 Ejercicios
Ej. 3 — Consideremos los siguientes datos.
## [1] 22.03496 38.72421 26.08120 41.88097 43.79577
## [6] 13.96840 30.05176 42.19433 30.82933 27.66897
## [11] 44.34126 27.55963 35.03343 31.53587 15.88048
## [16] 42.44117 20.65210 13.85184 23.37960 44.26361
## [21] 42.09835 35.54114 33.79809 45.58901 34.30467
## [26] 36.06532 30.58372 32.25275 22.08769 17.35330
## [31] 44.54760 42.52363 35.47121 38.96293 13.27037
## [36] 28.37494 37.72946 19.66288 23.05497 20.17009
## [41] 17.20952 26.26683 26.23943 24.74362 17.53098
## [46] 17.07641 20.21703 27.98053 21.31487 41.04140
## [51] 13.97755 27.18853 39.07817 16.51290 31.14640
## [56] 19.33369 16.70063 37.55775 42.28186 24.93084
## [61] 34.61829 15.61104 25.24771 21.59521 39.60195
## [66] 27.39905 39.44944 39.52694 38.92543 27.10959
## [71] 37.59666 33.42194 36.12038 12.47082 28.29230
## [76] 19.78656 25.10929 32.87366 24.17542 16.15414
## [81] 20.56984 34.71629 26.37017 38.72057 15.87848
## [86] 26.94498 45.27862 42.21539 41.99601 18.28450
## [91] 16.80609 34.21789 23.89940 34.33975 23.12804
## [96] 18.70575 38.52387 15.56952 28.00775 29.49848
## [101] 32.44763 23.54301 28.73547 44.26261 28.54514
## [106] 42.12537 42.92822 32.73914 26.13829 17.35267
## [111] 43.62354 22.48996 14.47382 44.03774 36.46747
## [116] 17.19267 30.75766 44.24986 31.96416 25.93233
Se pide:
[Link] los datos utilizando el método que se prefiera.
[Link] la media, mediana, media recortada con una proporción
del 0.05, los percentiles de orden 0.1 y 0.9.
[Link] que se han seguido recogiendo datos. En concreto
una segunda muestra con los siguientes valores.
c(123.34, 78.23, 89.6, 1.2)
## [1] 123.34 78.23 89.60 1.20

Incorporar estas nuevas observaciones a los datos originales y

calcular las descriptivas numéricas anteriores sobre los nuevos
datos. Indicar cuáles de ellas varían y cuáles no justificando la
respuesta.

2.3 Descripciones gráficas de los datos

En esta sección pretendemos ver algunas de las descripciones grá-
ficas para variables numéricas y categóricas.

2.3.1 Añadimos variables y seleccionamos casos o

variables
Vamos a añadir más información en nuestro banco de datos. Segui-
mos con las concentraciones de nitritos del ejemplo 2.1. En concreto
se sabe que las muestras de agua se tomaron en dos localizaciones de
22 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

la Albufera distintas. Las primeras 8 muestras se tomaron en el puerto

de Catarroja y las 6 últimas muestras se tomaron en El Palmar. Esta
información la guardamos en un vector

y = c(1,1,1,1,1,1,1,1,2,2,2,2,2,2)

2.3.2 Frecuencias
La segunda variable que hemos introducido en el banco de datos
es la zona en que tomamos la medida. Es pues una variable categórica
que nos indica la pertenencia del dato a una categoría, en este caso, la
zona en que se observa el dato. La descripción básica más simple son
los conteos o frecuencias absolutas. Contamos el número de veces que
se repiten cada una de las categorías. Tendremos el número de datos
que se ha observado en cada zona. Los obtenemos de un modo simple
con la función table.

table(y)

## y
## 1 2
## 8 6

Si dividimos las frecuencias absolutas por el número total de datos

tenemos las frecuencias relativas. Por ejemplo, con

[Link](table(y))

## y
## 1 2
## 0.5714286 0.4285714

O, de otro modo, si sumamos la tabla nos da el total de casos

sum(table(y))

## [1] 14

y podemos obtener las frecuencias relativas dividiendo los conteos

o frecuencias absolutas por esta suma.

table(y)/sum(table(y))

## y
## 1 2
## 0.5714286 0.4285714

Las frecuencias absolutas las podemos representar gráficamente

con un diagrama de barras (figura 2.1).

library(ggplot2)
df = [Link](y)
ggplot(df,aes(x=y))+geom_bar()

Figura 2.1: Diagrama de barras

con las frecuencias absolutas.
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 23

2.3.3 Histograma
Para una variable cuantitativa una buena opción para observar la
distribución de los datos es un histograma. La idea de un histograma es
(demasiado) simple. Si x1 , . . . , xn son los datos de los cuales queremos
construir el histograma consideramos el intervalo que va del mínimo
al máximo, es decir, el intervalo

[a, b] = [min{x1 , . . . , xn }, max{x1 , . . . , xn }]

y lo subdivimos en un número de subintervalos con la misma longi-

tud. A estos subintervalos se les suele llamar clases. Supongamos que
elegimos k clases. Entonces los subintervalos que consideramos son

[a, a + δ), [a + δ, a + 2δ), . . . , [a + (k − 1)δ, b]

donde
b−a
δ=
k
Dependiendo del software que utilicemos los valores de a y b suelen
elegirse como un poco menos que el mínimo y un poco más que el
mínimo. El número de clases se elige de un modo automático pero
siempre modificable por el usuario. Contamos el número de datos
que hay en cada clase. Representamos una barras (que se representan
pegadas una con otra lo que también nos permite diferenciarlo de un
diagrama de barras) cuya base coincide con el subintervalo y cuya
altura es proporcional al número de datos que hemos observado en
dicho subintervalo. Este es el dibujo. Veamos cómo hacerlo con R.
Si no le indicamos nada el programa decide el número de clases o
subintervalos (figura 2.2).

library(ggplot2)
df = [Link](x)
ggplot(df,aes(x=x))+geom_histogram()

2.3.4 Diagramas de cajas

Es un dibujo basado en los cuartiles. 3 La idea es representar una
caja como la parte que más destaca en el dibujo. Dentro de la caja se Figura 2.2: Histograma.
representa con una línea (algo más gruesa habitualmente) la mediana.
Los extremos de la caja coinciden con los percentiles del 25% y del
75%. La longitud de la caja es la diferencia de estos percentiles, es
decir, el rango intercuartílico. La caja muestra la distribución de la
mitad de los datos, la mitad de los datos que están centrados.
Se le añaden unos bigotes que salen de la caja. Son unas líneas que
describen la variabilidad de los datos que están en los extremos. Hay
varias opciones para elegir el punto al que llegan los bigotes. Entre
otras opciones las dos más habituales son:

1. Que lleguen al mínimo y al máximo de los datos.

2. Que lleguen al mínimo y al máximo de los datos que están en

el intervalo que tiene por extremo inferior el percentil del 25%
3 Una buena explicación se puede consultar en
[Link]
24 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

menos 1.5 veces el rango intercuartílico y por extremo superior

el percentil del 75% mas 1.5 veces el rango intercuartílico. Este
valor de 1.5 obviamente podemos modificarlo.

Supongamos que nos planteamos representar un diagrama de cajas de

toda la muestra. En la figura 2.3 tenemos el resultado.

df = [Link](x)
ggplot(df,aes(y=x))+geom_boxplot()

Vamos a añadir a los datos que tenemos unos cuantos valores ex-
tremos. En concreto que sean mucho mayores que los que tenemos

Figura 2.3: Diagrama de cajas. x1 = c(x,c(7,9))

Representamos el diagrama de cajas con los nuevos datos en la

figura 2.4.

df = [Link](x1)
ggplot(df,aes(y=x1))+geom_boxplot()

No parece que sea la mejor opción (es una opinión claro). Quizás
la mayor utilidad de un diagrama de cajas es comparar submuestras,
esto es, partes distintas de la muestra. Por ejemplo, para los grupos
definidos por la variable categórica y (figura 2.5).
Figura 2.4: Diagrama de cajas
añadiendo casos extremos.
df = [Link](x,y)
ggplot(df,aes(y=x,group=y))+geom_boxplot()

Es un dibujo simple que nos proporciona una comparación rápida

de las dos muestras.

2.3.5 Estimadores kernel de la densidad

Un gráfico alternativo (y de mucha más calidad) es el estimador
kernel de la densidad cuya expresión viene dada por
Figura 2.5: Diagrama de cajas X
n
1 xi − x
comparando muestras. fˆ(x) = K ,
i
nh h

donde la función K es no negativa y verifica

Z +∞
K(u)du = 1,
−∞

y
K(−u) = K(u),
es decir, es simétrica respecto del origen. Diversos ejemplos se pueden
encontrar en [Link]
En la figura 2.6 aparece un estimador kernel de la densidad utili-
zando una función kernel gaussiana.
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 25

df = [Link](x)
ggplot(df,aes(x=x))+geom_density()

2.3.6 Función de distribución muestral

Dados los datos x1 , . . . , xn , la función de distribución muestral se
define como
|{xi : xi ≤ x}|
Fn (x) = , (2.6)
n
donde | · | denota el cardinal, esto es, el número de elementos del Figura 2.6: Estimador kernel de la
función de densidad.
conjunto. Para cada punto x consideramos el conjunto formado por
todos los datos xi que son menores o iguales que x. Contamos el
número de puntos en este conjunto (su cardinal) y lo dividimos por el
total de datos. En resumen, Fn (x) nos da la proporción de datos que
son menores o iguales que x. Y esto lo consideramos para todos los
valores de x posibles.
Vamos a considerar dos funciones para obtener la función de dis-
tribución muestral. La primera es la función ecdf y podemos verla en
las figuras 2.7 y 2.8.

df = [Link](x)
ggplot(df,aes(x=x))+stat_ecdf(geom = "point")

df = [Link](x)
ggplot(df,aes(x=x))+stat_ecdf(geom = "step")

Si queremos conocer el valor de Fn en un valor determinado, por Figura 2.7: Función de distribu-
ción muestral.
ejemplo para x = 37 podemos hacer

ecdf(x)(37)

## [1] 1

o bien en 40,

ecdf(x)(40)

## [1] 1
Figura 2.8: Función de distribu-
ción muestral.
2.3.7 Buscando datos anómalos
Tenemos unos datos numéricos x1 , . . . , xn y queremos saber si hay
alguno que se sale de madre. Si hay alguno que está muy alejado de los
demás. Que es anómalo. Lo primero es precisar qué entendemos por
dato anómalo.4 Vamos a ver las dos definiciones más habitualmente
utilizadas. En la primera utilizamos media y desviación estándar. En
la segunda utilizamos cuartiles.
La primera es la que más tradición tiene. Dados los datos calcula-
mos su media y desviación típica muestrales: x̄ y s. Se entiende por
dato anómalo aquél que está fuera del intervalo
[x̄ − 3s, x̄ − 3s],
4 La expresión inglesa es outlier.
26 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

es decir, que o bien es extremo porque es menor que x̄ − 3s o bien es

extremo porque es mayor que x̄ + 3s.
Vamos a añadir a nuestros datos dos datos extremos por arriba y
uno por abajo.

x2 = c(x,c(0,9,14))

Y veamos si son anómalos en el sentido que acabamos de definir.

x2[x2 < mean(x2) - 3 * sd(x2)]

## numeric(0)

Vemos que el valor que añadimos por debajo no es detectado.

¿Y los dos valores grandes?

x2[x2 > mean(x2) + 3 * sd(x2)]

## [1] 14

Vemos que solamente detectamos uno de ellos. Si no somos tan

exigentes (como se suele ser por cierto) y simplemente consideramos
que el dato se aleje de la media en dos desviaciones típicas por arriba
o por abajo entonces se detectan los siguientes

x2[x2 < mean(x2) - 2 * sd(x2)]

## numeric(0)

x2[x2 > mean(x2) + 2 * sd(x2)]

## [1] 14

es decir, el mismo.
El segundo procedimiento utiliza los cuartiles. Denotemos por q25
y q75 los percentiles de orden 25% y 75%, esto es, los cuartiles inferior
y superior. El rango intercuartílico sería

IQR = q75 − q25 .

La segunda forma de considerar un dato como extremo es considerar

que lo es si está fuera del intervalo

[q25 − 1.5 × IQR, q75 + 1.5 × IQR].

Puede ser extremo por abajo si es menor que q25 − 1.5 × IQR o por
arriba si es mayor que q75 + 1.5 × IQR. Determinemos los extremos
del intervalo.

(lw = quantile(x2,probs=0.25) - 1.5 * IQR(x2))

## 25%
## -4.24

(up = quantile(x2,probs=0.75) + 1.5 * IQR(x2))

## 75%
## 7.68
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 27

Y veamos si hay puntos extremos por abajo

x2[x2 < lw]

## numeric(0)

Detecta el punto añadido por nosotros. Y por arriba.

x2[x2 > up]

## [1] 9 14

Detecta los dos puntos extremos por arriba. En fin, no nos ha ido
mal con este método de detección. No obstante, el más habitual es el
primero de los procedimientos propuestos.

2.3.8 Ejercicios
Ej. 4 — Vamos a realizar distintas representaciones gráficas con los
datos del ejercicio 3. Se pide lo siguiente:
[Link] distintos histogramas de los datos que aparecen en el
ejercicio 3 modificando el número de clases. ¿Hay un comporta-
miento consistente en la representación gráfica?
[Link] gráficamente un estimador kernel de la densidad.
Observar el valor que se ha utilizado para el ancho de banda.
[Link] el valor del ancho de banda observado en el apartado
2 doblando su valor y volver a representar el estimador kernel de
la densidad.
[Link] el valor del ancho de banda observado en el apartado
2 considerando la mitad de su valor y volver a representar el
estimador kernel de la densidad.
[Link] los tres estimadores kernel que hemos obtenido. ¿Qué
ocurre cuando incrementamos el ancho de banda? ¿Y cuando lo
disminuimos?

Ej. 5 — Consideramos los datos del ejercicio 3. La muestra inicial

la denotamos por x mientras que los datos ampliados los denotamos
por xx. Supongamos que los datos x han sido obtenidos en distintas
localizaciones. En concreto las localizaciones las tenemos codificadas
de un modo numérico. Son las siguientes.
Se pide:
[Link] estos datos en un vector en R que denotaremos por y
utilizando la función c() de concatenación.
[Link] un diagrama de cajas de la variable x.
[Link] diagramas de barras de los valores que tenemos en la va-
riable x para las distintas localizaciones que nos vienen indicadas
por la variable y.
[Link] datos adicionales que aparecen en el vector xx han sido ob-
tenidos en una cuarta localizacion. Completar el vector yy para
incluir esta localización, es decir, en xx tenemos los datos amplia-
dos mientras que en yy tendremos las localizaciones ampliadas.
[Link] un diagrama de barras comparativo de los valores xx
para las distintas localizaciones que aparecen en yy.
28 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

Ej. 6 — Consideremos las dos muestras siguientes.

(x = rnorm(50,mean=23,sd=2.12))
## [1] 23.80484 21.93507 22.29360 20.84062 20.72780
## [6] 23.64348 23.95020 23.11237 24.95521 27.34618
## [11] 21.95901 18.10456 25.13217 21.49649 21.54142
## [16] 25.17421 22.39628 20.41208 23.38436 22.70555
## [21] 23.01222 23.81679 22.21420 24.36608 22.53257
## [26] 23.70338 25.32530 23.92258 22.30903 25.43547
## [31] 25.10623 24.16260 23.50611 21.66884 25.88458
## [36] 21.72745 27.63715 26.24913 22.50032 20.82399
## [41] 21.49394 23.54459 22.47701 22.26321 20.98257
## [46] 22.90454 21.33600 19.46396 22.19392 24.94827
(y = rnorm(70,mean=33,sd=4.12))
## [1] 30.62957 35.50481 26.33432 32.77108 35.13996
## [6] 34.24075 33.43539 30.36029 29.49922 28.78059
## [11] 33.48470 29.09640 30.97890 31.94490 40.59671
## [16] 30.31397 33.96979 33.32120 29.03715 32.70621
## [21] 38.95155 34.86020 33.16988 31.25931 24.54062
## [26] 37.66111 26.98216 36.04858 40.86551 27.05116
## [31] 35.89135 31.91975 26.52277 26.75957 26.40167
## [36] 30.81267 26.97757 35.83422 41.65245 27.69743
## [41] 36.24548 36.16845 34.36867 28.84549 32.50786
## [46] 31.84477 35.31952 31.46555 37.02513 31.45673
## [51] 37.33717 28.67739 27.80816 46.35308 31.28255
## [56] 34.22870 35.62267 31.00682 35.12947 34.52013
## [61] 32.11263 33.26901 32.85964 41.76922 29.94570
## [66] 28.48450 33.15569 34.27918 34.79848 31.11153
Se pide:
[Link] en dos gráficos distintos los estimadores kernel de
ambas densidades.
[Link] el apartado anterior pero en la misma gráfica.
[Link] las funciones de distribución de la primera muestra.
Haced lo mismo con la función de distribución de la segunda
muestra.
[Link] las dos funciones de distribución en un mismo grá-
fico.

2.4 Un dibujo
En esta sección vamos a realizar un dibujo a partir de unos datos.
El objetivo es mostrar cómo estudiar la relación entre dos variables,
cómo hacerlo con R mostrando las dificultades con las que nos encon-
tramos. Los datos que vamos a utilizar son las temperaturas mínimas
y máximas por mes en Alicante desde el año 1939 hasta el año 2010.
Leemos los datos y adjuntamos para poder usar los nombres de las
variables.

xt = [Link]("../data/alicante_temperaturas_anyo_1939_2010.txt")
xt = [Link](xt)

Nos fijamos en el mes de enero. Las variables que nos dan la tem-
peratura mínima y máxima (en décimas de grado) en enero son tmin1
y tmax1 respectivamente. La variable anyo nos indica el año.
2.4. UN DIBUJO 29

Figura 2.9: Temperaturas mínimas en Valencia.

Parece natural estudiar la variación de la temperatura mínima a

lo largo de los años. En la figura 2.9 representamos en abscisas el año
y en ordenadas la temperatura mínima en enero. Parece lo natural
para ver la evolución temporal.

library(ggplot2)
ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_point()

## Warning: Removed 1 rows containing missing values

## (geom_point).

¿Es correcto este dibujo? Hemos utilizado puntos en el gráfico. Sin

embargo, en este caso para seguir la evolución es parece preferible
unir los puntos consecutivos mediante segmentos. En la figura 2.10
tenemos el resultado.

ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()

En nuestros datos también nos aparece la temperatura máxima en

enero. ¿Por qué no representarla junto con la mínima? De este modo
podemos ver para cada mes la variación.

p = ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()

p + geom_line(aes(x=anyo,y=tmax1))

En la figura 91 vemos que las etiquetas que utiliza para las abscisas
y ordenadas no son muy adecuadas. Usa el nombre de las variables.
Vamos a cambiarlas indicando para abscisas la etiqueta “año” y para
ordenadas “Temperatura”.

p = ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()

p = p + geom_line(aes(x=anyo,y=tmax1))
p + xlab("Año") + ylab("Temperatura")
30 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

Figura 2.10: Temperaturas mínimas en Valencia.

Figura 2.11: Temperaturas mínimas y máximas en Valencia.

Figura 2.12: Temperaturas mínimas y máximas en Valencia.

2.4. UN DIBUJO 31

Figura 2.13: Temperaturas mínimas y máximas en Valencia con di-

versos añadidos para perder un poco el tiempo.

Nos va quedando bien el dibujo. Vamos a mejorarlo. Podemos in-

dicar con dos líneas horizontales las medias de la mínima y la media
de la máxima. Primero hemos de calcular la media de los mínimos con

mean(xt[,"tmin1"])

## [1] NA

Tenemos un problema. Nos da que no lo puede calcular porque le

falta el dato para 1941. Le indicamos que nos calcule la media de los
demás.

(m1 = mean(xt[,"tmin1"],[Link]=TRUE))

## [1] 62.39437

También calculamos la media de las temperaturas máximas.

(m2 = mean(xt[,"tmax1"],[Link]=TRUE))

## [1] 167.0563

En la figura 2.13 tenemos el dibujo.

p ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()

=
p p + geom_line(aes(x=anyo,y=tmax1))
=
p p + xlab("Año") + ylab("Temperatura")
=
p p + geom_hline(yintercept=m1,
=
linetype="dashed", color = "red")
p + geom_hline(yintercept=m2,
linetype="dashed", color = "red")

Nos ha quedado un dibujo apañado. Contentos con ello decidimos

guardarlo en un fichero para luego insertarlo en algún documento. Su-
pongamos que nos queremos guardarlo como una imagen png y que-
remos que el fichero se llame [Link].
Esto lo hacemos con
32 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA

png("figures/[Link]")
p = ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()
p = p + geom_line(aes(x=anyo,y=tmax1))
p = p + xlab("Año") + ylab("Temperatura")
p = p + geom_hline(yintercept=mean(tmax1,[Link]=TRUE),
linetype="dashed", color = "red")
p + geom_hline(yintercept=mean(tmin1,[Link]=TRUE),
linetype="dashed", color = "red")
[Link]()
Capítulo 3

Probabilidad

3.1 Determinismo e incertidumbre

A cualquiera que preguntemos cuánto tiempo tardaríamos en re-
correr los 350 kilómetros que separan Valencia de Barcelona, si nos
desplazamos con velocidad constante de 100 kms/hora, nos contestará
sin dudar que 3 horas y media. Su seguridad en responder se torna-
rá indecisión si ante una urna con bolas Blancas, Azules y Rojas, en
proporciones b, a y r, le preguntamos de qué color será la bola si
efectuamos una extracción al azar.
Cualquiera conoce la distinta naturaleza de ambos fenómenos,
• el primero pertenece a los que podemos denominar determi-
nistas, aquellos en los que la relación causa-efecto aparece per-
fectamente determinada. En nuestro caso concreto, la conocida
ecuación e = v · t describe dicha relación,
• el segundo pertenece a la categoría de los que denominamos
aleatorios, y se caracteriza porque, aún repitiendo en las mis-
mas condiciones la extracción de la bola, el resultado variará de
unas ocasiones a otras.
La única forma de abordar con rigor el problema que la incertidumbre
de los fenómenos aleatorios comporta es tratar de medirla. La cuanti-
ficación de la incertidumbre, desde el momento que la transforma en
un número, nos permite hacer uso de la ventajas inherentes a éstos,
fundamentalmente su manipulación mediante las sencillas reglas de
suma y producto. La pregunta que surge es, ¿cómo medir la incer-
tidumbre? De las posibles respuestas, sólo una nos parece correcta:
mediante la probabilidad.

3.2 Probabilidad y sus reglas

Hemos dicho que nuestra urna tiene una composición, expresada
en términos de la proporción de bolas de cada color, de la forma b,
a y r, y necesariamente b + a + r = 1. Hemos aludido también a que
llevamos a cabo una extracción al azar, ¿qué significa? Nos estamos
refiriendo al hecho de que ninguna de las bolas que contiene la urna
tiene preferencia sobre las restantes a la hora de ser extraída. Acerca de
la trascendencia de esta noción, invitamos al lector a reflexionar sobre
qué sería de los juegos sociales de azar (loterías varias, Primitiva y sus

33
34 CAPÍTULO 3. PROBABILIDAD

variantes, cupones de la ONCE, etc.) si sus sistemas de extracción no

gozaran de esta propiedad.
El resultado de la extracción será una bola blanca, suceso B, una
bola azul, suceso A, o una bola roja, suceso R. Aun dentro de su
perplejidad, a nuestro interlocutor no se le escapa que la incertidumbre
asociada a cada uno de los anteriores sucesos depende de la proporción
en la que su color está presente en la urna. Si b es muy pequeño, B
será poco probable; si las tres proporciones son cercanas a 1/3, los tres
sucesos serán, aproximadamente, igualmente probables. El proceso
de identificación entre proporción y probabilidad parece evidente y
la probabilidad de que la bola extraída sea de determinado color es
la proporción correspondiente. La probabilidad es la medida de la
incertidumbre asociada a un suceso.
El procedimiento que estamos siguiendo nos permite responder de
manera directa a las probabilidades asociadas a los tres sucesos B, A
y R, pero las probabilidades ligadas a otros sucesos, como por ejemplo
que la bola no sea blanca, requieren combinar las tres anteriores. Se
hace pues necesario conocer las reglas que rigen el comportamiento de
la probabilidad para poder llevar a cabo, con rigor, las combinaciones
sugeridas. Antes incluso deberemos introducir una notación adecuada,
cuyo fin último será facilitar y hacer más comprensible la exposición
que sigue.

3.2.1 Lenguaje y notación

Como todas las disciplinas, la Probabilidad tiene también su len-
guaje propio. Así, una acción como la de extraer una bola de una urna
recibe el nombre de experimento aleatorio. Lanzar una moneda, po-
ner en marcha una ruleta, lanzar un dado y extraer una carta de una
mazo son otros ejemplos de experimentos aleatorios, todos ellos com-
partiendo una característica común: lo imprevisible del resultado, aun
cuando el experimento se lleve a cabo siempre en las mismas condi-
ciones. Justo es decir que este desconocimiento es relativo, porque no
podemos fijar con exactitud cual será el resultado, pero sí que estará
entre el conjunto de posibles resultados al que se denomina espacio
muestral y denotaremos por Ω.
Cuando agrupamos los resultados de nuestro experimento aten-
diendo a una característica común estamos definiendo un suceso. En
los párrafos que preceden hemos utilizado ya la noción de suceso y
hemos introducido una primera notación al designar con letras ma-
yúsculas a los sucesos. Así, mediante B, A o R hemos designado los
sucesos la bola extraída es blanca, azul o roja, respectivamente. Ob-
sérvese que la elección de las letras ha sido hecha siguiendo un criterio
nemotécnico.
Por ocurrencia, o realización, de un suceso designamos el hecho de
que el resultado del experimento ha sido alguno de los que definen el
suceso en cuestión. Si al lanzar un dado la cara nos muestra 2 puntos,
podemos afirmar que ha ocurrido el suceso A ={La cara del dado es
par}.
A continuación mostramos ejemplos de experimentos aleatorios,
los espacios muestrales asociados y algunos sucesos relacionados.

Lanzamiento de dos monedas.- Al lanzar dos monedas el espacio

muestral viene definido por Ω ={CC,C+,+C,++}. Dos ejemplos
de sucesos en este espacio pueden ser:
3.2. PROBABILIDAD Y SUS REGLAS 35

A ={Ha salido una cara}={C+,+C},

B ={Ha salido al menos una cruz}={C+,+C,++}.
Lanzamiento de un dado.- Al lanzar un dado el espacio muestral
viene definido por Ω ={1,2,3,4,5,6}. Dos ejemplos de sucesos en
este espacio pueden ser:
A ={Ha salido una cara par}={2,4,6},
B ={Ha salido una cara múltiplo de 3}={3,6}.
Elegir un punto al azar en el círculo unidad.- Su espacio mues-
tral es Ω ={Los puntos del círculo}. Ejemplos de sucesos (d(a, b)
significa distancia del punto a al punto b):
A = {s; d(s, centro) < 0.5},
B = {s; 0, 3 < d(s, centro) < 0.75}.
La referencia a la probabilidad de un suceso cualquiera, A, la hare-
mos mediante una notación simplificada y sencilla, escribiremos sim-
plemente P (A).

3.2.2 Reglas de la probabilidad

Señalábamos en un párrafo anterior que la extracción de una bola
de la urna, cuya composición proporcional es conocida, es un experi-
mento que nos permite acceder a la obtención de algunas probabili-
dades, las que podíamos denominar directas. Por ejemplo, P (B) = b,
siendo b la proporción de bolas blancas en la urna. Pero si preten-
demos obtener la probabilidad asociada al suceso la bola extraída no
es blanca, una probabilidad de las que podemos denominar indirectas,
hemos de llevar a cabo algunas operaciones que sólo serán válidas en la
medida que se ajusten a ciertas reglas. Estas reglas vienen impuestas
por la naturaleza del concepto de probabilidad, que está muy ligado
al concepto de proporción; por tanto, se derivarán fácilmente de las
reglas que esta última sigue. Veamos cuáles son:

Acotación.- Puesto que una proporción es siempre una cantidad po-

sitiva y alcanza a lo sumo el valor 1, la probabilidad de cualquier
suceso A verifica,
0 ≤ P (A) ≤ 1.
Los dos valores extremos merecen un comentario. Si nuestra
urna contuviera bolas de un sólo color, blancas, su proporción
valdría 1 y en cada extracción obtendríamos con seguridad una
bola blanca. Es decir, P (B) = 1. Pero aun cuando nuestra urna
tuviera la composición tricolor que hemos venido suponiendo, un
suceso como Ω ={Ha salido una bola blanca, azul o roja} es un
suceso que ocurre siempre, puesto que cualquiera que sea el color
de la bola extraída el resultado está en Ω y como la proporción
de bolas de los tres colores es 1, nuevamente su probabilidad es
igual a 1. Parece, pues, que el mayor valor que la probabilidad
puede tomar está asociado a un suceso de estas características
especiales, aquel que ocurre siempre y que es conocido como el
suceso seguro, Ω.
En el otro extremo se situa el valor 0. Si la urna no tuviera bo-
las blancas P (B) = 0, porque su proporción vale 0. Observemos
36 CAPÍTULO 3. PROBABILIDAD

que en semejantes circunstancias es imposible que ocurra el su-

ceso B. El valor 0 está asociado a aquellos sucesos que nunca
ocurren y por cuya razón se les denomina sucesos imposibles.
Aun cuando tales sucesos nos puedan parecer no solamente im-
posibles sino también inútiles, su presencia es necesaria para dar
coherencia a las reglas que rigen la probabilidad. Es costumbre
utilizar el símbolo ∅ para designar este tipo de sucesos, porque
en Matemáticas se designa así al conjunto vacío, aquel que no
contiene ningún resultado del experimento.

Suma.- Esta segunda regla afecta a los sucesos que denominamos

incompatibles o mutuamente excluyentes. Al extraer una carta
de una baraja española consideremos los sucesos A ={La carta
extraída es una espada} y B ={La carta extraída es una copa}.
Es evidente que una carta no puede satisfacer ambas condicio-
nes a la vez, por lo que la ocurrencia de uno de estos sucesos
excluye de inmediato la ocurrencia del otro. Este es un ejemplo
de sucesos incompatibles. Los sucesos B, A y R asociados a la
extracción de la bola en la urna son todos ellos incompatibles
entre sí.
Esta segunda regla afirma que la probabilidad del suceso {ocurre
A o B} es la suma de las probabilidades de ambos sucesos:

P (A o B) = P (A) + P (B).

En efecto, si nos interesa conocer la probabilidad de que nuestra

bola sea blanca o roja, el suceso ocurrirá tanto si la bola extraída
es blanca como si es roja y la proporción que le corresponde es
la suma de ambas proporciones.
La regla de la suma puede extenderse de manera obvia a aquellas
situaciones en las que intervienen más de dos sucesos. En efecto,

P (A o B o C) = P (A) + P (B) + P (C),

y así sucesivamente.
Puesto que venimos refiriéndonos a los sucesos como conjuntos,
bien podemos utilizar algunas operaciones entre conjuntos para
expresar de forma más compacta la regla de la suma. En efecto,
si los sucesos A y B son incompatibles es porque no comparten
ningún resultado del experimento aleatorio. Eso significa que,
en tanto que conjuntos, su intersección es vacía, es decir, no
contiene ningún resultado. Dicho de otra forma, la intersección
de ambos es el suceso imposible, lo que expresaremos mediante
A ∩ B = ∅.
De igual forma, el suceso ‘A o B’ es un suceso que recoge los
resultados del experimento que están en A, en B o en ambos.
En términos de conjuntos ‘A o B’= A ∪ B.

Complementación.- Existe una clase especial de sucesos incompa-

tibles que llamamos complementarios: aquellos que siendo in-
compatibles son tales que el resultado del experimento es ne-
cesariamente uno u otro. El ejemplo más sencillo es el de cara
o cruz al lanzar una moneda. No pueden ocurrir a la vez, pe-
ro es seguro que la moneda nos muestra uno u otro. En otras
3.2. PROBABILIDAD Y SUS REGLAS 37

palabras, la unión de ambos sucesos es el suceso seguro. Estos

sucesos van siempre por parejas, lógicamente, y los denotaremos
mediante A y Ac . Sus probabilidades están relacionadas de la
siguiente manera:

P (A) + P (Ac ) = 1,

puesto que A∪Ac = Ω. Una sencilla operación conduce a P (A) =

1−P (Ac ), por lo que conocida la probabilidad de uno de ellos se
obtiene con facilidad la del otro. Por ejemplo, en la extracción
de la urna sabemos que P (Bola blanca) = P (B) = b, por lo que
P (Bola no blanca) = P (B c ) = 1 − b.
Monotonía.- Si al lanzar un dado debemos apostar entre A={salga
un múltiplo de 3} o B={salga un número mayor o igual que 3},
sin dudar apostaremos por lo segundo, porque, aun cuando no
sabemos la cara que el dado mostrará, sí intuimos que el primer
suceso es menos probable que el segundo. A esta conclusión,
perfectamente correcta, hemos llegado porque el segundo suceso
es más grande que el primero, es decir, A ⊂ B. La regla dice que

A ⊂ B, implica P (A) ≤ P (B).

Sucesos compatibles.- La regla de la suma nos permite obtener

P (A ∪ B) si A ∩ B = ∅. Pero, por ejemplo, si A={salga un
múltiplo de 3}, B={salga una cara par} y queremos calcular la
probabilidad de la unión de los dos sucesos, la regla de la suma
no es aplicable porque A = {3, 6} y B = {2, 4, 6} y, al tener en
común la cara 6, los sucesos son compatibles, A ∩ B = {6}. Para
calcular probabilidades en estas situaciones, unión de sucesos
compatibles, la fórmula a emplear es

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Observemos que cada una de las 6 caras está presente en el

dado en una proporción 1/6. Para obtener P (A) bastará aplicar
la regla de la suma considerando que el suceso A es la unión
de los sucesos la cara es un 3 y la cara es un 6, ambos dos
incompatibles. Es decir,
1 1 2
P (A) = + = .
6 6 6
De la misma forma obtendremos,
3 1
P (B) = y P (A ∩ B) = .
6 6
En definitiva,
2 3 1 4
P (A ∪ B) = + − = .
6 6 6 6
Si quisiéramos verificar el buen funcionamiento de la regla bas-
taría observar que A ∪ B = {2, 3, 4, 6}.

Hemos ilustrado el concepto de probabilidad y sus reglas mediante

ejemplos muy sencillos en los que la obtención de las probabilidades
38 CAPÍTULO 3. PROBABILIDAD

asociadas era inmediata. ¿Cómo calcular las probabilidades en situa-

ciones no tan evidentes? Los experimentos aleatorios pueden ser tan
diversos que resulta imposible dar una respuesta única, pero existe
una clase de experimentos, conducentes a lo que denominamos espa-
cio muestral finito equiprobable, en los que es aplicable la fórmula de
Laplace que presentamos a continuación.

3.3 La fórmula de Laplace

Experimentos tan aparentemente distintos como lanzar una o va-
rias monedas, extraer una carta de un mazo, lanzar uno o varios dados,
etc., son equivalentes desde el punto de vista de la probabilidad. Todos
ellos comparten las dos características siguientes:

1. El espacio muestral es finito, porque el conjunto de posibles

resultados es en todos ellos, efectivamente, finito. Si lanzamos
dos dados, el conjunto de posibles resultados son las 36 pare-
jas {(1,1);(1,2);(1,3);.....;(6,4);(6,5);(6,6)}, al extraer una carta
de una baraja española de 48 cartas son 48 los posibles resulta-
dos que obtenemos, y así con los restantes ejemplos que hemos
citado.

2. Los resultados son equiprobables, porque todos ellos tienen

la misma probabilidad de ocurrir, es decir, ninguno de ellos pre-
domina sobre los demás. Ello en el supuesto, claro está, de que
los dados no estén cargados, las monedas sean correctas y la ex-
tracción de la carta se haga al azar. Situaciones, por otra parte,
que son habituales salvo que se indique lo contrario.

En este contexto, si el espacio muestral está constituido por n

posibles resultados, y un suceso A contiene m de ellos, P (A) se obtiene
a partir de la conocida fórmula de Laplace:

m casos favorables
P (A) = = .
n casos posibles
Al lanzar dos dados, la probabilidad del suceso A={la suma de las
caras es 8} vale, teniendo en cuenta que los m resultados que contiene
A son {(2,6);(3,5);(4,4);(5,3);(6,2)},

5
P (A) = .
36
La fórmula de Laplace podríamos también aplicarla al experimento
de extraer una bola de la urna con bolas blancas, azules y rojas. Su-
pongamos que la urna tiene un total de n, de las cuales nb son blancas,
na son azules y nr son rojas, de tal manera que las correspondientes
proporciones son b = nb /n, a = na /n y r = nr /n. La extracción al
azar garantiza que cada bola tiene la misma probabilidad de ser ex-
traída y como nb de ellas constituyen el suceso B, na constituyen el
suceso A y nr de ellas constituyen el suceso R, aplicando la fórmula
de Laplace,

nb na nr
P (B) = = b, P (A) = = a, P (R) = = r.
n n n
3.3. LA FÓRMULA DE LAPLACE 39

3.3.1 Un poco de teoría

En lo anterior hemos visto ejemplos de experimentos aleatorios

donde todos los resultados son equiprobables y por ello la probabilidad
de cada suceso no era más que el número de elementos que contiene
(casos favorables) dividido por el total de resultados posibles (casos
posibles). ¿Este es el único caso que nos encontramos de experimento
aleatorio? Desde luego que no. De hecho, una probabilidad es cualquier
función que a los sucesos les da valores entre 0 y 1 verificando algunos
principios (o axiomas) razonables.

Definición 3.1 (Probabilidad) Una función de conjunto, P , defi-

nida sobre los sucesos es una probabilidad si verifica

1. P (A) ≥ 0 para todo suceso A.

2. P (Ω) = 1.

3. P es σ-aditiva, es decir, si {An }n≥1 son sucesos disjuntos en-

tonces [ X
P An = P (An ).
n≥1 n≥1

A partir de la definición anterior se deducen algunas propiedades

muy útiles.

1. La probabilidad del vacío es cero: P (∅) = 0.

2. Si tenemos sucesos tales que A ⊂ B entonces P (A) ≤ P (B).

3. Si los sucesos A1 , . . . , An no son disjuntos entonces

!
[
n
P Ai =
i=1
Xn X
P (Ai ) − P (Ai ∩ Aj ) + . . . + (−1)n+1 P (A1 ∩ . . . ∩ (3.1)
An ).
i=1 i<j

En particular si tenemos dos sucesos

P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). (3.2)

4. A partir del punto anterior es inmediato que

P (Ac ) = 1 − P (A). (3.3)

5. Dados los sucesos A1 , . . . , An , la relación existente entre la pro-

babilidad de la unión de los Ai y la probabilidad de cada uno
de ellos es la siguiente:
!
[n Xn
P Ai ≤ P (Ai ).
i=1 i=1
1 Esta sección incluye algo de teoría. Su lectura no es muy necesaria para seguir
el curso aunque sí que es conveniente. No hay nada tan práctico como la teoría.
40 CAPÍTULO 3. PROBABILIDAD

3.4 Probabilidad condicional

La noción de probabilidad condicional es un concepto muy intuitivo
pero de cierta dificultad a la hora de formalizarlo. Permite incorporar
la nueva información que conocemos y actualizar, a partir de ella, la
probabilidad de cualquier suceso. Por ejemplo, al lanzar dos dados,
el espacio muestral, que es el conjunto de posibles resultados, viene
dado por las 36 parejas

Ω = {(1, 1), (1, 2), (1, 3), . . . , (6, 4), (6, 5), (6, 6)}.
La probabilidad del suceso

A = {el producto de ambas caras es 12} = {(2, 6), (3, 4), (4, 3), (6, 2)}

se obtiene con facilidad aplicando la fórmula de Laplace,

casos favorables a A 4 1
P (A) = = = .
casos posibles 36 9
Supongamos que, previamente a nuestra respuesta, sabemos de la
ocurrencia del suceso B ={la suma de las caras vale 8}. Este conoci-
miento previo sin duda alterará la probabilidad del suceso A anterior.
En efecto, es lógico incorporar la nueva información al proceso de ob-
tención de las probabilidades de los sucesos, lo que supone revisar el es-
pacio muestral y sustituirlo por B = {(2, 6), (6, 2), (3, 5), (5, 3), (4, 4)}.
La nueva probabilidad de A vendrá dada por

casos favorables a A en B 2
P ∗ (A) = = ,
casos posibles en B 5
Esta nueva probabilidad, P ∗ , recibe el nombre de probabilidad
de A condicionada a B y se la representa mediante P (A|B). Puede
comprobarse con facilidad que se verifica

P (A ∩ B)
P (A|B) = , (3.4)
P (B)

igualdad que se toma como definición del concepto, imponiendo la

condición P (B) > 0 puesto que la división por 0 no está permitida.

3.5 Independencia
La noción de independencia transcribe la carencia de relación en-
tre dos sucesos. La aproximación más intuitiva al concepto se hace
a través de la probabilidad condicional. En efecto, cuando obtene-
mos P (A|B) estamos viendo de qué manera la ocurrencia de B altera
nuestro conocimiento de P (A). Pero ocurre que en ocasiones este co-
nocimiento no nos aporta nada. Veamos un ejemplo.
Del mazo de una baraja española con 48 cartas, 12 de cada palo,
extraemos al azar una carta y nos interesamos por el suceso A={la
carta es un as}. Aplicando la fórmula de Laplace concluimos con fa-
cilidad que
4 1
P (A) = P (As) = = .
48 12
Si se nos informa previamente de que la carta extraída es una copa,
modificaremos la anterior probabilidad sustituyéndola por P (A|B),
3.6. UNA APLICACIÓN DE LA INDEPENDENCIA Y DE LA PROBABILIDAD CONDICIONAL: EL P

siendo B el suceso la carta es de copas. Aplicando la definición de

probabilidad condicional y teniendo en cuenta que A ∩ B={la carta
es el as de copas},
P (A ∩ B) 1 12 1
P (A|B) = = : = ,
P (B) 48 48 12
resultando inútil la información previa por cuanto no se ha producido
modificación de la probabilidad inicial.
En situaciones como la descrita, decimos que A y B son inde-
pendientes y, como hemos visto, la primera consecuencia es que la
probabilidad no se altera, P (A) = P (A|B). Es decir, nada de cuanto
ocurra con B afecta a A. De la igualdad de ambas probabilidades se
deriva fácilmente a partir de (3.4), P (A ∩ B) = P (A)P (B), que a su
vez implica que P (B|A) = P (B), como no podía ser de otra manera
porque la independencia entre dos sucesos es mutua.
No obstante lo anterior, se prefiere definir la independencia a par-
tir de la factorización de la probabilidad de la intersección, en cuyo
caso la igualdad entre las probabilidades condicionales y absolutas se
obtiene como una consecuencia. La razón de esta preferencia es que
esta definición no exige ninguna condición previa sobre los sucesos
implicados. Recordemos que P (B) ha de ser estrictamente positiva al
definir P (A|B).
Si el número de sucesos n es mayor que 2, la independencia mú-
tua entre todos ellos supone que al elegir m cualesquiera de ellos, se
verifica,
Y
m
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P (Aij ), m = 2, . . . , n. (3.5)
j=1

En realidad, para n > 2 el concepto de independencia no es uní-

voco. Podemos hablar de dos tipos de independencia:
Independencia dos a dos.- Decimos que los sucesos Ai , 1 =
1, 2, . . . , n son dos a dos independientes si para cualquier par de
ellos, Ai1 , Ai2 se verifica,
P (Ai1 ∩ Ai2 ) = P (Ai1 )P (Ai2 ).

Independencia mutua.- Decimos que los sucesos Ai , 1 = 1, 2, . . . , n

son mutuamente independientes si para cualesquiera m de ellos,
{Ai1 , . . . Aim }, 2 ≤ m ≤ n, se verifica,
\
m Y
m
P( Ai j ) = P (Aij ). (3.6)
j=1 j=1

Conviene señalar que la independencia

mutua
de los n sucesos
supone que han de verificarse nn + n−1
n
+ . . . n2 = 2n − n − 1
condiciones como 3.6.

3.6 Una aplicación de la independencia y

de la probabilidad condicional: el pue-
blo contra Collins
En 1964 una mujer, de compras por Los Angeles, fue asaltada por
una joven rubia con cola de caballo que le robó el bolso. La joven
42 CAPÍTULO 3. PROBABILIDAD

salió huyendo y fue vista poco después subiendo a un coche amarillo

conducido por un hombre negro con barba y bigote. Las investigaciones
de la policía condujeron a la detención como sospechosa de Janet
Collins, que era rubia, peinaba cola de caballo y se la relacionaba
con un varón negro con barba y bigote que era poseedor de un coche
amarillo.
El fiscal no tenía evidencias tangibles ni testigos fiables contra
la sospechosa y construyó su caso sobre lo improbable que resultaba
que la Sta. Collins y su amigo tuvieran todas estas características
y no fueran culpables. Para ello asignó probabilidades a las citadas
características, probabilidades basadas en la incidencia de las mismas
en la población de Los Angeles y que están recogidas en la tabla 2.

Característica Probabilidad
1
Automóvil amarillo 10
1
Varón con bigote 4
1
Mujer con cola de caballo 10
1
Mujer rubia 3
1
Varón negro con barba 10
1
Pareja interracial en coche 1000

Tabla 1.- Incidencia en la ciudad de Los Angeles de las características

observadas

El fiscal argumentó que la probabilidad de que todas estas carac-

terísticas se dieran conjuntamente, admitiendo la hipótesis de inde-
pendencia entre ellas, venía dada por el producto de sus respectivas
probabilidades (probabilidad de la intersección) y que dicho producto,
como fácilmente puede comprobarse, era 1/12,000,000. Lo que signi-
ficaba que era tan improbable encontrar una pareja que se ajustara
a todas las características que, verificándolas Janet Collins y su com-
pañero, la única decisión razonable, según el fiscal, era proclamarlos
culpables.
El abogado de la Sta. Collins apeló a la Corte Suprema de Califor-
nia argumentando que el razonamiento probabilístico era incorrecto
y engañoso. Sostuvo el defensor que era posible aproximarse a los da-
tos desde un perspectiva diferente, perspectiva que mantenía la duda
razonable sobre la culpabilidad de sus clientes.
En efecto, el razonamiento alternativo comenzaba suponiendo que
había n parejas en el área geográfica donde ocurrieron los hechos y
que existía una probabilidad p de que cualquiera de estas parejas
compartiera las seis características introducidas por el fiscal como
evidencias. De acuerdo con lo anterior p = 1/12, 000, 000. El defensor
centró su atención en los sucesos A={existen al menos 2 parejas con
iguales características entre las n} y B={existe al menos 1 pareja con
iguales características entre las n}, y más concretamente en el cociente
de sus probabilidades. ¿Por qué? Porque si existen al menos 2 parejas
es seguro que existe al menos 1, lo que supone que A ⊂ B y al calcular
la intersección de ambos será el menor de los dos, es decir, A ∩ B = A.
Entonces

P (A) P (A ∩ B)
= = P (A|B),
P (B) P (B)
3.6. UNA APLICACIÓN DE LA INDEPENDENCIA Y DE LA PROBABILIDAD CONDICIONAL: EL P

que representa la probabilidad de que, entre las n parejas, más de una

se ajuste a las características descritas, siendo así que ya hay una que
lo hace. Dicho en otros términos de mayor interés para la defensa, se
trata de la probabilidad de que al menos otra pareja hubiera podido
cometer la acción criminal. Si este cociente no fuera muy pequeño
habría que admitir la posibilidad de que la Sta. Collins y su amigo
tenían competidores que podrían ser los culpables.
Para calcular el cociente necesitamos conocer P (A) y P (B). La ob-
tención de P (B) es sencilla pues su complementario, B c , es el suceso
de que ninguna pareja de las n posee las seis características mencio-
nadas. Para una sola de estas parejas, la probabilidad de no poseerlas
es (1 − p), y como las n parejas podemos suponer las independientes,
P (B c ) = (1 − p)n . Aplicando ahora la regla de la complementación,
P (B) = 1 − P (B c ) = 1 − (1 − p)n .
Para obtener P (A) nos valdremos de un suceso auxiliar, C={una sola
pareja posee las características}, porque al unir los sucesos A y C ob-
tenemos el B y además, dada su definición, A y C son incompatibles.
Aplicando la regla de la suma tendremos
P (B) = P (A) + P (C) y de aquí P (A) = P (B) − P (C).
Todo se reduce pues a calcular P (C). Para ello elijamos una cualquiera
de las parejas que será la que poseerá las características, careciendo de
las mismas las n − 1 restantes. Como las parejas son independientes,
la probabilidad de semejante suceso será p(1 − p)n−1 . Pero este no es
el suceso C, porque en C no hemos dicho que fuera justamente esa
pareja elegida la que poseyera las características, en C afirmamos que
sea una, pero una cualquiera de las n. Si elegimos otra pareja distinta
de la anterior, la probabilidad será la misma, p(1 − p)n−1 , pero el
suceso es distinto e incompatible con el anterior porque la pareja es
distinta. En resumen, P (C) será la suma de todas estas probabilidades
porque C es la unión de todos los sucesos incompatibles que se van
originando al elegir parejas distintas. Como todas valen lo mismo y
hay n,
P (C) = np(1 − p)n−1 ,
y
P (A) = P (B) − P (C) = 1 − (1 − p)n − np(1 − p)n−1 .
La tabla 3 recoge los valores del cociente P (A)/P (B) para distintos
valores de n.
n P(A|B)
1.000.000 0,0402
2.000.000 0,0786
5.000.000 0,1875
10.000.000 0,3479
Tabla 2.- Valor de las probabilidades condicionadas en función de n
¿Cómo interpretar la tabla anterior? Por ejemplo, si en el área
geográfica de interés (Los Angeles y alrededores) hubiera 5 millones
de parejas, la probabilidad de que hubiera otra pareja con las mis-
mas características que Janet Collins y su amigo y, por lo tanto, que
pudiera ser la autora del robo es del 18.75%.
A la vista de estos resultados la Corte Suprema de California anuló
el veredicto de culpabilidad que había dictado la Corte Superior del
Condado de Los Angeles.
44 CAPÍTULO 3. PROBABILIDAD

3.7 Teorema de la probabilidad total

Supongamos que de una urna con 4 bolas rojas, 3 negras y 2 blan-
cas llevamos a cabo extracciones sucesivas al azar sin reemplazar la
bola extraída. Las probabilidades relacionadas con la primera extrac-
ción son de muy sencilla obtención. Por ejemplo, P (N1 ) = 1/3, donde
N1 representa el suceso de que la bola sea negra en la primera ex-
tracción. De forma similar definiríamos B1 y R1 . Si queremos obtener
P (N2 ), probabilidad de que en la segunda extracción la bola sea ne-
gra, nos conviene observar que la primera extracción puede dar lugar
a tres sucesos excluyentes, R1 , N1 y B1 , y sólo a ellos tres. Es decir,
que lo tres sucesos constituyen lo que denominamos una partición de
Ω, conjunto de posibles resultados. Apoyándonos en sencillas opera-
ciones de conjuntos, y en la aditividad de la probabilidad cuando los
sucesos son incompatibles, podremos escribir

P (N2 ) = P (R1 ∩ N2 ) + P (N1 ∩ N2 ) + P (B1 ∩ N2 ), (3.7)

fórmula que se apoya en algo tan evidente como que la segunda bola es
negra y la primera puede haber sido de cualquiera de los tres colores.
Una observación posterior nos hace caer en la cuenta de que es muy
sencillo obtener la probabilidad de N2 condicionado a cualquiera de los
resultados obtenidos en la primera extracción, porque sólo necesitamos
pensar en el cambio que ha sufrido la composición de la urna. Así,
P (N2 |R1 ) = 3/8, porque la urna tiene ahora un bola menos, 8, pero
las bolas negras continúan siendo tres porque la primera fue roja.
Reescribamos pues (3.7) haciendo uso de la definición de probabilidad
condicional y obtendremos,

1
P (N2 ) = P (N2 |R1 )P (R1 ) + P (N2 |N1 )P (N1 ) + P (N2 |B1 )P (B1 ) = .
3
El resultado2 se generaliza con facilidad cuando tenemos una par-
tición, Ai , i = 1, . . . , n, de Ω y es conocido como el teorema de la
probabilidad total, cuya expresión más general es

X
n
P (B) = P (B|Ai )P (Ai ), (3.8)
i=1

que, a modo de un rompecabezas, recupera P (B) a partir de la pro-

babilidad de cada uno de sus trozos.
La utilidad principal del resultado (3.8) reside en su papel de an-
tesala del Teorema de Bayes, pero hay algunas aplicaciones directas
del mismo que son especialmente interesantes. Veamos una.

3.7.1 Encuesta sobre cuestiones delicadas

Es bien conocida la reticencia de la gente a contestar cualquier
encuesta, reticencia que se convierte en clara desconfianza y recha-
zo si el cuestionario aborda lo que podríamos denominar temas deli-
cados: situación económica, creencias religiosas, afinidades políticas,
costumbres sexuales, consumo de estupefacientes, ... El rechazo y la
2 Suele sorprender a nuestros estudiantes que sea cual sea la composición de la

urna y el número n de bolas que contenga, P (Nk ) = P (N1 ), ∀k = 2, . . . , n

3.8. TEOREMA DE BAYES 45

desconfianza están casi siempre basados en la creencia de una no sufi-

ciente garantía de anonimato. Es comprensible, por tanto, el afán de
los especialistas en convencer a los encuestados de que el anonimato
es absoluto. El teorema de la probabilidad total puede ayudar a ello.
Supongamos que un sociólogo está interesado en conocer el con-
sumo de drogas entre los estudiantes de un Instituto de Bachillerato.
Elige 100 estudiantes al azar y para garantizar la confidencialidad de
las respuestas, que sin duda redundará en un resultado más fiable, di-
seña una estrategia consistente en que cada estudiante extrae al azar
un bola de un saco o urna que contiene 100 bolas numeradas del 1 al
100, conservándola sin que nadie la vea,

• si el número de la bola elegida está entre el 1 y el 70, contesta

a la pregunta ¿has consumido drogas alguna vez?,

• si el número de la bola elegida está entre el 71 y el 100, contesta

a la pregunta ¿es par la última cifra de tu DNI?.

En ambos casos la respuesta se escribe sobre un trozo de papel sin

indicar, lógicamente, a cuál de las dos preguntas se está contestando.
Realizado el proceso, las respuestas afirmativas han sido 25 y para
estimar la proporción de los que alguna vez han consumido droga
aplicamos (3.8),

P (si) = P (si|pregunta delicada)P (pregunta delicada)+

P (si|pregunta intrascendente)P (pregunta intrascendente)

Sustituyendo,

0, 25 = P (si|pregunta delicada) × 0, 7 + 0, 5 × 0, 3,

y despejando,

0, 25 − 0, 15
P (si|pregunta delicada) = ≈ 0, 14
0, 7
Es obvio que P (si|pregunta intrascendente) ha de ser conocida
muy aproximadamente, como en el caso de la terminaciones del DNI,
que por mitades deben de ser pares o impares.

3.8 Teorema de Bayes

El teorema de Bayes es uno de aquellos resultados que inducen a
pensar que la cosa no era para tanto. Se tiene ante él la sensación
que produce lo trivial, hasta el punto de atrevernos a pensar que lo
hubiéramos podido deducir nosotros mismos de haberlo necesitado,
aunque afortunadamente el Reverendo Thomas Bayes se ocupó de
ello en un trabajo titulado An Essay towards solving a Problem in the
Doctrine of Chances, publicado en 1763. Conviene precisar que Bayes
no planteó el teorema en su forma actual, que es debida a Laplace.
El Teorema de Bayes relaciona la probabilidad de un mismo suceso
antes y después de haber tenido lugar el experimento aleatorio y de
conocer su resultado. Un sencillo ejemplo será la mejor manera de
introducirlo y de juzgar su trascendencia.
46 CAPÍTULO 3. PROBABILIDAD

Ejemplo 3.1 Disponemos de tres urnas con bolas blancas y negras

en la siguiente proporción: U1 = (1B, 2N ), U2 = (2B, 1N ) y U3 =
(3B, 0N ). El experimento consiste en elegir una urna al azar, extraer
una bola y comprobar su color. Una vez comprobado que la bola extraída
es blanca, ¿cúal es la probabilidad de que la bola haya sido extraída
de la urna Ui ?

Solución.- Comencemos señalando que antes de llevar a cabo la ex-

tracción, cada urna tiene una probabilidad de 1/3 de ser la ele-
gida para llevarla a cabo. Después de llevarla a cabo y conocer
su color no cabe duda que las probabilidades se habrán alterado.
Este cambio nos resultaría evidente para la tercera de las urnas
si, por ejemplo, la bola extraída hubiese sido negra.
La obtención de estas nuevas probabilidades se lleva a cabo con
facilidad aplicando el Teorema de Bayes,
P (B|Ui )P (Ui )
P (Ui |B) = P3 ,
i=1 P (B|Ui )P (Ui )

en el que P (Ui ) son las probabilidades iniciales para cada urna y

P (Ui |B) las que pretendemos conocer y que están, lógicamente,
condicionadas por el conocimiento de la extracción de una bola
blanca. Unas y otras se muestran en la tabla 4.

P(Ui ) P(Ui |B)

1 1
Urna 1 3 6
1 1
Urna 2 3 3
1 1
Urna 3 3 2

Tabla 3.- Probabilidades antes y después para las tres urnas

La expresión general del Teorema de Bayes para una partición con

n elementos, A1 , A2 , . . . , An , es
P (B|Ai )P (Ai )
P (Ai |B) = Pn . (3.9)
i=1 P (B|Ai )P (Ai )

3.8.1 Padre a cara o cruz

El Teorema de Bayes se aplica con frecuencia en problemas de
paternidad para obtener la evidencia, en términos de probabilidad,
que de la misma dan las pruebas. Pero su uso puede ser perverso
como muestra el ejemplo que sigue.
Un hombre fue acusado en un caso de paternidad sobre la base de
un marcador genético cuya frecuencia en la población adulta es del
1% y que se transmite con probabilidad 1 de padres a hijos. Tanto el
presunto padre como el niño causante del litigio poseían el citado
marcador, por lo que el fiscal del caso planteó la conveniencia de
obtener la probabilidad de que el acusado fuera el padre dado que
el niño tenía el marcador. Si A ={el acusado es el padre} y B ={el
niño tiene el marcador}, la probabilidad se obtuvo aplicando Bayes

P (B|A)P (A)
P (A|B) = .
P (B|A)P (A) + P (B|Ac )P (Ac )
3.8. TEOREMA DE BAYES 47

Es evidente que, de acuerdo con lo dicho anteriormente, P (B|A) =

1 y P (B|Ac ) = 0.01. En cuanto a P (A) y P (Ac ), se estimó conveniente
que ambas eran iguales a 0.5, valor que trataba de reflejar el desco-
nocimiento que de la posible paternidad se tenía y, puesto que podía
ser o no ser el padre, lo lógico parecía asignar igual probabilidad a
ambos supuestos. El resultado no pudo ser más concluyente en contra
del acusado, porque P (A|B) ≈ 0.99.
El defensor recurrió y basó su recurso en la asignación de probabi-
lidades a A y Ac . Llevada a sus últimas consecuencias, dijo el defensor,
semejante asignación de probabilidades equivalía a declarar padre a
cualquier adulto por el procedimiento de cara o cruz. Una vez más,
proseguía el defensor, se confundía ignorancia con equiprobabilidad.
Para rematar su discurso obtuvo P (A|B) para distintos valores de
P (A) que nosotros hemos representado en las gráficas de la figura 3.1.
La gráfica de la derecha es un detalle de la gráfica de la izquierda

1.0

1.0
para valores de P (A) entre 0 y 0,1 y pone en evidencia la importancia

0.8

0.8
crucial que la elección de P (A) tiene, observándose que valores bajos,

0.6

0.6
P(A|B)

P(A|B)
y nada hay en contra de que sean posibles, dan lugar a valores de

0.4

0.4
P (A|B) que difícilmente condenan a cualquiera.

0.2

0.2
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.02 0.04 0.06 0.08 0.10

3.8.2 Filtrado del correo spam P(A) P(A)

Otra interesante aplicación de la fórmula de Bayes es el filtrado de Figura 3.1: Valores de P (A|B) en
función de P (A)
correo spam que llevan a cabo los servidores de correo. Los mensajes
son analizados para detectar la presencia de de determinadas palabras
en este tipo de correos. Veamos un ejemplo sencillo de cómo funcionan
estos filtros.
Supongamos que una de las posibles palabras o frase clave en los
correos spam es “dinero fácil”. Comencemos como siempre definiendo
y denotando los sucesos que nos interesan:

- S ={el mensaje es spam},

- F ={el mensaje contiene la frase “dinero fácil”}.

Hemos de calcular P (S|F ) y utilizando la fórmula de Bayes,

P (F |S)P (S)
P (S|F ) = .
P (F |S)P (S) + P (F |S c )P (S c )

Las probabilidades que parecen en esta expresión son conocidas,

o se han estimado, después de haber analizado una gran cantidad de
correos spam. Así,

- se sabe que el 45% es correo spam, luego P (S) = 0, 45;

- el 6% del correo spam contiene la frase “dinero fácil”, mien-

tras que sólo aparece en un 0,5% del correo normal, con lo que
P (F |S) = 0, 06 y P (F |S c ) = 0, 005.

Sustituyendo en la fórmula,

0, 06 × 0, 45 0, 027
P (S|F ) = = = 0, 9075.
0, 06 × 0, 45 + 0, 005 × 0, 55 0, 00275 + 0, 02975

La evidencia es muy clara y seguramente el filtro eliminará el correo.

48 CAPÍTULO 3. PROBABILIDAD

3.9 Ejercicios
Ej. 7 — Consideremos la Lotería Nacional. Se juegan N números.
Consideremos dos posibles espacios muestrales:
[Link] formado por dos resultados uno consistente en ganar y otro
en perder. ¿Son resultados equiprobables?
[Link] segundo sería el que tiene como elemento el número que ob-
tenemos en el sorteo. ¿Son resultados equiprobables?

Ej. 8 — Lanzamos una moneda. El espacio muestral estaría forma-

do por dos elementos. Uno consiste en que sale cara y el otro que sale
cruz. ¿Son equiprobables los resultados?

Ej. 9 — Lanzamos un dado. Consideremos el espacio muestral don-

de un elemento nos da el número que obtenemos. ¿Son equiprobables
estos resultados?
Ej. 10 — Lanzamos dos monedas. Describir distintos espacios mues-
trales que describan el resultado. Indicar en cada caso si los resultados
son equiprobables o no lo son.

Ej. 11 — La tabla recoge los estudiantes matriculados en dos asig-

naturas incompatibles de la titulación de Periodismo. Designemos por

Estadística Literatura Árabe

Varón 5 4
Mujer 47 14

A el suceso el estudiante está matriculado en Estadística y por B el

estudiante está matriculado en Literatura Árabe. Los sucesos V y M
designan, respectivamente, el estudiante es varón y el estudiante es
mujer. Determinar el número de estudiantes en los sucesos A ∪ M ,
Ac , B ∩ V . Si elegimos al azar un estudiante, ¿cuál es la probabili-
dad de que sea varón o esté matriculado en la asignatura Literatura
Árabe? ¿Son incompatibles ambos sucesos? Si el estudiante elegido
está matriculado en Estadística, ¿cuál es la probabilidad de que sea
mujer?

Ej. 12 — En la lotería primitiva cada apuesta consiste en elegir seis

números del 1 al 49. El día del sorteo se extraen los seis números
ganadores más un séptimo conocido como complementario. Obtienen
el primer premio las apuestas cuyos seis números coinciden con los
seis números ganadores, y obtienen el segundo premio si cinco de los
números de la apuesta son números ganadores y el otro coincide con
el complementario. Calcular las probabilidades de obtener el primer
o el segundo premio si jugamos un boleto de la lotería primitiva.

Ej. 13 — Tres caballos A, B y C intervienen en una carrera. El

caballo A tiene doble probabilidad de ganar que el caballo B, y este
último tiene doble probabilidad de ganar que C. Calcular qué proba-
bilidad tiene de ganar cada uno de los tres caballos.

Ej. 14 — Se sabe que entre los 120 estudiantes de un colegio mayor

hay 60 que estudian Biológicas (B), 50 que estudian Farmacia (F) y 20
que cursan ambos estudios simultáneamente. Determinar la probabili-
3.9. EJERCICIOS 49

dad de que uno de ellos escogido al azar estudie Biológicas o Farmacia,

y la probabilidad de que no estudie ambas simultáneamente.

Ej. 15 — De entre los 96 análisis de glucosa en sangre realizados

durante un día en un laboratorio, se observó que todos los resultados
estaban comprendidos entre 50 y 350 mg/ml. En 89 de esos análisis
la cantidad de glucosa no era superior a 190 mg/ml y en 21 de ellos
era superior a 120 mg/ml. Determinar:
a)La probabilidad de que el resultado de uno de esos análisis esté
entre 120 y 190 mg/ml.
b)La probabilidad de que el resultado de uno de esos análisis esté
entre 50 y 120 mg/ml.
c)La probabilidad de que el resultado de uno de esos análisis sea
mayor que 190 mg/ml.

Ej. 16 — Se sabe que la probabilidad de que un matemático en-

cuentre trabajo al terminar sus estudios es 0.4, para un ingeniero en
informática esa probabilidad es 0.6. Si la probabilidad de que ambos
encuentren trabajo es 0.24, calcular las probabilidades de que:
a)sólo encuentre trabajo el informático,
b)al menos uno de los dos encuentre trabajo,y
c)ninguno encuentre trabajo.

Ej. 17 — De una materia que consta de dos módulos, teórico y

práctico, se sabe que el 20% de los estudiantes presentados aprue-
ban ambos, mientras que el 70% aprueba el módulo teórico y el 40%
el práctico. Determinar la probabilidad de que un estudiante escogido
al azar entre los presentados:
a)Suspenda el teórico.
b)Apruebe el práctico si se sabe que es de los que han aprobado el
teórico.
c)Apruebe el teórico si se sabe que es de los que han aprobado el
práctico.

Ej. 18 — El 28% de los Republicanos, el 75% de los Demócratas y

el 42% de los independientes están a favor del candidato A. Además,
el 40% de los votantes son Republicanos, el 43% Demócratas y el
17% independientes. ¿Qué proporción de los votantes están a favor
del candidato A?
Ej. 19 — En cierta población, donde la mitad son hombres y la otra
mitad mujeres, el 10% son zurdos. Si el 6% son hombres zurdos, ¿qué
porcentaje hay de mujeres diestras?

Ej. 20 — Supongamos dos sucesos A y B cuyas probabilidades son

tales que: P (A) = 0.4, P (A ∪ B) = 0.7 y P (B c ) = 0.55. Calcular
P (A ∩ B).

Ej. 21 — Un test para la detección precoz del cáncer de mama tiene

un 2% de falsos positivos y un 1% de falsos negativos. Si este tipo de
cáncer afecta a una mujer de cada 5000 en una determinada población,
determinar la probabilidad de que una mujer de esa población, a quien
el test le ha dado positivo, tenga cáncer de mama.
50 CAPÍTULO 3. PROBABILIDAD

Ej. 22 — Un test para diagnosticar cierta enfermedad tiene una sen-

sibilidad del 95% y una especificidad del 99%. Si esta enfermedad tiene
una prevalencia del 0.5% ¿Cuál es el valor predictivo del test?
Nota: La sensibilidad de un test es la probabilidad de dar positivo
en un individuo que padece la enfermedad, la especificidad es la pro-
babilidad de que dé negativo en una persona que no la padece, la
prevalencia de la enfermedad es la proporción de afectados por esa
enfermedad en toda la población, el valor predictivo del test es la
probabilidad de que una persona esté enferma si el test da positivo.

Ej. 23 — Una compañía de seguros cobra más a los conductores

jóvenes porque es un grupo que tiende a tener más accidentes. La
compañía considera 3 grupos: el grupo A incluye a los menores de 25
años y constituyen el 22% de sus clientes. El grupo B está formado por
las personas entre 25 y 39 años y son el 43% de sus clientes. Finalmente
el grupo C lo forman las personas cuya edad es de 40 años o más.
Según los registros de la compañía en un período de un año el 11% de
sus clientes del grupo A tuvo un accidente. Los porcentajes para los
grupos B y C son del 3% y del 2%, respectivamente. Supongamos que
uno de los clientes ha tenido un accidente. ¿Cuál es la probabilidad
de que tenga menos de 25 años?

Ej. 24 — Un lote de 500 contenedores para zumo de naranja con-

gelado contiene cinco que están defectuosos. Se toman del lote dos al
azar, sin reemplazamiento.
a)¿Cuál es la probabilidad de que el segundo contenedor sea defec-
tuoso si el primero lo fue?
b)¿Cuál es la probabilidad de que los dos contenedores sean defec-
tuosos?
c)¿Cuál es la probabilidad de que ambos contenedores sean acep-
tables?

3.10 Simulando un experimento con sam-

ple
Tenemos en R una función que nos sirve para elegir al azar de un
grupo de elementos previamente definidos y de un modo equiprobable
entre los posibles resultados del experimento. Es la función sample.

Nota de R 3.1 (Lanzamos una moneda muchas veces) Veamos

cómo lanzar una moneda con R. Le decimos cuál es el espacio muestral

Omega = c("cara","cruz")

y luego elegimos uno al azar en el espacio muestral.

sample(Omega,1)

## [1] "cara"

Volvamos a lanzar la moneda.

3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 51

sample(Omega,1)

## [1] "cara"

Y una tercera vez.

sample(Omega,1)

## [1] "cruz"

De continuar iríamos obteniendo una serie de resultados cara o

cruz. Lancemos 30 veces la moneda y veamos qué pasa.

sample(Omega,30,replace=TRUE)

## [1] "cara" "cara" "cruz" "cara" "cara" "cara"

## [7] "cara" "cara" "cara" "cruz" "cara" "cruz"
## [13] "cruz" "cruz" "cara" "cara" "cruz" "cruz"
## [19] "cruz" "cara" "cruz" "cruz" "cruz" "cara"
## [25] "cara" "cara" "cara" "cruz" "cara" "cruz"

Y otras 30 veces.

sample(Omega,30,replace=TRUE)

## [1] "cara" "cara" "cara" "cara" "cara" "cruz"

## [7] "cara" "cruz" "cruz" "cruz" "cara" "cruz"
## [13] "cara" "cruz" "cara" "cruz" "cruz" "cara"
## [19] "cruz" "cruz" "cara" "cara" "cara" "cruz"
## [25] "cruz" "cruz" "cara" "cruz" "cara" "cara"

Podemos contar cuántas veces nos ha salido cara y cruz (el que
quiera puede hacerlo manualmente).

x = sample(Omega,30,replace=TRUE)
table(x)

## x
## cara cruz
## 16 14

Si dividimos por el total de lanzamientos tenemos la frecuencia

relativa de veces que nos ha salido cada uno de los dos posibles re-
sultados. En nuestro caso tenemos las siguientes frecuencias relativas
observadas:

table(x) / 30

## x
## cara cruz
## 0.5333333 0.4666667

Vamos a lanzar 100 veces la moneda y calculamos las frecuencias

relativas.
52 CAPÍTULO 3. PROBABILIDAD

x = sample(Omega,100,replace=TRUE)
table(x) / 100

## x
## cara cruz
## 0.52 0.48

¿Y por qué no lanzar la moneda 1000 veces?

x = sample(Omega,1000,replace=TRUE)
table(x) / 1000

## x
## cara cruz
## 0.522 0.478

Y para acabar con la experiencia vamos a lanzarla 100000 veces.

x = sample(Omega,100000,replace=TRUE)
table(x) / 100000

## x
## cara cruz
## 0.49986 0.50014

Es claro que conforme repetimos el experimento y observamos la

frecuencia relativa de veces que ocurre cada resultado nos acercamos
0.52

cada vez más al valor 0.5 para cada uno de los posibles resultados.
Frecuencia relativa de cara

0.51

En la figura 3.2 representamos en el eje de abscisas el número de

0.50

veces que lanzamos la moneda y en ordenadas la frecuencia relativa

de veces que se ha observado cara. Podemos ver cómo las frecuencias
0.49

relativas de aparición de cara van apróximandose al valor 0.5.

0.48

Supongamos que nos fijamos en la frecuencia relativa de aparición

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
de las cruces. En la figura 3.3 representamos en abscisas el número
Lanzamientos
de lanzamientos y en ordenadas la frecuencia relativa de aparición de
Figura 3.2: Frecuencias relativas
cruces. Vemos cómo se estabiliza la frecuencia alrededor del valor 0.5.
de aparición de cara en sucesivos
lanzamientos de una moneda co- Nota de R 3.2 (Lanzamiento de un dado) ¿Cómo lanzamos un
rrecta. dado con R? Pues la función sample es adecuada. Empezamos defi-
niendo el espacio muestral.

(Omega = 1:6)
0.52
Frecuencia relativa de cruces

0.51

## [1] 1 2 3 4 5 6
0.50

Y ahora lanzamos el dado.

0.49
0.48

sample(Omega,1)
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Lanzamientos ## [1] 3

Figura 3.3: Frecuencias relativas O bien lo lanzamos 20 veces.

de aparición de cruz en sucesivos
lanzamientos de una moneda co- sample(Omega,20,replace=TRUE)
rrecta.

## [1] 6 1 4 1 5 4 4 1 3 4 3 6 5 2 1 1 5 6 5 3
3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 53

Esperamos que cuando lo lanzamos un gran número de veces la

frecuencia de veces que ocurre cada resultado se aproxime a 16 .

x = sample(Omega,1000,replace=TRUE)
table(x) / 1000

## x
## 1 2 3 4 5 6
## 0.176 0.168 0.167 0.176 0.147 0.166

Como así podemos comprobar.

En este tipo de experimentos con resultados equiprobables la pro-

babilidad de cualquier suceso A viene dada por el cociente entre el
número de resultados que tiene A (a los que se suele llamar casos fa-
vorables a la ocurrencia de A) y el número total de resultados o casos
posibles.
Si denotamos el cardinal o número de elementos de A con |A|
entonces, cuando los resultados son equiprobables, podemos definir la
probabilidad del suceso A como

|A| Casos favorables a que ocurra A

P (A) = = . (3.10)
|Ω| Casos posibles

Se suele conocer como la definión de probabilidad de Laplace. Describe

con precisión situaciones como las descritas asociadas a algunos juegos
de azar y algún otro caso de interés pero, desde luego, no todos los
posibles experimentos en que estamos interesados.
Observemos que, en la definición de Laplace, si tomamos un suceso
formado por un solo resultado entonces
1 1
P ({ω}) = = . (3.11)
|Ω| Casos posibles

La probabilidad de cara es 1/2. La probabilidad de cruz también es

1/2. La probabilidad de un seis cuando lanzamos un dado es 1/6.
También lo es la de obtener un 5. O un 4. Finalmente vemos que
X 1
P (A) = .
|Ω|
ω∈A

3.10.1 Contando: variaciones, permutaciones y com-

binaciones
En experimentos con resultados equiprobables hay que contar el
número total de resultados y el número de casos que contiene el suceso
aleatorio de interés, esto es, hemos de contar casos favorables y casos
posibles.
Para ellos es fundamental un breve repaso de combinatoria: varia-
ciones, permutaciones y combinaciones.

Variaciones sin repetición Supongamos que tenemos un conjunto

de n elementos (por ejemplo, el conjunto {1, . . . , n} y preten-
demos saber cuántas secuencias ordenadas de k elementos (con
k < n) podemos formar. Para entender el problema supongamos
que n = 3 y k = 2. Entonces las posibles secuencias serían
54 CAPÍTULO 3. PROBABILIDAD

12 21 13 31 23 32

Tenemos seis secuencias porque consideramos distintas 12 y 21.

¿Cómo contarlas sin enumerarlas todas ellas? El razonamiento
es sencillo. Para la primera posición tenemos 3 posibilidades.
Una vez elegido el número que ocupa la primera posición nos
quedan 2 posibilidades para el segundo. En total 3 × 2.
En general, si consideramos n y k tenemos n posibilidades para
el primero. Dada la elección nos quedan (n − 1) elecciones para
el segundo. Dadas las dos primeras elecciones nos quedan (n−2)
elecciones para el tercero. Para la última posición nos quedarán
(n − k + 1) posibles elecciones. En total tendremos
n × (n − 1) × . . . × (n − k + 1).
Esto recibe el nombre de variaciones sin repetición.
Permutaciones ¿De cuántas maneras podemos ordenar n elemen-
tos distintos? Podemos seguir con el razonamiento del párrafo
anterior. Cuando ordenamos n elementos tenemos que elegir el
primero de ellos, con n posibles elementos. Una vez tenemos el
primero, para el segundo tenemos n − 1 y así sucesivamente. Po-
demos ver que tenemos variaciones sin repetición donde n = k.
Por tanto el número total de permutaciones es
n! = n × (n − 1) × . . . × 1.

Combinaciones ¿Cuántos conjuntos distintos de k elementos pode-

mos formar con un total de n? Estamos en una situación similar
a las variaciones sin repetición salvo que no queremos que inter-
venga el orden. Por ejemplo, las secuencias

12 21

son distintas como secuencias. Sin embargo, los conjuntos

{1,2} {2,1}

son el mismo. Una vez hemos elegido los elementos de un con-

junto (por ejemplo, los elementos 1 y 2) hemos de plantearnos
cuántas secuencias ordenadas podemos formar, 2! en el ejemplo.
En resumen, de un conjunto de k elementos podemos formar
k! secuencias (ordenadas) distintas. Tenemos n elementos. Con
ellos podemos formar n × (n − 1) × . . . × (n − k + 1) secuencias
ordenadas. Pero cada k! de estas secuencias tenemos los mismos
elementos. En resumen, el número de conjuntos distintos de k
elementos que podemos formar con n elementos distintos es

n n × (n − 1) × . . . × (n − k + 1)
= .
k k!
Fácilmente podemos comprobar que

n n!
= .
k k!(n − k)!

El número nk recibe el nombre de combinaciones de n ele-
mentos tomados de k en k.
3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 55

Nota de R 3.3 (Factorial y combinaciones) Dado un valor de

n, por ejemplo, n = 10 podemos obtener el valor de 10! con

factorial(10)

## [1] 3628800

Las combinaciones de n elementos tomados de k en k para n = 10

y k = 5 las obtenemos con

choose(10,5)

## [1] 252

Obviamente estamos eligiendo 5 elementos de un total de 10. De

ahí el nombre de la función.
Ejemplo 3.2 (Póquer) Supongamos el póquer cerrado sin comodi-
nes. Nos planteamos la probabilidad de que nos sirvan en una mano
exactamente una pareja. Estamos en una situación de resultados equi-
probables. Los resultados posibles son todos los posibles subconjuntos
de 5 elementos del total de 52 cartas. Por tanto, el número de manos
distintas será
52
.
5
Contemos ahora el número de manos que contienen exactamente una
pareja (y no dos parejas o un trío). Vamos contando. Primero elegimos
el número del cual formamos la pareja. Tenemos 13 posibilidades. Una
vez elegido
el palo tenemos cuatro cartas con el mismo número, por
tanto, 42 posibles parejas con ese número. Ahora hemos de elegir los
otros tres números que nos aparecen en la mano. Tenemos 12 número
disponibles (quitamos el que hemos utilizado para formar la pareja)
y elegimos tres números con un total de 12 3 posibilidades. Pero una
vez elegidos los números tenemos cuatro cartas de cada número. Por
3
lo tanto, por cada elección de números tenemos 4 . En total como
4 12 3
casos favorables nos encontramos con 13 2 3 4 casos favorables.
La probabilidad buscada es
3
13 42 12 4
52
3 .
5

La podemos calcular con R.

(casosfavorables = 13 * choose(4,2) * choose(12,3) * 4^3)

## [1] 1098240

(casosposibles = choose(52,5))

## [1] 2598960

casosfavorables / casosposibles

## [1] 0.422569

Tenemos una probabilidad de 2.366.

Esto es como se debe de hacer. Y ahora como no se debe de hacer.
Vamos a jugar con R. Empezamos definido las cartas que tenemos
56 CAPÍTULO 3. PROBABILIDAD

(cartas = rep(1:13,4))

## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 1 2
## [16] 3 4 5 6 7 8 9 10 11 12 13 1 2 3 4
## [31] 5 6 7 8 9 10 11 12 13 1 2 3 4 5 6
## [46] 7 8 9 10 11 12 13

Y ahora extraemos al azar una mano.

(mano = sample(cartas,5))

## [1] 11 10 12 8 11

¿Cómo sé que tenemos una pareja? Una forma sencilla es contar

la frecuencia de cada número.

(conteosmano = table(mano))

## mano
## 8 10 11 12
## 1 1 2 1

Y ver cuántos conteos me devuelve.

length(conteosmano)

## [1] 4

Si me devuelve 5 quiere decir que no se repite ningún número. Si

me devuelve 4 quiere decir que hay una pareja exactamente. Contemos
pues el número de veces que se produce esta situación y repitamos la
experiencia muchas veces. La frecuencia relativa de éxitos nos ha de
dar la probabilidad. Un poco de código más complicado de R.

nsimulaciones = 1000
exitos = 0
for(i in 1:nsimulaciones){
mano = sample(cartas,5)
conteosmano = table(mano)
if(length(conteosmano) == 4) exitos = exitos + 1
}
exitos / nsimulaciones

## [1] 0.416

3.10.2 Ejercicios
Ej. 25 — Tenemos una baraja española. Se pide:
[Link] dos cartas sin reemplazamiento y consideramos el or-
den en que las obtenemos. ¿Cuántos resultados distintos tene-
mos?
2.¿Cuántas parejas distintas podemos formar?
[Link] tres cartas sin reemplazamiento de una baraja. Consi-
derando el orden en que se extraen. ¿Cuántos resultados distintos
tenemos?
3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 57

4.¿Cuántas grupos de tres cartas distintas podemos formar?

5.¿Cuántos grupos de cuatro cartas distintas podemos formar?
6.¿De cuántas formas podemos ordenar la baraja?

Ej. 26 — Seis personas se sientan a comer en un restaurante. Hay

seis sillas alrededor de la mesa.
1.¿De cuántas formas distintas pueden sentarse?
[Link] que las sillas están enfrentadas, tres en un lado de
la mesa y otras tres al otro lado. Además las seis personas son
tres parejas que han quedado a cenar. Siguiendo una antigua
costumbre se sientan a un lado los hombres y al otro lado las
mujeres. ¿De cuántas formas distintas se pueden sentar?

Ej. 27 — Supongamos el póquer cerrado sin comodines. Calcular la

probabilidad de obtener un póquer cuando nos dan una mano.

Ej. 28 — Consideremos el experimento aleatorio consistente en lan-

zar dos veces un dado. Se pide:
1.¿Qué probabilidad tenemos de obtener dos veces el número 6?
2.¿Y de obtener el par de valores 1 y 5?
3.¿Qué probabilidad tenemos de que coincidan el primer y el se-
gundo resultado, esto es, de que el primer lanzamiento sea un
uno y el segundo también o de que el primer lanzamiento sea un
dos y el segundo también, etc?
4.¿Qué probabilidad tenemos de que la suma de los dos valores sea
7? ¿Y de que la suma de los dos valores sea mayor o igual que
7? ¿Y de que sea mayor que 7?
58 CAPÍTULO 3. PROBABILIDAD
Capítulo 4

Variables aleatorias

Cuando nos hemos referido en el capítulo anterior a los distin-

tos sucesos con los que hemos ilustrado los ejemplos, lo hemos hecho
aludiendo a características numéricas ligadas al resultado del experi-
mento. Así, nos referíamos a {puntos situados a una cierta distancia
d del centro del círculo}, a {la suma de las caras del dado es 8} o a
{caras que muestran un número par de puntos}. Pero los ejemplos po-
drían ser otros muchos e involucrar incluso más de una característica
numérica simultáneamente:

• número de llamadas que llegan a una centralita telefónica en un

intervalo de tiempo,

• altura y peso de un individuo,

• suma y valor absoluto de la diferencia de las caras que muestran

dos dados al ser lanzados.

En resumen, nuestro interés al examinar el resultado de un experi-

mento aleatorio no es tanto el espacio muestral resultante, como la o
las características numéricas asociadas, lo que supone cambiar nuestro
objetivo del espacio muestral S al espacio euclídeo (los reales) R o Rk
si son k las características numéricas que simultáneamente nos intere-
san. En lo que sigue nos ocuparemos solamente de una característica
numérica ligada al experimento, es decir, de R.
Hay dos razones que justifican el cambio de S a R:

1. el espacio muestral es un espacio abstracto, mientras que R es

un espacio bien conocido en el que resulta mucho más cómodo
trabajar,

2. fijar nuestra atención en la característica numérica asociada a

cada resultado implica un proceso de abstracción que, al extraer
los rasgos esenciales del espacio muestral, permite construir un
modelo probabilístico aplicable a todos los fenómenos aleatorios
que comparten dichos rasgos.

Puesto que se trata de una característica numérica ligada a un expe-

rimento aleatorio, ella misma es también una cantidad aleatoria. Esto
supone que para su estudio y conocimiento no bastará con saber qué
valores toma, habrá que conocer además la probabilidad con que lo
hace. De todo ello nos vamos a ocupar a continuación.

59
60 CAPÍTULO 4. VARIABLES ALEATORIAS

Experimento Espacio muestral Variable(s) aleatoria(s)

E1 Lanzar dos monedas S={CC,C+,+C,++} X=número de caras en los lanzamientos

E3 Llamadas a una centralita S={0,1,2,3,4,...} X=número de llamadas

telefónica

E4 Sexo de los 3 hijos de un S={VVV,VVM,VMV,MVV, X=número de mujeres

matrimonio VMM,MVM,MMV,MMM}

E5 Elegir al azar un punto en un S={Los puntos del círculo} X=distancia del punto al centro
círculo de radio 1 Y=longitud de la cuerda que pasa por el punto
y es perpendicular al radio que lo une al centro

E7 Lanzar dos dados S={(1,1),(1,2), …, (6,5),(6,6)} X=suma de las caras

Y=producto de las caras

Figura 4.2: Algunos ejemplos de variables aleatorias.

4.1 Variable aleatoria

La única forma que conocemos de trasladar información de un es-
pacio a otro es mediante una aplicación. De acuerdo con esto, podemos
dar la siguiente definición de variable aleatoria.

Definición 4.1 (Variable aleatoria) Una variable aleatoria, X, es

una aplicación del espacio muestral S en el conjunto de los números
X R reales, R, que a cada resultado le asigna un número real.
2,5

La figura 4.1 muestra esquemáticamente una variable aleatoria que

. . 6 asigna a los puntos s1 , s2 y s3 del espacio muestral S, los valores 2.5,
S1 S2

S3 X 6 y 7.5, respectivamente.
7,5

Es costumbre designar las variables aleatorias con las mayúsculas

S de las últimas letras del abecedario, X, Y , Z, y sus valores con las co-
rrespondientes minúsculas. En la figura 4.2 tenemos algunos ejemplos
Figura 4.1: Variable aleatoria. de variables aleatorias definidas sobre espacios muestrales ya conoci-
dos.

4.2 La variable aleatoria como modelo pro-

babilístico
Como señalábamos en la Introducción, las variables aleatorias no
sólo nos permiten manejar con mayor facilidad los experimentos alea-
torios, gracias a que convierten en valores numéricos sus resultados,
sino que poseen otra cualidad que las hace todavía más interesan-
tes y necesarias: su papel como modelos probabilísticos que describen
un conjunto de experimentos que, aún siendo distintos, comparten
características comunes.
¿De qué estamos hablando? Para comprenderlo, volvamos a la pre-
gunta con la que iniciábamos el tema anterior. Queríamos conocer el
tiempo que tardaríamos en recorrer los 350 kms. que separan Valencia
de Barcelona, si nos movíamos a velocidad constante de 100 kms/ho-
ra. Supimos de inmediato que la respuesta era 3 horas y media, y
ello gracias a que conocemos la ecuación, e = vt. Esta ecuación es un
modelo determinista que describe la relación entre espacio, velocidad
y tiempo, y es válido para todos los móviles, cualquiera que sea el
medio en el que se desplacen, a condición que lo hagan a velocidad
constante, siendo ésta la característica común a todos ellos. Las va-
riables aleatorias jugarán un papel semejante, pero en el contexto de
los experimentos aleatorios.
4.2. LA VARIABLE ALEATORIA COMO MODELO PROBABILÍSTICO61

¿Cómo calcular, por ejemplo, P (X = 1) en el experimento E1

de la Tabla 1? Observemos que cuando decimos que X = 1 estamos
diciendo que nos interesan todos aquellos resultados que conducen a
que la variable tome el valor 1, pero esto es una forma de definir el
suceso A={ha salido una cara}, luego A = {X = 1} = {C+, +C}.
Ahora podemos escribir que P (X = 1) = P (A) = 2/4. En definitiva,
para obtener cualquier probabilidad relacionada con X obtendremos
el correspondiente suceso y luego la probabilidad de éste. Así, si nos
piden obtener P (X > 8) en el experimento E7 de la Tabla 1, obten-
dremos en primer lugar aquel suceso cuyos puntos hacen que la suma
de ambas caras sea superior a 8, a saber

{X > 8} = {(3, 6), (6, 3), (4, 5), (5, 4), (4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}

y de aquí P (X > 8) = 10/36. Si en el mismo experimento se nos pide

obtener P (X ≤ 3, Y = 2) = P ({X ≤ 3} ∩ {Y = 2}), habremos de
obtener el suceso que contiene aquellos resultados cuya suma de caras
no supere a 3 y que, simultáneamente, su producto valga 2. Estamos
hablando del suceso A = {(1, 2), (2, 1)} y por lo tanto P (X ≤ 3, Y =
2) = 2/36.

Ejemplo 4.1 Tenemos un urna con 100 bolas, 30 de ellas son blan-
cas, 50 son azules y las 20 restantes son rojas. Llevamos a cabo dos
extracciones con reemplazamiento y definimos las variables

X = número de bolas blancas

Y = número de bolas azules,
Z = número de bolas rojas.

¿Qué valores pueden tomar cada una de estas variables? ¿Qué

valen P (X = 1), P (Z = 2), P (Y = 0) y P (X = 1, Z = 2)? En primer
lugar observemos que el espacio muestral viene dado por,

S = {B1 B2 , B1 A2 , B1 R2 , A1 B2 , A1 A2 , A1 R2 , R1 B2 , R1 A2 , R1 R2 },

donde la letra designa el color y el subíndice la extracción. Como las

extracciones se llevan a cabo con reemplazamiento, la obtención de
cualquier color es independiente de una extracción a otra. Además,
como las extracciones son con reemplazamiento la probabilidad de ob-
tener un determinado color es la misma en todas las extracciones y
los sucesos respectivos son independientes. Lo que supone que

P (B1) = P (B2) = 3/10, P (A1) = P (A2) = 5/10, P (R1) = P (R2) = 2/10.

Del espacio muestral anterior deducimos que las tres variables pue-
den tomar los mismos valores y estos son: 0,1,2. Para obtener las
probabilidades que se nos piden, vamos a determinar con que sucesos
se corresponde cada una de ellas:

{X = 1} = {B1 A2 , B1 R2 , A1 B2 , R1 B2 },
{Z = 2} = {R1 R2 },
{Y = 0} = {B1 B2 , B1 R2 , R1 R2 , R1 B2 },
{X = 1} ∩ {Z = 2} = ∅.
62 CAPÍTULO 4. VARIABLES ALEATORIAS

Las probabilidades buscadas son:

3 5 3 2 5 3 2 3 42
P (X = 1) = × + × + × + × = ,
10 10 10 10 10 10 10 10 100
2 2 4
P (Z = 2) = × = ,
10 10 100
3 3 3 2 2 2 2 3 25
P (Y = 0) = × + × + × + × = ,
10 10 10 10 10 10 10 10 100

P (X = 1, Z = 2) = 0.

4.3 Función de distribución de una varia-

ble aleatoria
Para conocer el comportamiento de la variable aleatoria no es ne-
cesario que en cada caso reinterpretemos el suceso en el espacio de
probabilidad original. Podemos definir una función ligada a la varia-
ble aleatoria, FX (x), conocida como función de distribución que nos
proporciona la probabilidad acumulada por la variable hasta el punto
x,
FX (x) = P (X ≤ x). (4.1)
Así definida esta función tiene las siguientes propiedades:
1. No negatividad, F (x) ≥ 0, ∀x ∈ R
2. Monotonía, FX (x1 ) ≤ FX (x2 ) si x1 ≤ x2 .
3. Continuidad por la derecha, limxn ↓x FX (xn ) = FX (x).
4. valores límites,

F (+∞) = lim F (xn ) = 1, F (−∞) = lim F (xn ) = 0.

xn ↑+∞ xn ↓−∞

Ejemplo 4.2 Lanzamos un dado especial aunque correctamente equi-

librado. Por especial entendemos que, a diferencia de los dados habi-
tuales cuyas caras contienen de 1 a 6 puntos, tiene 1 cara marcada con
un punto, 2 caras marcadas con 2 puntos y las tres restantes marca-
das con 3 puntos cada una de ellas. Denotamos por X la puntuación
obtenida. Veamos de obtener su función de distribución.
Observemos que X tomas valores en DX = {1, 2, 3} y teniendo en
cuenta la composición del dado, P (X = 1) = 1/6, P (X = 2) = 2/6 y
P (X = 3) = 3/6, de aquí

P(X=3)



 0, x < 1;

 1/6, 1 ≤ x < 2;
F(x)

3/6

F (x) =

 3/6, 2 ≤ x < 3; P(X=2)



1, x ≥ 3. 1/6
P(X=1)

0 1 2 3

X
4.3. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA63

Figura 4.3: Círculo unidad y regiones de elección del punto.

Figura 2.- Función de distribución de la cara del dado y su gráfica

La Figura 2 muestra la gráfica de la función de distribución. La
gráfica es en escalera porque entre dos valores consecutivos de DX
no se acumula probabilidad y FX permanece constante. Las disconti-
nuidades de la función se producen en los puntos de DX y el salto
de la función es igual a la probabilidad de que la variable X tome el
correspondiente valor, P (X = x), x ∈ DX .
Ejemplo 4.3 Elegimos un punto al azar en el círculo unidad, expe-
rimento que podríamos simular lanzando un dardo sobre una diana
con radio unidad. Definimos una variable aleatoria X que mide la dis-
tancia al centro del círculo. Para obtener su función de distribución
precisemos primero el significado de elección al azar en este con-
texto. Entendemos por ello el hecho de que la probabilidad de elegir
un punto en cualquier subconjunto del círculo, por ejemplo el recin-
to A de la Figura 4.3 izqda, es directamente proporcional a su área,
P (A) = k × área de A. Para determinar el valor de k, si denotamos
por C el círculo, tendremos
P (X ∈ C) = k × área de C = kπ,
pero por otro lado, como es seguro que la elección está en C, P (X ∈
C) = 1, de ambas igualdades se deduce que k = 1/π.
Como FX (x) = P (X ≤ x), si x ∈ [0, 1], la distancia del punto al
centro será menor o igual que x sólo si el punto lo elegimos dentro del
círculo de radio x, en gris en la Figura 4.3 dcha, y de aquí,
área del círculo de radio x πx2
FX (x) = = = x2 , x ∈ [0, 1].
π π
1.0

En definitiva,
0.8


 0, x < 0;
0.6

x2 , x ∈ [0, 1];
F(x)

FX (x) =

0.4

1, x > 1.
0.2

Las diferencias que se observan entre ambas gráficas son debidas

0.0

a la distinta naturaleza de las variables, mientras la primera es cons- −0.5 0.0 0.5 1.0

tante a tramos y sólo cambia en valores aislados dando lugar a una X

función con discontinuidades, la segunda evoluciona de forma conti-

nua en un intervalo. En los apartados siguientes nos ocuparemos de Figura 4.4: Función de distribu-
ción del punto en el círculo y su
estas diferencias. gráfica.
64 CAPÍTULO 4. VARIABLES ALEATORIAS

4.4 Variable aleatoria discreta

Es una variable aleatoria que toma un número finito de valores o
bien toma un número infinito de posibles valores que podemos nume-
rar. 1
Un ejemplo muy simple y habitual es la edad de un individuo
seleccionado al azar. La edad suele cuantificarse con valores enteros.
Decimos que una persona tiene 24 años o que tiene 25 años. Por lo
tanto es un valor entero. Si cuantificamos la edad en años entonces los
valores posibles de la variable aleatoria son 0, 1, 2, . . . . En cualquier
caso un número finito de posibles valores.
Otro ejemplo puede ser el número de organismos que observamos
en una placa al microscopio, el número de huevos en una buitrera, el
número de píxeles defectuosos en un monitor de ordenador, el número
de árboles dentro de un quadrat en un muestreo espacial. Todos son
ejemplos de variable aleatoria discreta. Como vemos habitualmente
son valores que resultan de contar. Es lo más frecuente pero no siempre
es así.
Supongamos que denotamos por D = {x1 , x2 , . . . , } el conjunto
de valores posibles para la variable. Las probabilidades que hemos de
conocer son
P (X = xi ),
es decir, la probabilidad de que la variable tome cada uno de sus valo-
res posibles. Estas probabilidades P (X = xi ) con i = 1, . . . , n reciben
el nombre de función de probabilidad de la variable aleatoria X.
Cualquier otra probabilidad que nos interese la podemos obtener a
partir de la función de probabilidad.
Por ejemplo, supongamos D = {0, 1, . . . , 10} y la función de pro-
babilidad aparece en la tabla 4.1.

x 0.000 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000
P (X = x) 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0.000 0.000 0.000

Tabla 4.1: Función de probabilidad de una variable discreta. En la primera fila el valor y en la segunda la probabilidad
de tomar este valor.

Ejemplo 4.4 Consideramos la variable aleatoria discreta tal que su

función de probabilidad aparece en la tabla 4.1. Vamos a determinar
la función de distribución. Las probabilidades que aparecen en la tabla
4.1 aparecen representadas en la figura 4.5. La función de distribución
la hemos representada en la figura 4.6.

df = [Link](x=0:10,probabilidad=dbinom(0:10,size=10,prob=.2))
ggplot(df,aes(x=x,y=probabilidad)) + geom_point()

df = [Link](x=0:10,probabilidad=pbinom(0:10,size=10,prob=.2))
ggplot(df,aes(x=x,y=probabilidad)) + geom_step()
Figura 4.5: Probabilidades de la
tabla 4.1. 1 Para ser rigurosos una variable discreta puede tomar también un número in-

finito numerable de valores. En fin, detalles técnicos a los que no hay que prestar
demasiado interés en un curso como este.
4.4. VARIABLE ALEATORIA DISCRETA 65

4.4.1 Función de probabilidad o cuantía

Para el cálculo de las probabilidades asociadas a una variable dis-
creta X es conveniente introducir la que denominaremos función de
probabilidad o cuantía de X, fX (x). Se define de la siguiente forma,

fX (x) = P (X = x), ∀x ∈ R.

De esta definición se deducen dos propiedades para fX (x),

P1) Al tratarse de una probabilidad, fX (x) ≥ 0, ∀x ∈ R,
P2) Como P (X ∈ DX ) = 1, siendo DX el soporte de X,
X
fX (xi ) = 1.
xi ∈DX

Obsérvese que fX (x) = 0, ∀x ∈

/ DX .

Ejemplo 4.5 Lanzamos un dado cargado en el que la probabilidad de

mostrar una cara es proporcional a su número de puntos. Definimos
X ={ número de puntos que muestra la cara}, siendo su soporte el
conjunto DX = {1, 2, 3, 4, 5, 6}. Para obtener su función de probabili-
dad sabemos que

kx, x ∈ DX ;
fX (x) =
0, x∈/ DX ,

donde k es la constante de proporcionalidad. Para obtener su valor

recurrimos a P2) y tendremos
X X 1
fX (x) = kx = 21k = 1 =⇒ k = .
21
x∈DX x∈DX

La Figura 5 muestra la tabla de valores y la gráfica de la función de

probabilidad resultante. Es obvio que la P1 se verifica.

x fX (x)
0.25

1 1/21
función de probabilidad

2 2/21
0.20

3 3/21
0.15

4 4/21
0.10

5 5/21
6 6/21
0.05

1 2 3 4 5 6

Figura 5.- Función de probabilidad y su gráfica

A partir de la función de probabilidad P (X = xi ) podemos calcu-

lar cualquier otra probabilidad. Por ejemplo:

P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2),

o bien,

P (X ≥ 7) = P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10).
66 CAPÍTULO 4. VARIABLES ALEATORIAS

También

P (4 ≤ X ≤ 7) = P (X = 4) + P (X = 5) + P (X = 6) + P (X = 7).

P (4 < X ≤ 7) = P (X = 5) + P (X = 6) + P (X = 7).
P (4 < X < 7) = P (X = 5) + P (X = 6).
De un modo genérico podemos escribir que
X
P (X ∈ A) = P (X = x),
x∈A

siendo A cualquier conjunto (por ejemplo, un intervalo).

4.4.2 Ejercicios
Ej. 29 — Consideremos el experimento aleatorio consistente en lan-
zar dos veces un dado. Un resultado del experimento puede ser ω =
(1, 3) indicando que en primer lugar hemos obtenido un 1 y en el se-
gundo lanzamiento hemos obtenido un 3. Consideramos la variable
aleatoria que asocia al resultado obtenido la suma de los valores que
obtenemos en el primer y en el segundo lanzamiento. Si ω = (i, j)
entonces X(ω) = i + j.
[Link] qué valores puede tomar la variable X.
[Link] la función de probabilidad de la variable X.
[Link] las probabilidades siguientes: P (X ≤ 1), P (X ≤ 2), P (X >
2), P (X ≤ 4), P (4 ≤ X ≤ 6), P (4 < X ≤ 6), P (4 ≤ X < 6).

4.4.3 Relación con la función de probabilidad y la

de distribución
La información del comportamiento probabilístico de la variable
puede ser obtenida indistintamente a través de cualquiera de las dos
funciones por la relación que entre ellas existe, de fácil deducción. En
efecto, de la definición de función de probabilidad y de la continuidad
por la derecha de la función de distribución se sigue,
P
FX (x) = y∈DX ,y≤x fx (y)

fX (x) = FX (x) − F (x − 0)

donde FX (x − 0) representa el límite por la izquierda.

4.4.4 Media y varianza de una variable aleatoria

discreta
Al igual que hicimos con las variables observadas en una muestra
en el Capítulo 1, podemos también ahora definir medidas de posición y
localización para las variables aleatorias. Las más utilizadas son la me-
dia o esperanza y la varianza y la raíz cuadrada de ésta, la desviación
típica. Para distinguirlas de las correspondientes medidas calculadas
para variables observadas en una muestra, se las designa mediante le-
tras del alfabeto griego. Para una variable aleatoria discreta, X cuyo
soporte es DX = {x1 , x2 , x3 , . . . , xn , . . .},
4.4. VARIABLE ALEATORIA DISCRETA 67

Media.- Es el centro de gravedad de la distribución de probabilidad

y se obtiene de la siguiente forma
X
E(X) = µX = xi fX (xi ). (4.2)
xi ∈DX

Varianza.- Se obtiene a partir de la expresión

X
σX2
= (xi − µ)2 fX (xi ), (4.3)
xi ∈DX

y no es más que la esperanza de los cuadrados de las desviaciones

de cada valor de la variable respecto de su media, E[(X − µ)2 ],
y es siempre mayor que 0.
Si desarrollamos (4.3) se obtiene la siguiente expresión alterna-
2
tiva para σX ,
2
σX = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 . (4.4)
Si no hay confusión posible puede prescindirse del subíndice X
y aligerar la notación.
Ejemplo 4.6 Retomemos la variable X del Ejemplo 4.5 y calculemos
su media y varianza.
X
6 X6
i2 12 + 2 2 + 3 2 + 4 2 + 5 2 + 6 2 91
µ= ifX (i) = = = = 4, 33.
i=1 i=1
21 21 21

σ2 = E(X 2 ) − [E(X)]2
X
6
= i2 fX (i) − µ2
i=1

X6 2
i3 91
= −
i=1
21 21
= 2, 22
√
La desviación típica es la raíz cuadrada de la varianza, σ = 2, 22 =
1, 49.
Ejemplo 4.7 (La media como límite de medias muestrales) Supongamos
que tenemos una variable que puede tomar los valores {0, 9} con pro-
babilidades dadas en la tabla 4.2. El experimento supongamos que
consiste en elegir al azar una vivienda en una gran población (por
ejemplo, Valencia) y observar el número de personas que habitan la
vivienda. En la fila etiquetada con x tenemos el número de personas
y en la fila etiquetada P (X = x) la frecuencia de cada valor posible
que asumimos conocidas.

x 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
P (X = x) 0.20 0.11 0.13 0.24 0.27 0.02 0.01 0.01 0.00 0.01

Tabla 4.2: Función de probabilidad de la variable aleatoria que nos da el número de personas que residen en una
vivienda.

Podemos simular la selección aleatoria de una vivienda en esa

población utilizando la función sample.
68 CAPÍTULO 4. VARIABLES ALEATORIAS

x = 0:9
probabilidades = c(0.20,0.11,0.13,0.24,0.27,0.02,0.015,0.009,
0.0009,0.0051)
sample(x,size=1,replace=TRUE,prob=probabilidades)

## [1] 0

Supongamos que repetimos el proceso de extracción 100 veces.

n = 100
(y = sample(x,size=n,replace=TRUE,prob=probabilidades))

## [1] 3 4 1 0 3 3 2 3 3 2 0 4 3 3 0 4 0 3 3 4 4 2
## [23] 9 1 4 2 3 4 0 4 1 3 3 0 1 3 4 4 4 9 0 2 4 1
## [45] 3 3 1 4 4 4 2 4 3 6 0 3 4 3 2 1 3 4 3 4 4 7
## [67] 1 0 4 0 3 2 0 3 5 2 3 4 0 2 4 4 3 1 3 0 3 4
## [89] 3 4 3 2 2 3 4 3 4 3 4 4

Las frecuencias que observamos de cada tipo son las siguientes

[Link](table(y))

## y
## 0 1 2 3 4 5 6 7 9
## 0.13 0.09 0.12 0.31 0.30 0.01 0.01 0.01 0.02

¿Se parecen? En las categorías más probables bastante. Repitamos

el proceso con 1000 muestras.

y = sample(x,size=1000,replace=TRUE,prob=probabilidades)
[Link](table(y))

## y
## 0 1 2 3 4 5 6 7
## 0.189 0.101 0.135 0.258 0.265 0.023 0.012 0.008
## 8 9
## 0.002 0.007

Vemos cómo se parecen más las frecuencias observadas a las proba-

bilidades de cada uno de los valores. Denotemos∑los n
valores simulados
yi
por {y1 , . . . , yn }. Su media muestral será ȳn = i=1
n pero
X
n
yi Xn
nx
ȳn = = x
i=1
n x=0
n

donde nx denota el número de veces que aparece el resultado x. Ob-

viamente cuando el número de datos que generamos va creciendo la
frecuencia relativa de veces que aparece el resultado x que viene dada
por el cociente nx /n, se va aproximando a la probabilidad P (X = x).
Por ello tendremos que
Xn
nx Xn
ȳn = x −→ xP (X = x).
x=0
n x=0

En nuestro caso el número medio de personas que viven en la

vivienda vendría dada por
4.4. VARIABLE ALEATORIA DISCRETA 69

(mu = sum(x * probabilidades))

## [1] 2.4761

En la figura ?? hemos representado con una línea horizontal cuya

ordenada es la media que acabamos que calcular. Luego vamos simu-
lando valores según la variable discreta que acabamos de proponer.
En el eje de abscisas consideramos el número de valores que vamos
promediando. Vemos cómo la media muestral se va aproximando al
valor dado de la media.

n = 10000
y = sample(x,size=n,replace=TRUE,prob=probabilidades)
df = [Link](x=1:n,y= cumsum(y)/(1:n))
ggplot(df,aes(x=x,y=y))+geom_point()

Ejemplo 4.8 Lanzamos la moneda si sale cara la variable X vale uno

y si sale cruz la variable X vale cero. ¿Cuál es su media?
µ = 1 × p + 0 × (1 − p) = p. Figura 4.7: Medias muestrales del
número de personas que habitan
una vivienda en función del tama-
Media y varianza de una transformación lineal ño de la muestra.

Es frecuente encontrarnos con transformaciones lineales de las va-

riables, más adelante tendremos ocasión de comprobarlo, y necesita-
mos conocer como afectan a la media y a la varianza. Si definimos
Y = aX + b,
µY = E(aX + b)
X
= (axi + b)fX (xi )
xi ∈DX
X X
= a xi fX (xi ) + b fX (xi )
xi ∈DX xi ∈DX
= aµX + b. (4.5)
La media sufre por tanto la misma transformación que la variable.
Para la varianza,
σY2 = E[(Y − µY )2 ]
X
= [(axi − aµX )2 ]fX (xi )
xi ∈DX
X
= a2 (xi − µX )2 fX (xi )
xi ∈DX

= a2 σX
2
. (4.6)
lo que supone que la varianza es invariante por traslación y los cambios
de escala le afectan con el cuadrado del factor de escala.

4.4.5 Variables aleatorias discretas más notables

Puesto que los experimentos aleatorios pueden tener orígenes muy
distintos, son muchos los posibles modelos probabilísticos necesarios
para describirlos, pero entre ellos existen algunos que describen fenó-
menos naturales muy frecuentes. A continuación estudiaremos tres de
estos modelos: uniforme, Binomial y Poisson.
70 CAPÍTULO 4. VARIABLES ALEATORIAS

Modelo uniforme discreto

Describe el comportamiento probabilístico de una variable aleato-
ria ligada a un espacio muestral finito equiprobable (ver página 38).
La variable X tendrá un soporte finito DX = {x1 , x2 , . . . , xn }, don-
de cada xi se corresponde con un punto del espacio muestral, si . Si
recordamos la fórmula de Laplace,
1
P (X = xi ) = P ({si }) = ,
n
de aquí la denominación de uniforme para este modelo porque la masa
de probabilidad está uniformemente repartida entre todos los n puntos
del soporte. La función de probabilidad valdrá,
1
fX (x) = n , x ∈ DX ;
0, en el resto.

La media de X,

X
n
x1 + x2 + · · · + xn
µ= xi fX (xi ) = ,
i=1
n

no es más que la media aritmética de los valores que puede tomar X.

Ejemplo 4.9 (Lanzamiento de un dado) Un ejemplo sencillo de

variable discreta uniforme se obtiene al asignar a cada lanzamiento
de un dado el número de puntos que muestra la cara. La variable X
así construida tiene por soporte DX = {1, 2, 3, 4, 5, 6}, su función de
probabilidad vale 1/6 sobre cada punto de DX y cero en el resto y su
media y varianza son,
1+2+3+4+5+6 21
µ= = = 3, 5
6 6
y

12 + 22 + 32 + 42 + 52 + 62 212 525
σ 2 = E(X 2 ) − µ2 = − 2 = = 2, 92.
6 6 36

4.4.6 Modelo binomial

Consideremos un experimento con dos posibles resultados. A uno
de ellos le llamamos éxito y al otro le llamamos fracaso. Suponemos
que hay una probabilidad p de obtener un éxito (donde 0 ≤ p ≤ 1)
y, por lo tanto, una probabilidad 1 − p de obtener un fracaso. Un
experimento de este tipo recibe el nombre de prueba de Bernoulli.
El ejemplo más simple, lanzamiento de una moneda donde identi-
ficamos salir cara con éxito y salir cruz como fracaso. En este caso, la
probabilidad de éxito es p = 0.5.
Otro ejemplo, elegimos al azar a una persona de la población espa-
ñola e identificamos éxito con que la persona tenga un cierto atributo
(sea diabético por ejemplo) y fracaso con que no tenga el atributo. La
probabilidad de éxito p coincide con la proporción que realmente hay
de diabéticos en la población.

1. Lanzamiento de 10 monedas correctas.- Al lanzar 10 mo-

nedas, que equivale como ya hemos dicho a lanzar 10 veces una
4.4. VARIABLE ALEATORIA DISCRETA 71

misma moneda, el resultado de cada lanzamiento es indepen-

diente de los restantes. Interesados en el número de caras en los
10 lanzamientos, que designaremos mediante la variable aleato-
ria X, sabemos que éste puede variar desde 0 hasta 10. En cada
lanzamiento, si la moneda es correcta, tenemos 1 posibilidad
frente a 2 de que aparezca una cara (de hecho la misma que pa-
ra cruz), por lo que utilizando la fórmula de Laplace (Capítulo
3)
1
P (cara en cada lanzamiento) = .
2
¿Cómo calcular la probabilidad de que al final de los 10 lanza-
mientos hayamos obtenido k caras, P (X = k), siendo k cual-
quier número entre 0 y 10, ambos inclusive, 0 ≤ k ≤ 10?. Su-
pongamos que k = 4. Uno de los posibles resultados con 4 caras
es aquél en el que las 4 caras han aparecido en los 4 primeros
lanzamientos: CCCC + + + + + +. Como los lanzamientos son
independientes, la probabilidad de semejante combinación vale
(ver Capítulo 3),
1 1 1 1 1 1 1 1 1 1
P (CCCC + + + + + +) = × × × × × × × × ×
|2 2 {z 2 2} |2 2 2 {z 2 2 2}
4 caras 6 cruces

1 4 1 6

= 2 · 2

1 10
= 2 .

Si las caras hubieran aparecido en cualesquiera otras posiciones,

la probabilidad de la correspondiente combinación sería la mis-
ma, porque el orden de los factores no altera el producto. Es
decir, todos los lanzamientos con 4 caras tienen la misma pro-
babilidad, por lo que la probabilidad de obtener 4 caras en los
10 lanzamientos, P (X = 4), se obtendrá sumando las probabili-
dades de todas las combinaciones con 4 caras. Como todas ellas
valen lo mismo,
4 6 10
1 1 1
P (X = 4) = m × · =m× ,
2 2 2
siendo m su número. Todas las posibles formas en que 4 caras
pueden aparecer entre los 10 lanzamientos son lascombinaciones
de 10 elementos tomados de 4 en 4, es decir, 104 . Así pues,
4 6 10
10 1 1 10 1
P (X = 4) = · · = · .
4 2 2 4 2

Finalmente, si las caras son k, P (X = k) se obtiene a partir de

la fórmula anterior sustituyendo 4 por k:

k 10−k 10
10 1 1 10 1
P (X = k) = · · = · . (4.7)
k 2 2 k 2

2. Lanzamiento de 10 monedas trucadas.- En un segundo pa-

so supongamos que la moneda ha sido trucada, de manera que
72 CAPÍTULO 4. VARIABLES ALEATORIAS

la probabilidad de que nos muestre una cara al lanzarla no es,

como antes, 1/2, sino p. Ello supone que la probabilidad de ob-
tener una cruz en cada lanzamiento valdrá 1 − p y si queremos
obtener ahora P (X = k) el razonamiento del apartado anterior
continua siendo válido, con la salvedad que las nuevas proba-
bilidades de cara y cruz suponen. Es decir, la fórmula (4.7) se
expresará ahora,

10 k
P (X = k) = p (1 − p)10−k . (4.8)
k

3. Lanzamiento de n monedas trucadas.- Si generalizamos

ahora el número de lanzamientos a n, la probabilidad de obtener
k caras en los n lanzamientos se obtiene de (4.8) sustituyendo
10 por n. Es decir,

n k
P (X = k) = p (1 − p)n−k . (4.9)
k

Extraigamos por último los rasgos esenciales del experimento alea-

torio que acabamos de describir con detalle. Estos rasgos constituyen
cuanto tienen en común todos los fenómenos aleatorios que pueden
ser descritos mediante el modelo binomial.

Rasgos esenciales de un modelo binomial:

1. Hemos llevado a cabo n repeticiones independientes de una
misma prueba, todas ellas en las mismas condiciones.
2. En cada repetición nos hemos interesado por la ocurrencia,
o no, de un mismo suceso, A.
3. La probabilidad de dicho suceso es la misma en cada repe-
tición, P (A) = p.

En consecuencia, cualquier experimento aleatorio que comparta

estos rasgos podrá ser descrito probabilísticamente mediante un ade-
cuado modelo binomial. Por ejemplo,
• la extracción de n bolas de una urna que contiene una proporción
p de bolas blancas, siempre que dicha extracción se lleve a cabo
con reemplazamiento (la bola se devuelve a la urna),
• los lanzamientos sucesivos de un dado correcto con el fin de
conocer el número de ocasiones en que muestra determinada
cara o conjunto de caras.
Es costumbre denominar éxitos a las ocurrencias del suceso que
nos interesa, de tal forma que decimos que X, la variable aleatoria
asociada al modelo binomial, representa el número de éxitos obtenidos
en las n pruebas.
La notación X ∼ B(n, p) es una forma compacta de indicar que
X es la variable aleatoria asociada a un modelo binomial con paráme-
tros n y p, es decir n pruebas independientes con igual probabilidad
de éxito p en cada una de ellas. Obsérvese que ambos parámetros
son necesarios para determinar unívocamente la función de probabili-
dad de X, que equivale a conocer completamente su comportamiento
probabilístico.
4.4. VARIABLE ALEATORIA DISCRETA 73

0.20
B(20,0.7)

B(20,0.5)

0.15
función de probabilidad

0.10

B(100,0.7)
B(100,0.5)
0.05
0.00

0 20 40 60 80 100

Figura 4.8: Gráficas de la función de probabilidad para distintos mo-

delos binomiales.

Al igual que las variables estadísticas estudiadas en el Capítulo 1,

las variables aleatorias pueden también ser descritas en forma resumi-
da mediante algunas características numéricas: la media y la varianza.
Función de probabilidad del modelo binomial
Si X ∼ B(n, p) la expresión (4.9) nos permite calcular la probabili-
dad de obtener k éxitos en las n pruebas. Podemos asociar a X una
función que nos proporcione dicha probabilidad. A dicha función la
denominaremos función de probabilidad de X y está definida de la
siguiente forma,
 n x
 x p (1 − p)n−x , si x = 0, 1, . . . , n
fX (x) =

0, en el resto.

Es interesante conocer la forma que tiene fX (x) para distintos

valores de n y p. La Figura 4.8 muestra algunas gráficas en las que
destaca, como rasgo común, la simetría total o aproximada depen-
diendo del valor de p.

Nota 4.1 Los valores de la función de probabilidad están tabulados,

lo que facilita la obtención de las probabilidades asociadas a la variable
X. Como puede verse en el fragmento de tabla que se reproduce en la
Tabla 2, ésta está encabezada por una primera fila en la que aparecen
los distintos valores de p. En la primera columna aparecen los valores
de n que recoge la tabla (las tablas son tanto mejores cuantos más
valores de p y n muestran), y en la segunda columna, encabezada por
la letra k, figuran los n+1 valores que puede tomar la variable para
cada n. Cada valor del interior de la tabla se corresponde con una
terna única de valores de n, p y k y representa el valor de P (X = k).
Así, para X ∼ B(10, 0.20) se obtiene de la tabla P (X = 3) = 0.2013.
74 CAPÍTULO 4. VARIABLES ALEATORIAS

p
n k ··· 1/6 0.20 0.25 ···
10 0 · 0.1615 0.1074 0.0563 ·
1 · 0.3230 0.2684 0.1877 ·
2 · 0.2907 0.3020 0.2816 ·
3 · 0.1550 0.2013 0.2503 ·
4 · 0.0543 0.0881 0.1460 ·
5 · 0.0130 0.0264 0.0584 ·
6 · 0.0022 0.0055 0.0162 ·
7 · 0.0002 0.0008 0.0031 ·
8 · 0.0000 0.0001 0.0004 ·
9 · 0.0000 0.0000 0.0000 ·
10 · 0.0000 0.0000 0.0000 ·

11 0 · 0.1346 0.0859 0.0422 ·

· · ··· ··· ··· ·

Tabla 2.- Fragmento de la tabla de la función de probabilidad de un

modelo binomial

Si estuviéramos interesados en obtener probabilidades acumuladas

del tipo P (X ≤ m), también la tabla puede sernos útil. En efecto,
observemos que, que el suceso {X ≤ m} significa que la variable X
puede tomar cualquier valor que no supere a m, en concreto,

{X ≤ m} = {X = 0 o X = 1 o · · · X = m}
= {X
Sm = 0} ∪ {X = 1} ∪ {X = m}
= k=0 {X = k},

pero los sucesos de la forma {X = k}, k = 0, 1, . . . , m son incompati-

bles y, recordemos las propiedades de la probabilidad (capítulo 3), por
tanto !
[
m Xm
P (X ≤ m) = P {X = k} = P (X = k),
k=0 k=0

lo que nos permite recurrir a la tabla. Por ejemplo, para una variable
X ∼ B(10, 0.20),

P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
= 0.1074 + 0.2684 + 0.3020
= 0.6778.

Nota 4.2 (Función de probabilidad de la binomial) La función

dbinom nos permite calcular la función de probabilidad de una varia-
ble binomial. Por ejemplo, ¿qué probabilidad tenemos de obtener 70
caras si lanzamos 123 veces una moneda. La respuesta es

dbinom(70,size=123,prob=0.5)

## [1] 0.02230619

Nota 4.3 (Simulación de una variable binomial) Supongamos que

queremos lanzar una moneda 30 veces con R.2 Esto lo podemos hacer
con

2 Algo no demasiado raro aunque pueda parecerlo.

4.4. VARIABLE ALEATORIA DISCRETA 75

rbinom(30,size=1,prob=.5)

## [1] 0 0 0 0 0 0 0 1 0 1 1 1 0 1 0 1 1 0 1 1 0 1 0
## [24] 1 1 0 0 1 1 0

El uno corresponde con éxito (cara) y el cero con fracaso. Si repe-

timos el proceso posiblemente no obtengamos los mismos resultados.

rbinom(30,size=1,prob=.5)

## [1] 1 1 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0
## [24] 1 0 1 0 0 1 0

Realmente nos interesa el número de éxitos y no el orden en que

se producen. Esto lo podemos hacer con

rbinom(1,size=30,prob=.5)

## [1] 20

Si lo repetimos posiblemente no obtengamos el mismo número de

unos.

rbinom(1,size=30,prob=.5)

## [1] 17

Supongamos que queremos simular 40 veces el experimento con-

sistente en lanzar 30 veces una moneda y contamos en cada caso el
número de unos.

rbinom(40,size=30,prob=.5)

## [1] 16 13 14 17 13 12 15 15 12 16 11 16 15 15 18
## [16] 17 17 17 14 16 16 19 14 14 14 16 16 14 17 12
## [31] 13 14 20 19 16 14 17 11 22 13

Si la moneda no está bien construida y pretendemos que la ca-

ra tenga una probabilidad de 0.6, entonces repetimos el experimento
anterior con

rbinom(40,size=30,prob=.6)

## [1] 20 18 18 17 17 16 20 13 15 22 20 21 25 21 15
## [16] 16 16 21 20 18 15 18 20 17 21 20 20 24 20 19
## [31] 17 22 22 16 17 15 14 20 20 19

Nota 4.4 (De cómo calcular probabilidades de la distribución binomial)

Supongamos que queremos calcular la probabilidad de obtener 23 éxi-
tos cuando realizamos 30 pruebas de Bernoulli donde la probabilidad
de éxito es 0.6, es decir, pretendemos calcular para X ∼ Bi(30, 0.6)
la función de probabilidad en x = 23 dada por

30
P (X = x) = (0.6)30 (1 − 0.6)30−23 . (4.10)
23
76 CAPÍTULO 4. VARIABLES ALEATORIAS

dbinom(23,size=30,prob=.6)

## [1] 0.02634109

Podemos conocer las probabilidades de cada uno de los posibles

resultados, es decir, la función de probabilidad P (X = x), con

dbinom(0:30,size=30,prob=.6)

## [1] 1.152922e-12 5.188147e-11 1.128422e-09

## [4] 1.579791e-08 1.599538e-07 1.247640e-06
## [7] 7.797748e-06 4.010270e-05 1.729429e-04
0.15

●
●
## [10] 6.341240e-04 1.997491e-03 5.447702e-03
dbinom(0:30, size = 30, prob = 0.6)

●
●
## [13] 1.293829e-02 2.687184e-02 4.894513e-02
0.10

●
●
## [16] 7.831221e-02 1.101265e-01 1.360387e-01
## [19] 1.473752e-01 1.396186e-01 1.151854e-01
0.05

● ●

## [22] 8.227527e-02 5.048710e-02 2.634109e-02

● ●

● ● ## [25] 1.152423e-02 4.148722e-03 1.196747e-03

0.00

● ●
●●●●●●●●●●● ●●●●●

## [28] 2.659437e-04 4.274096e-05 4.421478e-06

0 5 10 15 20 25 30

0:30
## [31] 2.210739e-07

Figura 4.9: Para una variable bi- En la figura 4.9 tenemos la representación gráfica de estas proba-
nomial con n = 30 y una probabilidades.
bilidad de éxito de p = 0.6 mos- También podemos obtener la función de la distribución binomial
tramos la función de probabilidad
que para cada x nos da la proba-
en cualquier punto, es decir, la probabilidad P (X ≤ 12) es
bilidad de que la variable tome ese
valor, P (X = x). pbinom(12,size=30,prob=.6)
0.20

## [1] 0.02123988
Densidad de una normal N(7,4)

0.15

La figura 4.11 muestra la función de distribución de una variable

0.10

aleatoria con distribución binomial con n = 30 pruebas y una proba-

0.05

bilidad de éxito p = 0.6.

0.00

0 2 4 6 8 10 12 14
4.4.7 Media y varianza de una variable binomial
x

La media de X ∼ B(n, p) se obtiene mediante

Figura 4.10: Función de densidad
de una normal con media 7 y va- Xn
n x
rianza 4. µ= x p (1 − p)n−x =
x=0
x
Xn
n(n − 1) . . . (n − x + 1) x
1.0 = x p (1 − p)n−x
x=0
x!
0.8

X
n
(n − 1) . . . (n − x + 1)
px−1 (1 − p)n−x
P(X <= x)

0.6
= np
0.4 x=1
(x − 1)!
0.2 X n − 1
n−1
= np py (1 − p)n−y−1 = np
0.0
y=0
y
0 5 10 15 20 25 30

Para obtener σ 2 , observemos que E[(X(X − 1)] = E(X 2 ) − E(X), y

Figura 4.11: Función de distribu- de aquí σ 2 = E[(X(X −1)]+E(X)−[E(X)]2 . Aplicando un desarrollo
ción de una binomial con n =
30 pruebas y una probabilidad de análogo al anterior se obtiene E[X(X − 1)] = n(n − 1)p y finalmente
2

éxito p = 0.6. Para cada abcisa x

tenemos la probabilidad de que la σ 2 = n(n − 1)p2 + np − n2 p2 = np(1 − p).
variable sea menor o igual que ese
valor x, P (X ≤ x).
4.4. VARIABLE ALEATORIA DISCRETA 77

Un caso particular de binomial: la variable Bernoulli

Un caso particular de binomial es aquella en el que se realiza una
única prueba, B(1, p). Recibe el nombre de Bernoulli en honor de
su introductor, el matemático suizo Jakob Bernoulli (1654-1705). La
variable Bernoulli describe una prueba dicotómica, sólo puede darse
uno de dos resultados, cara o cruz, éxito o fracaso, 0 o 1. Si recordamos
los rasgos que definen a una variable X ∼ B(n, p) (ver página 72),
podemos escribir,
Xn
X= Xi (4.11)
i=1

con Xi ∼ B(1, p) independientes.

4.4.8 Ejercicios
Ej. 30 — Se pide:
[Link] 100 valores con distribución binomial con 20 pruebas y
una probabilidad de éxito en cada prueba de 0.3. Guardar estos
valores en el vector x.
[Link] la media y varianza muestrales de los valores generados.
[Link] la media muestral observada con 20×0.3 y la varianza
muestral observada con 20 × 0.3 × 0.7 que corresponden con la
media y la varianza teóricas.
[Link] los apartados anteriores sustituyendo las 100 simulacio-
nes por 1000, por 10000 y por 100000. Comparar en cada caso
los valores teóricos con los valores muestrales.

Ej. 31 — Generamos 10000 valores con distribución binomial con

20 pruebas y una probabilidad de éxito por prueba de 0.3. Comparar
la función de distribución muestral (vista en la práctica anterior) con
la función de distribución teórica que acabamos de ver.

Ej. 32 — Consideremos una variable aleatoria con distribución bi-

nomial con 45 pruebas y una probabilidad de éxito de 0.67. Se pide:
1.P (X ≤ 23).
2.P (X < 23).
3.P (X > 29).
4.P (X ≥ 29).
5.P (34 < X ≤ 45).
6.P (34 ≤ X ≤ 45).

Ej. 33 — Dos especialistas en plagas vegetales difieren en su apre-

ciación de la proporción de palmeras afectadas por el picudo en la
Comunidad Valenciana. Uno de ellos (especialista A) afirma que un
30 % de las palmeras están afectadas. El otro, especialista B, afirma
que es un 45 % de las palmeras. Un tercer especialista decide tomar
una muestra aleatoria simple de la población total de palmeras. En
total muestrea un total de 325 palmeras y observa 133 palmeras afec-
tadas. Se pide:
[Link] la probabilidad de las afirmaciones de cada uno de los
especialistas.
78 CAPÍTULO 4. VARIABLES ALEATORIAS

2.¿Qué afirmación es más probable? ¿Con cuál de los dos juicios

nos quedaríamos?
[Link] es cierta la afirmación del especialista A: ¿qué probabilidad
tenemos de observar 133 o menos?
[Link] es cierta la afirmación del especialista B: ¿qué probabilidad
tenemos de observar 133 o menos?
[Link] decide continuar el muestreo y observamos el estado de 145
palmeras más de las cuales están afectadas 56. Utilizando sola-
mente la nueva muestra responde a las preguntas 1, 2, 3 y 4.
[Link] las preguntas 1, 2, 3 y 4 utilizando conjuntamente
toda la muestra.

4.5 Variable aleatoria continua

Consideremos el siguiente experimento. Cogemos una muestra de
panga vietnamita y medimos la concentración de mercurio en dicha
muestra. El resultado ω es la muestra que hemos tomado. De esta
muestra nos interesa solamente la concentración de mercurio. Nos in-
teresa el valor asociado a la muestra y no la muestra misma. Por ello
podemos definir X(ω) = x donde x es la concentración medida de
mercurio. El valor aleatorio que observamos los denotamos por X, la
variable aleatoria. Una vez hemos observado el valor, esto es, una vez
se ha realizado la determinación de mercurio el valor ya no es aleatorio.
Es un valor dado, por ejemplo, una concentración de 0.5 miligramos
por kilogramo. Este valor ya no lo denotamos con la letra mayúscula
sino con la letra en minúscula, x. ¿Qué nos interesa conocer sobre
estos valores aleatorios? Posiblemente muchas cosas pero lo más bá-
sico (y de lo cual se deduce cualquier otra) es conocer la probabilidad
que tenemos de que el valor que observemos esté entre dos números.
¿Qué probabilidad tenemos de que la muestra que analicemos de un
valor entre 0.3 y 0.6? ¿Qué probabilidad hay de observar un valor
entre 0.4 y 0.8? O bien, si una cierta normativa afirma que un valor
por encima de 0.5 no se permite entonces parece natural plantear-
se: ¿cuál es la probabilidad de observar una muestra por encima de
este valor? O por el contrario: ¿con qué frecuencia observamos mues-
tras que no alcance el valor 0.5? Las probabilidades que acabamos
de indicar se denotan como: P (0.3 ≤ X ≤ 0.6), P (0.4 ≤ X ≤ 0.8),
P (X ≥ 0.5) y P (X ≤ 0.5). Sin tener que referirnos a valores concre-
tos podemos denotar de un modo genérico todos los casos anteriores
como P (a ≤ X ≤ b) donde a y b toman los valores que queramos.
Cuando consideramos P (0.3 ≤ X ≤ 0.6) estamos tomando a = 0.3
y b = 0.6. También P (X ≥ 0.5) tiene esta forma ya que estamos to-
mando a0 = .5 y b = +∞. Obviamente, P (X ≤ 0.5) corresponde con
a = −∞ y b = 0.5.
En resumen, cuando trabajamos con una variable aleatoria lo fun-
damental es conocer las probabilidades P (a ≤ X ≤ b) donde a y b son
números reales o a = −∞ o b = +∞.
Cuando una variable es continua entonces la probabilidad anterior
se puede calcular como
Z b
P (a < X ≤ b) = f (x)dx.
a
4.5. VARIABLE ALEATORIA CONTINUA 79

La función f recibe el nombre de función de densidad (de proba-

bilidad) de la variable X.
De hecho se tiene que
Z b
P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = f (x)dx.
a

4.5.1 Función de densidad de probabilidad

El papel de la función de probabilidad lo juega ahora la que de-
nominaremos función de densidad de probabilidad (fdp) de X, fX (x),
que representa la densidad lineal de probabilidad que existe en el
punto x. La gráfica de la Figura 8 nos ayudará a interpretar mejor su
significado.

P(a < X ≤ b)
y = fX(x)

fX(x)dx

a b x x+dx

Figura 8.- La función de densidad de probabilidad

La fdp nos indica la cantidad de probabilidad por elemento infi-

nitesimal de longitud. Es decir, fX (x) dx ≈ P (X ∈]x, x + dx]). De
acuerdo con esta interpretación, la probabilidad de que la variable
aleatoria X esté comprendida entre dos valores a y b es el área que
encierra fX (x) entre ambos y se calcula mediante la expresión,
Z b
FX (b) − FX (a) = P (a < X ≤ b) = fX (x)dx. (4.12)
a

Una consecuencia inmediata de (4.12) es que la probabilidad de

que una variable continua tome un valor determinado es 0, P (X =
x) = 0, porque sobre un único punto fX (x) no encierra área alguna.
Es éste un resultado que siempre sorprende y merced al cual todas las
probabilidades que siguen son iguales,

Z b
P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = P (a < X < b) = fX (x)dx.
a
(4.13)
La fdp tiene también dos propiedades equivalentes a las que poseía
la función de probabilidad,
P1) fX (x) es no negativa, y
P2) como P (X ∈ R) = 1,
Z +∞
f (x) dx = 1.
−∞
80 CAPÍTULO 4. VARIABLES ALEATORIAS

4.5.2 Relación entre la función de densidad y la de

distribución
Al igual que en el caso discreto, también ahora el comportamiento
de la variable puede ser conocido indistintamente a través de cual-
quiera de las dos funciones por la relación que entre ellas existe. De
acuerdo con (4.12),
Z x
FX (x) = P (X ≤ x) = P (−∞ < X ≤ x) = fX (x)dx,
−∞

y derivando ambos extremos de la cadena de igualdades,

dFX (x)
fX (x) = .
dx

4.5.3 Media y varianza de una variable aleatoria

continua
La media de una variable aleatoria continua se obtiene a partir de
la expresión
Z
µX = E(X) = xfX (x)dx. (4.14)
DX
Para el cálculo de la varianza,
Z
2
σX = E[(X − µ)2 ] = (x − µ)2 fX (x)dx, (4.15)
DX

o alternativamente,
Z
2
σX = E[(X − µ)2 ] = E(X 2 ) − µ2 = x2 fX (x)dx − µ2 . (4.16)
DX

La media y la varianza de las variables continuas se comportan

frente a las transformaciones lineales de la misma forma que lo hacían
para las variables discretas. Las expresiones (4.5) y (4.6) son válidas
también ahora.

4.5.4 Variable aleatoria uniforme

Es la versión contínua de la variable aleatoria discreta que, recor-
demos, se caracterizaba porque la masa de probabilidad estaba unifor-
memente repartida en el soporte. Se trata ahora de una variable alea-
toria X cuyo dominio es un intervalo acotado [a, b] y la uniformidad
en la distribución de la masa de probabilidad significa que su densidad
es constante en todo el intervalo. Así pues, fX (x) = k, ∀x ∈ [a, b].
Para determinar el valor de k recordemos las propiedades que la fdp,
la primera obliga a que k ≥ 0 y la segunda exige que
Z b
1
kdx = 1 =⇒ k = ,
a b − a
en definitiva, 
 1
 , si x ∈ [a, b]
fX (x) = b−a


0, en el resto.
La podemos ver representada en la figura 4.12.
4.5. VARIABLE ALEATORIA CONTINUA 81

x = seq(-.2,1.2,.01)
y = dunif(x,min=0,max=1)
df = [Link](x,y)
ggplot(df,aes(x=x,y=y)) + geom_line()

Ejemplo 4.10 (Uniforme en el intervalo unitario) Una variable

aleatoria uniforme en el intervalo [0, 1] es un experimento que ya he-
mos visto. En las calculadoras suele haber una función conocida como
rand que cuando la usamos nos devuelve un valor entre 0 y 1. La idea
es que es imprevisible el valor y no esperamos que aparezca alrededor Figura 4.12: Función de densidad
de una variable uniforme en el in-
de nada. Simplemente dentro del intervalo. Supongamos que tomamos tervalo [0, 1].
0 ≤ a ≤ b ≤ 1 entonces
Z b Z b
P (a ≤ X ≤ b) = f (x)dx = dx = b − a,
a a

es decir, la probabilidad de que la variable está en el intervalo [a, b]

depende solamente de la longitud del intervalo y no de dónde está
colocado dentro del intervalo [0, 1].
¿Podemos generar un valor aleatorio que se comporte como una
uniforme en [0, 1]? Simplemente con

runif(1,min=0,max=1)

## [1] 0.3378739

De hecho, podemos simular el número de puntos que queramos.

Por ejemplo, generemos 20 valores.3

runif(20,min=0,max=1)

## [1] 0.67961070 0.43858706 0.20398474 0.14189130

## [5] 0.54714258 0.48087671 0.70653471 0.96100640
## [9] 0.35860802 0.93788721 0.40918785 0.71166658
## [13] 0.68586476 0.04522121 0.18650962 0.84188493
## [17] 0.00216160 0.46154108 0.57519076 0.61549544

Ejemplo 4.11 También podemos considerar la uniforme en un in-

tervalo arbitrario [a, b] donde a y b son números arbitrarios siendo a
menor que b. La función de densidad de la variable es
1
b−a si a≤x≤b
f (x) =
0 en otro caso.

Además, si consideramos un par de puntos c y d tales que a ≤ c ≤

d ≤ b entonces:
Z d Z d
1 d−c
P (c ≤ X ≤ d) = f (x)dx = dx = .
c c b − a b −a
Otra vez la probabilidad de que el valor aleatorio de X esté en el
intervalo [c, d] solamente depende de lo largo que es el intervalo y no
de dónde está dentro de [a, b].
3 Más no que ocupa demasiado espacio. En cualquier caso podemos probar a

cambiar el valor 20 por el número de valores que nos apetezca simular.

82 CAPÍTULO 4. VARIABLES ALEATORIAS

Para obtener su función de distribución, una integración sencilla

conduce a 
 0,
 si x < a



 x−a
FX (x) = , si x ∈ [a, b]

 b−a




1, si x > b.
Diremos que la variable X sigue una distribución uniforme en el
intervalo [a,b], y lo denotaremos X ∼ U (a, b). Surge esta variable
cuando elegimos al azar un punto en el intervalo [a,b] y describimos
con X su abscisa. Cuando se generan números aleatorios en cualquier
dispositivo informático lo que estamos haciendo es obteniendo valores
de una U (0, 1), sin duda la más conocida y utilizada, también por
otras razones, de las variable uniformes.

4.6 Ejercicios
Ej. 34 — Consideremos el experimento aleatorio consistente en lan-
zar dos veces un dado. Un resultado del experimento puede ser ω =
(1, 3) indicando que en primer lugar hemos obtenido un 1 y en el se-
gundo lanzamiento hemos obtenido un 3. Consideramos la variable
aleatoria que asocia al resultado obtenido la suma de los valores que
obtenemos en el primer y en el segundo lanzamiento. Si ω = (i, j)
entonces X(ω) = i + j. Se pide:
[Link] la función de distribución de la variable aleatoria X.
[Link] de un modo manual la función de distribución que
hemos determinado en el punto 1.
[Link] la función de distribución.

Ej. 35 — Supongamos una variable uniforme en el intervalo [2, 6]

que denotamos como X ∼ U (2, 6). Se pide:
[Link] la función de distribución de la variable aleatoria X.
[Link] gráficamente la función de distribución de la variable
aleatoria X.

Ej. 36 — Supongamos una variable uniforme en el intervalo [2, 6]

que denotamos como X ∼ U (2, 6). Se pide:
[Link] gráficamente la función de distribución utilizando
las funciones plot y punif.

Ej. 37 — Consideremos una variable aleatoria uniforme en el inter-

valo [0, 1]. Se pide:
1.¿Qué probabilidad tenemos de que la variable sea menor o igual
que 0.5? En otras palabras: ¿cuánto vale P (X ≤ 0.5)?
2.¿Y P (X < 0.5)?
[Link] P (X ≥ 0.5) y P (X > 0.5).
[Link] las siguientes probabilidades: P (0.6 < X ≤ 0.9),
P (0.6 ≤ X < 0.9) y P (0.6 ≤ X ≤ 0.9).
4.6. EJERCICIOS 83

Ej. 38 — Consideremos una variable aleatoria uniforme en el inter-

valo [0, 8]. Se pide:
1.¿Qué probabilidad tenemos de que la variable sea menor o igual
que 0.5? En otras palabras: ¿cuánto vale P (X ≤ 0.5)?
2.¿Y P (X < 0.5)?
[Link] P (X ≥ 0.5) y P (X > 0.5).
[Link] las siguientes probabilidades: P (0.6 < X ≤ 0.9),
P (0.6 ≤ X < 0.9) y P (0.6 ≤ X ≤ 0.9).
Media y varianza de una variable uniforme
Para obtener la media aplicaremos (4.14),
Z b
xdx b2 − a2 b+a
µ= = = .
a b−a 2(b − a) 2
Para la varianza,
Z b
x2 dx b3 − a3
E(X 2 ) = = ,
a b−a 3(b − a)

y aplicando (4.16)
2
b3 − a3 b+a (b − a)2
2
σ = − = .
3(b − a) 2 12

Para X ∼ U (0, 1), µ = 1/2 y σ 2 = 1/12.

4.6.1 Variable aleatoria normal

Comencemos diciendo que no por casualidad esta variable alea-
toria recibe el nombre de normal. La razón es porque las variables
asociadas a la gran mayoría de fenómenos aleatorios naturales siguen
esta distribución de probabilidad. El segundo nombre con el que es co-
nocida lo debe a Carl F. Gauss (1777-1855), astrónomo y matemático
alemán que la introdujo por primera vez al estudiar la distribución de
los errores en el cálculo de las órbitas de los planetas (Theoria Motus
Corporum Coelestium in sectionibus conicis solem ambientium, 1809)
Se trata de una variable que puede tomar cualquier valor positivo
o negativo y cuyo dominio es por tanto toda la recta real, ] − ∞, +∞[.
Su fdp tiene la expresión

(x − µ)2
1 −
fX (x) = √ e 2σ 2 , −∞ < x < +∞. (4.17)
σ 2π
que depende de dos parámetros µ y σ 2 , razón por la cual la denota-
remos X ∼ N (µ, σ 2 ).
En la figura 4.10 aparece un ejemplo de la función definida en 4.17.
En concreto es una normal con media 7 y varianza 4.
Puede comprobarse que cumple las dos propiedades antes enun-
ciadas, aunque no es sencillo comprobar la segunda porque la función
no tiene primitiva, y su integración requiere herramientas fuera del
alcance de este curso. De estas propiedades, y de (4.17), se deduce
que µ ∈] − ∞, +∞[ y que σ 2 > 0.
Llama la atención que los parámetros se denoten con las mismas
letras griegas con las que representamos la media y la varianza. No es
84 CAPÍTULO 4. VARIABLES ALEATORIAS

por casualidad, es porque son, respectivamente, la media y la varianza

de la distribución normal. Si recordamos ahora su significado, medidas
de dispersión y localización, entenderemos su influencia en la forma de
la gráfica de fX , una campana conocida como la campana de Gauss.
El eje de simetría de fX es la recta x = µ y el vértice de la√cam-
pana (máximo de fx ) está en el punto de coordenadas (µ, 1/σ 2π).
A medida que σ disminuye se produce un mayor apuntamiento en la
campana porque el máximo aumenta y porque, recordemos, el área
encerrada bajo la curva es siempre la unidad.
Nota 4.5 (La normal estándar) Una variable aleatoria Z se dice
que tiene una distribución normal estándar cuando su media es cero
y su varianza es uno: Z ∼ N (0, 1). Su función de densidad es
0.4

1
f (x) = √ e− 2 x .
1 2
(4.18)
0.3

2π
Densidad

0.2

La representación gráfica de esta densidad la tenemos en la figura

4.13.
0.1

Si Z es una normal estándar entonces la función de distribución,

0.0

−6 −4 −2 0 2 4 6
esto es, la función que para cada valor z nos da la probabilidad de que
x
la variable sea menor o igual que este valor z es la siguiente
Z z
1
√ e− 2 x dx.
1 2
Figura 4.13: Función de densidad Φ(z) = (4.19)
de una normal estándar o típica. −∞ 2π
Dado un punto z el valor de la función Φ(z) nos da el área bajo la
curva de la densidad normal entre −∞ y el punto z. En la figura 4.14
hemos rayado en negro esta zona para z = 1.3
Hay tablas que nos proporcionan el valor de esta función para di-
ferentes valores de z.4 Esto era necesario cuando no teníamos herra-
mientas informáticas. Ahora lo lógico es utilizar software. En concreto
el valor de Φ(1.3) (área de la zona rayada en negro en la figura 4.14
lo obtendríamos con R del siguiente modo.
0.4

pnorm(1.3)
0.3
Densidad

0.2

## [1] 0.9031995
0.1

En la figura 4.15 tenemos representada la función Φ.

0.0

−6 −4 −2 0 Nota 4.6 (Estandarización o tipificación) Si tenemos una varia-

2 4 6

x ble aleatoria con distribución normal con media µ y varianza σ 2 en-

tonces la variable aleatoria Z = X−µ
σ sigue una distribución normal
Figura 4.14: La función de distri- con media 0 y con varianza 1, esto es, se verifica
bución de la normal estándar en el
punto 1.3 corresponde con la zona X −µ
rayada. Z= ∼ N (0, 1). (4.20)
σ
5
Esta transformación recibe el nombre de tipificación o estandariza-
ción de la variable aleatoria X.
1.0

4 Simplemente poniendo en Google “tablas de la normal” nos aparecen un mon-

0.8

tón de tablas. Cualquier libro de texto de hace unos años lleva al final del texto
0.6
Densidad

unas tablas de la normal.

5 Esta afirmación es simplemente consecuencia de la siguiente igualdad (y per-
0.4

dón por la ecuación)

0.2

∫ b (x−µ)2
∫ b−µ
1 −1 σ 1 1 2
√ e− 2 x dx.
0.0

√ e 2 σ2 dx =
2πσ a−µ 2π
−6 −4 −2 0 2 4 6 a σ
x

Figura 4.15: La función de distri-

bución de la normal estándar.
4.6. EJERCICIOS 85

En la figura 4.16 mostramos la densidad de una variable X normal

con media 7 y varianza 4 y la densidad de la variable tipificada Z.

0.4
Nota 4.7 Un inconveniente de la fdp de la normal es que no posee

0.3
primitiva y por tanto la su función de distribución no puede obte-

Densidad

0.2
nerse de forma explícita. La expresión (4.12) no puede ser utilizada.
¿Quiere ello decir que no podemos calcular probabilidades para una

0.1
variable normal? Sí podemos hacerlo porque existen métodos que per-

0.0
miten la integración numérica de (4.12). La consecuencia de todo ello
−5 0 5 10 15 20
es que hemos de valernos de una tablas para obtener las probabilidades x

deseadas para cualquier normal.

Recordemos ahora que los parámetros que definen una distribución Figura 4.16: Función de densidad
normal son su media y su varianza, lo que supone que hemos de de una normal con media 7 y va-
disponer de tablas para todas las posibles medias y varianzas con la rianza 4 (trazo continuo) y de una
normal típica con media 0 y va-
que nos podamos encontrar. Si tenemos en cuenta que la media de rianza 1 (trazo discontinuo).
una normal puede tomar cualquier valor positivo o negativo, y que su
varianza puede ser cualquier valor positivo, llegaremos a la conclusión
de que resulta imposible poder abarcar tal diversidad de valores.
El problema tiene solución porque basta con disponer de una sola
tabla, la correspondiente a la que se conoce como variable aleatoria
normal tipificada, Z ∼ N (0, 1), aquella cuya media vale 0 y cuya
varianza vale 1. En efecto, mediante una transformación conocida
como tipificación, cualquier variable X ∼ N (µ, σ 2 ), se convierte en la
variable Z ∼ N (0, 1). La tipificación consiste en,
X −µ
Z= .
σ
¿Cómo hacer uso de ella? Supongamos que queremos conocer la proba-
bilidad de que la altura de una persona extraída al azar esté compren-
dida entre 150 y 188 cms, sabiendo que dicha altura, X ∼ N (170, 225).
Si aplicamos la transformación tendremos,

X = 150 da lugar a Z= 150−170

√
225
= −1.33

188−170
X = 188 da lugar a Z= √
225
= 1.2

es decir, {150 ≤ X ≤ 180} ≡ {−1.33 ≤ Z ≤ 1.2}. Ahora debemos

aprender a buscar en la tabla de la N(0,1) los valores que les corres-
ponden.

Uso de la tabla de la N(0,1).- Se trata de una tabla de doble

entrada (ver el cuadernillo de tablas) que nos proporciona, para los
valores de Z desde -3,9 a 3,9, de centésima en centésima, el área
encerrada bajo la curva a la izquierda del valor z elegido (ver Figura
11); es decir, el valor de su función de distribución, FZ (z) = P (Z ≤
z). En el margen izquierdo de la tabla aparecen los valores de Z de
décima en décima, debiendo desplazarnos a lo largo de la fila hasta
encontrar la columna encabezada por la cifra correspondiente a la
centésima deseada. Así, si queremos conocer el área que corresponde
al valor z = −1.75, entraremos en la tabla por la fila cuyo valor es
-1,7, desplazándonos hasta la sexta columna, la encabezada por 5, y
encontraremos el valor 0,0401. Así pues, P (Z ≤ −1.75) = 0, 0401.

Nota 4.8 (De cómo calculaban los antiguos las probabilidades con la normal)
¿Qué problema nos planteamos? Suponemos que una cierta cantidad
86 CAPÍTULO 4. VARIABLES ALEATORIAS

0.4
función de densidad de probabilidad

0.3
0.2
P(Z ≤ − 1)

0.1
0.0
−4 −3 −2 −1 0 1 2 3 4

Figura 4.17: Interpretación de los valores de la tabla de la N(0,1).

sigue una distribución normal con unos parámetros (media y varian-

za) dados. Nos planteamos cómo calcular la probabilidad de que la
variable esté en un cierto intervalo. Por ejemplo, sabemos que el va-
lor aleatorio que observamos sigue una distribución normal con media
56 y desviación típica 9. ¿Qué probabilidad tenemos de que la variable
aleatoria tome un valor entre 60 y 63? Nos planteamos el valor de la
siguiente probabilidad: P (60 ≤ X ≤ 63). Esta probabilidad correspon-
de con la zona rayada de negro en la figura 4.18. Para calcular este
área se aplicaban las siguientes igualdades donde Z = (X − 56)/3,

60 − 56 X − 56 63 − 56
P (60 ≤ X ≤ 63) = P ≤ ≤ =
3 3 3

60 − 56 63 − 56 63 − 56 60 − 56
P ≤Z≤ =P Z≤ −P Z ≤ .
3 3 3 3
(4.21)

Pero la variable Z es una normal estándar por lo que

63 − 56 60 − 56 63 − 56 60 − 56
P Z≤ −P Z ≤ =Φ −Φ .
3 3 3 3
De un modo genérico lo que acabamos de indicar es que si X ∼
N (56, 9) entonces

63 − 56 60 − 56
P (60 ≤ X ≤ 63) = Φ −Φ ,
3 3
siendo Φ la función de ditribución de una normal estándar.
0.12

Si suponemos que X ∼ N (µ, σ 2 ) y tomamos dos números a y b

tales que a ≤ b entonces
0.08
Densidad

b−µ a−µ
P (a ≤ X ≤ b) = Φ −Φ , (4.22)
0.04

σ σ
0.00

50 55 60
Nota 4.9 (Calculando la función de densidad de una normal)
x
Supongamos que µ = 16 y σ 2 = 4. La función de densidad en un punto
la podemos calcular con
Figura 4.18: Densidad de una
N (56, 9). El área de la zona raya-
da en negro corresponde a la pro-
babilidad de que la variable esté
entre 60 y 63.
4.6. EJERCICIOS 87

dnorm(14,mean= 16, sd= 2)

## [1] 0.1209854

o, en un conjunto de puntos, con

x0 = seq(10,22,1)
dnorm(x0,mean= 16, sd= 2)

## [1] 0.002215924 0.008764150 0.026995483

## [4] 0.064758798 0.120985362 0.176032663
## [7] 0.199471140 0.176032663 0.120985362

0.20
## [10] 0.064758798 0.026995483 0.008764150

0.15
## [13] 0.002215924

Densidad

0.10
En la figura 4.19 aparecen tres densidades normales con paráme-

0.05
tros distintos de modo que veamos el efecto de modificar la media y
la varianza. En concreto se representan las densidades de las distri-

0.00
buciones normales N (16, 4), N (24, 4) y N (16, 9). 5 10 15 20 25 30 35 40

Nota 4.10 Podemos generar valores aleatórios con distribución nor-

mal. Figura 4.19: Funciones de densi-
dad de una normal con media 16
y desviación típica 2 (trazo con-
rnorm(20,mean= 16, sd= 2)
tinuo), de una normal con media
16 y desviación típica 3 (trazo dis-
## [1] 17.03234 18.49385 15.11046 20.57400 19.35615 continuo) y una normal con me-
## [6] 16.17576 16.69089 16.81915 13.23524 14.93939 dia 24 y desviación típica 2 (trazo
## [11] 14.30180 18.22035 17.23786 17.45294 18.62862 punteado).
## [16] 16.47633 18.45759 18.46499 15.02872 16.07962

La función de distribución de la variable X, es decir, F (x) =

P (X ≤ x) la obtenemos con

1.0
pnorm(x2, mean = 16, sd = 2)

0.8
pnorm(14,mean= 16, sd= 2)
0.6

## [1] 0.1586553
0.4
0.2

Podemos representar esta función (figura 4.20).

También podemos plantear el problema inverso. Consideramos una
0.0

probabilidad, por ejemplo 0.34, y buscamos el valor de x donde P (X ≤ 10 15 20

x2
x) = 0.34 o dicho de otro modo el percentil de orden 0.34.
Figura 4.20: Función de distribu-
qnorm(0.34,mean= 16, sd= 2) ción (acumulada) de la distribu-
ción normal con meida 16 y des-
## [1] 15.17507 viación estándar 2.

Nota 4.11 (¿Cómo interpretar la desviación típica?) Hemos vis-

to cómo una desviación típica mayor supone una mayor variabilidad.
La variable aleatorio tiende a producir valores más dispersos. Hemos
representado la función de densidad de distintas distribuciones nor-
males y vemos cómo cuando la desviación típica es mayor entonces
la gráfica es más plana. Los valores normales se observan alrededor
de la media µ y están más o menos dispersos según el valor de σ
sea mayor o menor. Hay una interpretación sencilla de la desviación
estándar. Consideremos el intervalo [µ − σ, µ + σ], ¿qué probabilidad
88 CAPÍTULO 4. VARIABLES ALEATORIAS

tenemos de que una variable aleatoria con distribución normal esté en

este intervalo?
X −µ
P (µ − σ ≤ X ≤ µ + σ) = P (−1 ≤ ≤ 1) = P (−1 ≤ Z ≤ 1)
σ
(4.23)
siendo Z una variable con distribución normal estándar, Z ∼ N (0, 1).
Pero,
Z +1
1 x2
P (−1 ≤ Z ≤ 1) = √ e− 2 dx =
−1 2π
Z +1 Z −11
1 2 1 x2
√ e− 2 dx − √ e− 2 dx = Φ(1) − Φ(−1). (4.24)
x

−∞ 2π −∞ 2π
Vamos a calcular la diferencia anterior utilizando R.

pnorm(1,mean=0,sd=1) - pnorm(-1,mean=0,sd=1)

## [1] 0.6826895

Por tanto, si X es una variable aleatoria con distribución normal

con media µ y desviación típica σ entonces la probabilidad de que la
variable esté entre µ − σ y µ + σ es

P (µ − σ ≤ X ≤ µ + σ) = 0.6826895. (4.25)

De un modo análogo si consideramos el intervalo [µ − 2σ, µ + 2σ]

entonces

P (µ − 2σ ≤ X ≤ µ + 2σ) = P (−2 ≤ Z ≤ 2) (4.26)

que viene dado por

pnorm(2,mean=0,sd=1) - pnorm(-2,mean=0,sd=1)

## [1] 0.9544997

Y finalmente si consideramos el intervalo [µ − 2σ, µ + 2σ] se tiene

P (µ − 3σ ≤ X ≤ µ + 3σ) = P (−3 ≤ Z ≤ 3) (4.27)

que es igual a

pnorm(3,mean=0,sd=1) - pnorm(-3,mean=0,sd=1)

## [1] 0.9973002

En la tabla 4.3 tenemos las probabilidades que hemos calculado.

De un modo sencillo podemos decir: la variable dista de la media
en una desviación estándar con una probabilidad de 0.68,
en dos desviaciones con una probabilidad de 0.95 y en tres
desviaciones estándar con una probabilidad de 0.99.

Ejemplo 4.12 Extraída una persona al azar y sabiendo que su altura,

X, es una N(170,225),
a) ¿cuál es la probabilidad de que su altura no supere los 165
cms?,
4.7. EJERCICIOS 89

P (µ − σ ≤ X ≤ µ + σ) 0.6826895

P (µ − 2σ ≤ X ≤ µ + 2σ) 0.9544997

P (µ − 3σ ≤ X ≤ µ + 3σ) 0.9973002

Tabla 4.3: Probabilidad de que la variable diste de la media en un

número dado de desviaciones típicas

b) ¿cuál es la probabilidad de que su altura esté comprendida

entre 150 y 188 cms?,
c) ¿cuál es la probabilidad de que la persona supere los 180 cms?
Para obtener P (X ≤ 165) llevaremos a cabo la tipificación corres-
pondiente,

X − 170 165 − 170
P (X ≤ 165) = P √ ≤ √ = P (Z ≤ −0.3) = 0.3821
225 225
La segunda probabilidad que se nos pide, P (155 ≤ X ≤ 188) =
P (−1 ≤ Z ≤ 1, 2), pero como en la tabla sólo podemos encontrar
probabilidades del tipo P (Z ≤ z), observemos que P (−1 ≤ Z ≤ 1, 2) =
P (Z ≤ 1, 2) − P (Z ≤ −1)6 . En definitiva,

P (155 ≤ X ≤ 188) = P (−1 ≤ Z ≤ 1, 2) = 0, 8849 − 0, 1587 = 0, 7262.

En el último apartado se nos pide P (X > 180), pero observemos que

los sucesos {X > 180} y {X ≤ 180} son complementarios, por tanto
P (X ≤ 180) + P (X > 180) = 1 y de aquí, previa tipificación,

P (X > 180) = 1−P (X ≤ 180) = 1−P (Z ≤ 0, 67) = 1−0, 7486 = 0, 2514.

4.7 Ejercicios
Ej. 39 — Se pide:
[Link] 100 valores con distribución normal con media 20 y des-
viación típica 3. Guardar estos valores en el vector x.
[Link] la media y varianza muestrales de los valores generados.
[Link] la media muestral observada con 20 y la varianza
muestral observada con 9 que corresponden con la media y la
varianza teóricas.
[Link] los apartados anteriores sustituyendo las 100 simulacio-
nes por 1000, por 10000 y por 100000. Comparar en cada caso
los valores teóricos con los valores muestrales.

Ej. 40 — Consideremos una variable aleatoria con distribución nor-

mal con media 20 y desviación típica 3. Se pide:
1.P (X ≤ 23).
2.P (X < 23).
3.P (X > 29).
6 La expresión correcta es P (−1 ≤ Z ≤ 1, 2) = P (Z ≤ 1, 2) − P (Z < −1), pero

recordemos que en una variable aleatoria continua P (X < a) = P (X ≤ a).

90 CAPÍTULO 4. VARIABLES ALEATORIAS

0.30
0.25
n=10

0.20
función de probabilidad

0.15
n=50

0.10
n=100
0.05

n=400
0.00

0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88 92 96 100

Figura 4.21: Aproximación de la binomial mediante la normal.

4.P (X ≥ 29).
5.P (34 < X ≤ 45).
6.P (34 ≤ X ≤ 45).

4.7.1 Aproximación de la binomial mediante la nor-

mal
El máximo valor de n que podemos encontrar en la tabla de la
binomial es 12. Incluso en tablas más completas este valor máximo no
suele sobrepasar 50. ¿Cómo obtener entonces probabilidades cuando
n supere estos valores? Un conocido resultado del Cálculo de Pro-
babilidades, el Teorema Central de Límite, nos permite soslayar el
problema. Este resultado afirma que,

si X ∼ B(n, p), para valores de n suficientemente gran-

des, se comporta como una normal con media, µ = np, y
varianza, σ 2 = np(1 − p)
n↑+∞
B(n, p) −→ N(np, np(1 − p)).

La Figura 12 ilustra gráficamente este resultado para binomiales con

p = 0.2 y valores crecientes de n.
Dos preguntas surgen de inmediato:

1. ¿qué se entiende por suficientemente grande?,

2. ¿cómo utilizar en la práctica este resultado?

Como respuesta a la primera, digamos que la aproximación es buena

cuando n y p son tales que np > 5 y n(1 − p) > 5. La mejor res-
puesta a la segunda pregunta es un ejemplo de aplicación como el que
presentamos a continuación.

Ejemplo 4.13 La proporción de fumadores en determinada población

es p = 0, 25. Si extraemos al azar una muestra de 70 personas y
designamos por X el número de fumadores en la muestra,
a) ¿cuál es la probabilidad de que X ≤ 22?,
b) ¿cuál es la probabilidad de que 16 ≤ X ≤ 25?
4.7. EJERCICIOS 91

Como np = 70 × 0, 25 = 17, 5 y n(1 − p) = 70 × 0, 25 = 52, 5,

ambos mayores que 5, podemos aplicar la aproximación y suponer que
X ≈ N (17, 5; 13, 125). Ahora actuaremos como si de una distribución
normal se tratara y obtendremos las probabilidades requeridas recu-
rriendo a la tipificación, para así poder utilizar la tabla de la N(0,1).
En el apartado a) se nos pide P (X ≤ 22) y por tanto

X − 17, 5 22 − 17, 5
P (X ≤ 22) = P √ ≤ √ = P (Z ≤ 1, 24) = 0, 8925.
13, 125 13, 125

En el apartado b) se nos pide P (16 ≤ X ≤ 25), que después de

tipificar se puede aproximar por

P (16 ≤ X ≤ 25) = P (−0, 41 ≤ Z ≤ 2, 07) = P (Z ≤ 2, 07)−P (Z ≤ −0, 41) = 0, 5399.

Observación 4.1 (Teorema Central del Límite) El Teorema Cen-

tral del Límite antes mencionado, que nos permite aproximar una
binomial mediante una normal, es mucho más general que la aplica-
ción concreta aquí utilizada. Baste decir que bajo condiciones muy
generales, la suma de n variables aleatorias tiende a una normal a
medida que crece n. Recordemos la expresión (4.11) que representa
una X ∼ B(n, p) como suma de n Bernoullis.
92 CAPÍTULO 4. VARIABLES ALEATORIAS
Capítulo 5

Distribución muestral

5.1 Población y muestra aleatoria

Podemos tener interés en estudiar alguna característica en una
población grande. Por ejemplo, la población puede ser una población
animal o vegetal: los patos de la Albufera; las palmeras de la provincia
de Valencia; una especie de pájaros en la provincia de Alicante; toda
la población española, etc.
Fijémonos en las palmeras de la provincia de Valencia. Suponga-
mos que la característica que nos interesa es si la palmera está afecta-
da por el picudo rojo. Queremos conocer la proporción p de palmeras
afectadas por la plaga. Para ello lo que podemos hacer es recorrer toda
la provincia e ir palmera por palmera observando si el picudo ha afec-
tado a la palmera. Cuando hayamos observado todas las palmeras la
proporción de palmeras afectadas será el cociente entre el número de
palmeras afectadas y el número total de palmeras que hay. Realmen-
te no es difícil. Sin embargo, parece laborioso, caro y, posiblemente,
innecesario. Es más barato (y esperemos que suficiente) elegir al azar
un conjunto de n palmeras (con un número n no muy grande) y ob-
servar su estado. Es decir, tomar una muestra aleatoria de palmeras
y, con lo que observamos en la muestra, intentar estimar el valor de
la proporción en toda la población o proporción poblacional.

5.2 Distribución muestral de una variable

binomial
Ejemplo 5.1 Tenemos una población de individuos. Intentamos es-
tudiar la prevalencia de una enfermedad no muy frecuente, la hida-
tidosis. Vamos a suponer que la proporción real de personas con la
enfermedad es p = 0.034.
Hemos numerada a la población y guardado los datos en el vector
X. Si la i-ésima persona tiene la enfermedad entonces guardamos en
la posición i del vector X un valor uno, si no la tiene guardamos un
valor cero. Por ejemplo, los 10 primeros individuos de la población
son

X[1:10]

## [1] 0 0 0 0 0 0 0 0 0 0

93
94 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL

Y el individuo que ocupa la posición 100000 es

X[100000]

## [1] 0

Ahora vamos a simular el muestreo aleatorio de la población. To-

mamos una muestra de tamaño n = 100 y observamos la proporción
de personas enfermas en la muestra.
n = 100
(x = sample(X,n))

## [1] 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
## [23] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## [45] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
## [67] 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
## [89] 0 0 0 0 0 0 0 0 0 0 0 0

De hecho el total de individuos enfermos en la muestra lo podemos

ver con

sum(x)

## [1] 4

Repitiendo el proceso obtenemos

x = sample(X,100)
sum(x)

## [1] 2

Y si lo hacemos como unas 20 veces obtenemos los siguientes va-

lores observados

## [1] 3 5 5 2 3 2 3 7 6 4 4 0 4 4 2 4 6 3 3 2

Si, en lugar de contar el número de enfermos observados, nos

fijamos en la proporción observada tenemos

sumas/n

## [1] 0.03 0.05 0.05 0.02 0.03 0.02 0.03 0.07 0.06
## [10] 0.04 0.04 0.00 0.04 0.04 0.02 0.04 0.06 0.03
## [19] 0.03 0.02

¿Con qué frecuencia observamos 3 enfermos? La obtenemos con

la expresión
n
.0343 (1 − 0.034)97
3
En general si en una selección aleatoria de n individuos contamos el
número de individuos con la enfermedad (que entendemos como el
número de éxitos) entonces

n k
P (X = k) = p (1 − p)n−k
k
siendo p la proporción en la población de enfermos (que en nuestro
ejemplo estamos suponiendo p = 0.034).
5.3. DISTRIBUCIÓN MUESTRAL DE LA MEDIA BAJO NORMALIDAD95

5.2.1 Ejercicios
Ej. 41 — ([15, pág. 79, problemas 2-3])Muchos equipos de investi-
gación pretenden realizar un estudio sobre el porcentaje de personas
que tienen cáncer de colon. Si una muestra aleatoria de diez personas
se pudo obtener, y si la probabilidad de probabilidad de tener cán-
cer de colon es 0.05, ¿cuál es la probabilidad de que un equipo de
investigación obtenga p̂ = 0.1? ¿Y la de p̂ = 0.05?

Ej. 42 — ([15, pág. 80, problema 4])Alguien afirma que la proba-

bilidad de perder dinero cuando se utiliza una estrategia de inversión
para la compra y venta de los productos básicos es de 0.1. Si esta
afirmación es correcta: ¿cuál es la probabilidad de obtener p̂ ≤ 0.05
sobre la base de una muestra aleatoria de 25 de los inversores?
Ej. 43 — ([15, pág. 80, problemas 6-7])Imaginemos que un millar
de equipos de investigación extraen una muestra al azar de una dis-
tribución binomial con p = 0.4, cada estudio está basado en una
muestra de tamaño 30. Tendremos 1000 valores de p̂. Si promedia-
mos estos 1000 valores: ¿Cuál sería aproximadamente el resultado?
Si calculamos la varianza muestral de los valores de p̂: ¿Cuál sería
aproximadamente el resultado?

5.3 Distribución muestral de la media ba-

jo normalidad
Supondremos que es una población normal con media µ = 160 y
una desviación estándar de 10.23. Podría corresponder con la altu-
ra de los individuos. Suponemos que hay N = 237456 personas en
la población en estudio. Como no vamos a medir a tantas personas
ahorramos tiempo generando aleatoriamente estos valores.

N = 237456
X = rnorm(N,mean=160,sd=10.23)

Es una población de 2.37456×105 individuos. Por X estamos deno-

tando toda la población. Es decir, suponemos (de un modo irreal) que
tenemos a toda la población. Podemos ver los 10 primeros elementos
de la población con

X[1:10]

## [1] 143.7714 148.5352 151.5329 151.3984 175.6894

## [6] 172.3557 164.0881 176.9400 148.9404 142.8552

La figura 5.1 tenemos un histograma de toda la población. La

figura 5.2 tiene un estimador kernel de la densidad de probabilidad.

df = [Link](X)
ggplot(df,aes(x=X))+geom_histogram()

df = [Link](X)
ggplot(df,aes(x=X))+stat_density()
Figura 5.1: Histograma de la po-
blación de alturas.
96 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL

Como conocemos toda la población podemos conocer su media o

media poblacional y vale:

Figura 5.2: Estimador kernel de la (mu=mean(X))

densidad de las alturas.
## [1] 160.0128

Tomamos una muestra de n = 100 individuos de la población con

la función sample.

n = 100
x = sample(X,n)

Parece natural aproximar o, dicho con propiedad, estimar el valor

desconocido de µ con la media muestral. Veamos el valor:

mean(x)

## [1] 157.9384

Si repetimos la selección de los individuos y el cálculo de la media

muestral tenemos

x = sample(X,n)
mean(x)

## [1] 158.9058

Podemos repetirlo muchas veces e iremos obteniendo valores dis-

tintos. En la figura 5.3 estimador kernel de la densidad de los valores
generados.

MediaMuestral = NULL
for(i in 1:300)
MediaMuestral = c(MediaMuestral,mean(sample(X,n)))

df = [Link](n = 1:300,media = MediaMuestral)

p = ggplot(df,aes(x = n,y = media)) + geom_point()
p + geom_hline(yintercept=mu)

Supongamos que repetimos lo anterior pero incrementando el ta-

Figura 5.3: Generamos muestras maño de la muestra. En lugar de tomar muestras de tamaño 100
de tamaño 100 de la población.
pasamos a tomar muestras de tamaño 400. En la figura ?? mostramos
Calculamos la media muestral de
cada muestra. En el eje de abscisas las medias muestrales obtenidas para diferentes muestras. Las medias
mostramos el número de la mues- muestrales están mucho más próximas a la media poblacional.
tra que hemos generado. En el eje
de ordenadas en valor observado.
La línea horizontal muestra la me-
n = 400
dia poblacional. MediaMuestral = NULL
for(i in 1:300)
MediaMuestral = c(MediaMuestral,mean(sample(X,n)))
5.3. DISTRIBUCIÓN MUESTRAL DE LA MEDIA BAJO NORMALIDAD97

df = [Link](n = 1:300,media = MediaMuestral)

ggplot(df,aes(x = n,y = media)) + geom_point()
+ geom_hline(yintercept=mu)

Finalmente supongamos que tomamos muestras de tamaño cre-

ciente y mostramos en abscisas el tamaño de la muestra y en ordena-
das la media muestral observada. En la figura 5.5 tenemos el resultado.
Lo repetimos. En la figura ?? tenemos las medias observadas. No ob-
tenemos las mismas medias muestrales pero si un comportamiento
aleatorio similar.
Figura 5.4: Generamos muestras
de tamaño 400 de la población.
n1 = seq(100,20000,50) Calculamos la media muestral de
MediaMuestral = NULL cada muestra. En el eje de abscisas
for(i in n1) mostramos el número de la mues-
MediaMuestral = c(MediaMuestral,mean(sample(X,i))) tra que hemos generado. En el eje
de ordenadas en valor observado.
La línea horizontal muestra la me-
dia poblacional.
df = [Link](n1 = 1:399,media = MediaMuestral)
p = ggplot(df,aes(x = n1,y = media)) + geom_point()
p + geom_hline(yintercept=mu)

n1 = seq(100,20000,50)
MediaMuestral = NULL
for(i in n1)
MediaMuestral = c(MediaMuestral,mean(sample(X,i)))

df = [Link](n1 = 1:399,media = MediaMuestral) Figura 5.5: Generamos muestras

de tamaño creciente. Calculamos
p = ggplot(df,aes(x = n1,y = media)) + geom_point() la media muestral de cada mues-
p + geom_hline(yintercept=mu) tra. En el eje de abscisas mostra-
mos el tamaño de la muestra que
Si denotamos la muestra aleatoria que estamos extrayendo de la hemos generado. En el eje de or-
denadas en valor observado de la
población con X1 , . . . , Xn entonces la media muestral (que utilizare- media muestral. La línea horizon-
mos para estimar la media poblacional) tiene una distribución (o se tal muestra la media poblacional.
distribuye como) una normal con media µ (la media poblacional) y con Vemos cómo las medias muestra-
2
les se aproximan a la media de la
2
varianza σX̄ = σn , la varianza poblacional dividida por el tamaño de
n población.
la muestra. De un modo resumido esto se expresa con
σ2
X̄n ∼ N (µ, ) (5.1)
n
si X1 , . . . , Xn son variables aleatorias independientes y con distribu-
ción
Xi ∼ N (µ, σ 2 ), con i = 1, . . . , n.
El resultado dado en 5.1 también lo podemos expresar como
√ X̄n − µ
n ∼ N (0, 1) (5.2)
σ Figura 5.6: Generamos muestras
Nos interesa conocer probabilidades como de tamaño creciente. Calculamos
la media muestral de cada mues-
P (X̄ ≤ b) tra. En el eje de abscisas mostra-
mos el tamaño de la muestra que
o en general probabilidades como hemos generado. En el eje de or-
denadas en valor observado de la
P (a ≤ X̄ ≤ b) media muestral. La línea horizon-
tal muestra la media poblacional.
donde a y b son valores que nos pueden ir interesando dependiendo Vemos cómo las medias muestra-
del problema. les se aproximan a la media de la
población.
98 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL

Nota 5.1 Por ejemplo, supongamos que nos interesa saber qué proba-
bilidad tiene la media muestral de ser menor que 162. Como estamos
suponiendo que conocemos toda la población podemos tomar como
varianza la de toda la población.

sigma = sd(X)

Y la probabilidad la podemos obtener con

pnorm(162,mean=mu,sd=sigma/sqrt(n))

## [1] 0.9999502

¿Qué probabilidad tenemos de que la media esté entre 159 y 162?

pnorm(162,mean=mu,sd=sigma/sqrt(n)) -
pnorm(159,mean=mu,sd=sigma/sqrt(n))

## [1] 0.9762937

¿O de que sea mayor que 160?

1 - pnorm(160,mean=mu,sd=sigma/sqrt(n))

## [1] 0.5100184

Si Z
1x
(t − µ)2
Φ(x) = √
exp − dt.
−∞ 2πσ 2σ 2
lo que estamos haciendo con R es simplemente aplicar que

P (X̄ ≤ b) = Φ(b)
o
P (a ≤ X̄ ≤ b) = Φ(b) − Φ(a)
o
P (a ≤ X̄) = 1 − Φ(a)

5.3.1 Ejercicios
Ej. 44 — ([15, pág. 84, problema 8])Supongamos n = 16, σ = 2 y
µ = 30. Supongamos normalidad. Determinar:
1.P (X̄ ≤ 29),
2.P (X̄ > 30.5),
3.P (29 ≤ X̄ ≤ 31).

Ej. 45 — ([15, pág. 84, problemas 10-11])Alguien dice que dentro

de un determinado barrio, el coste medio de una casa es de µ = 100000
euros con una desviación estándar de σ = 10.000 euros. Supongamos
que, basándonos en n = 16 viviendas, observamos una media mues-
tral X̄ = 95.000. Suponiendo normalidad, ¿cuál es la probabilidad de
obtener una media muestral como la observada o menor si las afir-
maciones sobre la media y desviación estándar son verdaderas? ¿Y
la probabilidad de tener una media muestral entre 97500 y 102500
euros?
5.4. DISTRIBUCIÓN MUESTRAL DE LA MEDIA EN POBLACIONES NO NORMALES. TEOREMA C

Ej. 46 — ([15, pág. 85, problema 13])Supongamos que eres un pro-

fesional de la salud interesado en los efectos de la medicació en la
presión arterial diastólica de las mujeres adultas. Para un medica-
mento en particular que está siendo estudiado, se encuentra que para
n = 9 mujeres, la media muestral es X̄ = 85 y la varianza mues-
tral es s2 = 160.78. Estimar el error estándar de la media muestral
asumiendo que tenemos una muestra aleatoria.

Ej. 47 — ([15, pág. 85, problema 12])Una compañía afirma que las
primas pagadas por sus clientes para el seguro de automóviles tiene
una distribución normal con media µ = 750 euros y desviación están-
dar σ = 100 euros. Suponiendo normalidad, ¿cuál es la probabilidad
de que para n = 9 clientes elegidos al azar, ¿la media muestral tome
un valor entre 700 y 800 euros?

5.4 Distribución muestral de la media en

poblaciones no normales. Teorema cen-
tral del límite
El resultado que damos en 5.1 es aproximadamente cierto incluso
aunque los datos no sigan aproximadamente una distribución normal.

5.4.1 Aproximación de la distribución binomial

Con datos binomiales, el estimador de la proporción p, p̂ podemos
verlo como una media muestral
Pn
Xi
p̂ = i=1 ,
n
donde Xi = 1 si hay un éxito en la i-ésima prueba de Bernoulli.
Utilizando el teorema central del límite tenemos que
p̂ − p
Z=p . (5.3)
p(1 − p)/n
Si n es suficientemente grande tenemos que para cualesquiera valores
reales a y b tenemos

P (a ≤ p̂ ≤ b) =
P (p̂ ≤ b) − P (p̂ ≤ a) =
b−p a−p
P (Z ≤ p ) − P (Z ≤ p ). (5.4)
p(1 − p)/n p(1 − p)/n
La calidad de la aproximación depende los valores de n y de p. Una
regla simple es que la aproximación es buena si np ≥ 15 y n(1 − p) ≥
15.

5.4.2 Ilustración del teorema central del límite

Hemos utilizado en la sección anterior este resultado probabilísti-
co. El teorema central del límite dice que si tenemos variables aleato-
rias X1 , X2 , . . . independientes entre sí y con una misma distribución1
1 En definitiva repetimos independientemente un mismo experimento y obser-

vamos una misma cantidad cada vez.

100 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL

entonces la media muestral se comporta asintóticamente según una

distribución normal. En concreto, si la media y varianza común a
todas las variables son µ and σ 2 entonces

X̄n − µ
lim P √ ≤ z = P (Z ≤ z) (5.5)
n→+∞ nσ

donde Z es una variable con distribución normal con media 0 y va-

rianza 1, es decir, una normal estándar o típica.

5.4.3 Ejercicios
Ej. 48 — [Link] una distribución binomial con p = 0.5
y n = 10 y queremos calcular la probabilidad de que p̂ sea menor
o igual a 7/10. Obtener el valor exacto y el valor aproximado
utilizando la aproximación dada por el teorema central del límite.
[Link] el punto anterior obteniendo el valor exacto y el valor
aproximado de P (0.3 ≤ p̂ ≤ 0.7).

Ej. 49 — [Link] una distribución binomial con p = 0.5 y

n = 100 y queremos calcular la probabilidad de que p̂ sea menor
o igual a 0.55. Obtener el valor exacto y el valor aproximado
utilizando la aproximación dada por el teorema central del límite.
[Link] el punto anterior obteniendo el valor exacto y el valor
aproximado de P (0.45 ≤ p̂ ≤ 0.55).
Capítulo 6

Estimación

6.1 Introducción
Tratamos el problema de la estimación. En concreto, en poblacio-
nes normales, nos planteamos la estimación de la media y varianza.
También consideramos la estimación de una proporción. Se aborda
el problema del cálculo del tamaño de la muestra para estimar los
parámetros con un error máximo dado.

6.2 La población
¿Qué es una población? La Estadística se ocupa del estudio de
grandes poblaciones. Pero, otra vez, ¿y qué es una población? La
respuesta no es simple ni tampoco es única.
El primer sentido que podemos dar al término población es una
gran colección de elementos de los cuales queremos conocer algo. Al-
gunos ejemplos son:

1. la población española a día 2 de noviembre de 2011;

2. la población de samaruc el 2 de diciembre de 2010;

3. la población de fartet en la Comunidad Valenciana en febrero

de 2012;

4. Los pinos de los Montes Universales;

y muchísimos ejemplos similares. Todos los ejemplos que acabamos

de proponer se caracterizan porque toda la población está ahí y, en
principio, podríamos observarla. Podemos tener la santa paciencia de
observar todos y cada uno de los pinos de los Montes Universales.
Estos ejemplos son poblaciones finitas, es decir, son grandes conjun-
tos de individuos pero un número finito. Tenemos interés en alguna
característica de la población. Por ejemplo, ¿cuál es la longitud media
de un samaruc adulto de la Albufera? ¿Cuál es la proporción de pinos
en los Montes Universales afectados por la procesionaria?
¿Cómo podemos obtener este valor? Es una población finita y los
peces están ahí. Pues los cogemos y medimos cada uno de ellos. La
cantidad buscada no es más que la media de las longitudes de cada
uno de los peces. Simple de decir sí pero, obviamente, impracticable.
Aunque, sobre el papel, es una población accesible; realmente, es una

101
102 CAPÍTULO 6. ESTIMACIÓN

población inaccesible. No podemos acceder a toda la población. Por

ello, hemos de considerar el experimento consistente en elegir al azar
un individuo de la población. Si el individuo elegido lo denotamos
por ω, una vez lo tenemos, podemos medirlo, podemos observar la
característica que nos interesa, podemos observar la variable X en el
individuo ω, siendo x el valor que observamos. Este proceso es lo que se
denota abreviadamente como X(ω) = x. Sin embargo, no observamos
la variable aleatoria X una sola vez. Elegimos independientemente
y de la misma población de peces n individuos. Antes de elegirlos
tenemos una colección de valores aleatorios que son independientes
entre sí y que repiten el experimento. Esto es lo que se conoce como
muestra aleatoria y denotamos {X1 , . . . , Xn }. Los valores observamos
una vez hemos elegido a los n peces los denotamos con x1 , . . . , xn .
En otras ocasiones la población no es un concepto tan concreto.
Por ejemplo, estamos la demanda biológica de oxígeno en muestras
de agua tomadas en la playa de Canet d’en Berenguer. En principio,
el número de muestras es infinito. Además, aunque asumamos que
las muestras tienen un comportamiento aleatorio similar en la playa
de Canet, es claro que necesitamos indicar, al menos, el día en que
las tomamos. En este caso, la población no existe. Son las infinitas
repeticiones que podemos hacer del experimento consistente en tomar
una muestra de agua y determinar la demanda biológica de oxígeno.

6.3 Estimación puntual

Nota 6.1 (Estimando una media) Vamos a ilustrar los conceptos
con una población finita. Y muy grande. Suponemos que tenemos una
población de 237456 personas que conocemos la altura de cada una de
las personas.1 Los datos los tenemos en el vector X.
Por ejemplo, las estaturas de las diez primeras personas (en cen-
tímetros) son

## [1] 142.5 155.6 168.2 155.0 163.0 160.9 167.7

## [8] 157.5 163.9 164.1

Por X estamos denotando toda la población. Por lo tanto la media

de la población o media poblacional la conocemos. Simplemente hemos
de realizar la media muestral de todas las estaturas.

(mu=mean(X))

## [1] 159.9984

Pretendemos estimar la media poblacional (que en nuestro ejemplo

artificial conocemos) utilizando una muestra aleatoria de 10 individuos
(una muestra no muy grande ciertamente). Podemos elegir la muestra
aleatoria con la función sample. Por ejemplo, una primera muestra
estaría compuesta por los individuos

n = 10
(x = sample(X,n))
1 Hemos tenido la santa paciencia de medir la estatura de cada uno de ellos. Y

ellos se han dejado.

6.4. ALGUNAS DEFINICIONES 103

## [1] 162.3505 158.4014 162.1455 158.1070 164.2685

## [6] 154.2149 145.3182 163.8575 157.7871 158.8739

Nuestra estimación sería

(mediamuestral = mean(x))

## [1] 158.5324

de modo que el error que cometemos es

mediamuestral - mu

## [1] -1.465993

Supongamos que repetimos la estimación varias veces y veamos los

diez primeros valores que obtenemos

## [1] 158.7041 160.2144 159.5636 156.9613 157.9405

## [6] 158.9182 158.6862 162.2474 157.9457 158.1845

Veamos un resumen de los errores observados.

errores = estimaciones-mu
summary(errores) [Link](x = estimaciones)

0.20
## Min. 1st Qu. Median Mean 3rd Qu. Max.

0.15
## -5.0358 -1.2988 -0.2551 -0.1178 1.1529 4.7146

Density

0.10
De hecho, en la figura 6.1 hemos representado un estimador kernel
de las estimaciones y una línea vertical mostrando la media real.

0.05
Así es como funciona la estimación puntual. Hemos visto una

0.00
situación irreal en que tenemos todos los valores que componen la 154 156 158 160 162 164 166

población y, por lo tanto, podemos conocer la media de la población. N = 100 Bandwidth = 0.6546

Esto no es nunca así. Conocemos una muestra aleatoria de la población

que denotaremos por X1 , . . . , Xn y, con estos valores, pretendemos Figura 6.1: Estimador kernel de la
estimar la media de la población µ. De hecho, hemos utilizado estos densidad de las estimaciones ob-
tenidas eligiendo muestras de ta-
valores y obtenido un método para estimar µ, a esto le podemos llamar maño 10 de la población. La línea
un estimador de µ y denotarlo como vertical tiene como abscisa común
la media poblacional.
X
n
Xi
µ̂ = X̄n = .
i=1
n

Antes de tomar la muestra, X̄n es un valor aleatorio pero después

de tomar la muestra tenemos que X1 = x1 , . . . , Xn = xn , es decir,
que no son valores aleatorios sino unos valores dados. En el ejemplo
anterior, antes de utilizar la función sample tenemos un valor aleato-
rio pero después tenemos el valor observado correspondiente. Por lo
tanto una vez seleccionada la muestra decimos que tenemos los valo-
res observados
Pn x1 , . . . , xn y la variable aleatoria X̄n toma el valor fijo
x̄n = i=1 xi /n.

6.4 Algunas definiciones

Definición 6.1 (Muestra aleatoria) Una muestra aleatoria (de ta-
maño n) son n valores aleatorios X1 , . . . , Xn que tienen la misma
distribución y son independientes entre sí.
104 CAPÍTULO 6. ESTIMACIÓN

Definición 6.2 (Estimador) Un estimador es cualquier función de

la muestra aleatoria X1 , . . . , Xn que toma valores admisibles para el
parámetro que estimamos.

6.5 Estimación puntual de la media

Si pretendemos estimar la media µ de una población su estimador
usual es la media muestral, X̄n . Si tenemos una muestra aleatoria
donde cada Xi sigue una distribución normal entonces

σ2
X̄n ∼ N (µ, ) (6.1)
n
Si las distintas variables Xi que componen la muestra no siguen una
distribución muestral entonces asumiendo que tenemos una muestra
grande el resultado que damos en 6.1 es aproximadamente cierto. En
cualquier caso, la varianza de la media muestral X̄n

6.6 Intervalo de confianza para la media

Hemos considerado en el apartado anterior la estimación puntual
de la media poblacional, µ, mediante la media muestral, X̄. Es una op-
ción natural. Otra opción puede ser estimar la media de la población
µ dando un intervalo que la contenga. En lugar de decir “estimamos
la media poblacional en 159.05”, esto es utilizar un valor numérico
exclusivamente podemos utilizar una expresión como “la media po-
blacional es mayor que 158.37 y menor que 162.79”. Este segundo
tipo de estimación es la que se hace con un intervalo de confianza.
En resumen estimamos la media poblacional µ o bien mediante un
punto (estimador puntual) o bien mediante un intervalo (estimación
por intervalos). Al primer método se le llama estimador puntual y al
segundo intervalo de confianza.

6.6.1 Asumimos que conocemos la varianza

Vamos a asumir en un primer momento algo que no tiene ninguna
realidad (raramente nos lo vamos a encontrar en una aplicación real)
pero nos facilita la presentación. En concreto asumimos que no cono-
cemos la media µ (es lo que queremos estimar) pero, sin embargo, sí
conocemos la desviación estándar, σ.
Una segunda hipótesis (que sí se verifica con frecuencia) que va-
mos a asumir es que los datos proceden de una población normal. Ya
discutiremos qué hacemos después con cada una de estas hipótesis.
Siendo µ y σ la media y la desviación típica reales, por el teo-
rema central del límite se verifica que aproximadamente (o con más
precisión si el tamaño de la muestra aleatoria, n, es grande) la me-
dia muestral√tiene una distribución normal con media µ y desviación
estándar σ/ n,
σ2
X̄ ∼ N (µ, ),
n
o, lo que es equivalente, que

√ X̄ − µ
n ∼ N (0, 1),
σ
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 105

donde N (0, 1) es una normal con media cero y varianza uno, lo que
se conoce como una normal estándar o normal típica. 2
Notemos que, asumiendo la desviación estándar conocida, en la
√
expresión n X̄−µ
σ conocemos todos los términos que aparecen (X̄, σ
y n) una vez hemos tomado la muestra salvo el valor de la media
poblacional µ. Precisamente es lo que queremos estimar.
Fijemos una probabilidad alta, por ejemplo, una probabilidad de
0.95. Podemos determinar un valor positivo c tal que

√ X̄ − µ
P −c≤ n ≤ c = 0.95
σ

Por las propiedades de simetría de la normal c ha de verificar que

X̄ − µ
P ≤ c = 0.975
σ

Podemos determinarlo con la función qnorm del siguiente modo.

qnorm(0.975,mean=0,sd=1)

## [1] 1.959964

En resumen que

√ X̄ − µ
P − 1.96 ≤ n ≤ 1.96 = 0.95
σ

o, lo que es equivalente,

σ σ
P X̄ − 1.96 √ ≤ µ ≤ X̄ + 1.96 √ = 0.95.
n n

Vemos que el intervalo [X̄ − 1.96 √σn , X̄ + 1.96 √σn ] tiene una probabi-
lidad de 0.95 de contener a µ o también de cubrir a µ. Si ahora susti-
tuimos los valores aleatorios Xi con i = 1, . . . , n con los valores obser-
vados en la muestra entonces el intervalo aleatorio [X̄ − 1.96 √σn , X̄ +
1.96 √σn ] pasa a ser un intervalo fijo [x̄ − 1.96 √σn , x̄ + 1.96 √σn ] que
conocemos como intervalo de confianza con nivel de confianza 0.95.

Nota 6.2 (Intervalo de confianza con R) Vamos a evaluarlo con

R. Empezamos tomando los datos.

(x = sample(X,10))

## [1] 164.6143 161.5733 155.5541 154.1521 167.2101

## [6] 161.2575 161.7823 155.6394 162.0002 156.4330

Determinamos la media muestral y la desviación estándar mues-

tral.

2 Es equivalente porque si una variable aleatoria X suponemos que tiene distri-

bución normal con media µ y varianza σ 2 entonces la variable aleatoria (X − µ)/σ

sigue una distribución normal con media 0 y varianza 1 que se conoce como una
normal típica o normal estándar. Esto se suele indicar como: X ∼ N (µ, σ 2 ) en-
tonces (X − µ)/σ ∼ N (0, 1)
106 CAPÍTULO 6. ESTIMACIÓN

media = mean(x)
s = sd(x)

Por lo tanto el intervalo tendrá por extremo inferior

([Link] = mean(x) - qnorm(0.975,mean=0,sd=1)*sd(x)/sqrt(n))

## [1] 157.3263

y por extremo superior.

([Link] = mean(x) + qnorm(0.975,mean=0,sd=1)*sd(x)/sqrt(n))

## [1] 162.717

Si en lugar de 0.95 elegimos como nivel de confianza (utilizando

la notación habitual) 1 − α con α un valor pequeño (en el ejemplo
anterior α = 0.05) podemos determinar c que verifique
√ X̄ − µ
P (−c ≤ n ≤ c) = 1 − α
σ
o que
X̄ − µ α
P( ≤ c)) = 1 − .
σ 2
Denotamos el valor de c que verifica lo anterior como Z1− α2 . Final-
mente el intervalo
σ σ
[X̄ − Z1− α2 √ , X̄ + Z1− α2 √ ]
n n
cubre a µ con una probabilidad de 1 − α y el intervalo de confianza
es el que obtenemos cuando sustituimos los valores aleatorios por los
valores observados. Es decir, el intervalo de confianza viene dado por
σ σ
[x̄ − Z1− α2 √ , x̄ + Z1− α2 √ ]
n n
De un modo genérico: ¿Cómo podemos determinar el intervalo de
confianza que acabamos de ver? Fijamos el nivel de confianza 1 − α
(en este caso a 1 − α = 0.99 o equvalentemente α = 0.01).

alpha = 0.01

Determinamos el extremo inferior:

([Link] = mean(x) - qnorm(1-alpha/2,mean=0,sd=1)*sd(x)/sqrt(n))

## [1] 156.4793

y el superior

([Link] = mean(x) + qnorm(1-alpha/2,mean=0,sd=1)*sd(x)/sqrt(n))

## [1] 163.5639

El intervalo es el siguiente:
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 107

c([Link],[Link])

## [1] 156.4793 163.5639

El último paso es rogar a Dios que las cosas hayan ido bien. Te-
nemos una confianza de 1 − α (0.99 en el ejemplo) de que el valor
real de la media esté en este intervalo. Pero esto no quiere decir que
realmente lo está. Si repetimos un gran número de veces el valor real
de la media está en el intervalo un (1−α)×100 % de la veces (un 99%
en el ejemplo) pero puede ocurrir (desgracias de la vida) que estemos
en el α × 100 (en el ejemplo un 1%) restante. En general la cosa va
bien porque elegimos un nivel de confianza grande (próximo a uno)
pero no siempre va bien.

6.6.2 No asumimos la varianza conocida

No es realista asumir que conocemos la varianza σ 2 (o la desviación
típica σ). En absoluto lo es. ¿Por qué vamos a desconocer la media
y conocer la varianza? 3 Salvo situaciones realmente esotéricas esto
no es así. En consecuencia lo lógico es sustituir
q la desviación típica
Pn
poblacional σ por su estimador natural S = n−1 1
i=1 (X i − X̄)2 .
Si lo hacemos tendremos la cantidad
√ X̄ − µ
n . (6.2)
S
En la expresión anterior lo conocemos todo (una vez tenemos los da-
tos) excepto el valor de µ. Sin embargo, la distribución de probabilidad
de esta cantidad ya no es una normal estándar. Nos aparece una dis-
tribución de probabilidad nueva que se conoce como la distribución t
de Student. 4 √
De hecho, William Sealy Gossett demostró que la cantidad n X̄−µ S
se comporta como una t de Student con n − 1 grados de libertad. Esto
lo denotaremos como 0.4

√ X̄ − µ
∼ tn−1 .
0.3

T = n (6.3)
S
dt(u, df = 9)

0.2

En la figura 6.2 hemos representado la función de densidad de una t

0.1

de Student con 9 grados de libertad.

0.0

−3 −2 −1 0 1 2 3

Figura 6.2: Función de densidad

de una t de Student con 9 grados
de libertad

3 ¿Van por ahí los datos diciendo somos normales no te decimos la media pero

te decimos la varianza? Los pobre datos no dicen nada.

n+1
( )−(n+1)/2
4 La expresión exacta de esta densidad es f (x) = Γ(√ 2 ) 1 + t2
nπ n
∫
donde Γ(x) = 0+∞ tx−1 e−t dt es la función Gamma de Euler. La miráis y ya está.
No hace falta saberla pero por lo menos es bueno verla una vez en la vida.
108 CAPÍTULO 6. ESTIMACIÓN

Nota 6.3 (¿Qué relación tiene la t de Student con la normal?)

Hay dos puntos interesantes a tener en cuenta cuando utilizamos una
distribución t de Student. La primera es qué relación tiene con una
distribución normal estándar y la segunda es qué ocurre cuando mo-
dificamos los grados de libertad.
Para ver la relación con la normal estándar hemos representado en
0.4

la figura 6.3 la densidad de la normal en trazo continuo y la densidad

de una t de Student con 2 grados de libertad en trazo discontinuo.
0.3

Vemos que tienen una forma similar, ambas están centradas en cero.
Sin embargo, la densidad de la normal está más concentrada alrededor
0.2

de cero. La densidad de la t de Student está más repartida. Y esto

0.1

ocurre para cualquier número de grados de libertad.

¿Qué ocurre cuando incrementamos el número de grados de liber-
0.0

−3 −2 −1 0 1 2 3
tad? Cuando se va incrementando el número de grados la densidad de
x
la t de Student se aproxima a la densidad de la normal. En la figura
Figura 6.3: Funciones de densidad
6.4 se ilustra y comenta este hecho.
de la normal estándar (trazo con-
tinuo) y de densidades t de Stu- Y ahora vamos a repetir lo visto en la sección anterior sustituyendo
dent con 2 grados de libertad. a la normal estándar con la densidad de la t de Student con n-1
grados de libertad. Dada una probabilidad, por ejemplo 0.95, podemos
determinar el valor c tal que
0.4

P (−c ≤ T ≤ c) = 0.95.
0.3

En concreto verificará que

0.2

P (T ≤ c) = 0.975
0.1

y el valor de c (por ejemplo, para 9 grados de libertad) lo obtendremos

0.0

−3 −2 −1 0 1 2 3 con
x

qt(0.975,df=9)
Figura 6.4: Funciones de densidad
de la normal estándar (trazo con- ## [1] 2.262157
tinuo) y de densidades t de Stu-
dent con 2, 7 y 12 grados de liber-
tad. Según el número de grados de Denotamos el valor de c tal que
libertad de la t es mayor más se α
aproxima la densidad de la t a la P (T ≤ c) = 1 − ,
normal. Por ello, la más alejada 2
es la t(2) y la más próxima es la
t(12).
como tn−1,1−α/2 . Entonces
S S
P (X̄ − tn−1,1−α/2 √ ≤ µ ≤ X̄ + tn−1,1−α/2 √ ) = 1 − α. (6.4)
n n
El intervalo de confianza lo obtenemos sustituyendo los valores alea-
torios por los valores observados.
Teorema 6.1 Si suponemos que tenemos una muestra aleatoria de
datos normales X1 , . . . , Xn y observamos los datos X1 = x1 , . . . , Xn =
xn entonces el intervalo

s s
x̄ − tn−1,1−α/2 √ , x̄ + tn−1,1−α/2 √
n n
es un intervalo de confianza con nivel de confianza 1−α para la media
µ. De un un modo abreviado el intervalo anterior se puede escribir
como
s
x̄ ± tn−1,1−α/2 √
n
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 109

Nota 6.4 (Cálculo del intervalo de confianza con R) ¿Y cómo

hacerlo con R? Fijamos el nivel de confianza (en este caso a 0.99).

alpha = 0.01

Determinamos el extremo inferior:

([Link] = mean(x) - qt(1-alpha/2,df=n-1)*sd(x)/sqrt(n))

## [1] 155.5524

y el superior

([Link] = mean(x) + qt(1-alpha/2,df=n-1)*sd(x)/sqrt(n))

## [1] 164.4908

El intervalo es el siguiente

c([Link],[Link])

## [1] 155.5524 164.4908

Nota 6.5 (Obtención del intervalo de confianza utilizando [Link])

No hace falta escribir todo lo anterior para calcular el intervalo de con-
fianza. El intervalo de confianza para la media lo podemos obtener con
la función [Link]. De hecho, nos da el intervalo de confianza y alguna
cosa más que, de momento, no necesitamos.

alpha = 0.05
[Link](x,[Link]=1-alpha)

##
## One Sample t-test
##
## data: x
## t = 116.36, df = 9, p-value = 1.298e-15
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 156.9107 163.1326
## sample estimates:
## mean of x
## 160.0216

Si queremos una salida en la que solamente nos aparezca el inter-

valo de confianza podemos hacer

alpha = 0.05
[Link](x,[Link]=1-alpha)$[Link]

## [1] 156.9107 163.1326

## attr(,"[Link]")
## [1] 0.95

5 Podemos comprobar que el intervalo que obtenemos asumiendo varianza co-

nocida es más pequeño que el que obtenemos asumiendo varianza desconocida.

110 CAPÍTULO 6. ESTIMACIÓN

Nota 6.6 (Evaluando el intervalo de confianza) Podemos repe-

tir el proceso de estimación muchas veces y ver en cuántas ocasiones
100

el intervalo contiene al verdadero valor de la media. Generamos 100

intervalos con muestras de tamaño n = 100. En la figura 6.5 hemos

representado los 100 intervalos que hemos obtenido. La línea vertical
60

indica la media poblacional. Cada segmento horizontal se ha dibujado

de modo que las abcisas de sus extremos corresponden con el extremo

inferior y superior del correspondiente intervalo de confianza.

156 158 160 162

Ejemplo 6.1 (Datos Kola) Empezamos cargando los datos del pro-
164

Intervalos de confianza
yecto Kola. 6 En concreto vamos a utilizar los datos chorizon. Con la
Figura 6.5: Intervalos de confianza
función attach podemos usar los nombres de las variables. 7
de la media en una población nor-
mal. Hemos simulado 100 interva- load("../data/[Link]")
los. La línea vertical tiene como attach(chorizon)
abscisa el valor real de la media.
¿Cuántos intervalos no contienen Vamos a obtener el intervalo de confianza para la concentración
a la media real? Cuéntalos.
media de escandio en Noruega. En primer lugar guardamos en [Link]
los datos correspondientes a Noruega.

[Link] = Sc[COUN == "NOR"]

La función básica es [Link].

[Link]([Link])

##
## One Sample t-test
##
## data: [Link]
## t = 18.342, df = 127, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2.479107 3.078706
## sample estimates:
## mean of x
## 2.778906

Si queremos obtener el intervalo de confianza solamente podemos

hacer lo siguiente.

Sc.t = [Link]([Link])
Sc.t$[Link]

## [1] 2.479107 3.078706

## attr(,"[Link]")
## [1] 0.95

o simplemente

[Link]([Link])$[Link]

## [1] 2.479107 3.078706

## attr(,"[Link]")
## [1] 0.95
6 [Link]
7 Se recomienda hacer help(chorizon) para conocer más sobre los datos.
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 111

Por defecto el nivel de confianza que se elige es 0.95. Podemos

modificarlo. Bien bajándolo

[Link]([Link],[Link]=.90)$[Link]

## [1] 2.527873 3.029940

## attr(,"[Link]")
## [1] 0.9

o bien tomando un nivel de confianza mayor, 0.99.

[Link]([Link],[Link]=.99)$[Link]

## [1] 2.382708 3.175105

## attr(,"[Link]")
## [1] 0.99

Ejemplo 6.2 Lo vamos a ilustrar con datos de los resultados de la se-

lectividad en la Comunidad Valenciana. Estos datos se pueden encon-
trar en [Link] Los datos
nos dan la media y desviación estándar muestrales de las notas obteni-
das en Matemáticas II en el examen de selectividad en la Comunidad
Valenciana el año 2010. Tenemos estos valores distinguiendo por uni-
versidad y si los resultados se han obtenido en la fase general o en
la fase específica. Tenemos unos datos agregados. Conocemos unos
resúmenes de los datos pero no los datos mismos.8
Utilizando los datos de la tabla 6.1 vamos a calcular intervalos de
confianza para la nota media en cada una de las universidades y en el
total de todas las universidades. Vamos a centrarnos en los resultados
globales, esto es, la última línea de la tabla. Empezamos construyendo
un intervalo de confianza para la media global. En el siguiente código

media = 5.021
[Link] = 2.077
n = 4499
alpha = .01
(extremoinferior = media - qt(1-alpha/2,df=n-1) *
[Link]/ sqrt(n))

## [1] 4.941204

(extremosuperior = media + qt(1-alpha/2,df=n-1) *

[Link] / sqrt(n))

## [1] 5.100796

De modo que el intervalo de confianza viene dado por [4.941,5.101].

Y ahora para la nota en la fase general.

8 No es tan extraña esta situación. Con frecuencia cuando lees un informe o

bien un artículo científico no sueles disponer de los datos originales sino de los
resúmenes que de los mismos proporcionan los autores en la publicación. Tiene
sentido e interés ver cómo calcular estos intervalos a partir de los datos resumidos.
112 CAPÍTULO 6. ESTIMACIÓN

Tabla 6.1: Resumen de los resultados de Matemáticas II. Las etiquetas indican: Matric., matriculados; Pre-
sent.,presentados; Aptos, aptos; Media, nota media; DE, desviación estándar; Present. FG, presentados fase general;
Present. FE, presentados fase específica; Aprob. FE, aprobados fase específica; Media FG, media fase general; DE
FG, desviación típica fase general; Media FE, media fase específica; DE FG, desviación típica fase específica. En filas
tenemos las universidades de Alicante (UA), la Jaume I de Castellón (UJI), la Miguel Hernández de Elche (UMH),
la Universidad de Valencia (UV) y todos los estudiantes en el Sistema de Universidades Valencianas (SUV).

Universidad Matric. Present. Aptos Media DE

UA 783 771 401 4,989 2,124
UJI 530 518 249 4,857 2,088
UMH 693 673 262 4,369 1,922
UPV 1073 1049 589 5,274 2,070
UV 1525 1488 851 5,212 2,053
SUV 4604 4499 2352 5,021 2,077

Universidad Present. FG Present. FE Aprob. FE

UA 276 495 254
UJI 213 305 148
UMH 267 406 154
UPV 422 627 357
UV 546 942 537
SUV 1724 2775 1450

Universidad Media FG DE FG Media FE DE FE

UA 5,053 1,839 4,954 2,267
UJI 4,852 1,874 4,860 2,225
UMH 4,304 1,812 4,412 1,989
UPV 5,135 1,959 5,367 2,137
UV 5,170 1,89 5,237 2,141
SUV 4,969 1,909 5,054 2,174
6.7. ERROR ABSOLUTO Y TAMAÑO DE LA MUESTRA 113

media = 4.969
[Link] = 1.909
n = 1724
alpha = .01
(extremoinferior =
media - qt(1-alpha/2,df=n-1) * [Link]/ sqrt(n))

## [1] 4.850441

(extremosuperior =
media + qt(1-alpha/2,df=n-1) * [Link] / sqrt(n))

## [1] 5.087559

El intervalo es [4.85, 5.088]. Y terminamos con la media en la

fase específica.

media = 5.054
[Link] = 2.174
n = 2775
alpha = .01
(extremoinferior = media - qt(1-alpha/2,df=n-1) *
[Link]/ sqrt(n))

## [1] 4.947624

(extremosuperior = media + qt(1-alpha/2,df=n-1) *

[Link] / sqrt(n))

## [1] 5.160376

6.6.3 Ejercicios
Ej. 50 — Determinar el intervalo de confianza para la concentración
media de escandio en Finlandia y Rusia. Se pide utilizar como niveles
de confianza 0.90, 0.95 y 0.99.

Ej. 51 — Determinar el intervalo de confianza para la concentración

media de escandio en toda la zona de estudio, esto es, considerando los
tres países conjuntamente. Se pide utilizar como niveles de confianza
0.90, 0.95 y 0.99.

Ej. 52 — En este ejercicio utilizamos los datos de la tabla 6.1. Se

pide:
[Link] los intervalos de confianza con niveles de confianza
0.95 y 0.99 para la nota media en la fase específica en cada una
de las cinco universidades de la Comunidad Valenciana.
[Link] los intervalos de confianza con niveles de confianza
0.95 y 0.99 para la nota media en la fase general en cada una de
las cinco universidades de la Comunidad Valenciana.

6.7 Error absoluto y tamaño de la muestra

En esta sección nos planteamos (por primera vez) un problema de
cálculo de tamaño de la muestra. ¿Cuántos datos hemos de tener para
114 CAPÍTULO 6. ESTIMACIÓN

que nuestro estudio tenga validez? Es una pregunta muy genérica sin
respuesta. La respuesta necesita que concretemos más lo que queremos
de nuestros datos. En esta sección nos planteamos la siguiente pre-
gunta: ¿Cuántos datos necesitamos para que cuanto estimamos una
media poblacional el error máximo que cometemos sea menor que una
cantidad que previamente especificamos? Por ejemplo, queremos co-
nocer la concentración media de un elemento en una zona. Queremos
conocer esta cantidad, denotada por µ, con un error máximo de δ uni-
dades siendo δ una cantidad positiva que fijamos nosotros. Lo primero
que hemos de tener en cuenta es que en Estadística nunca podemos
afirmar con seguridad nada. Podemos pedir que sea muy probable o,
mejor, que tengamos mucha confianza en que ocurra pero que seguro
que ocurra es mucho pedir. Siempre hacemos afirmaciones basadas en
la probabilidad de sucesos que pueden o no ocurrir y, por lo tanto,
afirmar que nuestro error va a ser menor que un cierto nivel δ siempre
o seguro no es posible.
Vamos a responder a la pregunta anterior utilizando los datos cho-
rizon del proyecto Kola. Pretendemos estimar la concentración media
µ de escandio en Noruega (dentro del proyecto Kola). Ya hemos de-
terminado un intervalo de confianza para µ con un nivel 1 − α. Por
ejemplo, con α = 0.05 el intervalo es

[Link]([Link],[Link]=.95)$[Link]

## [1] 2.479107 3.078706

## attr(,"[Link]")
## [1] 0.95

Tenemos una confianza de 0.95 de que el valor de µ esté dentro

(esté cubierto por) el intervalo anterior. Asumamos que la cosa ha
ido bien, esto es, asumamos que µ está dentro. No lo sabemos pero
confiamos con un nivel de confianza 0.95 que esto sea así. Pues bien,
lo asumimos. A la pregunta: ¿en cuánto estimas µ?, respondemos (sin
dudar) que en

mean([Link])

## [1] 2.778906

esto es, respondemos dando el valor de la media muestral x̄ de

las concentraciones utilizadas para calcular el intervalo. Esta media
muestral es el punto medio del intervalo. Por lo tanto si µ está en
intervalo entonces la diferencia entre µ y el centro es menor o igual
que la mitad de la longitud de dicho intervalo que vale

## [1] 0.5995994

¿Qué error absoluto tenemos con la muestra que se tomó? Guar-

damos el intervalo de confianza en [Link].

[Link] = [Link]([Link],[Link]=.95)$[Link]

Sabemos que el error absoluto es la mitad de la longitud del inter-

valo de confianza. Lo calculamos.
6.7. ERROR ABSOLUTO Y TAMAÑO DE LA MUESTRA 115

([Link][2] - [Link][1]) / 2

## [1] 0.2997997

Supongamos que nos parece excesivo y pretendemos un error ab-

soluto máximo de 0.2.
¿Cuál era el tamaño muestral en Noruega? ¿Cuántas muestras se
han tomado en Noruega?

length([Link])

## [1] 128

De hecho, es más fácil saber el número de muestras que hemos

tomado en cada país.

table(COUN)

## COUN
## FIN NOR RUS
## 187 128 290

El intervalo de confianza para la media de una población normal

viene dado por la siguiente expresión.

S S
X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √
n n

En consecuencia, el error absoluto vendrá dado por

S
tn−1,1− α2 √
n

Esta expresión en R se calcula con el siguiente código.

alpha = .05
n = length([Link])
qt(1-alpha/2,df=n-1)*sd([Link])/sqrt(n)

## [1] 0.2997997

Suponemos que la desviación estándar no se va a modificar mucho

si tomamos más muestras.

sd0 = sd([Link])

Fijamos un valor para el error que queremos cometer.

delta = 0.2

Se tiene que verificar

S
tn−1,1− α2 √ ≤ δ
n

Si asumimos que s es aproximadamente constante.

116 CAPÍTULO 6. ESTIMACIÓN

m = n + 10
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)

## [1] 0.2885306

Vemos que no es suficiente. ¿Y 100 observaciones más?

m = n + 100
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)

## [1] 0.2236826

¿Y 200 observaciones más?

m = n + 200
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)

## [1] 0.1861879

Quizás nos hemos pasado. Veamos con 150.

m = n + 150
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)

## [1] 0.2023752

Una manera de hacerlo sería

for(m in 280:290)
print(c(m,qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)))

## [1] 280.0000000 0.2016448

## [1] 281.0000000 0.2012826
## [1] 282.0000000 0.2009223
## [1] 283.0000000 0.2005639
## [1] 284.0000000 0.2002074
## [1] 285.0000000 0.1998529
## [1] 286.0000000 0.1995002
## [1] 287.0000000 0.1991493
## [1] 288.0000000 0.1988003
## [1] 289.0000000 0.1984532
## [1] 290.0000000 0.1981078

6.7.1 Ejercicios
Ej. 53 — Utilizamos los datos chorizon del paquete StatDA. Se quie-
re estimar la la concentración media de escandio en Finlandia y en
Rusia. Queremos estimar estas medias con un error máximo de 0.20.
[Link] el número de datos (tamaño de la muestra) que ne-
cesitamos en Finlandia para tener un error máximo de 0.20. ¿Y
si queremos un error máximo de 0.1?
[Link] el apartado 1 para Rusia.

Ej. 54 — Supongamos que asumimos que el nivel medio de escandio

no es distinto para los distintos países y por lo tanto usamos todos los
valores. ¿Cuál es el error máximo observado?
6.8. ESTIMACIÓN DE LA VARIANZA EN POBLACIONES NORMALES117

6.8 Estimación de la varianza en poblacio-

nes normales
Si X1 , . . . , Xn es una muestra aleatoria de una normal con media
µ y varianza σ 2 entonces
X
n
(Xi − X̄n )2 (n − 1)S 2
= ∼ χ2n−1 .
σ2 σ2

0.10
i=1

0.08
2
Estamos diciendo que la variable aleatoria (n−1)S tiene una distribu-

dchisq(x, df = 10)
σ2

0.06
ción ji-cuadrado con n-1 grados de libertad. 9 En la figura 6.6 hemos

0.04
representado la función de densidad de una ji-cuadrado con 10 grados
de libertad.

0.02
Con objeto de ver cómo cambia la forma de la función de densi-

0.00
dad cuando cambia el número de grados de libertad en la figura 6.7 0 5 10 15 20 25 30

mostramos las densidades de la ji-cuadrado con 10 grados de libertad x

(trazo continuo) y con 20 grados de libertad (trazo discontinuo).

Denotamos el percentil de orden p de una ji-cuadrado con k grados Figura 6.6: Función de densidad
de una ji-cuadrado con 10 grados
de libertad como χp,k . Es decir, si la variable X se distribuye como de libertad.
una ji-cuadrado con k grados de libertad, X ∼∼ χk , entonces
2

P (X ≤ χ2p,k ) = p.

0.10
El valor anterior lo podemos obtener con la función qchisq.

0.08
dchisq(x, df = 10)

0.06
p = 0.75

0.04
k = 13

0.02
qchisq(p,df=k)

0.00
## [1] 15.98391 0 10 20 30 40 50

Entonces tenemos que

Figura 6.7: Función de densidad
(n − 1)S 2 de una ji-cuadrado con 10 grados
P χ2α/2,n−1 ≤ ≤ χ 2
1−α/2,n−1 = 1 − α. de libertad (trazo continuo) y con
σ2
20 grados de libertad (trazo dis-
Y por lo tanto, continuo).

(n − 1)S 2 (n − 1)S 2
P ≤ σ 2
≤ = 1 − α.
χ21−α/2,n−1 χ2α/2,n−1

Es decir el intervalo

(n − 1)S 2 (n − 1)S 2
,
χ21−α/2,n−1 χ2α/2,n−1

es un intervalo de confianza para σ 2 con nivel de confianza 1 − α.

Es claro que el correspondiente intervalo de confianza (con nivel
de confianza 1 − α) para la desviación estándar poblacional vendrá
dado por
s s
(n − 1)S 2 (n − 1)S 2
,
χ21−α/2,n−1 χ2α/2,n−1
9 La densidad de una distribución ji-cuadrado con k grados de libertad es
1 k x
f (x) = x 2 −1 e− 2 para x ≥ 0 y cero en otro caso.
2k/2 Γ(k/2)
118 CAPÍTULO 6. ESTIMACIÓN

Veamos cómo hacerlo con R. La función que nos da los percentiles

de la ji-cuadrado es pchisq. Tomamos los datos.

n = 100
x = sample(X,100)

Y construimos el intervalo de confianza.

alpha = .05
s2 = var(x)
(extremoinferior = (n-1)*s2 / qchisq(1-alpha/2,df=n-1))

## [1] 24.60885

(extremosuperior = (n-1)*s2 / qchisq(alpha/2,df=n-1))

## [1] 43.07894

El intervalo de confianza para σ 2 con un nivel de confianza de 0.95

es [24.609, 43.079].

6.8.1 Ejercicios
Ej. 55 — Consideremos los datos StatDA::chorizon. Se pide:
[Link] el código
help(chorizon)
consulta qué tipo de datos son.
[Link] un intervalo de confianza para la varianza de la concen-
tración de níquel en Rusia con un nivel de confianza de 0.99.
[Link] el apartado anterior utilizando un nivel de confianza de
0.9. ¿Qué intervalo es más grande? ¿Por qué?
[Link] los apartados 2 y 3 para el nivel medio de níquel en Fin-
landia y para el nivel medio de níquel en Noruega.

Ej. 56 — Con los datos de la tabla 6.1 se pide:

[Link] un intervalo de confianza para la varianza y otro para
la desviación estándar de la nota en Matemáticas II.
[Link] el apartado 1 para la varianza y la desviación estándar
de la nota de Matemáticas II en la fase general.
[Link] el apartado 1 para la varianza y la desviación estándar
de la nota de Matemáticas II en la fase específica.

6.9 Estimación de una proporción

Supongamos que denotamos por p la proporción a estimar (pro-
porción de aprobados en un examen, proporción de votantes de un
cierto partido político). Realmente disponemos (antes de tomar los
datos) de una muestra aleatoria X1 , . . . , Xn donde cada valor aleato-
rio Xi puede tomar los valores 1 y cero con probabilidades p y 1 − p.
El estimador de p viene dado por
X
n
Xi
p̂ = .
i=1
n
6.9. ESTIMACIÓN DE UNA PROPORCIÓN 119

Tabla 6.2: Efecto preventivo de la aspirina

Ataque fatal y no fatal No ataque

Placebo 189 10845
Aspirina 104 10933

Por el teorema central del límite sabemos que aproximadamente (cuan-

do el número de datos n es grande) p̂ tiene una distribución normal
con media p y varianza p(1 − p)/n, es decir,

p̂ ∼ N (p, p(1 − p)/n).

Esto lo podemos escribir como

p̂ − p
p ∼ N (0, 1).
p(1 − p)/n
Sin embargo, esto no es utilizable para determinar un intervalo de
confianza. Una opción es estimar la varianza mediante p̂(1 − p̂)/n y
considerar que aproximadamente (lo cual quiere decir que hemos de
tener una muestra grande) se verifica
p̂ − p
p ∼ N (0, 1).
p̂(1 − p̂)/n

Si denotamos (como hemos indicado antes) el percentil de orden γ

(0 < γ < 1) de una normal estándar como Zγ entonces se verifica
para un α dado

p̂ − p
P − Z1−α/2 ≤ p ≤ Z1−α/2 = 1 − α.
p̂(1 − p̂)/n
o, escrito de otro modo, que
r r
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − Z1−α/2 ≤ p ≤ p̂ + Z1−α/2 = 1 − α.
n n
Teorema 6.2 (Intervalo de confianza para una proporción) Si
X1 , . . . , Xn son una muestra aleatoria de variables binomiales con una
prueba y probabilidad de éxito p entonces el intervalo
r
p̂(1 − p̂)
p̂ ± Z1−α/2
n
es un intervalo de confianza para la proporción p siendo
Pn
Xi
p̂ = i=1 .
n
Nota 6.7 (R y lo buena que es la aspirina) Vamos a obtener es-
te intervalo de confianza utilizando R. Los datos con los que vamos
a trabajar consideran si una persona toma aspirina o placebo y si ha
sufrido un ataque cardíaco o no. Aparecen en la tabla 6.2.
Vamos a estimar la proporción de personas que tomando placebo
tienen un ataque cardíaco.
120 CAPÍTULO 6. ESTIMACIÓN

library(Hmisc,T)
binconf(x=189, n=11034, method="asymptotic")

## PointEst Lower Upper

## 0.01712887 0.01470788 0.01954987

Del mismo modo podemos estimar la proporción de los que, to-

mando aspirina, tienen ataque cardíaco. La estimación puntual y el
intervalo de confianza vienen dados en la siguiente salida.

binconf(x=104, n=11037, method="asymptotic")

## PointEst Lower Upper

## 0.00942285 0.007620423 0.01122528

En principio parece que si tomas aspirina tienes una probabilidad

menor de tener el ataque. En cualquier caso en lo que sigue veremos
el problema de comparar las proporciones.

6.9.1 Ejercicios
Ej. 57 — Para los datos de la tabla 6.1 se pide:
[Link] la proporción de aptos para cada una de las universida-
des y para todo el sistema universitario valenciano.

Ej. 58 — ([15, pág. 120, problema 21])Se observan los siguientes éxi-
tos y fracasos: 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0. Calcule un intervalo
de confianza con nivel 0,95 para la probabilidad de éxito p.

Ej. 59 — ([15, pág. 120, problema 22])Teniendo en cuenta los si-

guientes resultados para una muestra de una distribución binomial,
calcule el error estándar de p̂ cuando:
1.n = 25, X = 5.
2.n = 48, X = 12.
3.n = 100, X = 80.
4.n = 300, X = 160.

Ej. 60 — ([15, pág. 120, problema 23])Entre los 100 adultos selec-
cionados al azar, 10 se encontraron desempleados. Dar una intervalo
de confianza con un nivel de 0,99 para el porcentaje de adultos des-
empleados.

Ej. 61 — ([15, pág. 121, problema 31])Una compañía de cosméti-

cos encontró que 180 de cada 1000 mujeres seleccionadas al azar en
Nueva York han visto el anuncio de televisión de la empresa. Calcule
un intervalo de confianza al 0,95 para el porcentaje de mujeres en la
ciudad de Nueva York que han visto el anuncio.

6.10 Tamaño de la muestra en la estima-

ción de una proporción
En la sección anterior hemos visto un intervalo
de confianza pa-
q
ra estimar una proporción. Es el intervalo p̂ − Z1−α/2 p̂(1−
n
p̂)
, p̂ +
6.10. TAMAÑO DE LA MUESTRA EN LA ESTIMACIÓN DE UNA PROPORCIÓN121

q
p̂(1−p̂)
Z1−α/2 n . Este intervalo tiene nivel de confianza 1 − α. Dados
unos datos tenemos el intervalo. Supongamos que la cosa ha ido bien:
El intervalo que calculamos cubre al valor verdadero de p. Tenemos
una confianza 1 − α de que esto sea cierto. Bien. El intervalo cubre a
p pero nuestra estimación puntual de p es p̂. Si nos piden que demos
un valor para p responderemos dando la estimación puntual, dando
el valor p̂. La diferencia entre la estimación puntual que damos y el
valor real de p (que desconocemos y siempre desconoceremos) es co-
mo mucho la mitad de la longitud del intervalo de confianza (siempre
asumiendo que p está dentro de este intervalo). En otras palabras:
r
p̂(1 − p̂)
|p̂ − p| ≤ Z1−α/2 .
n

Un intervalo que acierte mucho es bueno, esto es, un nivel de con-

fianza alto es bueno. De hecho, menos de un 90% no se suele utilizar.
Pero no sólo importa el nivel de confianza. Por ejemplo, el intervalo
[0, 1] tiene un nivel de confianza de 1. ¿Cuál es la proporción de perso-
nas que sufren ataque de corazón tomando aspirina? Si respondemos
que esta proporción está entre 0 y 1 estamos haciendo una afirma-
ción con una confianza de uno. No nos equivocamos en absoluto. Pero
también la afirmación es absolutamente inútil. No nos dice nada que
no supieramos previamente. En resumen el intervalo que damos para
estimar p tiene que ser tal que confiemos que contiene el valor que
queremos conocer pero también tiene que ser preciso, tan estrecho co-
mo podamos para que sea informativo. Es fácil suponer que precisión
supone más muestra, más datos.
El problema se plantea normalmente del siguiente modo. Quiero
estimar la proporción p y quiero que hacerlo con un error máximo dado
δ (por ejemplo, δ = 0.02). Necesitamos una primera muestra. ¿Para
qué? Para tener una estimación inicial de p. Denotemos el tamaño de
esta primera muestra como n0 y la estimación puntual de p obtenida
como p̂0 . Entonces podemos plantearnos qué valor de n verifica que
r
p̂0 (1 − p̂0 )
Z1−α/2 ≤δ
n
Esto es simple. Despejamos en la desigualdad anterior el valor de n y
tenemos que
p̂0 (1 − p̂0 )
n ≥ Z1−α/2
2
δ2
La estimación inicial de la proporción no necesariamente la tenemos
que obtener de una muestra inicial. Puede que tengamos alguna mues-
tra previa de esa población o alguna estimación que obtengamos de
alguna publicación.

6.10.1 Ejercicios
Ej. 62 — Pretendemos estimar la proporción de palmeras afectadas
por el picudo. Se ha tomado una primera muestra de 100 palmeras al
azar. Se han observado 23 palmeras afectadas. Se pide:
1.¿Cuál es el error máximo observado con un nivel de confianza de
0.95?
122 CAPÍTULO 6. ESTIMACIÓN

[Link] como estimación inicial de p el valor observado con la

primera muestra de 100 palmeras. Supongamos que nos plantea-
mos estimar la proporción de palmeras afectadas con un error
máximo de 0.04 y un nivel de confianza de 0.95. ¿Cuál ha de ser
el número total de palmeras a observar?
[Link] a la pregunta del apartado 2 suponiendo que deseamos
un nivel de confianza en el error máximo de 0.99. Mantenemos
el error máximo en 0.04.
[Link] a la pregunta del apartado 2 suponiendo que deseamos
un nivel de confianza en el error máximo de 0.95 pero queremos
un error máximo de 0.02.
5.¿Más nivel de confianza supone más muestra? Responde la pre-
gunta considerando los apartados anteriores.
6.¿Menor error supone una mayor muestra? Responde la pregunta
utilizando los apartados anteriores?.
Capítulo 7

Contraste de hipótesis

7.1 Introducción
Se introduce el problema del contraste de hipótesis en una pobla-
ción.
En concreto, vamos a asumir que tenemos una muestra aleatoria
de una distribución normal, X1 , . . . , Xn , variables aleatorias indepen-
dientes y con una misma distribución. La distribución común que
asumimos es normal con media µ y varianza σ 2 . Es decir, estamos
asumiendo que
Xi ∼ N (µ, σ 2 )
y que los distintos valores son independientes entre si.
En este tema nos planteamos el problema del contraste de hipó-
tesis y lo estudiamos estudiando, fundamentalmente, los contrastes
sobre la media µ de la variable que observamos (concentración de
contaminante, nivel de radiación o de ruido).
Asumimos normalidad en los datos con los que trabajamos. Pero:
¿es razonable está hipótesis? Nos ocupamos al final de este tema de
lo que se conoce como contrastes de normalidad.

7.2 Constrastes para una muestra

Vamos a plantear el problema del contraste de hipótesis utilizando
el problema de una muestra en poblaciones normales. Sobre aplicacio-
nes medioambientales es interesante leer la introducción del capítulo
3 de [4] en donde se comentan distintas aplicaciones al contexto me-
dioambiental de lo que tratamos en esta sección. También es intere-
sante leer el capítulo 16 de [1].
Algunas preguntas que podremos responder son:

1. La contaminación observada en una localización: ¿es peligrosa

para la salud?

2. ¿Está la descarga efectuada de acuerdo con las limitaciones es-

tablecidas?

3. El nivel de contaminantes: ¿es significativamente mayor que los

niveles habituales?

4. ¿Se ha logrado limpiar suficientemente la zona contaminada?

123
124 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

5. En un control de calidad de un laboratorio, medimos la con-

centración de muestras que han sido preparadas o calibradas de
un modo preciso. En estas muestras la concentración a medir
se ha fijado de un modo preciso. Medimos la concentración en
estas muestras utilizando un método analítico determinado y
tenemos que comparar los valores medidos con la concentración
previamente fijada. Estamos evaluando el funcionamiento del
procedimiento de determinación, es pues, un control de calidad
del laboratorio en cuestión.
Estas preguntas se pueden (y deben para poder responderlas) con-
cretar en otras como:
1. ¿La concentración efluente media durante 30 días en la descarga
de aguas residuales en un cierto emisario supera los 137 mg/l?1
2. ¿La concentración de torio en la superficie del suelo promedia-
da sobre un cuadrado de 100 metros de lado es mayor de 10
picocuries por gramo?

7.2.1 Un contraste unilateral

Empezamos comentando un ejemplo que nos ayude a entender el
problema del contraste de hipótesis.

Ejemplo 7.1 (Un problema inventado) Un fabricante de bombi-

llas afirma que sus bombillas tienen una duración media de al menos
1500 horas. Muy bien, esta persona afirma esto. Nuestro problema es
tomar una entre dos decisiones. Admitir que lo que afirma es correcto
o bien que no lo es y la duración media real es claramente menor
que 1500. Lo primero que necesitamos para tomar la decisión son
datos. Hemos tomado una muestra de bombillas y hemos repetido el
experimento consistente en tenerlas en funcionamiento ininterrumpi-
do hasta que la bombilla deja de funcionar.2 En definitiva tenemos
una muestra aleatoria de duraciones de bombillas de este fabricante.
Supongamos que las duraciones observadas son

## [1] 1785.6 1622.0 1275.6 1254.3 1422.5 1582.8

## [7] 918.1 1821.4 1194.8 1049.1 1868.4 1801.8
## [13] 1812.2 1061.1 1757.3 1336.2 1324.6 2060.6
## [19] 1792.4 1483.4 1918.4 1589.5 1580.0 1647.6
## [25] 1533.3 1106.6 1456.7 1846.5 1415.4 1298.5
## [31] 1832.3 1536.5 1718.4 1372.3 1684.3 1536.0
## [37] 1816.2 1793.6 1431.4 1051.3 1609.5 1592.6
## [43] 1687.3 1649.9 1484.7 1931.3 1041.1 1673.0
## [49] 1141.6 1420.6 1518.3 1150.3 1586.5 1064.2
## [55] 1457.0 1473.1 837.0 1789.1 1792.9 1931.5
## [61] 1419.0 1256.1 1294.1 1809.1 1667.9 1754.3
## [67] 1962.9 1593.9 1309.7 1599.1 1369.6 1606.6
## [73] 1796.0 1913.1 991.1 986.1 1714.3 1263.1
## [79] 1290.6 1381.3 1942.5 1585.7 2180.0 1603.4
## [85] 1660.6 1732.5 1262.0 1729.9 1490.7 1366.7
## [91] 2048.5 1838.2 2107.4 1755.3 1506.4 1895.4
## [97] 1339.3 1736.7 1754.3 1430.9
1 Siento obviamente este el máximo valor permitido.
2 Alguna bombilla dura algo más. [Link]
7.2. CONSTRASTES PARA UNA MUESTRA 125

La afirmación del fabricante la consideramos como una hipótesis

que hemos de evaluar. En concreto nos planteamos dicha hipótesis y
su negación. De un modo más preciso la hipótesis de una duración
media menor o igual a 1500 y su negación serían

H0 : µ ≤ 1500,
H1 : µ > 1500,

donde H0 y H1 son las hipótesis nula y alternativa respectivamente.3

Hemos de elegir entre una de ellas. Elegir supone decidir. Hemos
de decidir, con los datos que tenemos sobre las duraciones de las
bombillas, cuál de las hipótesis es más compatible con los datos: la nula
o la alternativa. Esto supone tomar una decisión: bien rechazamos la
hipótesis nula o bien no rechazamos la hipótesis nula.
¿Y cómo decidimos? El procedimiento que se utiliza es tomar una
función de la muestra aleatoria, T (X1 , . . . , Xn ), y en función de los
valores que toma decidir. En este contraste, el estadístico habitual-
mente utilizado es el siguiente

X̄n − 1500
T = √ . (7.1)
S/ n

Si consideramos los valores observados tenemos

x̄n − 1500
t0 = √ , (7.2)
s/ n

que toma el siguiente valor

(t0 = (mean(x) - 1500) / (sd(x)/sqrt(n)))

## [1] 1.793834

Si observamos la definición de T parece razonable definir como

regla de decisión: rechazamos la hipótesis nula si

T ≥c

donde c es un valor que elegiremos adecuadamente. Si asumimos que

la media poblacional es µ = 1500, es decir, el valor límite entre am-
bas hipótesis entonces se verifica que T (definido en 7.1) sigue una
distribución t de Student con n-1 grados de libertad, es decir,

X̄n − 1500
T = √ ∼ tn−1 . (7.3)
S/ n

Supongamos que no queremos equivocarnos rechazando la hipótesis

nula cuando es cierta más que un 5 % de las ocasiones. Al error que
cometemos cuando hacemos esto se le llama error tipo I. Esto supone
que, colocándonos en la situación límite entre las hipótesis nula y
alternativa, hemos de elegir el valor de la constante c de modo que

P (T ≥ c) = 0.05, (7.4)
3 En algunos textos se denotan las hipótesis nula y alternativa como H y H
0 a
respectivamente.
126 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

o, equivalentemente, que

P (T ≤ c) = 1 − 0.05 = 0.95. (7.5)

La constante c es el percentil o cuantil de orden 0.95 de una distribu-

ción t de Student con n-1 grados de libertad que denotamos tn−1,0.95 .
El valor de c lo podemos calcular con R con el siguiente código

qt(.95,df=99)

## [1] 1.660391

ya que n = 100. Ya lo tenemos todo. El valor observado de T es

t0 .

## [1] 1.793834

Como t0 es mayor que tn−1,0.95 rechazamos la hipótesis nula lo que

indica que el fabricante no mentía: sus bombillas tienen una duración
0.4

media superior a 1500.

Gráficamente podemos representar lo que acabamos de hacer. En la
0.3
dt(valores.x, df = n − 1)

figura 7.1 representamos la densidad cuando la media vale µ0 = 1500.

0.2

En línea discontinua más a la izquierda (trazo discontinuo) indicamos

la posición del estadístico t0 .
0.1

Y ahora planteamos el problema de un modo genérico. Considera-

0.0

−10 −5 0 5 10
mos el contraste de hipótesis.
valores.x

H0 : µ ≤ µ0 ,
Figura 7.1: Contraste unilateral
sobre la media. H1 : µ > µ0 .

Hemos de tomar una entre dos posibles decisiones: rechazamos la hi-

pótesis nula o bien no rechazamos la hipótesis nula. Un problema de
contraste de hipótesis consiste en tomar una decisión. Cuando deci-
dimos nos equivocamos.4 De hecho, nos podemos equivocar de dos
modos. El primer tipo de error consiste en rechazar la hipótesis nula
cuando realmente es cierta, el error tipo I. Es el error al que tradi-
cionalmente se le ha prestado más atención. Se considera el error a
controlar. Por ello, se le pone una cota, un valor máximo. Esta cota es
el nivel de significación α. El valor más habitual para α es 0.05. Otros
valores que habitualmente se utilizando son 0.01 o 0.1. El otro posi-
ble error consiste en no rechazar la hipótesis nula cuando realmente
no es cierta. Es el error tipo II. Como todo error ha de ser pequeño.
Este tipo de error lo podemos controlar utilizando muestras grandes.
Fijamos un α y con más muestra tendremos un menor error tipo II.
El procedimiento para realizar un contraste de hipótesis es el si-
guiente:
1. Planteamos el contraste de hipótesis.
2. Fijamos un nivel de significación α.
4 Algunos sostienen que lo mejor en la vida es no tomar decisiones. Que las cosas

pasen y asumirlas.
7.2. CONSTRASTES PARA UNA MUESTRA 127

Realidad
Decisión H0 H1
Rechazamos H0 Error tipo I
No rechazamos H0 Error tipo II

Tabla 7.1: Errores que podemos cometer en un problema de contraste

de hipótesis.

3. Tomamos los datos.

4. Evaluamos el valor del estadístico.

5. Si el estadístico está en la región crítica rechazamos la hipótesis

nula. En otro caso, no rechazamos dicha hipótesis nula.

Suponemos fijado α. Calculamos el estadístico.

X̄n − µ0
T = √ (7.6)
S/ n

y el valor observado
x̄n − µ0
t0 = √ . (7.7)
s/ n
Bajo la hipótesis de que la media poblacional µ vale µ0 , µ = µ0 , se
tiene que
X̄n − µ0
T = √ ∼ tn−1 , (7.8)
S/ n
y t0 sería un valor observado de una variable aleatoria con distribución
t con n-1 grados de libertad.
Supongamos que queremos (es una elección del decisor que somos
nosotros) un error tipo I que sea menor o igual a α (habitualmente
0.05, 0.01 o 0.1) entonces la regla de decisión es:

• Rechazamos H0 si T > tn−1,1−α , o dicho de otro modo, recha-

zamos si T ∈ [tn−1,1−α , +∞).

• En otro caso, no rechazamos H0 .

Si denotamos C = [tn−1,1−α , +∞) entonces estamos rechazando cuan-

do el valor del estadístico está en C. Rechazamos H0 si T ∈ C y no la
rechazamos en otro caso. A este intervalo le llamamos región crítica.
Lo que acabamos de hacer se puede hacer de otro modo.

1. Supongamos que calculamos el área a la derecha de t0 en una t

de Student con n − 1 grados de libertad. Este valor lo vamos a
denotar con la letra p y recibe el nombre de p-valor. Es decir, el
p-valor viene dado por

p = P (T ≥ t0 )dondeT ∼ tn−1 .

El p-valor lo podemos calcular con el siguiente código.

(pvalor=1-pt(t0,df=n-1))

## [1] 0.0379462
128 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

2. Las dos afirmaciones siguientes son equivalentes:

(a) Se verifica que t0 > tn−1,1−α y por lo tanto rechazamos la
hipótesis nula.
(b) El área a la derecha de t0 sea menor que α.
Es equivalente que a que el área a la derecha de t0 sea menor que el
área a la derecha de tn−1,1−α . El área a la derecha de t0 es el valor
0.4

de p o el p-valor mientras que el área a la derecha de tn−1,1−α es

α. Por tanto, la misma regla de decisión que estamos empleando se
0.3
dt(valx, df = n − 1)

puede formular como: rechazamos la hipótesis nula H0 si p < α y no

0.2

rechazamos si p ≥ α. En la figura 7.2 el p-valor es el área de la zona

en color negro.
0.1

Nota de R 7.1 (Función [Link] para contrastar) Vamos a reali-

0.0

−4 −2 0 2 4
zar el contraste utilizando la función [Link].
valx

[Link](x,mu=1500,alternative="greater")
Figura 7.2: El p-valor corresponde
con el área de la zona negra.
##
## One Sample t-test
##
## data: x
## t = 1.7938, df = 99, p-value = 0.03795
## alternative hypothesis: true mean is greater than 1500
## 95 percent confidence interval:
## 1503.842 Inf
## sample estimates:
## mean of x
## 1551.645

Vemos cómo la función no nos da el valor a partir del cual recha-

zamos. Simplemente nos indica el p-valor y la hipótesis alternativa.
¿Qué hipótesis nula tenemos? La hipótesis nula la obtenemos por ne-
gación de la alternativa que nos da la salida. Y la decisión la hemos
de tomar nosotros que, al fin y al cabo, somos el decisor. El nivel de
significación α lo hemos elegido a priori. Si trabajamos con un nivel
de significación α = 0.05 entonces podemos ver en la salida anterior
que dicho p-valor es menor que 0.05 y rechazamos la hipótesis nula.
Ahí se acaba la historia. Un contraste de hipótesis se acaba cuando se
ha tomado una decisión.

Ejemplo 7.2 Vamos a fijarnos en la concentración de níquel en Ru-

sia en los datos chorizon del paquete StatDA [R-StatDA]. Vamos a
suponer que una concentración media por encima de 20 es peligrosa.
Con los datos observados, ¿podemos considerar que la concentración
media es 20 o mayor? Formulamos el siguiente contraste. Hay que
demostrar que efectivamente estamos por debajo del nivel de peligro-
sidad.

H0 : µ ≤ 20,
H1 : µ > 20.

Vamos a realizar el contraste. Cargamos los datos y seleccionamos las

concentraciones relativas a Rusia.
7.2. CONSTRASTES PARA UNA MUESTRA 129

load("../data/[Link]")
attach(chorizon)
[Link] = Ni[which(COUN == "RUS")]

Ahora podemos aplicar el test.

[Link]([Link],alternative="greater",mu=20)

##
## One Sample t-test
##
## data: [Link]
## t = 2.8777, df = 289, p-value = 0.002152
## alternative hypothesis: true mean is greater than 20
## 95 percent confidence interval:
## 21.69218 Inf
## sample estimates:
## mean of x
## 23.9669

Vemos que el p-valor vale 0.9978 que es menor que 0.05. Recha-
zamos la hipótesis nula.

7.2.2 Otro problema de contraste unilateral

Supongamos que una empresa vierte sus residuos a un rio. La
concentración media de una cierta sustancia contaminante no puede
superar un cierto valor µ0 . ¿Cómo formulamos el contraste y cómo
contrastamos las hipótesis?
El contraste lo podemos formularíamos como:

H0 : µ ≥ µ 0 ,
H1 : µ < µ0 .

La empresa debe de probar que las concentraciones medidas en las

muestras de agua no superan en media el valor que se le indica. El
contraste se puede hacer con dos procedimientos equivalentes.

Primer procedimiento 1. En primer lugar elegimos el nivel de

significación α.
2. Calculamos el estadístico T = t0 definido en ecuación 7.6.
3. Rechazamos la hipótesis nula si t0 < tn−1,α y no rechaza-
mos en otro caso.

Segundo procedimiento 1. Elegimos el nivel de significación α.

2. Calculamos el estadístico T = t0 definido en ecuación 7.6.
3. Calculamos el área a la izquierda de t0 en una t de Student
con n-1 grados de libertad. Este es el valor p o p-valor.
4. Rechazamos la hipótesis nula si p < α y no rechazamos en
otro caso.
130 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

Hagámoslo con R. Supongamos que el valor por debajo del cual

ha de mantenerse en media es µ0 = 34 unidades (en la unidad que
queráis).
Supongamos que los datos con los que trabajamos son los siguien-
tes:

## [1] 44.329 34.855 24.349 42.825 32.401 28.509

## [7] 33.842 44.161 36.216 26.022 44.664 39.360
## [13] 37.214 20.134 44.883 34.955 34.168 26.922
## [19] 11.688 28.145 27.640 38.898 30.745 34.202
## [25] 34.954 14.447 37.012 26.444 30.379 34.346
## [31] 30.278 43.779 32.202 23.504 24.381 29.202
## [37] 29.486 29.257 34.741 39.125 38.991 46.195
## [43] 24.005 27.123 22.599 25.624 27.666 38.682
## [49] 27.883 36.150 20.973 39.539 32.493 26.072
## [55] 41.707 36.018 29.690 33.443 29.465 36.475
## [61] 26.587 26.519 25.945 29.246 32.949 35.980
## [67] 30.122 19.944 27.732 32.752 34.471 31.101
## [73] 30.948 34.889 38.423 15.096 30.686 25.827
## [79] 35.518 20.583 30.270 40.163 24.304 29.901
## [85] 27.796 29.757 31.565 33.469 43.764 38.501
## [91] 29.701 25.604 29.370 27.745 30.444 36.138
## [97] 29.218 42.374 33.488 26.963 43.596 37.485
## [103] 31.784 29.643 31.317 36.104 29.045 23.118
## [109] 36.749 21.059 28.418 31.972 28.440 31.853
## [115] 32.684 25.085 17.989 34.004 30.220 33.363
## [121] 32.711 33.406 30.941 33.308 37.603 35.756
## [127] 34.475 32.479 31.590 38.261 23.675 27.966
## [133] 25.178 28.546

Tenemos n = 134. Tomamos α = 0.05. El estadístico vale

n = 134
mu0 = 34
(t0 = (mean(x) - mu0) / (sd(x)/sqrt(n)))

## [1] -4.463301

Determinamos el punto a partir del cual rechazamos: tn−1,α

alpha = 0.05
qt(alpha,df=n-1)

## [1] -1.656391

Como t0 < tn−1,α entonces rechazamos la hipótesis nula.

El segundo procedimiento es más simple de aplicar y es el que
usaremos.

[Link](x,mu=mu0,alternative="less")

##
## One Sample t-test
##
## data: x
7.2. CONSTRASTES PARA UNA MUESTRA 131

## t = -4.4633, df = 133, p-value = 8.521e-06

## alternative hypothesis: true mean is less than 34
## 95 percent confidence interval:
## -Inf 32.42839
## sample estimates:
## mean of x
## 31.50096

Como el p-valor es notablemente menor que 0.05 rechazamos la

hipótesis nula.

7.2.3 Y, finalmente, el contraste bilateral

Suponemos que queremos valorar si la media de la variable de
interés podemos considerar que toma un valor próximo a µ0 . ¿Cómo
formulamos el contraste? El contraste lo formularíamos como:

H0 : µ = µ0 ,
H1 : µ ̸= µ0 .

El contraste se puede hacer con dos procedimientos equivalentes.

Primer procedimiento 1. En primer lugar elegimos el nivel de

significación α.
2. Calculamos el estadístico T = t0 (definido en ecuación 7.6).
3. Rechazamos la hipótesis nula si t0 < 1 − tn−1,1−α/2 o bien
si t0 > tn−1,1−α/2 y no rechazamos en otro caso.

Segundo procedimiento 1. Elegimos el nivel de significación α.

2. Calculamos el estadístico T = t0 (definido en ecuación 7.6).
3. Calculamos el área a la izquierda de −|t0 | más a la derecha
de |t0 | en una t de Student con n-1 grados de libertad. Este
es el valor p o p-valor.
4. Rechazamos la hipótesis nula si p < α y no rechazamos en
otro caso.

Ejemplo 7.3 Vamos a trabajar con las concentraciones de níquel en

Rusia en los datos chorizon [R-StatDA]. Supongamos que nos plan-
teamos contrastar si estamos alrededor de una concentración de 23.
El contraste es pues el siguiente:

H0 : µ = 23,
H1 : µ ̸= 23.

[Link]([Link],alternative="[Link]",mu=23)

##
## One Sample t-test
##
## data: [Link]
132 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

## t = 0.70141, df = 289, p-value = 0.4836

## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669

Con el p-valor 0.4836 no podemos rechazar la hipótesis nula a

ninguno de los niveles de significación habituales de 0.01 o 0.05 o 0.1.
¿Y de 24? El contraste es ahora:

H0 : µ = 24,
H1 : µ ̸= 24.

Realizamos el contrate.

[Link]([Link],alternative="[Link]",mu=24)

##
## One Sample t-test
##
## data: [Link]
## t = -0.024014, df = 289, p-value = 0.9809
## alternative hypothesis: true mean is not equal to 24
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669

El p-valor es todavía mayor, 0.9809. No rechazamos la hipótesis

nula con un nivel de significación de 0.05. De hecho, tampoco con un
nivel de significación de 0.1 Notemos que el argumento alternative
toma el valor [Link] por defecto. @

7.3 Intervalo de confianza y contraste de

hipótesis
Hemos estudiado cómo estimar, mediante un intervalo de confian-
za, la media de una variable normal. El intervalo de confianza√ con un
nivel de confianza
√ 1 − α viene dado por [x̄n − t n−1,1−α/2 s/ n, x̄n −
tn−1,1−α/2 s/ n]. Supongamos que tomamos µ0 en este intervalo. Nos
planteamos el siguiente contraste:

H0 : µ = µ0 ,
H1 : µ ̸= µ0

y pretendemos contrastar estas hipótesis con un nivel de √ significación

α. Si calculamos el valor del estadístico t0 = (x̄n −µ0 )/(s/ n) tenemos
que se verifica que |t0 | ≤ tn−1,1−α/2 y por lo tanto no rechazamos la
7.4. EJERCICIOS 133

hipótesis nula consistente en que la verdadera media de la población

µ toma el valor µ0 .
Este resultado lo hemos formulado referido a la media de una po-
blación normal. Sin embargo, es un resultado válido en general. Si
suponemos que tenemos un parámetro de toda la población (media,
varianza, desviación estandar en poblaciones normales o bien la proba-
bilidad de éxito en poblaciones binomiales) que vamos a denotar de un
modo genérico como θ. Tenemos un intervalo de confianza (con un ni-
vel de confianza 1−α) para θ que depende de la muestra {x1 , . . . , xn } y
que denotamos por [A(x1 , . . . , xn ), B(x1 , . . . , xn )] o simplemente como
[A, B]. Entonces, si A ≤ θ0 ≤ B y consideramos el contraste bilateral

H0 : θ = θ 0 ,
H1 : θ ̸= θ0

no rechazaremos la hipótesis nula con un nivel de significación α.

Y viceversa: si consideremos todos los valores θ0 para los cuales no
rechazamos la hipótesis nula (con un nivel de significación α) en el
contraste formulado anteriormente tenemos un intervalo de confianza
para θ con nivel de confianza 1 − α.

Ejemplo 7.4 Vamos a ilustrar con datos lo dicho. Recuperamos el

contraste de si la media de níquel en Rusia es de 23.

[Link]([Link],alternative="[Link]",mu=23,[Link]=0.95)

##
## One Sample t-test
##
## data: [Link]
## t = 0.70141, df = 289, p-value = 0.4836
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669

Podemos comprobar que si tomamos como valores para la media µ

cualquier valor µ0 que esté en el intervalo de confianza el p valor que
observaremos para el contraste H0 : µ = µ0 frente a H1 : µ ̸= µ0 será
mayor que α = 0.05 y por lo tanto no la rechazamos.
Y al revés, si vamos contrastando H0 : µ = µ0 frente a H1 : µ ̸= µ0
para todos los posibles valores de µ0 y nos quedamos con los valores
de µ0 para los cuales no rechazamos con un nivel de significación α
entonces tenemos un intervalo de confianza con nivel de confianza
1 − α.

7.4 Ejercicios
Ej. 63 — ([1, ejercicio 16.1])Una empresa advierte que un produc-
to químico tiene un 90 % de efectividad en la limpieza y cita como
prueba que en una muestra de diez aplicaciones se observó un pro-
medio de limpieza del 81%. El gobierno dice que esto es publicidad
engañosa porque el 81% no igual al 90%. La compañía dice que el
134 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

valor observado es de 81%, pero fácilmente podría ser del 90%. Los
datos observados fueron 92, 60, 77, 92, 100, 90, 91, 82, 75, 50. ¿Quién
está en lo cierto y por qué?

Ej. 64 — ([1, ejercicio 16.2])Fermentación. El gas producido a par-

tir de una fermentación biológica es puesto a la venta con la garantía
de que el contenido medio en metano es de 72%. Una muestra aleato-
ria de n = 7 muestras de gas dió un contenido de metano (en %) de
64, 65, 75, 67, 65, 74 y 75.
[Link] a cabo el contraste de hipótesis con niveles de significación
de 0.10, 0.05 y 0.01 para determinar si es justo afirmar que el
contenido medio es de 72%.
[Link] los intervalos de confianza al 90%, 95% y 99% para
evaluar la afirmación que el promedio es de un 72%.
3.¿Cuál es el error máximo observado en la estimación de la media
con un nivel de confianza del 95%?
[Link] que el productor se compromete a que contiene al
menos un 72 por cierto? Formula el contraste y realízalo.

Ej. 65 — ([1, ejercicio 16.3])Un protocolo de control de calidad en

un laboratorio introduce soluciones estándar que contienen 50 mg /
L de carbono orgánico total de un modo aleatorio en el trabajo del
laboratorio. Los analistas del laboratorio desconocen estos estándares
introducidos en su trabajo. Estima el sesgo y la precisión de las 16
observaciones más recientes de tales estándares. ¿Está bajo control el
procedimiento de medida? Los valores observados fueron: 50.3 51.2
50.5 50.2 49.9 50.2 50.3 50.5 49.3 50.0 50.4 50.1 51.0 49.8 50.7 50.6

Ej. 66 — ([1, ejercicio 16.4])Permiso de Descarga. El permiso de

descarga para una industria que requiere la DQO (demanda química
de oxígeno) media mensual sea menor de 50 mg / L. La industria
quiere que esto se interprete como que el valor 50 mg / L cae dentro
del intervalo de confianza de la media que a su vez se calcula a partir
de 20 observaciones por mes. Si los siguientes 20 valores observados
son los siguientes: ¿Está cumpliendo la industria la norma?
57 60 49 50 51 60 49 53 49 56 64 60 49 52 69 40 44 38 53 66

Ej. 67 — ()Un artículo publicado en Transactions of the American

Fisheries Society recogía los resultados de un estudio para investi-
gar las concentraciones de mercurio en róbalos de boca grande (con
perdón). Se tomaron muestras de 53 lagos en Florida y se midió la
concentración de mercurio en el tejido muscular (ppm). Los valores ob-
servados fueron: 1.230, 1.330, 0.040, 0.044, 1.200, 0.270, 0.490, 0.190,
0.830, 0.810, 0.710, 0.500, 0.490, 1.160, 0.050, 0.150, 0.190, 0.770,
1.080, 0.980, 0.630, 0.560, 0.410, 0.730, 0.590, 0.340, 0.340, 0.840,
0.500, 0.340, 0.280, 0.340, 0.750, 0.870, 0.560, 0.170, 0.180, 0.190,
0.040, 0.490, 1.100, 0.160, 0.210, 0.860, 0.520, 0.650, 0.270, 0.940,
0.400, 0.430, 0.250, 0.270. Se pide:
[Link] un intervalo de confianza para la media con nivel de
confianza 0.90.
[Link] la hipótesis nula de una concentración media menor
o igual a 0.7.
7.5. CONTRASTE DE NORMALIDAD 135

[Link] la hipótesis nula de una concentración media igual a

0.7.

Ej. 68 — ()Se les envió a 14 laboratorios soluciones estandarizadas

que fueron preparadas de modo que contenían cada una de ellas 1.2
mg/L de oxígeno disuelto (DO). Se les pidió que midieran la concen-
tración de oxígeno disuelto utilizando el método Winkler. Las con-
centraciones obtenidas por cada uno de los laboratorios fueron las
siguientes: 1.2 1.4 1.4 1.3 1.2 1.35 1.4 2.0 1.95 1.1 1.75 1.05 1.05 1.4
Se pide:
[Link] un intervalo de confianza con nivel de confianza 0.90
para la concentración media de oxígeno disuelto.
[Link] en cuenta el intervalo que hemos construido en el apar-
tado anterior se pide responder la siguiente pregunta: ¿miden los
laboratorios en promedio una concentración de 1.2 mg/L o, por
el contrario hay un sesgo?
[Link] la hipótesis de que la concentración media es igual a
1.2 mg/L con un nivel de significación α = 0.1.

7.5 Contraste de normalidad

Hemos vistos que, con mucha frecuencia, los procedimientos esta-
dísticos que hemos utilizado (y mucho de lo que sigue) asumen que
los datos que estamos manejando pueden considerarse una muestra de
una distribución normal. ¿Y esto es así sin más? ¿Hemos de asumirlo
y confiar en nuestra suerte? No. Podemos contrastar esta hipótesis. La
hipótesis de que los datos que estamos usando siguen una distribución
normal es una hipótesis a contrastar. Y estamos en condiciones de po-
der hacerlo. El contraste lo podemos formular de un modo informal
como:

H0 : Tenemos una muestra de una distribución normal.

H1 : No tenemos una muestra de una distribución normal.

Quizás una formulación más formalista del contraste puede ser la si-
guiente donde X es el valor aleatorio que estamos observando n veces.

H0 : X ∼ N (µ, σ 2 ) con −∞ < µ < +∞ y σ 2 > 0.

H1 : X no sigue una distribución normal.

Consideremos unos datos y veamos cómo evaluar si han sido gene-

rados según una distribución normal. Realmente vamos a considerar
dos conjuntos de datos. Uno de ellos (que denotamos por x) sí que
sigue una distribución normal mientras que la segunda muestra (que
denotamos por y) no sigue una distribución normal. Vamos a estudiar
la normalidad de estas dos muestras y recordemos que nos ha de salir
siempre una valoración afirmativa para x y negativa para y.

7.5.1 Gráficos para evaluar la normalidad

Parece que lo primero es ver gráficamente cómo son estos datos.
En esta sección vemos el uso del dibujo q-q o dibujo cuantil-cuantil.
136 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

Nota 7.1 (Estimando la densidad de puntos) Una primera op-

ción (bastante natural pero nada aconsejable) para evaluar la norma-
lidad es utilizar un histograma o un estimador kernel de la densidad.
Nos dan una idea de cómo se distribuyen los puntos. En las figuras
7.3(a) y 7.3(b) mostramos el histograma y el estimador kernel de la
densidad respectivamente para la muestra x. Las figuras 7.3(c) y 7.3(d)
son las análogas para la muestra y. ¿Qué se espera ver en estas dos
figuras si los datos son normales? La mejor respuesta a esta pregunta
es otra pregunta: ¿se parecen las figuras a una densidad normal? Yo
diría que las figuras 7.3(a) y 7.3(b) correspondientes a la muestra sí
que recuerdan la forma de la densidad normal mientras que esto no
es cierto para las figuras 7.3(c) y 7.3(d).

(a) (b)

Figura 7.3: Datos x: histograma (a) y estimador kernel de la densidad de x (b). Datos y: histograma (c) y estimador
kernel de la densidad de x (d).

No es muy fácil evaluar hasta qué punto es normal la muestra

con aproximaciones de la densidad normal que es lo que son el his-
tograma y el estimador kernel de la densidad. De hecho, este tipo de
representaciones no son nada aconsejables para este propósito.
Hay una representación gráfica muy popular para este problema
concreto: el dibujo q-q o dibujo cuantil-cuantil. ¿Qué se pretende
evaluar? Si los datos pueden haber sido generados según un modelo
normal con la media y varianza que sean. Si X es la variable que
estamos observando (n veces), pretendemos evaluar hasta qué punto
7.5. CONTRASTE DE NORMALIDAD 137

es cierto que
X ∼ N (µ, σ 2 ), (7.9)
2
para algún µ y algún σ . Supongamos que es cierta la afirmación, supo-
nemos cierta que la variable sigue una distribución normal. Elegimos
una serie de probabilidades pi .5 . En concreto estos valores tienen la
forma
i−α
pi = , (7.10)
n − 2α + 1
6
donde i = 1, . . . , n. Dos son los valores de α que suelen utilizarse

α = 0.375, (7.11)

o bien
α = 0.5. (7.12)
Una vez hemos elegido estos valores pi hemos de determinar los valo-
res de la abscisa y la ordenada del i-ésimo punto. Si xi con i = 1, . . . , n
son los datos entonces los ordenamos obteniendo los estadísticos or-
denados x(i) que verifican

x(1) ≤ . . . ≤ x(n) .

Notemos que el i-ésimo estadístico ordenado x(i) es aproximadamente

el percentil de orden pi . Ahora consideramos una distribución nor-
mal estándar y consideramos el valor qi tal que si Z es una variable
aleatoria con distribución normal estándar entonces
Z qi
1 x2
pi = P (Z ≤ qi ) = √ e− 2 dx.
−∞ 2π
De hecho, es habitual denotar
Z y
1 x2
Φ(y) = √ e− 2 dx.
−∞ 2π
Entonces
pi = Φ(qi ),
es decir,
qi = Φ−1 (pi ).
En el dibujo q-q representamos los puntos (qi , x(i) ) con i = 1, . . . , n.
La nota 7.2 nos muestra cómo realizar el dibujo de un modo simple
utilizando las funciones qqnorm y qqline.

Nota de R 7.2 (Dibujo q-q con las funciones qnorm y qqline)

La función qqnorm nos proporciona el dibujo q-q fácilmente. En la
figura 7.4(a) tenemos la representación gráfica para la muestra x.

qqnorm(x)

La figura 7.4(c) muestra el mismo dibujo para la segunda muestra.

¿Podemos considerar que los puntos de la figura 7.4(a) están sobre
una línea recta, están alineados? Yo diría que sí. ¿Y los puntos de la
figura 7.4(c)? Creo que coincidiríamos que no.
5 Una explicación detallada de cómo elegir estos valores lo podemos encontrar

en o en [Thode2002]
6 La función pppoints nos indica los valores que realmente se utilizan.
138 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

(a) (b)

Figura 7.4: (a) Dibujo q-q o cuantil-cuantil para datos x. (b) Dibujo q-q o cuantil-cuantil para la muestra x añadiendo
la línea que pasa por el primer y tercer cuartil. Vemos cómo los puntos están muy próximos a la línea. No podemos
rechazar la normalidad de los datos utilizando este dibujo. (c) Dibujo q-q o cuantil-cuantil para datos y. (d) Dibujo
q-q o cuantil-cuantil para la muestra y añadiendo la línea que pasa por el primer y tercer cuartil. Los puntos están
alejados de la línea. Parece razonable rechazar la normalidad de los datos utilizando este gráfico.
7.6. CONSTRASTES DE NORMALIDAD 139

En las dos figuras estamos intentando ver si podemos superponer

una línea recta a los puntos que estamos representando. No viene
mal una ayuda visual que nos coloque una buena línea y sobre ella
veamos si los puntos están cercanos a la línea. Se pueden superponer
muchas líneas. Existe una práctica a la hora de elegir esta línea. Para
trazar una línea necesitamos dos puntos. Se eligen dos buenos puntos
y consideramos la línea que pasa por ellos. El primero es el punto
correspondiente a los percentiles de orden 0.25, esto es, el cuartil
inferior. Determinamos este cuartil inferior en los datos observados
(y es el valor de la ordenada) y en una distribución normal estándar
(y es el valor de la abscisa). El segundo punto es el correspondiente
al cuartil superior o percentil de orden 0.75. Su abscisa y ordenada
son los percentiles de orden 0.75 en la distribución normal estándar
y el observado en los datos. En las figuras 7.4(b) y 7.4(d) tenemos
los dibujos q-q añadiendo la línea que pasa por los cuartiles inferior y
superior. Para los datos x se obtiene con el siguiente código.

qqnorm(x)
qqline(x)

¿Están sobre una línea recta los puntos en cada una de las gráficas?
Podemos ver que para la figura 7.4(b) correspondiente a la muestra x
los datos parecen bien alineados. Esto no parece tan cierto para los
datos de la muestra y que aparecen en la figura 7.4(d). Rechazaría-
mos gráficamente la normalidad de la muestra y mientras que no la
rechazaríamos para la muestra x.
En [Link] se tiene una explica-
ción muy completa de este gráfico.

7.6 Constrastes de normalidad

Un procedimiento gráfico siempre ayuda a descartar situaciones
claras. En la sección anterior hemos visto cómo podíamos rechazar la
normalidad de los datos y mediante un dibujo q-q. Para los datos x no
hemos podido rechazarla. ¿Nos quedamos con esto? ¿Admitimos que
son datos normales y en paz? No. El siguiente paso a dar consiste en
utilizar un contraste de hipótesis. Vamos a comentar rápidamente los
contrastes más utilizados. En este sección utilizamos el paquete de R
nortest [5] para los test ji-cuadrado y Kolmogorov-Smirnov. El test de
Shapiro-Wilk lo aplicamos con la función [Link] de [10, stats].

7.6.1 Test de Shapiro–Wilk

Es otro test para determinar si podemos considerar unos datos
normales Apliquémoslo a nuestros datos. Para la muestra x

[Link](x)

##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98482, p-value = 0.1435
140 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS

No rechazamos con un nivel de significación de 0.05. Para la se-

gunda muestra,

[Link](y)

##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.85437, p-value = 1.486e-09

Vemos como rechazamos claramente.

Una buena explicación de este test se puede encontrar en http:
//[Link]/wiki/Shapiro%E2%80%93Wilk_test

7.6.2 Test ji-cuadrado

Lo podemos hacer con la función [Link] del paquete [5, nor-
test]. La aplicamos a ambos conjuntos de datos. Primero a los datos
x.

library(nortest)
[Link](x)

##
## Pearson chi-square normality test
##
## data: x
## P = 15.776, p-value = 0.2017

Y después a la muestra y.

[Link](y)

##
## Pearson chi-square normality test
##
## data: y
## P = 91.314, p-value = 9.211e-15

Vemos cómo rechazamos la normalidad de la muestra y mientras

que no la rechazamos para la muestra x a un nivel de significación
α = 0.05.

7.6.3 Test de Kolmogorov-Smirnov

Para aplicar este test utilizamos la función [Link] del paquete
[5, nortest]. Empezamos con los datos x.

[Link](x)
##
## Lilliefors (Kolmogorov-Smirnov) normality
## test
##
## data: x
## D = 0.048766, p-value = 0.6069
7.7. EJERCICIOS 141

Y ahora para los datos y.

[Link](y)

##
## Lilliefors (Kolmogorov-Smirnov) normality
## test
##
## data: y
## D = 0.16577, p-value = 1.068e-08

Vemos cómo rechazamos la normalidad de la muestra y mientras

que no la rechazamos para la muestra x a un nivel de significación
α = 0.05.

7.7 Ejercicios
Ej. 69 — () [Link] de Aula Virtual (Recursos) el fichero ejer93datos-
[Link]. En este fichero encontraremos a su vez los ficheros
[Link], . . ., [Link].
[Link] los datos de cada uno de los ficheros utilizando la función
[Link].
[Link] cada uno de los ficheros se pide realizar un dibujo q-q y
valorar la hipótesis de normalidad de un modo gráfico.
[Link] cada fichero, se pide contrastar, utilizando los tests de
Shapiro-Wilk, ji-cuadrado y Kolmogorov-Smirnov, la hipótesis
de normalidad.
142 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
Capítulo 8

Comparación de dos
poblaciones normales

8.1 Introducción
Distintos problemas relativos a comparar dos poblaciones se tratan
en este tema. Empezamos abordando el problema de la comparación
mediante herramientas puramente descriptivas de las dos muestras de
que disponemos, una por población en estudio. Seguimos con la com-
paración de dos poblaciones normales, en particular, la comparación
de sus medias y varianzas. Continuamos con la comparación mediante
el test de Kolmogorov-Smirnov para dos muestras. Terminamos con
un test de Montecarlo para comparar las medias de dos poblaciones.

8.2 Comparación descriptiva de las mues-

tras
Pretendemos comparar dos poblaciones. De cada una de ellas dis-
ponemos de una muestra. Hablamos de dos muestras independien-
tes porque proceden de poblaciones distintas.
Por ejemplo, podemos tener una muestra de concentraciones de
un cierto elemento químico en una zona y otra muestra en otra zona
y pretendemos compararlas.
Para ilustrar tomamos muestras concretas. Tenemos dos muestras
x e y, una por población. Lo primero es la comparación descriptiva de
estas muestras.
La primera muestra es

## [1] 25.4 23.1 22.2 22.0 30.2 23.5 26.7 21.4 21.6
## [10] 25.6 22.6 23.6 21.4 20.2 25.8 24.4 22.1 24.3
## [19] 28.2 21.5 23.1 22.0 24.2 23.5 22.4 23.8 23.6
## [28] 22.0 24.3 21.4 22.7 21.8 26.2 24.7 26.9 25.7
## [37] 22.1 17.9 26.2 24.9 29.4 20.4 22.4 25.0 23.3

mientras que la segunda muestra es

round(y,1)

## [1] 27.8 28.1 26.9 29.0 28.9 24.9 28.8 28.4 25.4

143
144CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

## [10] 25.4 32.9 30.5 21.3 31.6 31.1 28.4 30.3 31.8
## [19] 26.4 31.0 33.1 31.8 22.1 34.8 36.4 26.2 28.2
## [28] 27.1 28.0 25.9 33.4 24.4 32.4 31.1 27.7 26.9
## [37] 28.1 27.5 27.6 30.3 27.4 32.1 32.7 33.2 29.8
## [46] 25.6 33.4 30.1 35.5 28.1 39.9 33.6 27.9 29.8

¿Qué significa comparar las dos muestras? Supongamos que son

concentraciones de un cierto elemento en dos zonas distintas. Desde
un punto de vista estadístico, son realizaciones de variables aleato-
rias. Si repetimos el muestreo obtendremos valores distintos en cada
una de las dos zonas observadas. Por tanto, la comparación no puede
ser comparar los valores numéricos uno a uno. Tampoco puede ser
comparar sin más algún resumen de los datos como la media y la va-
rianza muestrales. En nuestro caso, los valores observados son para la
primera muestra

mean(x)

## [1] 23.68047

sd(x)

## [1] 2.398929

y para la segunda

mean(y)

## [1] 29.4697

sd(y)

## [1] 3.538283

Casi tiene un mayor interés la comparación gráfica de ambas mues-

tras. En la figura 8.1 tenemos el histograma y el estimador kernel de la
densidad de las muestras x e y. ¿Podemos considerar que ambas mues-
tras han sido obtenidas de una misma población? O, por el contrario:
¿proceden de distintas poblaciones?
Una primera cuestión es que pretendemos comparar muestras obte-
nidas de posiblemente dos poblaciones distintas. No parece una buena
opción utilizar figuras distintas (bien histogramas bien estimadores
kernel). Ambos dibujos se configuran para su propia muestra. Por
ejemplo, el número de clases de cada histograma depende del número
de datos y por lo tanto es distinta. La anchura de banda de los estima-
dores kernel también son distintos. En resumen, si queremos compa-
rar lo lógico es representar conjuntamente ambas muestras. ¿Cómo?
Utilizar histogramas conjuntos no es especialmente útil o de inter-
pretación fácil. Es preferible utilizar colocar en una misma gráfica los
dos estimadores kernel. Un detalle, el nivel de suavizado debe de ser
el mismo para los dos estimadores, o dicho de otro modo, la anchura
de banda ha de ser la misma. En la figura 8.2 se muestra una repre-
sentación conjunta de ambos estimadores kernel de la densidad. Los
datos muestran una forma simétrica y vemos que la muestra y toma
valores mayores que la muestra x. Sin embargo, es una pura interpre-
tación gráfica. Hemos de estimar las diferencias entre las muestras y
8.2. COMPARACIÓN DESCRIPTIVA DE LAS MUESTRAS 145

(a) (b)

Figura 8.1: Datos x: histograma (a) y estimador kernel de la densidad de x (b). Datos y: histograma (c) y estimador
kernel de la densidad de x (d).
146CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

[Link](x = x, bw = h) contrastar si ambas muestras proceden de distintas poblaciones con

contrastes de hipótesis formales. Es lo que vamos a hacer.
Cuando comparamos dos poblaciones hay que hacerse varias pre-
0.15

guntas y en función de las respuestas que obtengamos planteamos la

0.10

comparación. ¿Son los datos normales? Es la primera pregunta que

Density

debemos responder: ¿Podemos considerar que los datos proceden de

0.05

dos poblaciones normales? De otro modo: ¿la primera muestra procede

2
de una población normal con media y varianza µX y σX desconocidos
0.00

15 20 25 30 35 40
y la segunda muestra procede de una población normal con media y
N = 45 Bandwidth = 1.117 varianza µY y σY2 desconocidos? Obviamente esto supone pasar test
de normalidad a nuestros datos. Cada una de las dos muestras ha de
Figura 8.2: Estimadores kernel de pasar el test de normalidad. Supongamos que la respuesta es afirma-
la densidad de x (trazo continuo) tiva. El problema de comparar las poblaciones se simplifica. ¿Cómo es
e y (trazo discontinuo). Los datos
de la muestra y tienden a tomar
la densidad de una normal? Si la variable aleatoria X ∼ N (µX , σY2 )
valores mayores que los de x. entonces su función de densidad es
2
(x−µX )
1 − 21
f (x) = √ e σ2
X
2πσX
La de la variable Y con distribución Y ∼ N (µY , σY2 ) tiene la misma
expresión en donde cambiamos µx por µY y σX por σY . En resumen
si las medias son la misma, µX = µY y las varianzas son iguales
2
σX = σY2 entonces las densidades son la misma. Tenemos la misma
población normal. En resumen, si asumimos que las dos poblaciones
son normales entonces comparar las poblaciones se reduce a comparar
las medias y las varianzas. Además cuando no sean iguales podremos
saber a qué se debe. Las situaciones en que nos podemos encontrar
son las siguientes:
1. La misma media y varianza.
2. Distinta media y la misma varianza. En la figura ?? mostramos
dos densidades normales verificándolo.
3. La misma media y distinta varianza. En la figura ?? vemos las
funciones de densidad.
4. Distinta media y varianza. En la figura ?? tenemos un ejemplo
de densidades normales verificando esto.
En la situación 1 de la enumeración anterior no tenemos dos pobla-
ciones. Tenemos una sola población. Sin embargo, en los casos 2, 3 y
4 tenemos dos poblaciones distintas bien porque la media, la varianza
o ambas son distintas. Podemos evaluar (contrastar) si la diferencia
entre las poblaciones se da en la variabilidad (en las varianzas) en las
medias o en ambas cosas. Tenemos una visión clara de las diferencias
entre las poblaciones.
En la sección § 8.4.2 planteamos el correspondiente contraste de
hipótesis en donde comparamos las varianzas de dos poblaciones nor-
males. Obviamente si rechazamos la hipótesis de igualdad de las va-
rianzas tenemos dos poblaciones distintas ya que sus varianzas lo son.
Lo que no sabemos es sus medias son o no iguales. Esto va después. Si
no hemos rechazado que las varianzas sean iguales entonces compara-
mos las medias asumiendo una misma varianza en las dos poblaciones,
es decir, asumimos que la primera muestra aleatoria es de una pobla-
ción normal con media µX y varianza σ 2 mientras que la segunda
muestra es de una normal con media µY y varianza σ 2 . Finalmente,
8.3. COMPARANDO LAS MEDIAS DE DOS POBLACIONES NORMALES147

también podemos realizar el contraste de hipótesis para comparar las

medias cuando las varianzas son distintas.

(a) (b) (c)

Figura 8.3: Densidades normales: (a) distinta media y la misma varianza; (b) misma media y distinta varianza; (c)
distintas medias y varianzas.

8.3 Comparando las medias de dos pobla-

ciones normales
Asumimos, en esta sección, que las muestras son de poblaciones
normales. Desde el punto de vista del usuario el interés suele estar en
comparar medias independientemente de si las varianzas son iguales o
no. Esto es una visión algo miope porque la diferencia de la varianza
también indica que tenemos poblaciones distintas.
Tenemos una muestra X1 , . . . , Xn de una variable X ∼ N (µX , σX2
)
y otra muestra Y1 , . . . , Ym de Y ∼ N (µY , σY ).
2

8.3.1 Estimación de la diferencia de medias

Nos interesa estudiar si µX y µY son iguales o no. Esto se puede
formular de varias formas. En primer lugar podemos plantearnos es-
timar la diferencia de los dos valores. El estimador de esta cantidad
es
µX\ − µY = µ̂X − µ̂Y = X̄n − Ȳm .
La expresión anterior significa que el estimador de la diferencia
µX − µY , que denotamos como µX\ − µY , tomamos la diferencia de
los estimadores de µX y µY que son respectivamente X̄n y Ȳm . El
valor a estimar µX − µY es un número desconocido, lo que llamamos
parámetro, que estimamos mediante el estimador puntual X̄n − Ȳm .
Hemos visto antes como construir intervalos de confianza para cada
una de las medias µX y µY . Estos intervalos
√ (asumiendo normalidad)
√
tienen la expresión x̄n ± tn−1,1−α/2 sX / n y ȳm ± tm−1,1−α/2 sX / m.

Nota 8.1 Supongamos que tomamos un nivel de confianza 1 − α =

0.95. Con los datos que tenemos los intervalos son, para la primera
muestra,

[Link](x)$[Link]

## [1] 22.95975 24.40119

## attr(,"[Link]")
## [1] 0.95
148CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

y para la segunda

[Link](y)$[Link]

## [1] 28.50394 30.43547

## attr(,"[Link]")
## [1] 0.95

El primer intervalo contiene a µX con un nivel de confianza 1−α y

el segundo a µY con el mismo nivel de confianza. Pero esto ya lo sabía
y no me resuelve nada. Queremos un intervalo para la diferencia de
medias µX − µY con un nivel de confianza previamente especificado
1 − α. Para ello se utiliza la siguiente cantidad.

(X̄n − Ȳm ) − (µX − µY )

T = (8.1)
SE(X̄n − Ȳm )
donde SE(X̄n − Ȳm ) denota la desviación estándar de la variable X̄n −
Ȳm . Esta cantidad no tiene una expresión única. De hecho, depende
de si las varianzas son iguales o distintas. Además el comportamiento
aleatorio de T definido en la ecuación 8.1 también depende de si son
la misma varianza o son distintas. En cualquier caso T va a tener
una distribución de probabilidad que es una t de Student donde serán
distintos los grados de libertad. Si de momento denotamos como ν
estos grados (tomará dos valores posibles) entonces el intervalo de
confianza para µX − µY con un nivel de confianza 1 − α tendrá la
expresión general

X̄n − Ȳm ± tν,1−α/2 × SE(X̄n − Ȳm ).

Como vemos no es muy distinto al caso de una sola muestra en que

estimamos una sola media.

Nota 8.2 En nuestro caso, y antes de ver las expresiones, podemos

obtener el intervalo de confianza asumiendo varianzas iguales con

[Link](x,y,[Link]=TRUE)$[Link]

## [1] -7.020785 -4.557682

## attr(,"[Link]")
## [1] 0.95

y asumiendo que son distintas (que es la opción por defecto) con

[Link](x,y,[Link]=FALSE)$[Link]

## [1] -6.980200 -4.598267

## attr(,"[Link]")
## [1] 0.95

Como vemos son bastante parecidos los dos intervalos. Posiblemen-

te no deben de ser muy distintas las varianzas de las dos poblaciones.

Si asumimos que las dos varianzas son iguales, esto es, asumimos
2
la hipótesis de que σX = σY2 , denotaremos por σ 2 el valor común:
8.3. COMPARANDO LAS MEDIAS DE DOS POBLACIONES NORMALES149

σ 2 = σX
2
= σY2 . El valor común σ 2 de la varianza se puede estimar
con
(n − 1)SX
2
+ (m − 1)SY2
Sp2 = .
n+m−2
q
De hecho, lo que tenemos es que SE(X̄n − Ȳm ) = Sp n1 + m 1
y

X̄ − Ȳ − (µX − µY )
T = q ∼ tn+m−2 , (8.2)
Sp n1 + m 1

tiene una distribución t de Student con n + m − 2 grados de libertad.

El intervalo de confianza lo podemos construir utilizando el resul-
tado dado en 8.2 y vendría dado por
Sp
X̄n − Ȳm ± tn+m−2,1−α/2 .
n+m−2
Nota 8.3 Este intervalo viene dado, para un nivel de 1 − α = 0.95
por

[Link](x,y,[Link]=TRUE,[Link]=0.95)$[Link]

## [1] -7.020785 -4.557682

## attr(,"[Link]")
## [1] 0.95

y, para un nivel de 1 − α = 0.99 por

[Link](x,y,[Link]=TRUE,[Link]=0.99)$[Link]

## [1] -7.419618 -4.158849

## attr(,"[Link]")
## [1] 0.99

Como vemos un mayor nivel de confianza supone un intervalo

más grande. Tenemos más confianza en que el valor verdadero de
µX − µY esté en el intervalo pero el intervalo al ser mayor nos estima
la diferencia de medias con una precisión menor.

Y ahora consideremos el caso con varianzas posiblemente distintas,

2
esto es, suponemos que σX ̸= σY2 . No tiene ahora sentido estimar una
varianza común que no existe. Estimamos cada una de ellas con su
2 2
estimador natural: σX con SX y σY2 con SY2 . El error estándar
q de
S2 Sy2
X̄n − Ȳm , SE(X̄n − Ȳm ), viene dado por SE(X̄n − Ȳm ) = n +
X
m
y la expresión que adopta 8.1 y su distribución aproximada es

X̄n − Ȳm − (µX − µY )

T = q ∼ tν0 (8.3)
2
SX Sy2
n + m

con
2
SX Sy2
n + m
ν0 = 2 /n)2
(SX 2 /m)2
(SY
.
n−1 + m−1

Es decir, que T se distribuye aproximadamente como una distri-

bución t de Student ν0 grados de libertad donde ν0 no tiene porqué
150CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

ser un número entero. El intervalo de confianza con nivel de confianza

1 − α viene dado por
r
2
SX Sy2
X̄n − Ȳm ± tν0 ,1−α/2 + .
n m
Nota 8.4 Con los datos que estamos analizando los intervalos para
la diferencia de medias con niveles de confianza 0.95 y 0.99 son

[Link](x,y,[Link]=FALSE,[Link]=0.95)$[Link]

## [1] -6.980200 -4.598267

## attr(,"[Link]")
## [1] 0.95

[Link](x,y,[Link]=FALSE,[Link]=0.99)$[Link]

## [1] -7.366343 -4.212124

## attr(,"[Link]")
## [1] 0.99

8.3.2 Contraste de hipótesis

Otra manera de comparar las medias de dos poblaciones es con-
trastar si sus medias son iguales o bien si alguna de ellas es mayor
que la otra.
Vamos a considerar el contraste de igualdad de medias frente a la
desigualdad lo que también se llama contraste bilateral, bidireccional
o de dos colas.

H0 : µX = µY ,
H1 : µX ̸= µY .

La región crítica, es decir, los valores para los cuales rechazamos

la hipótesis nula es:
|T0 | > tν,1−α/2
siendo
X̄ − Ȳ
T0 = q , (8.4)
Sp n1 + 1
m

y ν = n + m − 2 si las varianzas se asumen iguales. Para varianzas

desiguales:
X̄n − Ȳm
T0 = q 2 (8.5)
SX Sy2
n + m
y ν = ν0 .
El p-valor viene dado por

p = P (T0 ≥ |t0 |)

siendo t0 el valor observado de T0 en cada caso.

8.3. COMPARANDO LAS MEDIAS DE DOS POBLACIONES NORMALES151

Nota 8.5 (Test de la t para comparar medias) Supongamos que

el nivel de significación elegido es α = 0.01. Vamos a contrastar la
igualdad de medias en los dos casos. Con varianzas iguales tendremos:

[Link](x,y,[Link]=TRUE)

##
## Two Sample t-test
##
## data: x and y
## t = -9.3297, df = 97, p-value = 3.759e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.020785 -4.557682
## sample estimates:
## mean of x mean of y
## 23.68047 29.46970

Vemos que el p-valor 0 es muy pequeño (menor que α) y por ello

rechazamos la igualdad de las medias. ¿Qué pasa si no asumimos la
igualdad de las varianzas? ¿Cambia el resultado del test? Lo hacemos.

[Link](x,y,[Link]=FALSE)

##
## Welch Two Sample t-test
##
## data: x and y
## t = -9.6524, df = 93.374, p-value =
## 1.072e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -6.980200 -4.598267
## sample estimates:
## mean of x mean of y
## 23.68047 29.46970

El p-valor 0 es muy pequeño por lo que rechazamos la hipótesis

nula.

8.3.3 Los contrastes unilaterales o direccionales

Los otros dos contrastes serían los correspondientes unilaterales, o
direccionales o de una cola.

H0 : µX ≤ µY ,
H1 : µX > µ Y .

H0 : µX ≥ µY ,
H1 : µX < µ Y .
152CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

Nota 8.6 Vamos a comparar las concentraciones de bario en Ru-

sia y Noruega para los datos del proyecto Kola. En principio vamos
a suponer que las varianzas de dichas concentraciones las podemos
considerar iguales. Primero leemos los datos.

load("../data/[Link]")
attach(chorizon)

Los intervalos de confianza para la diferencia de medias y el con-

traste de hipótesis para la igualdad de las medias frente a la alternativa
de medias distintas asumiendo que las varianzas son la misma lo po-
demos obtener con

[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"],[Link]=TRUE)

##
## Two Sample t-test
##
## data: Ba[COUN == "RUS"] and Ba[COUN == "NOR"]
## t = 2.618, df = 416, p-value = 0.009166
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 5.865386 41.212405
## sample estimates:
## mean of x mean of y
## 69.18655 45.64766

Estimamos la diferencia de medias como 23.539 y el intervalo de

confianza con nivel 0.95 es [5.865,41.212]. Además el p-valor obser-
vado es 0.0091663 menor que 0.01 por lo que rechazamos la hipótesis
nula de igualdad de medias.
Vamos a repetir el estudio sin asumir que la varianza es la misma
en las dos poblaciones.

[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"],[Link]=TRUE)

El estimador puntual de la diferencia de medias no cambia, 23.539.

Sin embargo, el intervalo de confianza con nivel 0.95 sí que cambia.
Ahora es [10.459,36.619]. Además el p-valor observado es 4.5 × 10−4
sigue siendo menor que 0.01 por lo que rechazamos la hipótesis nula
de igualdad de medias.
La pregunta obvia es: ¿qué opción elegir? Desde el punto de vista
aplicado lo lógico es asumir varianzas desiguales (que por otra parte
8.4. INFERENCIA SOBRE LAS VARIANZAS DE DOS POBLACIONES NORMALES153

suele ser el caso). Por ello la opción por defecto de [Link] es precisa-
mente asumir varianzas distintas. Además cuando las varianzas son
realmente iguales o casi iguales los resultados que se obtienen asumien-
do que las varianzas son la misma o sin asumirlo son prácticamente
las mismas.

8.3.4 Ejercicios
Ej. 70 — ()Los biosólidos de una planta de tratamiento de aguas
residuales industriales se aplicaron a 10 parcelas que fueron selecciona-
dos aleatoriamente de un total de 20 parcelas de ensayo de las tierras
agrícolas. El maíz se cultiva en el grupo tratado (T) y no tratados
(UT), las parcelas, con los siguientes rendimientos (fanegas / acre).
Grupo T
126 122 90 135 95 180 68 99 122 113

Grupo no tratado NT
144 122 135 122 77 149 122 117 131 149

Se pide:
[Link] el intervalo de confianza con un nivel de confianza del
95 % para la diferencia de las medias.
[Link] diferencias significativas entre las medias.

Ej. 71 — ()Las mediciones de plomo. A continuación damos las

concentraciones medidas de plomo en soluciones que son idénticas,
salvo por la cantidad de plomo que se ha añadido. Catorce muestras
contenían 1.25mg / L y 14 contenían 2.5 mg / L. ¿Es consistente la
diferencia de los medias muestrales observadas con la diferencia (real)
de 1.25 mg / l?
Con 1.25 mg/L
1.1 2.0 1.3 1.0 1.1 0.8 0.8 0.9 0.8 1.6 1.1 1.2 1.3 1.2
Con 2.5 mg/L
2.8 3.5 2.3 2.7 2.3 3.1 2.5 2.5 2.5 2.7 2.5 2.5 2.6 2.7

8.4 Inferencia sobre las varianzas de dos

poblaciones normales
Hasta ahora no nos hemos preocupado de las varianzas de las po-
blaciones normales con las que estamos trabajando. Ya es hora de
hacerlo. Además es enormemente importante estimar y contrastar co-
sas sobre las varianzas. Tenemos dos muestras correspondientes a dos
poblaciones. Tenemos, como siempre, un doble interés: estimar y con-
trastar.

8.4.1 Estimación del cociente de varianzas

Nota 8.7 Vamos a generar unos datos con distribución normal de
los cuales sabemos sus medias y varianzas.

n = 45
m = 54
x = rnorm(n,mean=23,sd=2.45)
154CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

y = rnorm(m,mean=30,sd=3.45)

Si llamamos a la función [Link] tenemos lo siguiente:

[Link](x,y)

##
## F test to compare two variances
##
## data: x and y
## F = 0.44134, num df = 44, denom df = 53,
## p-value = 0.006117
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2509788 0.7880662
## sample estimates:
## ratio of variances
## 0.4413361

Si miramos la última línea vemos que no nos está estimando cada

varianza separadamente. En lugar de ello, como nos interesa compa-
2
rarlas, lo que estimamos es el cociente σX /σY2 .

Las varianzas de las dos poblaciones se comparan utilizando el

2
cociente σX /σY2 . Podemos estimarlo o bien contrastar hipótesis sobre
el cociente. El estimador puntual de esta cantidad es
2
SX
(8.6)
SY2

que con nuestros datos vale 0.441 indicando que la primera varianza es
menor que la segunda. Bien, nos hemos centrado en la estimación de
2
σX /σY2 . Siempre que estimamos damos una estimación puntual (que
acabamos de ver en 8.6) y un intervalo de confianza. Para obtenerlo
utilizamos la cantidad pivotal siguiente:
2 2
SX /σX
2 2 ∼ F (n − 1, m − 1) (8.7)
SY /σY
1.4

que tiene una distribución F (de Fisher) con n − 1 y m − 1 grados de

df(x0, df1 = n − 1, df2 = m − 1)

1.2

libertad.
1.0

Los tamaños muestrales de nuestros datos son n=45 y m=54. La

0.8
0.6

S 2 /σ 2
función de densidad de SX2 /σX 2 aparece en la figura 8.4.
0.4

Y Y
Denotemos por Fp (n − 1, m − 1) el percentil de orden p de la
0.2
0.0

distribución F (n−1, m−1), es decir, el punto que a su izquierda tiene

0.0 0.5 1.0 1.5 2.0 2.5

x0
un área p. Por ejemplo, si tomamos los valores de n y m anteriores y
p = 0.975 entonces el percentil viene dado como
Figura 8.4
qf(0.975,df1=n-1,df2=m-1)

## [1] 1.75846
1.4
df(x0, df1 = n − 1, df2 = m − 1)

1.2

La figura 8.5 muestra el área p y el punto en el eje de abscisas más

1.0

a la derecha de la zona rayada es el correspondiente percentil.

0.8
0.6
0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0 2.5

x0
8.4. INFERENCIA SOBRE LAS VARIANZAS DE DOS POBLACIONES NORMALES155

Teniendo en cuenta el resultado 8.7 el intervalo de confianza para

2 2
SX /σX
es el siguiente:
2 /σ 2
SY Y

SY2 1 SY2 1
,
SX F1−α/2 (n − 1, m − 1) SX Fα/2 (n − 1, m − 1)
2 2

8.4.2 Contraste de hipótesis para el cociente de va-

rianzas
Nuestro interés fundamental es valorar si podemos considerar que
las varianzas son iguales o que son distintas. Tenemos un problema de
contraste de hipótesis. De hecho, estamos interesados en el siguiente
contraste:
2
H0 : σX = σY2 ,
H1 : 2
σX ̸= σY2 .

que lo reformulamos como

2
σX
H0 : 2
σY
= 1,
2
σX
H1 : 2
σY
̸= 1.
2
2 σX
Bajo la hipótesis de que H0 : σX = σY2 (o H0 : 2
σY
= 1) tenemos
que
S2
F = X ∼ F (n − 1, m − 1) (8.8)
SY2
y podemos contrastar que las varianzas sean la misma rechazando la
hipótesis nula de igualdad con un nivel de significación α si

F < Fα/2 (n − 1, m − 1) o F > F1−α/2 (n − 1, m − 1).

Nota 8.8 Vamos a plantearnos si podemos considerar que las con-

centraciones de bario en Rusia y Noruega tienen varianzas similares
o no. En primer lugar podemos observar las varianzas muestrales de
ambas muestras

var(Ba[COUN=="RUS"])

## [1] 9730.406

var(Ba[COUN=="NOR"])

## [1] 1372.308

Vemos que la variabilidad en Rusia es mayor que la que tenemos

en Noruega.

[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"])

##
## F test to compare two variances
##
## data: Ba[COUN == "RUS"] and Ba[COUN == "NOR"]
## F = 7.0905, num df = 289, denom df = 127,
156CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

## p-value < 2.2e-16

## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 5.227669 9.452443
## sample estimates:
## ratio of variances
## 7.090539

El cociente lo estimamos como 7.091. El intervalo de confianza

para el cociente de las varianzas es [5.228,9.452]. Como vemos el valor
uno no está en el intervalo de confianza y no podemos considerar que
la variabilidad de las medidas sean semejantes.
Por consiguiente lo correcto es elegir la opción por defecto de va-
rianzas desiguales que nos da el siguiente código.

[Link](Ba[COUN=="NOR"],Ba[COUN=="FIN"])

##
## F test to compare two variances
##
## data: Ba[COUN == "NOR"] and Ba[COUN == "FIN"]
## F = 0.84466, num df = 127, denom df = 186,
## p-value = 0.3082
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.6161697 1.1692619
## sample estimates:
## ratio of variances
## 0.8446567

8.4.3 Ejercicios
Ej. 72 — ()Estamos analizando dos catalizadores con objeto de de-
terminar como afectan a la producción media de un proceso químico.
Teniendo en cuenta que el segundo catalizador es más barato, éste
sería el elegido suponiendo que la producción media no se modifica
manifiestamente. Se tomaron dos muestras, una por catalizador, y se
obtuvieron los resultados siguientes: en la muestra 1;
91.50, 94.18, 92.18, 95.39, 91.79, 89.07, 94.72, 89.21
y en la segunda muestra,
89.19, 90.95, 90.46, 93.21, 97.19, 97.04, 91.07, 92.75.
Se pide:
1.¿Podemos considerar que la varianza de las muestras es la mis-
ma?
[Link] las medias teniendo en cuenta la respuesta que hemos
dado en el apartado anterior.

Ej. 73 — ()Los biosólidos de una planta de tratamiento de aguas

residuales industriales se aplicaron a 10 parcelas seleccionadas aleato-
riamente de un total de 20 parcelas de ensayo de las tierra agrícola.
El maíz se cultiva en las parcelas tratadas (T) y no tratadas (UT) con
los siguientes rendimientos (fanegas / acre).
8.5. COMPARACIÓN DE MEDIAS CON MUESTRAS APAREADAS157

UT 126 122 90 135 95 180 68 99 122 113

T 144 122 135 122 77 149 122 117 131 149
Se pide calcular el intervalo de confianza al 90 % para la diferencia de
las producciones medias.

Ej. 74 — ()La presencia de arsénico en el agua potable de la red

pública es un riesgo para la salud. Se han tomado medidas de la
concentración de arsénico en 20 poblaciones de la región de Murcia y
en 20 poblaciones de la Comunidad Valenciana. Los valores observados
son los siguientes:
x
## [1] 15.74277 12.69087 12.47374 13.69059 19.64370
## [6] 15.74477 17.05914 20.33227 16.66264 12.27804
## [11] 10.71064 10.38664 13.29674 16.67969 16.34635
## [16] 13.60842 11.42863 16.00895 18.03758 14.98914
y
## [1] 20.72259 28.26208 23.69435 24.26077 25.28473
## [6] 21.94739 23.61220 26.19330 27.19443 21.22316
## [11] 20.34050 23.81084 19.62676 13.24174 19.31303
## [16] 20.31868 29.40028 27.35658 27.46498 19.36536
## [21] 19.53261 27.17933 24.19137
Se pide:
[Link] los datos en un fichero texto (por ejemplo, con Calc
de [Link]). Hay que introducir dos variables. En una de
ellas hemos de poner todas las concentraciones indicadas corres-
pondientes a las dos comunidades autónomas. En la otra indica-
mos con un código numérico si estamos en una u otra comunidad.
Llamad a este fichero [Link].
2.¿Podemos considerar que la varianza de las muestras es la mis-
ma?
[Link] las medias teniendo en cuenta la respuesta que hemos
dado en el apartado anterior.

8.5 Comparación de medias con muestras

apareadas
Volvemos al problema de comparar dos muestras. Ahora ya no ha-
blamos de muestras independientes. No son dos zonas distintas en las
que medimos una concentración y tomamos mediciones en cada una
de ellas. O dos grupos de enfermos distintos de modo que en un gru-
po administramos una medicación y en el otro grupo administramos
la otra. Ahora vamos a suponer que tenemos muestras apareadas o
emparejadas (paired es la expresión inglesa). Por ejemplo, si medimos
la humedad en una localización un día y repetimos la medición otro
día pero en el mismo lugar entonces tenemos dos observaciones apa-
readas. Son el mismo punto y lo que cambia es el momento en que
observamos. Esto lo hacemos en n localizaciones distintas y tenemos:
(xi , yi ) con i = 1, . . . , n. El factor que empareja es lo localización en
que medimos.
Un ejemplo médico habitual es medir algo en un enfermo antes y
después de tomar una medicación. Los datos son apareados pues co-
rresponden a la misma persona. El factor que empareja es la persona.
158CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

Hablando con (un poco) de precisión lo que tenemos son n ob-

servaciones independientes de dos variables aleatorias que denotamos
(Xi , Yi ) con i = 1, . . . , n. Notemos que las dos variables aleatorias Xi
e Yi no son independientes, están relacionadas porque bien correspon-
den a la misma localización o a una misma persona. Siendo µX y µY
las medias de las variables X e Y nos interesa (lo que no es mucha
novedad) conocer la diferencia de medias µX − µY . Como es sabido la
media de la variable diferencia es la diferencia de las medias de cada
variable, esto es, µX−Y = µX − µY . Teniendo en cuenta este resultado
lo que vamos a hacer es olvidarnos de las variables X e Y y trabajar
con la variable D = X − Y y contrastar si la media de la variable D
es nula.

Nota 8.9 Supongamos las siguientes mediciones de humedad en n

localizaciones con una diferencia de un día en la observación.
Los valores de las muestras x e y (mostramos los 10 primeros
solamente por razones de espacio) son:

cbind(x[1:10],y[1:10])

## [,1] [,2]
## [1,] 29.24987 32.80324
## [2,] 34.83893 42.76711
## [3,] 31.33967 25.71614
## [4,] 28.88061 34.32875
## [5,] 33.39721 45.76881
## [6,] 39.75553 38.95778
## [7,] 27.57826 34.95696
## [8,] 24.63107 39.40311
## [9,] 31.39403 40.21755
## [10,] 35.70377 37.72361

Si hacemos lo indicado. Empezamos calculando las diferencias y

vemos los 10 primeros valores.

d = x -y
d[1:10]

## [1] -3.5533695 -7.9281805 5.6235371

## [4] -5.4481376 -12.3715960 0.7977583
## [7] -7.3787000 -14.7720415 -8.8235164
## [10] -2.0198418

Ahora podemos obtener el estimador puntual de la diferencia de

medias, el intervalo de confianza y el contraste de si la diferencia de
medias vale cero utilizando [Link] sobre las diferencias.

[Link](d)

##
## One Sample t-test
##
## data: d
## t = -5.7985, df = 144, p-value = 4.071e-08
## alternative hypothesis: true mean is not equal to 0
8.5. COMPARACIÓN DE MEDIAS CON MUESTRAS APAREADAS159

## 95 percent confidence interval:

## -5.857834 -2.879485
## sample estimates:
## mean of x
## -4.36866

Otra opción en la que no necesitamos calcular previamente las

diferencias es la siguiente:

[Link](x,y,paired=TRUE)

##
## Paired t-test
##
## data: x and y
## t = -5.7985, df = 144, p-value = 4.071e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5.857834 -2.879485
## sample estimates:
## mean of the differences
## -4.36866

Como vemos lo que sale es lo mismo.

Ejemplo 8.1 Se trata de evaluar el efecto de la dieta y el ejercicio en
el nivel de colesterol. Se midió la concentración antes y después de un
programa de ejercicio aeróbico y cambio a una dieta baja en grasas.
Los datos son los siguientes

(x = c(265,240,258,295,251,245,287,314,260,279,283,240,238,225,247))

## [1] 265 240 258 295 251 245 287 314 260 279 283
## [12] 240 238 225 247

(y = c(229,231,227,240,238,241,234,256,247,239,246,218,219,226,233))

## [1] 229 231 227 240 238 241 234 256 247 239 246
## [12] 218 219 226 233

donde x corresponde a los niveles antes e y a los niveles después.

Podemos contrastar la igualdad de medias frente a la desigualdad con

[Link](x,y,paired=T)

##
## Paired t-test
##
## data: x and y
## t = 5.4659, df = 14, p-value = 8.316e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 16.32430 37.40904
## sample estimates:
## mean of the differences
## 26.86667
160CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

Podemos observar que el valor 0 no está en el intervalo de con-

fianza. Por el tipo de dato que tenemos parece más natural contrastar
las hipótesis H0 : µX ≤ µY frente a H1 : µX > µY .

[Link](x,y,paired=T,alternative = "greater")

##
## Paired t-test
##
## data: x and y
## t = 5.4659, df = 14, p-value = 4.158e-05
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 18.20922 Inf
## sample estimates:
## mean of the differences
## 26.86667

Vemos que el p-valor 0 es menor que α = 0.05 y por lo tanto

rechazamos la hipótesis nula. De hecho, también rechazamos con un
nivel de significación α = 0.01.

8.5.1 Ejercicios
Ej. 75 — ([1, problema 17.1])Se ha evaluado la concentración de
antimonio en tres muestras de pescado. Cada muestra fue evaluada
con el método oficial y con un nuevo método. ¿Difieren significativa-
mente los procedimientos?
Muestra 1 2 3
Método nuevo 2.964 3.030 2.994
Método estándar 2.913 3.000 3.024

Ej. 76 — ()Seguimos con los datos de arsénico que hemos analizado

en el ejercicio 75. Tanto en Murcia como en la Comunidad Valenciana
se modificó el procedimiento de depuración de las aguas potables. Se
repitieron las medidas en las mismas poblaciones después de la modi-
ficación indicada. Los nuevos valores observados fueron los siguientes:
x1
## [1] 10.853177 8.215035 5.646542 9.265597
## [5] 8.899058 11.248547 8.763053 9.759357
## [9] 10.298987 9.967818 8.860384 10.320953
## [13] 9.506840 5.807255 6.454714 8.954049
## [17] 5.614183 9.223966 8.054494 7.604399
y1
## [1] 13.458935 6.874752 17.911542 20.855613
## [5] 20.515303 9.720259 16.048671 9.441981
## [9] 19.606788 10.695566 23.083630 9.018458
## [13] 17.904842 22.321348 12.903190 17.702442
## [17] 19.788466 15.761639 14.853309 21.389270
## [21] 21.046636 25.595848 17.791809
Se pide:
[Link] a introducir en el fichero que hemos construido en el pri-
mer apartado del ejercicio 75 (que sugería llamar [Link]
8.5. COMPARACIÓN DE MEDIAS CON MUESTRAS APAREADAS161

aunque casi seguro que nadie me ha hecho caso) una nueva va-
riable. En ella vamos a colocar las nuevas concentraciones de
arsénico.
[Link] el cambio medio que se ha producido en la concentración
de arsénico en Murcia y en la Comunidad Valenciana.
3.¿Ha sido significativo el cambio en cada una de las comunidades
autónomas con un nivel de significación de 0.01.
4.¿Es significativamente distinto el cambio observado en una y otra
comunidad autónoma?

Ej. 77 — ([1, ejercicio 17.2])Medición de nitrito. Los siguientes da-

tos se obtuvieron a partir de mediciones apareadas del nitrito en agua
y en aguas residuales por el método del electrodo directo selectivo de
iones (ISE) y un método colorimétrico. ¿Son los dos métodos consis-
tentes?
ISE 0.32 0.36 0.24 0.11 0.11 0.44 2.79 2.99 3.47
Color 0.36 0.37 0.21 0.09 0.11 0.42 2.77 2.91 3.52
Ej. 78 — ([1, ejercicio 17.3])Pruebas de demanda de oxígeno bio-
químico. Los datos que figuran abajo son comparaciones por pares de
las pruebas de demanda de oxígeno bioquímico hechos utilizando la
botella estándar de 300 ml y con botellas experimentales de 60 ml. Se
pide estimar la diferencia entre los resultados obtenidos con los dos
tamaños de botella. Por estimar la diferencia entendemos tanto el es-
timador puntual de la diferencia media como el intervalo de confianza
(que lo pedimos a un 90 %).
300 mL 7.2 4.5 4.1 4.1 5.6 7.1 7.3 7.7 32 29 22 23 27
60 mL 4.8 4.0 4.7 3.7 6.3 8.0 8.5 4.4 30 28 19 26 28

Ej. 79 — ([1, ejercicio 17.5])Seguimiento de una corriente. Una in-

dustria voluntariamente monitoriza un arroyo para determinar si su
objetivo de elevar el nivel de contaminación en 4 mg / L o menos se
verifica. Las mediciones que siguen para septiembre y abril se realiza-
ron cada cuatro días de trabajo. ¿Se está cumpliendo el objetivo de la
industria?
Septiembre Abril
Rio arriba Rio abajo Rio arriba Rio abajo
7.5 12.5 4.6 15.9
8.2 12.5 8.5 25.9
8.3 12.5 9.8 15.9
8.2 12.2 9.0 13.1
7.6 11.8 5.2 10.2
8.9 11.9 7.3 11.0
7.8 11.8 5.8 9.9
8.3 12.6 10.4 18.1
8.5 12.7 12.1 18.3
8.1 12.3 8.6 14.1
Ej. 80 — ()Un procedimiento importante para certificar la calidad
del trabajo que se hace en un laboratorio es el análisis de muestras
estándar que contienen cantidades conocidas de una cierta substan-
cia. Estas muestras son introducidas en la rutina del laboratorio de
modo que el analista no conoce la identidad de la muestra. A menudo
el analista no conoce que estas muestras introducidas para evaluar
162CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

la calidad del trabajo que se realiza han sido introducidas. En este

ejemplo, se propuso a los analistas que midieran la concentración de
oxígeno disuelto en una misma muestra con dos métodos distintos. Se
enviaron muestras a 14 laboratorios preparadas con una baja concen-
tración de oxígeno disuelto (1.2 mg/L). Cada laboratorio realizó sus
determinaciones utilizando el método de Winkler y el método del elec-
trodo. La cuestión que nos planteamos es si los dos métodos predicen
distintas concentraciones de oxígeno disuelto.
Laboratorio 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Winkler 1.2 1.4 1.4 1.3 1.2 1.3 1.4 2.0 1.9 1.1 1.8 1.0 1.1 1.4
Electrodo 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 1.8
Se pide:
1.¿Podemos considerar que las mediciones realizadas con el método
de Winkler difieren significativamente del valor 1.2? Responded
a esta pregunta utilizando el intervalo de confianza y el contraste
de hipótesis [Link] con un nivel de confianza
de 0.9 y un nivel de significación de 0.1.
2.¿Podemos considerar que las mediciones realizadas con el método
del electrodo difieren significativamente del valor 1.2? Responded
a esta pregunta utilizando el intervalo de confianza y el contraste
de hipótesis correspondiente. Trabajar con un nivel de confianza
de 0.9 y un nivel de significación de 0.1.
3.¿Difieren entre si los dos métodos de medición de la concen-
tración de oxígeno disuelto? La pregunta hemos de responderla
utilizando intervalos de confianza para la diferencia de medias y
el contraste de hipótesis correspondiente. El nivel de confianza a
utilizar es 0.9 y el nivel de significación 0.1.

8.6 Test de Kolmogorov-Smirnov para dos

muestras
En esta sección nos ocupamos del test no paramétrico conocido
como test de Kolmogorov-Smirnov para dos muestras. 1
Hasta ahora hemos comparado poblaciones asumiendo que ambas
poblaciones tienen una distribución normal. Las variables que obser-
[Link](x = x, bw = h) vábamos seguían una distribución normal. ¿Qué ocurre cuando no lo
podemos asumir? ¿Qué ocurre cuando nuestros datos son marcada-
0.08

mente no normales?
En la figura 8.6 tenemos los estimadores kernel de las densidades
0.06

de dos muestras que pretendemos comparar. Vemos claramente que

Density

0.04

las formas de las densidades estimadas no se parecen en nada a los de

0.02

una normal.
Un dibujo q-q para la muestra x aparece en la figura 8.7 y para
0.00

0 10 20 30 40 50 la muestra y en la figura 8.8. Vemos que en ambas figuras los puntos

N = 45 Bandwidth = 2.81
se alejan de la línea. Ninguna de las dos muestras puede considerarse
normal. Finalmente, si aplicamos un test de normalidad a las muestras
Figura 8.6: Estimadores kernel de (en concreto, vamos a utilizar el test de Shapiro-Wilk) obtenemos los
la densidad de x (trazo continuo)
e y (trazo discontinuo). siguientes resultados.
1 Es aconsejable consultar [Link]

93Smirnov_test.
8.6. TEST DE KOLMOGOROV-SMIRNOV PARA DOS MUESTRAS 163

[Link](x)

##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.84428, p-value = 2.617e-05

[Link](y)

##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.85967, p-value = 1.504e-05

Vemos cómo el test de normalidad rechaza claramente que poda-

mos considerarlas muestras normales. No parece muy razonable uti-
lizar un test de comparación de medias basada en la distribución t.
¿Hay otras opciones? Sí que las hay. Además no son malas soluciones.
En esta sección nos ocupamos del test de Kolmogorov-Smirnov para
dos muestras. Es un procedimiento no paramétrico. Un procedimien-
Normal Q−Q Plot
to se dice no paramétrico cuando no asume ningún modelo particular Normal Q−Q Plot

para los datos. No suponemos que son normales o que son binomiales ● ●

50
●

o que son exponenciales, etc. A veces se les llama de distribución libre

40 15
●

Quantiles
●

indicando que no estamos sujetos a un modelo específico. Esto suena

●

Quantiles
●●
●●

10
bien. De hecho es bueno pero también tiene su pago. Asumimos menos

30
● ●
● ●

Sample
●
●● ●
●●● ●●

hipótesis pero también son procedimientos con menos potencia. Les

Sample
●●● ●

5 20
● ●

●●● ●
●●●

cuesta más rechazar la hipótesis nula. ●

●●●
●● ●●●
●●
●●●

10
●●●
●●
●●●●●●
●●●●●● ●●●●●

La hipótesis nula que pretendemos contrastar la podemos formular ● ● ●● ●● ●

● ●●●
●●●●

0 0
●●
●●●●●
● ● ● ●●
−2 −1 0 1 2
como: −2 −1 0 1
Theoretical Quantiles
2

Theoretical Quantiles

H0 : Las muestras han sido extraídas de una misma población.

Figura 8.8: Dibujo q-q de la mues-
Figura
tra 8.7: Dibujo
y. Vemos que losq-qpunto
de la se
mues-
ale-
H1 : Las muestras han sido extraídas de poblaciones distintas. tra
jan x.
deVemos queindicando
la línea los puntoquese ale-
no
jan
hay de la línea indicando
normalidad que no
en los datos.
Para contrastar, como siempre, necesitamos un estadístico del con- hay normalidad en los datos.
traste, un estadístico que compare ambas muestras. El estadístico no
se basa en la comparación de las medias y varianzas muestrales co-
mo en los test anteriores. Denotamos las muestras como x1 , . . . , xn e
y1 , . . . , ym de tamaños respectivos n y m. Consideramos las funcio-
nes de distribución empíricas o muestrales que denotamos Fn para
muestra de las x’s y por Gm para la muestra de las y’s. Es decir:

|{xi : xi ≤ z}|
Fn (z) = .
n
Donde | · | denota el cardinal del conjunto. En resumen, Fn (z) está
contando el número de valores en la muestra x que son menores o
iguales que z. La función Gm se define de un modo análogo con la
segunda muestra. En la figura 8.9 mostramos las dos funciones Fn y
Gm .
El estadístico del test es

D = max |Fn (z) − Gm (z)|, (8.9)

z
164CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES

## Warning in
[Link](x, y, es decir, D nos da la máxima diferencia que observamos entre las
ties, missing(ties)): funciones de distribución muestrales Fn y Gm . En la figura 8.9 repre-
collapsing to unique sentamos con un segmento vertical la máxima diferencia entre ambas
'x' values funciones, esto es, el valor del estadístico D. Por la definición del es-
## Warning in tadístico D es claro que rechazamos para valores grandes de D. Si d
[Link](x, y, es el valor observado entonces el p-valor vendría dado por
ties, missing(ties)): p = P (D ≥ d),
collapsing to unique
'x' values donde en la probabilidad anterior asumimos la hipótesis nula.
Nota 8.10 (Función [Link]) El test de Kolmogorov-Smirnov para
dos muestras lo podemos aplicar con la función [Link] del siguiente
modo:
1.0

2
0.8

[Link](x,y)
Proportion <= x

0.6

##
0.4

## Two-sample Kolmogorov-Smirnov test

0.2

##
0.0

0 10 20 30 40 50 ## data: x and y
n:99 m:0
z ## D = 0.28519, p-value = 0.02968
## alternative hypothesis: two-sided
Figura 8.9: Funciones de distri-
bución empíricas de ambas mues- La salida se autoexplica. Observamos un p-valor de 0.0297. Si
tras. Vemos que la función de dis-
tribución de la segunda muestra
trabajamos con un nivel de significación de α = 0.05 entonces como el
(la muestra y indicada en la gráfi- p-valor es menor que este nivel rechazamos la hipótesis nula. Podemos
ca con el número 2) es mayor que decir que hay diferencias significativas en la distribución de los datos
la función de distribución empíri- a un nivel de significación 0.05.
ca de la primera muestra (muestra
x indicada con 1 en la gráfica). La
longitud de la línea punteada nos 8.6.1 Ejercicios
muestra la máxima diferencia en-
tre ambas funciones de distribu- Ej. 81 — ()En el fichero [Link] tenemos las tem-
ción. Esta longitud es el valor del peraturas mínimas medias en la ciudad de Valencia desde el año 1937
estadístico de
hasta el 2011.
[Link] los datos utilizando la función [Link].
[Link] las temperaturas máximas medias desde 1937 hasta
1950 con las temperaturas máximas medias desde el año 2000
hasta el 2011 utilizando un test de Kolmogorov-Smirnov para
dos muestras.

Ej. 82 — ()En el fichero arsenico_por_compasion (que podemos

leer con la función [Link]) tenemos las concentraciones de arseni-
co en distintas localidades de Murcia y de la Comunidad Valenciana.
Tenemos el valor antes y después de una modificación del sistema
de depuración de las aguas. La variable region indica la comunidad
autónoma (1 para Murcia y 2 para la Comunidad Valenciana). Uti-
lizando el test de Kolmogorov-Smirnov para dos muestras comparar
las concentraciones de arsénico entre comunidades. Haced esto antes
de la modificación. Repetirlo para los datos observados después de la
modificación.

8.7 Ejercicios globales

Ej. 83 — ()En el fichero [Link] tenemos datos
de temperatura en distintas poblaciones. Se pide:
8.7. EJERCICIOS GLOBALES 165

[Link] los datos utilizando el siguiente código (asumimos que el

directorio de trabajo de R es el que tiene el fichero de datos).
library(foreign)
x = [Link]("[Link]",header=TRUE,sep=";")
attach(x)
[Link] fijamos en las temperaturas mínimas observadas en Morella
y en Utiel en el año 1965.
(a)Obtener el estimador puntual de la diferencia entre las tem-
peraturas medias mínimas entre las dos poblaciones.
(b)Obtener un intervalo de confianza al 90 % para la diferencia
entre las temperaturas medias mínimas en las dos poblacio-
nes.
(c)¿Podemos considerar, con un nivel de significación de 0.05
que no hay diferencia entre las temperaturas medias mínimas
en las dos poblaciones?
[Link] al apartado 2 sustituyendo las poblaciones de Morella y
Utiel por Valencia y Castellón. Ahora vamos a considerar el año
1976.
[Link] comparamos las temperatura media mínima entre Va-
lencia y Castellón en 1976: ¿podemos admitir un valor de 16.5
con un nivel de significación de 0.1?
[Link] los apartado 2 utilizando las temperaturas máximas para
las poblaciones de Valencia y Castellón. Estamos comparando
ahora la temperatura media máxima en ambas poblaciones.

Ej. 84 — ()En el fichero [Link] tenemos las tempe-

raturas mínimas medias en la ciudad de Valencia desde el año 1937
hasta el 2011.
[Link] los datos utilizando la función [Link].
[Link] las temperaturas medias mínimas observadas en el
periodo de 1937 hasta 1962 con las temperaturas medias mínimas
observadas desde 1990 en adelante utilizando un test de la t. Para
ello previamente hemos de responder las siguientes preguntas.
(a)¿Podemos considerar que nuestros datos son normales?
(b)¿Podemos considerar que la varianza es la misma en ambos
conjuntos de medidas?
(c)Comparar las medias teniendo en cuenta el apartado ante-
rior?
[Link] el apartado 2 utilizando un test de Kolmogorov-Smirnov
para dos muestras.
166CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
Capítulo 9

Correlación y regresión

9.1 Curva de descenso de residuo

Un problema de interés en la investigación de calidad medioam-
biental es el de las curvas de descenso de residuo. Podemos tener
un material tóxico disperso en una zona (parece razonable recordar el
ejemplo del Prestige en la costa gallega), dioxinas en sedimentos acuá-
ticos, pesticidas en campos de cultivo. Dado que tenemos este material
tóxico en la zona en cuestión: ¿qué tiempo tardará en desaparecer?
¿O simplemente en reducirse? Parece razonable para responder estas
preguntas tomar muestras en distintos instantes temporales y estudiar
cómo se va modificando la concentración de dicho material según pasa

100
el tiempo. Nuestros datos serían (xi , zi ) con i = 1, . . . , n donde xi es el ●

i-ésimo tiempo de observación mientras que zi sería la concentración

80
●●

medida en el instante xi . ●
●

60
Perfectamente los datos podría corresponder a los mostrados en la
●

z0
●●

40
●

figura 9.1. En abscisas tenemos tiempo en días y en ordenadas tenemos ●

●●
●●

20
la concentración. ●●●
●●
●●
●●●
●●●●

Un modelo que razonablemente podría aproximar el decrecimiento ●●●●●●●●●

en la concentración ([4]) es 0
0 200 400 600 800 1000

z = C0 e−c1 x (9.1)
Figura 9.1: Datos para la curva de
Notemos que si en la ecuación 9.1 tomamos logaritmos (naturales) reducción de residuo. En abscisas
tenemos el tiempo y en ordenadas
tendremos la concentración de contaminante.
ln(z) = ln(C0 ) − c1 x (9.2)
Si denotamos y = ln(z), β0 = ln(C0 ) y β1 = −c1 realmente podemos
escribir la ecuación anterior como
●

●●

y = β0 + β1 x (9.3) ●●
4

●
●●
●
●
●●
●●

En la figura 9.2 representamos los valores (xi , yi ) donde yi = ln(zi ), es

●●
●
●
y0

decir, mantenemos el tiempo original (en días) pero en lugar de con-

●
●
●●
2

●
●

siderar las concentraciones originales z tomamos el logaritmo natural ●●

●
●●
1

de estos valores. ●●
●
●●●

Vemos que hay una relación aproximadamente lineal entre el tiem- 0 200 400 600 800 1000

po en que observamos y la concentración medida. Asumir que va- x0

mos a observar una relación como la anterior de un modo perfecto

es absurdo. Errores de medida, el modelo (cualquier modelo) es una Figura 9.2: Datos para la curva de
aproximación y muchas otras variables que no observamos y que no reducción de residuo. En abscisas
tenemos el tiempo y en ordenadas
consideramos (lluvias en la zona por ejemplo) en este modelo hacen el logaritmo natural de la concen-
tración de contaminante.
167
168 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

que lo que tenemos sea una aproximación. De hecho, cualquier modelo

siempre será una aproximación (esperemos que buena) a la realidad.
Sin entrar en más detalles de modelo matemático. Partimos de
unos valores observados (xi , yi ) con i = 1, . . . , n. ¿Cómo podemos
determinar unos buenos valores para β0 y β1 . La idea de Legendre fue
encontrar los valores de β0 y β1 minimizando la siguiente función
X
n
(yi − β0 − β1 xi )2 (9.4)
i=1

que como vemos es una de los cuadrados de la diferencia del valor

exacto yi y lo que debiera de valer si la relación fuera perfectamente
lineal. Denotemos por βˆ0 y βˆ1 los valores de β0 y β1 que minimizan
la función dada en 9.4. Se prueba (sin dificultad pero no es nuestro
problema aquí) que tienen la siguiente expresión:

Sxy
βˆ1 = 2 , βˆ0 = ȳn − βˆ1 x̄n , (9.5)
sx

donde Pn
i=1 (xi − x̄n )(yi − ȳn )
Sxy = , (9.6)
n−1
es la covarianza muestral de los valores (xi , yi ) y

1 X
n
s2x = (xi − x̄n )2 . (9.7)
n − 1 i=1

es la varianza muestral de los valores xi .

9.2 Ejemplos
Veamos algunos otros ejemplos que vamos a analizar más tarde.

Ejemplo 9.1 (Datos orange) Los datos Orange están en el paquete

●
● [R-datasets]. Por ello lo podemos cargar con
200

● ●

● ●
●
Orange$circumference

●
●
●
data(Orange)
150

● ● ●
● ●

●
●
● ● ●
●
100

●
●
En la figura 9.3 mostramos la circunferencia del tronco frente a la
●
●
●
● edad. En este caso pretendemos predecir la circunferencia del tronco
50

●
●

●
● a partir de la edad del arbol.
500 1000 1500

Orange$age Ejemplo 9.2 (Temperatura en Valencia y Alicante) En el fiche-

ro valencia_alicante_temperaturas_anyo_1939_2010.txt Tenemos co-
Figura 9.3: Datos Orange. En abs- mo variables las temperaturas mínimas y máximas para cada mes de
cisas tenemos la edad del arbol y
en ordenadas tenemos la circun-
los años que van de 1939 a 2010.
ferencia a la altura del pecho. Se En la figura 9.4 tenemos los datos. ¿Podemos predecir el valor de
aprecia una cierta dependencia li- la temperatura en Alicante si tenemos la temperatura en Valencia?
neal.

9.3 Regresión lineal simple

●
100

●●●●
En todos los ejemplos antes comentados el problema común es de-
● ●● terminar el valor de Y a partir del valor de X. Obviamente la respuesta
80
x$tminAli1

●● ●
●●

●●
●
●●
●
● ●●
●
● ●
más simple sería buscar una función que podemos denotar por f de
●●●●●●● ●
●●●● ●●●
60

● ●●
●● ● ●●●●●
●
●
● ● ●●
● ●
●
40

● ● ● ●● ●
● ● ●

20 40 60 80 100

x$tminVal1
9.3. REGRESIÓN LINEAL SIMPLE 169

modo que para un valor dado x simplemente calculamos y = f (x). Un

poco de imaginación y conocimiento de la posible relación entre x e y
podrían darnos una idea de qué función f buscar. Este planteamiento
es de base muy restrictivo. ¿Por qué? Pues en primer lugar porque
estamos asumiendo que, para un valor de x, existe un único valor de
y asociado. Y esto nunca (o casi) es así. Un detalle, a veces X es una
variable aleatoria que observamos simultáneamente con Y , en otras
ocasiones es un valor que nosotros prefijamos (dosis de medicación,
tratamiento en un problema de diseño de experimentos). Sin embar-
go, desde el punto de vista de la regresión X siempre lo consideramos
fijo y estudiamos cómo se comporta Y dado el valor de X = x. Es
decir, de la distribución condicionada de Y al valor de X = x.
Un ejemplo muy famoso de Francis Galton. Se tomaba como va-
riable predictora la estatura del padre y como variable respuesta o a
predecir, la estatura de un hijo. Es claro que para un mismo padre
la estatura de sus hijos es variable. No todos los hijos de un mismo
padre miden lo mismo. No tiene ningún sentido asumir una relación
funcional entre la estatura de un padre y la de un hijo.
Tan tontos no son los estadísticos. De hecho, lo que se modeliza
es la relación entre el valor x y el valor medio de la variable Y dado
ese valor x. Siguiendo con el ejemplo de Galton. Si consideramos un
padre de estatura X = 178 centímetros. Supondremos que la media
de la variable Y que nos da la estatura aleatoria de un hijo es la
que se relaciona con x. Denotemos por E[Y | x] esta media (estatura
media de todos los hijos de un padre con estatura 178 centímetros).
Hemos de admitir que además de lo que mide el padre, algo tendrá que
decir la madre, y también otros muchos factores que todos podemos
imaginar. De modo que Y , conocida la estatura del padre, sigue siendo
una cantidad aleatoria. De hecho, se asume que la distribución de Y
es normal cuya media depende de Y , E[Y | x], pero cuya varianza no
depende de x, es decir, es una cantidad constante que denotaremos
por σ 2 . En resumen, estamos asumiendo que

Y ∼ N (E[Y | x], σ 2 ). (9.8)

En el modelo de regresión más simple con el que se trabaja se asume

que la media condicionada E[Y | x] es una función lineal de x, en
otras palabras, se asume que

E[Y | x] = β0 + β1 x. (9.9)

Las hipótesis asumidas en 9.8 y 9.9, podemos expresarlas conjunta-

mente diciendo que la variable respuesta Y se puede expresar como

Y = β0 + β1 x + ϵ, (9.10)
donde
ϵ ∼ N (0, σ 2 ). (9.11)
En la formulación de 9.10 expresamos el valor aleatorio de Y como
suma de una parte que sistemáticamente depende de x (la compo-
nente sistemática del modelo) y un término aleatorio con distribución
normal, un término de error o desajuste del modelo. En esta variable
normal con media cero y varianza constante σ 2 estamos incluyendo
todas las posibles causas que influyen el valor de Y y que no vienen
dadas por la variable predictora.
170 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

No consideramos un solo valor aleatorio de Y dado un valor fijo

de x. Realmente, tenemos n valores observados cuyos valores son in-
dependientes entre sí pero no tienen la misma distribución. Hemos de
pensar que cada Yi tiene una variable predictora distinta que influye
en la distribución de Yi . Tenemos pares (xi , Yi ) donde la xi viene da-
da y consideramos la distribución de Yi condicionada a xi , es decir,
Yi | xi .
Resumiendo, estamos asumiendo que Yi ∼ N (β0 + β1 xi , σ 2 ) y que
los distintos Yi son independientes entre si. Este modelo probabilístico
es conocido como el modelo de regresión lineal simple.
Al vector β = (β0 , β1 ) le llamaremos el vector de coeficientes. Los
estimadores de β los obtenemos minimizando la suma de cuadrados
siguiente
Xn
(yi − β0 − β1 xi )2
i=1

y por ello reciben el nombre de estimadores mínimo-cuadráticos. Los

denotaremos mediante β̂ = (β̂0 , β̂1 ). Una vez tenemos las estimaciones
β̂ podemos obtener las predicciones de las observaciones con

ŷi = β̂0 + β̂1 xi , (9.12)

y los residuos (diferencia de la observación con la predicción) mediante

ϵ̂i = yi − ŷi . (9.13)

Finalmente la varianza del error aleatorio la estimamos mediante
X
n
ϵ̂2i X (yi − ŷi )2
n
σ̂ 2 = = . (9.14)
i=1
n−2 i=1
n−2

La suma de cuadrados residual o suma de cuadrados del error

que viene dada por

X
n
SS(Error) = (yi − ŷi )2 . (9.15)
i=1

De hecho,
SS(Error)
σ̂ 2 = . (9.16)
n−2
Nota 9.1 (La función lm) Vamos a realizar el análisis de regresión
para la curva de descenso de residuo. La función básica es lm.

lm(y0 ~ x0)

##
## Call:
## lm(formula = y0 ~ x0)
##
## Coefficients:
## (Intercept) x0
## 4.572141 -0.003976

En la cual podemos ver los estimadores de los coeficientes. ¿Cómo

interpretar estos coeficientes? La constante β̂0 sería la concentración
9.3. REGRESIÓN LINEAL SIMPLE 171

en instante inicial (medida en escala logarítmica mientras que β̂1 es el

cambio que se produce en la concentración por cada cambio unitario en
la variable x que, en este caso, denota el tiempo en días. El resto de la
información (y más cosas que veremos más tarde) la podemos obtener
con la función genérica summary aplicada al ajuste. Por ejemplo, con
el siguiente código.

[Link] = lm(y0 ~ x0)

summary([Link])

##
## Call:
## lm(formula = y0 ~ x0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.154458 -0.026773 0.004371 0.038320 0.121202
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 4.572e+00 1.963e-02 232.9
## x0 -3.976e-03 3.127e-05 -127.2
## Pr(>|t|)
## (Intercept) <2e-16 ***
## x0 <2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06093 on 35 degrees of freedom
## Multiple R-squared: 0.9978,Adjusted R-squared: 0.9978
## F-statistic: 1.617e+04 on 1 and 35 DF, p-value: < 2.2e-16

De momento podemos ver que los coeficientes estimados aparecen

con la etiqueta Estimate (estimación). También podemos ver un re-
sumen de los residuos (mínimo, máximo, primer y tercer cuartil y el
segundo cuartil o mediana). En esta salida vemos que la estimación
de la desviación estándar σ es 0.0609.
Las predicciones de las observaciones (mostramos las diez primeras
solamente) las obtenemos con

predict([Link])[1:10]

## 1 2 3 4 5
## 4.572141 4.452851 4.333562 4.214273 4.094983
## 6 7 8 9 10
## 3.975694 3.856405 3.737115 3.617826 3.498537

Y los residuos (también los correspondientes a las diez primeras

observaciones) vendrían dados por

y0[1:10] - predict([Link])[1:10]

## 1 2 3
## 0.046269317 -0.154458123 -0.021554504
172 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

## 4 5 6
## -0.020708684 0.069258202 -0.007416474
## 7 8 9
## 0.023173107 0.121201642 0.038320137
## 10
## 0.006657893

o bien simplemente con

residuals([Link])[1:10]

## 1 2 3
## 0.046269317 -0.154458123 -0.021554504
## 4 5 6
## -0.020708684 0.069258202 -0.007416474
## 7 8 9
## 0.023173107 0.121201642 0.038320137
## 10
## 0.006657893

9.3.1 Intervalos de confianza y contrastes para los

coeficientes
¿Depende realmente el logaritmo de la concentración del tiempo o
más o menos es constante y no observamos ninguna modificación? Si
observamos el modelo de regresión lineal simple

Yi = β0 + β1 xi + ϵi ,

donde ϵi ∼ N (0, σ 2 ), entonces si el coeficiente β1 vale cero significa que

la variable predictora x no aparece en el modelo y podemos considerar
que (salvo variaciones aleatorias) la variable Y no varía con el tiempo.
En resumen que responder la pregunta anterior lo podemos plantear
como contrastar la hipótesis nula de que el coeficiente β1 es nulo frente
a la alternativa de que no lo es. El contraste lo formulamos como

H0 : β1 = 0, (9.17)
H1 : β1 ̸= 0. (9.18)

Para contrastar estas hipótesis hemos de tener en cuenta que el esti-

mador β̂1 tiene una distribución normal

σ2
β̂1 ∼ N β1 , Pn (9.19)
i=1 (xi − x̄n )
2

Pn
En particular, la varianza de β̂1 es σ 2 / i=1 (xi − x̄n )2 . Como sabemos
la raiz cuadrada de la varianza del estimador es lo que llamamos su
error
p estándar.
Pn En resumen, el error estándar de β̂1 es SE(β̂1 ) =
σ 2 / i=1 (xi − x̄n )2 . No conocemos (obviamente) la varianza σ 2 del
error aleatorio. Hemos visto cómo estimarla en la ecuación 9.16. El
error estándar estimado de β̂1 será
s
d σ̂ 2
SE(β̂1 ) = Pn .
i=1 (xi − x̄n )
2
9.3. REGRESIÓN LINEAL SIMPLE 173

Se verifica que
v
u n
uX
t (xi − x̄n )2 β̂1 − β1 ∼ tn−2 . (9.20)
i=1
σ̂

Utilizando este resultado el intervalo de confianza para β1 se sigue

inmediatamente y para un nivel de confianza de 1 − α sería

d β̂1 ), β̂1 + tn−2,1−α/2 SE(

[β̂1 − tn−2,1−α/2 SE( d β̂1 )].

Obviamente si suponemos que se verifica la hipótesis nula H0 :

β1 = 0 entonces lo enunciado en 9.20 se puede reformular como
v
u n
uX β̂1
T1 = t (xi − x̄n )2 ∼ tn−2 . (9.21)
i=1
σ̂

Utilizando este resultado podemos contrastar hipótesis sobre β1 . En

concreto, un contraste con un nivel de significación de α supone re-
chazar la hipótesis nula cuando

|T1 | > tn−2,1−α/2 .

Nota 9.2 En particular si vemos el resumen del ajuste.

summary([Link])

Podemos ver que el valor del error estándar de β̂1 es 0, el valor

del estadístico T1 es -127.1591. El área de las dos colas (izquierda
de −|T1 | y derecha de |T1 | es 0. Los intervalos de confianza para los
coeficientes los podemos obtener con
174 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

confint([Link])

## 2.5 % 97.5 %
## (Intercept) 4.532283119 4.611998151
## x0 -0.004039794 -0.003912829

Vemos que el nivel de confianza de estos intervalos es del 95%.

Podemos modificar el nivel de confianza, por ejemplo, vamos a consi-
derar un nivel de confianza del 99%.

confint([Link],level=0.99)

## 0.5 % 99.5 %
## (Intercept) 4.518663613 4.625617656
## x0 -0.004061486 -0.003891137

9.3.2 Ejercicios
Ej. 85 — ()En el fichero valencia_alicante_temperaturas_mes_1939_2010.txt
tenemos como variables los años de 1939 a 2010 y como observaciones
los distintos meses del año. Vamos a considerar como variable predic-
tora la temperatura mínima en 1962 (buen año) y como respuesta la
temperatura mínima en 2002 (mal año). Se pide:
[Link] un modelo de regresión lineal simple. Obtener el valor de
los coeficientes.
2.¿Es un buen ajuste atendiendo al coeficiente de determinación.
[Link] un dibujo que en abscisas tenga las predicciones y en
ordenadas los residuos. ¿Qué indica este dibujo? Interpretarlo.
4.¿Cuál es el máximo residuo observado? ¿A qué observación co-
rresponde?

Ej. 86 — ()Consideremos los datos Orange. Vamos a considerar

como variable predictora la edad del arbol y como variable respuesta
la circunferencia observada. Se pide:
[Link] un modelo de regresión lineal simple. Obtener el valor de
los coeficientes.
2.¿Es un buen ajuste atendiendo al coeficiente de determinación.
[Link] un dibujo que en abscisas tenga las predicciones y en
ordenadas los residuos. ¿Qué indica este dibujo? Interpretarlo.
4.¿Cuál es el máximo residuo observado? ¿A qué observación co-
rresponde?

Ej. 87 — ()Consideremos los datos Orange. Vamos a considerar

como variable predictora la circunferencia y como variable respuesta
la edad del arbol. Se pide:
[Link] un modelo de regresión lineal simple. Obtener el valor de
los coeficientes.
2.¿Es un buen ajuste atendiendo al coeficiente de determinación.
[Link] un dibujo que en abscisas tenga las predicciones y en
ordenadas los residuos. ¿Qué indica este dibujo? Interpretarlo.
4.¿Cuál es el máximo residuo observado? ¿A qué observación co-
rresponde?
9.4. COEFICIENTE DE CORRELACIÓN DE PEARSON 175

9.4 Coeficiente de correlación de Pearson

En la sección anterior nos planteábamos cómo, a partir de una va-
riable a la que llamamos predictora, aproximar el valor de una variable
a la que llamamos variable respuesta. Supongamos que nos plantea-
mos una pregunta más simple: ¿están relacionadas linealmente las dos
variables que estamos considerando: las variables x e y? Y la respues-
ta la hemos de dar utilizando los datos (xi , yi ) con i = 1, . . . , n. Un
valor que se utiliza frecuentemente para responder esta pregunta es el
coeficiente de correlación de Pearson. Se define del siguiente modo. Fué propuesto por Karl Pear-
son.
Definición 9.1 (Coeficiente de correlación de Pearson)
Pn
(xi − x̄n )(yi − ȳn )
r = pPn i=1 pPn .
i=1 (xi − x̄n ) i=1 (yi − ȳn )
2 2

Veamos una ilustración gráfica del concepto. En la figura 9.5(a)

mostramos los datos con los que vamos a trabajar.

(a) (b) (c)

Figura 9.5: a) Datos. b) Los datos con dos líneas: la línea horizontal que corta al eje de ordenadas en ȳ y la línea
vertical que corta al eje de abscisas en x̄. c) Los datos, la línea horizontal que corta al eje de ordenadas en ȳ y la
línea vertical que corta al eje de abscisas en x̄. Representamos en rojo aquellos puntos donde el producto cruzado
(xi − x̄)(yi − ȳ) es positivo y en azul aquellos puntos donde el producto toma un valor negativo.

En la figura 9.5(b) añadimos al diagrama de puntos mostrado en

la figura 9.5(a) un par de líneas que se cortan en el punto (x̄, ȳ): la
línea horizontal que corta al eje de ordenadas en ȳ y la línea vertical
que corta al eje de abscisas en x̄.
Consideremos los productos cruzados (xi − x̄)(yi − ȳ). En la figura
9.5(c) reproducimos el dibujo de la figura ??(b). Simplemente, repre-
sentamos en rojo aquellos puntos donde el producto cruzado anterior
es positivo y en azul aquellos puntos donde el producto toma un valor
negativo.
Tenemos una relación razonablemente lineal entre las dos variables
y por ello vemos muchos más puntos rojos que azules. El coeficiente
de correlación lineal de Pearson vale

cor(x1,y1)

## [1] 0.8038877

Vamos a repetir el mismo análisis con otros dos conjuntos de da-

tos. En uno de ellos la asociación lineal es mayor mientras que en el
otro buscaremos que no haya prácticamente asociación lineal entre las
variables.
176 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

(a) (b)

Figura 9.6: Ejemplo con fuerte asociación lineal: datos (a) y los datos diferenciando el signo del producto cruzado.
Las figuras (c) y (d) son los dibujos análogos con datos en los que apenas hay asociación lineal entre las abscisas y
las ordenadas.
9.4. COEFICIENTE DE CORRELACIÓN DE PEARSON 177

En la figura 9.6(a) mostramos los datos con fuerte asociación li-

neal. Distinguimos por el signo del producto cruzado en la figura 9.6(b)
Vemos cómo hay muchos puntos azules. El nuevo coeficiente de corre-
lación lineal de Pearson es

cor(x2,y2)

## [1] 0.9896256

Mayor que en el caso anterior. Y un tercer ejemplo donde la aso-

ciación lineal es casi inexistente. En las figuras 9.6(c) y (d) mostramos
los dibujos análogos al caso anterior. Vemos cómo hay muchos más
puntos azules que en los dos casos anteriores. El nuevo coeficiente de
correlación lineal de Pearson es

cor(x3,y3)

## [1] 0.02044313

Esta es la ilustración gráfica de la idea que subyace a este concepto.

Cuanto más se aproximan los puntos a una línea recta mayor es el valor
absoluto del coeficiente de correlación, más próximo a uno. Si cuando
x crece y crece entonces la recta el valor de coeficiente de correlación
es positivo. Si cuando x crece y decrece entonces el coeficiente de
correlación es negativo.
Si vemos la definición 9.1 que acabamos de dar se tiene que
sxy
r= .
sx sy

La covarianza muestral
Pn
(xi − x̄n )(yi − ȳn )
sxy = i=1 ,
n−1
está estimando la cantidad

E(X − µX )(Y − µY ),

mientras que las desviaciones típicas muestrales, sx y sy , no son más

que estimaciones de las desviaciones típicas poblacionales σX y σY . En
resumen que r = sxy /(sx sy ) no es más que un estimador del coeficiente
de correlación de Pearson que damos en la siguiente definición.

Definición 9.2 Dadas dos variables aleatorias X e Y definimos su

coeficiente de correlación de Pearson como

E(X − µX )(Y − µY )
ρ= .
σX σY

Esta cantidad es una cuantificación de la asociación lineal entre X e

Y . Es importante notar que aquí no hay predictor y respuesta. Ambas
variables son tratadas de un modo simétrico. De hecho si intercambia-
mos las variables el valor del coeficiente de correlación no se modifica,
es el mismo. Además se tiene que

−1 ≤ ρ ≤ 1.
178 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

Se puede probar que si ρ = 1 entonces existe dos constantes a y b (con

b positiva) tales que Y = a + bX (con probabilidad uno). Si ρ = −1
entonces existen a y b (con b negativa) tales que Y = a + bX (con
probabilidad uno). En resumen que si el coeficiente de correlación es
1 o -1 entonces una variable es función lineal de la otra. La recta es
creciente si la correlación es positiva y decreciente si es negativa.

Ejemplo 9.3 (Curva de descenso de residuo) Veamos el grado

de asociación lineal del tiempo con la concentración de contaminante.

cor(x0,z0)

## [1] -0.8834627

Y ahora vamos a ver lo mismo pero con el logaritmo natural de la

concentración del contaminante.

cor(x0,y0)

## [1] -0.9989195

Es claramente mayor la segunda.

9.5 Regresión lineal múltiple

Pretendemos determinar la relación que liga a una variable res-
puesta Y como función de p − 1 variables predictoras, x1 , . . . , xp−1 .
Siguiendo el razonamiento anterior podemos plantearnos un modelo
muy general como el que sigue.

Y = β0 + β1 x1 + . . . + βp−1 xp−1 + ϵ, (9.22)

donde ϵ es el término del error. Realmente observamos n vectores

(yi , xi1 , . . . , xi,p−1 ) en consecuencia nuestro modelo estocástico ha de
considerar el modelo para los n valores aleatorios Yi , donde cada Yi
tiene asociado un vector xi . Vamos a suponer que para una combina-
ción de valores (xi1 , . . . , xi,p−1 ) vamos a observar un valor aleatorio
Yi con distribución normal cuya media es β0 + β1 xi1 + . . . + βp−1 xi,p−1
y cuya varianza va a ser constante e igual a σ 2 . Además los distintos
Yi son independientes entre si.
En realidad nuestro modelo probabilístico es

X
p−1
Yi = β0 + βj xij + ϵi
j=1

donde los ϵi son independientes y con la misma distribución normal

con media nula y varianza σ 2 .

9.6 Estimación de β
¿Cómo estimamos los parámetros β = (β0 , . . . , βp−1 )? Nuestros
datos son (yi , xi1 , . . . , xi,p−1 ) con i = 1, . . . , n. Nuestro objetivo es
9.6. ESTIMACIÓN DE β 179

Pp−1
estimar los coeficientes β de modo que β0 + j=1 βj xij esté próximo
a y. En concreto vamos a minimizar
n
X X
p−1 2
yi − (β0 + βj xij ) (9.23)
i=1 j=1

Si consideramos la siguiente matriz

 
1 x11 . . . x1,p−1
 
X =  ... ..
.
..
. 
1 xn1 . . . xn,p−1

y asumimos que la matriz X ′ X (X ′ es la matrix traspuesta de X)

es una matriz no singular (tiene inversa) entonces tendremos que los
estimadores de los coeficientes β = (β0 , β1 , . . . , βp−1 )′ vienen dados
por
 
β̂0
 β̂1 
 
β̂ =  .  = (X ′ X)−1 X ′ y, (9.24)
 .. 
β̂p−1
′
con y = (y1 , . . . , yn ) .
Si (X ′ X)−1 = [aij ]i,j=1,...,p entonces el estimador de la varianza
de β̂i , var(β̂i ), sería aii σ̂ 2 . Finalmente el error estándar de β̂i , es decir,
su desviación típica (raíz cuadrada de su varianza) sería

d β̂i ) = √aii σ̂.

SE( (9.25)

Se tiene que
β̂i ∼ N (βi , aii σ̂ 2 ). (9.26)
Para la observación i-ésima tendremos la predicción

X
p−1
ŷi = β̂0 + β̂j xij . (9.27)
j=1

Los residuos esto es las diferencias entre los valores observados origi-
nalmente y las predicciones que de ellos hacemos, vienen dados por

ϵ̂i = yi − ŷi . (9.28)

Finalmente, hemos determinado los coeficientes que nos minimizaban
la suma de cuadrados.

Ejemplo 9.4 (Ahorro) Los datos que vamos a utilizar son los da-
tos savings contenido en el paquete faraway. Se pretende estudiar la
relación que liga la fracción de ahorro con la proporción de población
menor de 15 años, mayor de 75 y las variables dpi y ddpi.

library(faraway)
data(savings)
attach(savings)

Ajustamos el modelo.
180 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

[Link] = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Y vemos un resumen del ajuste.

summary([Link])

##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2422 -2.6857 -0.2488 2.4280 9.7509
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 28.5660865 7.3545161 3.884
## pop15 -0.4611931 0.1446422 -3.189
## pop75 -1.6914977 1.0835989 -1.561
## dpi -0.0003369 0.0009311 -0.362
## ddpi 0.4096949 0.1961971 2.088
## Pr(>|t|)
## (Intercept) 0.000334 ***
## pop15 0.002603 **
## pop75 0.125530
## dpi 0.719173
## ddpi 0.042471 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.803 on 45 degrees of freedom
## Multiple R-squared: 0.3385,Adjusted R-squared: 0.2797
## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904

En este resumen los estimadores de los coeficientes vienen dados

por

coefficients([Link])

## (Intercept) pop15 pop75

## 28.5660865407 -0.4611931471 -1.6914976767
## dpi ddpi
## -0.0003369019 0.4096949279

9.7 Bondad de ajuste

Hemos supuesto una relación lineal entre la media de la variable
respuesta y las variables predictoras. La primera pregunta que hay
que responder es: ¿tenemos un ajuste razonable? La respuesta se da
utilizando medidas que comparan los valores observados con las pre-
dicciones asumiendo el modelo, es decir, comparando yi con ŷi para
los distintos datos. En concreto, con diferencia la más utilizada es el
9.7. BONDAD DE AJUSTE 181

coeficiente de determinación que se denota por R2 y se define

como Pn
(yi − ŷi )2
R = 1 − Pi=1
2
n . (9.29)
i=1 (yi − ȳi )
2

El ajuste que estamosPrealizando se supone que será tanto mejor

n
cuanto más pequeña sea i=1 (yi − ŷi )2 . El coeficiente de determina-
ción toma valores entre 0 y 1 y cuanto más cerca de 1 mejor es el
ajuste.
Tiene un pequeño inconveniente y es que no tiene en cuenta el
número de variables predictoras que estamos utilizando. Una pequeña
modificación de R2 para incorporar esta información es el coeficiente
de determinación ajustado que podemos denotar R2 -ajustado y se
define como
Pn
(yi − ŷi )2 /(n − p)
Rajustado = 1 − Pi=1
2
n , (9.30)
i=1 (yi − ȳ) /(n − 1)
2

donde suponemos que tenemos p − 1 variables predictoras.

Ejemplo 9.5 (Ahorro) Para el ahorro los coeficientes de determi-

nación sin ajustar y ajustado los tenemos en el resumen del ajuste.

summary([Link])

siendo el coeficiente de determinación 0.3385 y el coeficiente de

determinación ajustado 0.2797.
182 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

9.8 Inferencia sobre el modelo

Hemos formulado un modelo probabilístico en donde relacionamos
la variable respuesta con una serie de variables predictoras. Es claro
que el experimentador introduce en el modelo como variables predic-
toras variables que a priori sospecha que pueden ser relevantes a la
hora de predecir. Esto no quiere decir que luego podamos prescindir
de alguna o algunas de ellas. Bien porque se demuestra que dicha va-
riable no es relevante o bien porque la información que contiene esa
variable predictora está contenida en las otras.
Supongamos que nos planteamos el siguiente contraste de hipóte-
sis:

H0 : βi1 = . . . = βir = 0 (9.31)

H1 : existe algún j tal que βij ̸= 0. (9.32)

Si un coeficiente determinado βi es nulo entonces la variable respuesta

Y no dependería de la variable asociada a dicho coeficiente. En defini-
tiva, la hipótesis nula considerada se podría formular diciendo que la
variable Y no depende de las variables xi1 , . . . , xir . ¿Cómo contrastar
las hipótesis indicadas?
Vamos a considerar en primer lugar el modelo en que tenemos to-
das las p-1 posibles variables predictoras, esto es, el modelo más com-
pleto que podemos considerar. En este modelo tendremos una suma
de cuadrados del error que denotamos por SS(Error). Ahora vamos
a considerar el modelo que se verifica bajo la hipótesis nula, el modelo
que no tiene las variables predictoras xi1 , . . . , xir . En este segundo
modelo (simplificado) tendremos una suma de cuadrados (mayor) que
denotamos por SS(Error)0 . Se verifica si la hipótesis nula es cierta
(asumiendo que es cierta) que

(SS(Error)0 − SS(Error))/r
F = ∼ Fr,n−p . (9.33)
SS(Error)/(n − p)

De modo que rechazaremos la hipótesis nula de que H0 : βi1 = . . . =

βir = 0 si
F > Fr,n−p,1−α
donde Fr,n−p,1−α es el percentil 1 − α de una F con r y n − p grados
de libertad.

9.8.1 ¿Podemos prescindir de todas las variables

predictoras?
¿Realmente depende la variable respuesta de alguna de las varia-
bles predictoras? Realmente nos estamos planteando la hipótesis de
que todos los coeficientes, salvo el término constante β0 , valen cero,
es decir, la hipótesis nula H0 : β1 = . . . = βp−1 = 0. En este caso
tendremos que

(SS(T otal) − SS(Error))/(p − 1)

F = ∼ Fp−1,n−p .
SS(Error)/(n − p)

Ejemplo 9.6 (Ahorro) En el resumen

9.8. INFERENCIA SOBRE EL MODELO 183

summary([Link])

tenemos que el p-valor cuando contrastamos si todas las variables

las podemos considerar nulas viene en la última línea.

9.8.2 ¿Podemos prescindir de una variable predic-

tora?
Como segundo caso tendríamos la situación en que contrastamos
que un solo coeficiente vale cero, es decir, la hipótesis nula H0 : βi = 0
frente a la alternativa H1 : βi ̸= 0. Tenemos que bajo la hipótesis nula
indicada
β̂i
ti = ∼ tn−p
SE(β̂i )
donde SE(β̂i ) es el error estándar de β̂i y viene dado en ecuación 9.25.
Se tiene, de hecho, que
F = t2i .
Rechazaremos la hipótesis nula si

|ti | > tn−p,1− α2

o bien si
F = t2i > F1,n−p,1− α2 .
Ambos procedimientos son equivalentes.
184 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

Ejemplo 9.7 (Ahorro) En el resumen

summary([Link])

los p-valores correspondientes a si el coeficiente asociado a cada

variable lo podemos considerar nulo lo podemos observar en la línea
correspondiente a cada variable.

9.8.3 ¿Podemos prescindir de un conjunto dado de

variables?
El contraste planteado en 9.34 nos permite valorar, dado un con-
junto de variables predictoras si un subconjunto dado puede ser eli-
minadas del modelo de regresión sin que el ajuste global empeore de
un modo apreciable.

Ejemplo 9.8 (Ahorro) Con los datos savings vamos a plantearnos

si podemos prescindir simultánemante de las variables pop75 y de la
variable dpi. Podemos formular el contraste como:

H0 : βpop75 = βdpi = 0 (9.34)

H1 : βpop75 ̸= 0 ó βdpi ̸= 0. (9.35)

Empezamos ajustando los modelos por separado. Primero el modelo

más completo.
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 185

[Link].1 = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Y ahora ajustamos el modelo al que quitamos las variables pop75

y dpi.

[Link].2 = lm(sr ~ pop15 + ddpi, savings)

Notemos que el modelo 2 es un submodelo, quitamos variables que

estaban en el modelo 1 pero no añadimos ninguna variable que no
estuviera ya en el modelo 1. El contraste planteado en 9.34 se puede
realizar con la función anova.

anova([Link].1,[Link].2)

## Analysis of Variance Table

##
## Model 1: sr ~ pop15 + pop75 + dpi + ddpi
## Model 2: sr ~ pop15 + ddpi
## [Link] RSS Df Sum of Sq F Pr(>F)
## 1 45 650.71
## 2 47 700.55 -2 -49.839 1.7233 0.19

Podemos ver que el p-valor asociado es muy grande por lo que no

rechazamos la hipótesis de que ambos coeficientes sean nulos. Podemos
eliminarlos del modelo original y quedarnos con el modelo simplificado.

9.9 Ejemplos de regresión lineal múltiple

Ejemplo 9.9 (Curva de reducción de residuo) Vamos a conti-
nuar con el ejemplo de la curva de reducción de residuos. Trabajamos
con otros datos. Se tomaron cada 10 días. En la toma de la informa- ●

ción se elegió una zona homogénea (un trozo de playa o bien un trozo ●

de acantilado). Una vez elegida la zona se tomaron al azar dentro de

●

300
●
●
●
●●

esa zona 30 puntos de muestreo. En cada uno de estos puntos se midió

●
●●
●
● ●●●●●
●
●●
●●
●●● ● ● ●
200

●●● ●
●
z

la concentración de petróleo.
●
●●●●● ●
●● ●●
●
●● ●●
● ●
●
● ● ●
●
●
●
●●●●●●
● ● ●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●●●
●
●●
●
● ●●● ●
●
●● ●● ●●●● ●●

Los datos originales aparecen en la figura 9.7.

●●●●●
● ●●
● ●●●
●●●● ●
● ●●
●
●●●
●●●
●● ●
●
● ●
●
100

Transformamos como antes la variable respuesta, concentración

●● ●●
●●● ●
●
●●
●●●
●●
●
●
●●● ●
● ●●
● ●●
●●
●
●●
●
●●
●●
●
●●
●●
●
●
●
●●
●
●●●●
● ● ●●●
●
●●
●
●●
●●●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●●
●●● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●●●
●
● ●
● ●
●●●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●
●●
●●
●●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●●●●
● ●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●●● ●
●● ●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
0

del contaminante a la escala logarítmica. Y representamos de nuevo 0 5000 15000 25000

los datos en la figura 9.8. x

Podemos ver que los datos no parecen ajustarse a una recta. Más
bien sugiere que hay alguna componente cuadrática. Es decir, que el Figura 9.7: Curva de reducción de
logaritmo (natural) de la concentración podemos aproximarlo con una residuo.
función del tipo
f (x) = β0 + β1 x + β2 x2
6

●●●
●
●
●
●
●
●●
●
●●
●●
●●●● ●
●
●●●● ●

siendo x el tiempo. Vamos a probar los dos modelos. El modelo que

solamente utiliza como predictora x (modelo 1) y el modelo que utiliza

como variables predictoras el tiempo x y el cuadrado del tiempo x2 .

●●
●●●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●●
●●
●
● ●
●
●
●●
●●
●
●
●
●●
●
●●
●
●
●●
●●
●●
●● ●
●
●●
●●
●
●●
●
●●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●●
●● ●
●● ●●
●
● ●●●
0

●●
● ●
●●
●
●●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●●
●●●
●
●●
● ●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●●
●
●●
●●●●
●●
●● ●
y

●
●●
●●●
●
●
● ●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●
●
● ●●●
●
●●

Empezamos ajustando el primer modelo.

●●
●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
● ●
●●●● ●
●●
−2

●
●
●●
●
●●●
●
●●
●
●
●●
●
●●
●
●
●●

prestige.ajuste1 = lm(y ~ x)
● ●
●
●●●●
●
●●
●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●●●●
●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●●●
●
●●
●
●
●
●
●●
●●
−8

0 5000 15000 25000

El segundo modelo lo podemos ajustar con x

Figura 9.8: Curva de reducción de

residuo. La concentración es dada
en escala logarítmica.
186 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

prestige.ajuste2 = lm(y ~ x + x*x)

o bien con

prestige.ajuste2 = lm(y ~ poly(x,2))

Como no cuesta mucho esfuerzo. Podemos probar con un tercer

modelo en el que tengamos un polinomio de orden 4 (o de grado 3
como se quiera).

prestige.ajuste3 = lm(y ~ poly(x,3))

Veamos un resumen de cada uno de los dos ajustes. El resumen

del primer modelo es

summary(prestige.ajuste1)

##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.76579 -0.35869 0.05234 0.38334 1.56108
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 5.949e+00 1.842e-02 323.0
## x -3.644e-04 9.711e-07 -375.2
## Pr(>|t|)
## (Intercept) <2e-16 ***
## x <2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5281 on 3284 degrees of freedom
## Multiple R-squared: 0.9772,Adjusted R-squared: 0.9772
## F-statistic: 1.408e+05 on 1 and 3284 DF, p-value: < 2.2e-16

y el resumen del segundo ajuste es

summary(prestige.ajuste2)

##
## Call:
## lm(formula = y ~ poly(x, 2))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.09602 -0.23112 -0.00392 0.23539 1.27076
##
## Coefficients:
## Estimate Std. Error t value
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 187

## (Intercept) -3.528e-02 5.978e-03 -5.902

## poly(x, 2)1 -1.981e+02 3.427e-01 -578.194
## poly(x, 2)2 -2.303e+01 3.427e-01 -67.197
## Pr(>|t|)
## (Intercept) 3.96e-09 ***
## poly(x, 2)1 < 2e-16 ***
## poly(x, 2)2 < 2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3427 on 3283 degrees of freedom
## Multiple R-squared: 0.9904,Adjusted R-squared: 0.9904
## F-statistic: 1.694e+05 on 2 and 3283 DF, p-value: < 2.2e-16

Finalmente, el resumen del modelo con un polinomio hasta grado

3 es

summary(prestige.ajuste3)

##
## Call:
## lm(formula = y ~ poly(x, 3))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.10063 -0.23058 -0.00448 0.23650 1.26565
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) -3.528e-02 5.978e-03 -5.902
## poly(x, 3)1 -1.981e+02 3.427e-01 -578.164
## poly(x, 3)2 -2.303e+01 3.427e-01 -67.194
## poly(x, 3)3 2.782e-01 3.427e-01 0.812
## Pr(>|t|)
## (Intercept) 3.97e-09 ***
## poly(x, 3)1 < 2e-16 ***
## poly(x, 3)2 < 2e-16 ***
## poly(x, 3)3 0.417
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3427 on 3282 degrees of freedom
## Multiple R-squared: 0.9904,Adjusted R-squared: 0.9904
## F-statistic: 1.129e+05 on 3 and 3282 DF, p-value: < 2.2e-16

Ejemplo 9.10 (Precio de una vivienda) Vamos a trabajar con un

banco de datos relativo a precios de la vivienda. Es un fichero que viene
con el paquete SPSS. Tenemos las siguientes variables:

VALTERR Valor de tasación del terreno.

VALMEJOR Valor de tasación de las mejoras.

188 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

VALTOT Valor de tasación total.

PRECIO Precio de venta.

TASA Razón del precio de venta sobre el valor de tasación total.

BARRIO Barrio en el que se encuentra la vivienda.

Nos planteamos predecir el precio de venta de la vivienda utilizando

como variables predictoras el valor de tasación del terreno y de las
mejoras. Notemos que el valor total no es más que la suma de la
tasación del terreno más el valor de las mejoras. @
Comenzamos leyendo los datos. Notemos que por estar en formato
de SPSS utilizamos el paquete [9, foreign].

library(foreign)
x = [Link](file='../data/venta_casas.sav',[Link]=T)
attach(x)

Nos planteamos predecir el precio de la vivienda utilizando como

variables predictoras el precio de terreno y el valor de las mejoras.

([Link] = lm(precio ~ valterr + valmejor))

##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Coefficients:
## (Intercept) valterr valmejor
## 767.4080 3.1916 0.4779

Veamos un resumen del ajuste.

summary([Link])

##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -153634 -10451 -576 8690 356418
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.674e+02 1.290e+03 0.595 0.552
## valterr 3.192e+00 5.339e-02 59.777 <2e-16
## valmejor 4.779e-01 2.552e-02 18.728 <2e-16
##
## (Intercept)
## valterr ***
## valmejor ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 189

##
## Residual standard error: 28070 on 2437 degrees of freedom
## Multiple R-squared: 0.6756,Adjusted R-squared: 0.6754
## F-statistic: 2538 on 2 and 2437 DF, p-value: < 2.2e-16

Ejemplo 9.11 (Esperanza de vida por estados) Son unos datos

sobre esperanza de vida en los estados de Estados Unidos.

data(state)
statedata = [Link](state.x77, [Link] = [Link], [Link] = T)
g = lm([Link] ~ ., data = statedata)
summary(g)

##
## Call:
## lm(formula = [Link] ~ ., data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.48895 -0.51232 -0.02747 0.57002 1.49447
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.094e+01 1.748e+00 40.586
## Population 5.180e-05 2.919e-05 1.775
## Income -2.180e-05 2.444e-04 -0.089
## Illiteracy 3.382e-02 3.663e-01 0.092
## Murder -3.011e-01 4.662e-02 -6.459
## [Link] 4.893e-02 2.332e-02 2.098
## Frost -5.735e-03 3.143e-03 -1.825
## Area -7.383e-08 1.668e-06 -0.044
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.0832 .
## Income 0.9293
## Illiteracy 0.9269
## Murder 8.68e-08 ***
## [Link] 0.0420 *
## Frost 0.0752 .
## Area 0.9649
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7448 on 42 degrees of freedom
## Multiple R-squared: 0.7362,Adjusted R-squared: 0.6922
## F-statistic: 16.74 on 7 and 42 DF, p-value: 2.534e-10

Quitamos la variable Area.

g = update(g, . ~ . - Area)
summary(g)

##
190 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

## Call:
## lm(formula = [Link] ~ Population + Income + Illiteracy + Murder +
## [Link] + Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.49047 -0.52533 -0.02546 0.57160 1.50374
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.099e+01 1.387e+00 51.165
## Population 5.188e-05 2.879e-05 1.802
## Income -2.444e-05 2.343e-04 -0.104
## Illiteracy 2.846e-02 3.416e-01 0.083
## Murder -3.018e-01 4.334e-02 -6.963
## [Link] 4.847e-02 2.067e-02 2.345
## Frost -5.776e-03 2.970e-03 -1.945
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.0785 .
## Income 0.9174
## Illiteracy 0.9340
## Murder 1.45e-08 ***
## [Link] 0.0237 *
## Frost 0.0584 .
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7361 on 43 degrees of freedom
## Multiple R-squared: 0.7361,Adjusted R-squared: 0.6993
## F-statistic: 19.99 on 6 and 43 DF, p-value: 5.362e-11

g = update(g, . ~ . - Illiteracy)
summary(g)

##
## Call:
## lm(formula = [Link] ~ Population + Income + Murder + [Link] +
## Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4892 -0.5122 -0.0329 0.5645 1.5166
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.107e+01 1.029e+00 69.067
## Population 5.115e-05 2.709e-05 1.888
## Income -2.477e-05 2.316e-04 -0.107
## Murder -3.000e-01 3.704e-02 -8.099
## [Link] 4.776e-02 1.859e-02 2.569
## Frost -5.910e-03 2.468e-03 -2.395
## Pr(>|t|)
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 191

## (Intercept) < 2e-16 ***

## Population 0.0657 .
## Income 0.9153
## Murder 2.91e-10 ***
## [Link] 0.0137 *
## Frost 0.0210 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7277 on 44 degrees of freedom
## Multiple R-squared: 0.7361,Adjusted R-squared: 0.7061
## F-statistic: 24.55 on 5 and 44 DF, p-value: 1.019e-11

g = update(g, . ~ . - Income)
summary(g)

##
## Call:
## lm(formula = [Link] ~ Population + Murder + [Link] + Frost,
## data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.47095 -0.53464 -0.03701 0.57621 1.50683
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.103e+01 9.529e-01 74.542
## Population 5.014e-05 2.512e-05 1.996
## Murder -3.001e-01 3.661e-02 -8.199
## [Link] 4.658e-02 1.483e-02 3.142
## Frost -5.943e-03 2.421e-03 -2.455
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.05201 .
## Murder 1.77e-10 ***
## [Link] 0.00297 **
## Frost 0.01802 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7197 on 45 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.7126
## F-statistic: 31.37 on 4 and 45 DF, p-value: 1.696e-12

g = update(g, . ~ . - Population)
summary(g)

##
## Call:
## lm(formula = [Link] ~ Murder + [Link] + Frost, data = statedata)
##
## Residuals:
192 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

## Min 1Q Median 3Q Max

## -1.5015 -0.5391 0.1014 0.5921 1.2268
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 71.036379 0.983262 72.246 < 2e-16
## Murder -0.283065 0.036731 -7.706 8.04e-10
## [Link] 0.049949 0.015201 3.286 0.00195
## Frost -0.006912 0.002447 -2.824 0.00699
##
## (Intercept) ***
## Murder ***
## [Link] **
## Frost **
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7427 on 46 degrees of freedom
## Multiple R-squared: 0.7127,Adjusted R-squared: 0.6939
## F-statistic: 38.03 on 3 and 46 DF, p-value: 1.634e-12

Ejemplo 9.12 (Consumo de agua) Se trata de unos datos utiliza-

dos para reducir costes de producción. En concreto se pretende valorar
el consumo de agua en una fábrica. Se tiene el consumo de agua en
distintos meses (en galones) como variable respuesta. Las variables
predictoras serán la temperatura media en el mes, la producción (en
libras), número de días que ha funcionado la fábrica durante ese mes,
número de personas trabajando.

x = [Link](file = "../data/[Link]", header = T)

attach(x)

Ajustamos el modelo.

[Link] = lm(agua ~ temperatura + produccion + dias + personas)

summary([Link])

##
## Call:
## lm(formula = agua ~ temperatura + produccion + dias + personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -444.99 -131.52 2.58 108.97 368.52
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 6360.33733 1314.39161 4.839
## temperatura 13.86886 5.15982 2.688
## produccion 0.21170 0.04554 4.648
## dias -126.69036 48.02234 -2.638
## personas -21.81796 7.28452 -2.995
9.10. EJERCICIOS 193

## Pr(>|t|)
## (Intercept) 0.000406 ***
## temperatura 0.019748 *
## produccion 0.000562 ***
## dias 0.021647 *
## personas 0.011168 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 249 on 12 degrees of freedom
## Multiple R-squared: 0.767,Adjusted R-squared: 0.6894
## F-statistic: 9.877 on 4 and 12 DF, p-value: 0.0008958

9.10 Ejercicios
Ej. 88 — ()Vamos a utilizar los datos homedata (contenidos en el
paquete UsingR). Son datos sobre valores asegurados de viviendas en
el año 1970 y en el año 2000. Queremos estudiar la relación entre el
primer valor asegurado (en el año 1970 que corresponde con la variable
y1970) y el último valor asegurado (en el año 2000 que corresponde
con la variable y2000). Utilizamos como variable predictora la que nos
da el primer valor.
[Link] de los precios asegurados en el año 1970 es 0. Esto es un
error. Declarar ese valor como dato faltante con el siguiente có-
digo.
[Link] gráficamente el precio asegurado en el 2000 frente al
precio asegurado en 1970. ¿Sugiere el dibujo una relación lineal
entre las variables?
[Link] un modelo de regresión lineal simple donde la variable
predictora es y1970 y la variable respuesta es y2000.
4.¿Cuáles son los coeficientes del ajuste?
5.¿Cuál es el coeficiente de determinación? ¿Podemos considerar
que el ajuste es bueno atendiendo al valor del coeficiente de de-
terminación?
6.¿Cuál es la predicción del valor asegurado en el año 2000 para
una casa que estaba asegurada en 1970 en 75000 euros?
[Link] como variable predictora el logaritmo natural del va-
lor asegurado en y1970 y como variable respuesta el logaritmo
de la cantidad asegurada en el año 2000, y2000. Representa grá-
ficamente los nuevos datos. Realiza el ajuste y compara los coefi-
cientes de determinación. ¿Se ha incrementado o decrementado
el coeficiente de determinación? ¿Cuál de los dos ajustes es pre-
ferible?

Ej. 89 — ()Leer los datos babies el paquete UsingR.

library("UsingR")
data("babies")
attach(babies)
El banco de datos contiene información sobre recién nacidos y sus
madres en un total de 1236 observaciones.
194 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN

[Link] la ayuda de los datos.

help(babies)
En esta ayuda veremos que cada variable tiene un código de dato
faltante. Declarar los datos faltantes del siguiente modo.

sex[sex == 9] = NA
wt[wt == 999] = NA
parity[parity == 99] = NA
race[race == 99] = NA
age[age == 99] = NA
ed[ed == 9] = NA
ht[ht == 99] = NA
wt1[wt1 == 999] = NA
smoke[smoke == 9] = NA
time[time == 99] = NA
time[time == 98] = NA
number[number == 98 | number == 99] = NA

[Link] el coeficiente de correlación de Pearson entre las va-

riables age (edad) y wt (peso). Calculadlo también para las va-
riables ht (altura) y wt (peso). Haz un diagrama de puntos para
cada par de variables y analiza gráficamente el tipo de relación
que las liga.
[Link] que pretendemos predecir el peso del niño utilizan-
do como variables predictoras las variables gestation, ht, age,
wt1 que corresponden con el tiempo de gestación, la altura de
la madre, la edad de la madre, el peso de la madre antes del
nacimiento. Se pide:
(a)Realizar el correspondiente ajuste.
(b)Evaluar el coeficiente de determinación.
(c)Contrastar la hipótesis de que todos los coeficientes excepto
la constante son nulos.
(d)Determinar para cada uno de los predictores si podemos con-
siderar que el correspondiente coeficiente es nulo.

Ej. 90 — ()El banco de datos teengamb (paquete faraway) contiene

datos relativos a hábitos de juego en Gran Bretaña. Ajusta un modelo
de regresión lineal donde la cantidad gastada en juego sea la variable
respuesta y el sexo, estatus, ingresos y la puntuación en la prueba
verbal sean los predictores.
1.¿Qué porcentaje de variación de la respuesta es explicada por los
predictores?
2.¿Qué observación tiene el residuo positivo mayor? Dar el número
de caso.
[Link] la media y la mediana de los residuos.
[Link] la correlación de los residuos con los valores ajusta-
dos.
[Link] la correlación de los residuos con los ingresos.
9.10. EJERCICIOS 195

[Link] que mantenemos constantes todos los demás pre-

dictores, ¿qué diferencia tenemos en los valores predichos cuando
comparamos hombres con mujeres?
[Link] la hipótesis de que todos los coeficientes excepto la
constante son nulos.
[Link] para cada uno de los predictores si podemos consi-
derar que el correspondiente coeficiente es nulo.

Ej. 91 — ()El banco de datos prostate procede de un estudio de 97

hombres con cancer de próstata que habían sufrido una prostatectomía
radical. Ajusta un modelo con lpsa como variable respuesta y lcavol
como predictores. Registra el error estándar residual y el valor del
coeficiente de determinación R2 . Añade ahora las variables lweight,
svi, lpph, age, lcp, pgg45, gleason al modelo y valora el modelo.
196 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
Bibliografía

[1] P.M. Berthouex y L.C. Brown. Environmental Engineers. se-

cond. Lewis Publishers, 2002. url: /home/gag/BIBLIOGRAFIA/
MISLIBROS/Berthouex_Brown_Statistics_for_Environmental_
Engineers_2nd_Ed_CRC_Press_2002.pdf.
[2] Y. Cohen y J.Y. Cohen. Statistics and Data with R: An applied
approach through examples. John Wiley & Sons, 2008.
[3] P. Dalgaard. Introductory Statistics with R. Springer, 2002.
[4] Michael E. Ginevan y Douglas E. Splitstone. Statistical Tools for
Environmental Quality Measurement. Chapman & Hall / CRC,
2004. url: /home/ gag / BIBLIOGRAFIA / MISLIBROS / Ginevan _
Splitstone_Statistical_Tools_for_Environmental_Quality_
Measurement_Chapman_Hall_CRC_2004.pdf.
[5] Juergen Gross y Uwe Ligges. nortest: Tests for Normality. R
package version 1.0-4. 2015. url: [Link]
org/package=nortest.
[6] B.F.J. Manly. Statistics for Environmental Science and Ma-
nagement. Second. Chapman & Hall/CRC Press, 2009. url:
/home / gag / BIBLIOGRAFIA / MISLIBROS / Manly _ Statistics _
for_Environmental_Science_and_Management_2nd_edition_
Chapman_Hall_2009.pdf.
[7] Steven P. Millard y Nagaraj K. Neerchal. Environmental Sta-
tistics with S-PLUS. Applied Environmental Statistics. CRC
Press LLC, 2001. url: /home/gag/BIBLIOGRAFIA/MISLIBROS/
Millard _ Neerchal _ Environmental _ Statistics _ with _ S -
PLUS_CRC_2001.pdf.
[8] Walter W. Piegorsch y A. John Bailer. Analyzing Environmental
Data. Wiley, 2005. url: /home/gag/BIBLIOGRAFIA/MISLIBROS/
Piegorsch_Bailer_Analysing_Environmental_Data_Wiley_
[Link].
[9] R Core Team. foreign: Read Data Stored by ’Minitab’, ’S’, ’SAS’,
’SPSS’, ’Stata’, ’Systat’, ’Weka’, ’dBase’, ... R package version
0.8-71. 2018. url: [Link] [Link]/package=
foreign.
[10] R Core Team. R: A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing. Vienna,
Austria, 2018. url: [Link]

197
198 BIBLIOGRAFÍA

[11] Clemens Reimann y col. Statistical Data Analysis Explained.

Applied Environmental Statistics with R. Chichester, UK: Wi-
ley, 2008. url: /home/gag/BIBLIOGRAFIA/MISLIBROS/Hastie_
Tibshirani_Friedman_The_Elements_of_Statistical_Learning_
2nd_edition_2008.pdf.
[12] Bernard Rosner. Fundamentals of Biostatistics. Seven. Brook-
s/Cole Cengage Learning, 2010.
[13] J. Verzani. Using R for Introductory Statistics. Chapman & Hall
/ CRC, 2005.
[14] John Verzani. UsingR: Data Sets, Etc. for the Text ”Using R
for Introductory Statistics”, Second Edition. R package version
2.0-6. 2018. url: [Link] [Link]/package=
UsingR.
[15] Rand R. Wilcox. Basic Statistics. Oxford University Press, 2009.
url: /home/gag/BIBLIOGRAFIA/MISLIBROS/Wilcox_Basic_
Statistics_Oxford_University_Press_2009.pdf.
Capítulo 10

Soluciones ejercicios
seleccionados

Solución (Ej. 2) — library(datasets)

data(airquality)
dim(airquality)
## [1] 153 6
apply(airquality,2,class)
## Ozone Solar.R Wind Temp Month
## "numeric" "numeric" "numeric" "numeric" "numeric"
## Day
## "numeric"
apply(airquality,2,typeof)
## Ozone Solar.R Wind Temp Month
## "double" "double" "double" "double" "double"
## Day
## "double"

Solución (Ej. 10) — =ref= exer230919d Una posibilidad es darlo

como pares de resultados. Si indicamos como H el resultado cara
y como T el resultado cruz entonces un posible espacio muestral es
Ω = {HH, HT, T H, T T }. Estos serían equiprobables.
Otro espacio muestral puede ser Ω = {0, 1, 2} en donde contamos el
número de caras. En este caso no tenemos resultados equiprobables.

199

También podría gustarte

Tecnicas Estadisticas-Hojadecalculo
100% (1)
Tecnicas Estadisticas-Hojadecalculo
418 páginas
Estadística Pucp
100% (1)
Estadística Pucp
219 páginas
Notas de Técnicas de Muestreo: Luis Valdivieso Serrano
100% (2)
Notas de Técnicas de Muestreo: Luis Valdivieso Serrano
255 páginas
Estadística Avanzada en Medicina
100% (3)
Estadística Avanzada en Medicina
211 páginas
Fundamentos de Estadística y Probabilidad
Aún no hay calificaciones
Fundamentos de Estadística y Probabilidad
312 páginas
Estadística Descriptiva II
100% (2)
Estadística Descriptiva II
145 páginas
Comic Probabilidad 3
100% (1)
Comic Probabilidad 3
104 páginas
Introducción a Probabilidad y Estadística
100% (1)
Introducción a Probabilidad y Estadística
184 páginas
Fundamentos de Estadistica
100% (1)
Fundamentos de Estadistica
524 páginas
Inferencia Estadistica
100% (8)
Inferencia Estadistica
313 páginas
Ejercicios y Test de Introducción A La Estadistica para ADE
100% (1)
Ejercicios y Test de Introducción A La Estadistica para ADE
246 páginas
Estadística Descriptiva e Inferencial PDF
100% (2)
Estadística Descriptiva e Inferencial PDF
580 páginas
Muestreo Estadístico: Teoría y Métodos
100% (1)
Muestreo Estadístico: Teoría y Métodos
394 páginas
Apuntes de Estadística Aplicada
Aún no hay calificaciones
Apuntes de Estadística Aplicada
296 páginas
Teoria de Las Probabilidades y Estadistica Matematica
100% (1)
Teoria de Las Probabilidades y Estadistica Matematica
229 páginas
Cuadras - Nuevos Métodos de Estadística Multivariante
Aún no hay calificaciones
Cuadras - Nuevos Métodos de Estadística Multivariante
308 páginas
Estadística Descriptiva en Ciencias Sociales
100% (5)
Estadística Descriptiva en Ciencias Sociales
35 páginas
Libro Intro Ducci On A Los Mode Los
Aún no hay calificaciones
Libro Intro Ducci On A Los Mode Los
457 páginas
Probabilidad e Inferencia Estadistica de Luis A Santalc3b3 PDF
Aún no hay calificaciones
Probabilidad e Inferencia Estadistica de Luis A Santalc3b3 PDF
140 páginas
Quesada Paloma V - Curso Básico de Cálculo de Probabilidades PDF
100% (5)
Quesada Paloma V - Curso Básico de Cálculo de Probabilidades PDF
658 páginas
Nuevos Métodos de Análisis Multivariante
50% (2)
Nuevos Métodos de Análisis Multivariante
304 páginas
Guía de Estadística Matemática para Economía
Aún no hay calificaciones
Guía de Estadística Matemática para Economía
285 páginas
193 Problemas Resueltos de Cálculo de Probabilidades - V. J. García, H. M. Ramos and M. A. Sordo
91% (11)
193 Problemas Resueltos de Cálculo de Probabilidades - V. J. García, H. M. Ramos and M. A. Sordo
231 páginas
Estadística e Informática (SPSS) en La Investigación Descriptiva e Inferencial PDF
Aún no hay calificaciones
Estadística e Informática (SPSS) en La Investigación Descriptiva e Inferencial PDF
499 páginas
Inferencia Estadistica para Economia y Administracion de Empresas Jose C Sanchez Libro Ebook
100% (2)
Inferencia Estadistica para Economia y Administracion de Empresas Jose C Sanchez Libro Ebook
282 páginas
NMR 13
Aún no hay calificaciones
NMR 13
181 páginas
Introducción a la Estadística Ambiental
Aún no hay calificaciones
Introducción a la Estadística Ambiental
252 páginas
Métodos Estadísticos en La Ingeniería
Aún no hay calificaciones
Métodos Estadísticos en La Ingeniería
158 páginas
Estadistica Ingenieros
Aún no hay calificaciones
Estadistica Ingenieros
271 páginas
Estadística Descriptiva y Probabilidades
Aún no hay calificaciones
Estadística Descriptiva y Probabilidades
253 páginas
Estadística Aplicada con R en Ingeniería
Aún no hay calificaciones
Estadística Aplicada con R en Ingeniería
191 páginas
Copia de Elementos - de - Probabilidad - y - Estadistica - 2024
Aún no hay calificaciones
Copia de Elementos - de - Probabilidad - y - Estadistica - 2024
195 páginas
Guia Estudio Estadistica1
0% (1)
Guia Estudio Estadistica1
73 páginas
Mat 3 Teoria
Aún no hay calificaciones
Mat 3 Teoria
118 páginas
Estadística Descriptiva
100% (1)
Estadística Descriptiva
100 páginas
Bioestadística Martínez UCHCEU Material Docente 2023
100% (1)
Bioestadística Martínez UCHCEU Material Docente 2023
190 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
28 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
129 páginas
Apunte PyE 2024 Hasta Clase 6
Aún no hay calificaciones
Apunte PyE 2024 Hasta Clase 6
108 páginas
Estadística para 2º Bachillerato: Guía Completa
Aún no hay calificaciones
Estadística para 2º Bachillerato: Guía Completa
86 páginas
Libro Araya Estadistica para Quimica
100% (2)
Libro Araya Estadistica para Quimica
260 páginas
000 CursoEstadistica BN PDF
Aún no hay calificaciones
000 CursoEstadistica BN PDF
615 páginas
Estadística Martínez UCHCEU Material Docente 2023
Aún no hay calificaciones
Estadística Martínez UCHCEU Material Docente 2023
200 páginas
Apuntes de Bioestadística Veterinaria
Aún no hay calificaciones
Apuntes de Bioestadística Veterinaria
192 páginas
Ejercicios de Diagrama de Árbol en Estadística
Aún no hay calificaciones
Ejercicios de Diagrama de Árbol en Estadística
441 páginas
Estadística Industrial para Ingenieros
Aún no hay calificaciones
Estadística Industrial para Ingenieros
441 páginas
Estadística Industrial
Aún no hay calificaciones
Estadística Industrial
441 páginas
Guía Completa de Estadística y Muestreo
Aún no hay calificaciones
Guía Completa de Estadística y Muestreo
4 páginas
Estadística
Aún no hay calificaciones
Estadística
189 páginas
Probabilidad y Estadística para Ingeniería
Aún no hay calificaciones
Probabilidad y Estadística para Ingeniería
85 páginas
Texto Guía Estadistica 1
Aún no hay calificaciones
Texto Guía Estadistica 1
316 páginas
Estadistica
Aún no hay calificaciones
Estadistica
169 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
159 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
80 páginas
Estadística y Probabilidad en R
Aún no hay calificaciones
Estadística y Probabilidad en R
172 páginas
Reglas de Nelson en Estadística
100% (1)
Reglas de Nelson en Estadística
50 páginas
Estadística en Ciencias de la Salud
Aún no hay calificaciones
Estadística en Ciencias de la Salud
194 páginas
Métodos Estadísticos-Félix Míguez Marín (2012)
Aún no hay calificaciones
Métodos Estadísticos-Félix Míguez Marín (2012)
274 páginas
Estadística Matemática
100% (2)
Estadística Matemática
91 páginas
Informe de Prácticas en Psicología Clínica
Aún no hay calificaciones
Informe de Prácticas en Psicología Clínica
5 páginas
Modelo 1 Solicitud
Aún no hay calificaciones
Modelo 1 Solicitud
1 página
Cuestionario 21021
Aún no hay calificaciones
Cuestionario 21021
3 páginas
Modelo Psicodinámico de Freud
Aún no hay calificaciones
Modelo Psicodinámico de Freud
1 página
Aprendizaje Social y Conducta Humana
Aún no hay calificaciones
Aprendizaje Social y Conducta Humana
1 página
SRQ Cuestionario Autorreporte
Aún no hay calificaciones
SRQ Cuestionario Autorreporte
2 páginas
Test Zavic: Evaluación de Valores e Intereses
Aún no hay calificaciones
Test Zavic: Evaluación de Valores e Intereses
41 páginas
Tarea Sesion 2
Aún no hay calificaciones
Tarea Sesion 2
5 páginas
Escala de calidad de vida en discapacidad intelectual
Aún no hay calificaciones
Escala de calidad de vida en discapacidad intelectual
16 páginas
Procedimiento Calibracion
Aún no hay calificaciones
Procedimiento Calibracion
14 páginas
Análisis de Frecuencias Estadísticas UAPA
Aún no hay calificaciones
Análisis de Frecuencias Estadísticas UAPA
6 páginas
Modelos de Regresión Cualitativa y Probabilística
Aún no hay calificaciones
Modelos de Regresión Cualitativa y Probabilística
4 páginas
Gestión de Riesgos en Río Huatanay
Aún no hay calificaciones
Gestión de Riesgos en Río Huatanay
39 páginas
Distribuciones Discretas de Probabilidad
0% (1)
Distribuciones Discretas de Probabilidad
6 páginas
Estadística y Análisis de Internet en Decisiones
67% (3)
Estadística y Análisis de Internet en Decisiones
12 páginas
Deber Estadistica
Aún no hay calificaciones
Deber Estadistica
7 páginas
4.3 Riesgo de Un Activo Individual
Aún no hay calificaciones
4.3 Riesgo de Un Activo Individual
8 páginas
Probabilidades en Accidentes y Mediciones
Aún no hay calificaciones
Probabilidades en Accidentes y Mediciones
14 páginas
Probabilidades en Distribución Binomial y Poisson
Aún no hay calificaciones
Probabilidades en Distribución Binomial y Poisson
2 páginas
Ley de Laplace y Ejemplos de Probabilidad
100% (1)
Ley de Laplace y Ejemplos de Probabilidad
3 páginas
Tabla de Distribucion de Frecuencias para Datos Agrupados
100% (4)
Tabla de Distribucion de Frecuencias para Datos Agrupados
13 páginas
Ejercicios de Distribuciones Discretas en Estadística
Aún no hay calificaciones
Ejercicios de Distribuciones Discretas en Estadística
2 páginas
Axiomas de Probabilidad y Ejemplos
100% (2)
Axiomas de Probabilidad y Ejemplos
4 páginas
Ejercicios Resueltos de Prueba de Hipótesis PDF
100% (1)
Ejercicios Resueltos de Prueba de Hipótesis PDF
5 páginas
Generación y Análisis de Variables Aleatorias en Matlab
Aún no hay calificaciones
Generación y Análisis de Variables Aleatorias en Matlab
3 páginas
Cuestionario de Hidrología: Precipitación
Aún no hay calificaciones
Cuestionario de Hidrología: Precipitación
10 páginas
Simulación de Humidificación en Torres
Aún no hay calificaciones
Simulación de Humidificación en Torres
24 páginas
Análisis de Regresión en Experimentos
100% (1)
Análisis de Regresión en Experimentos
15 páginas
Cirsoc 102 (2005)
100% (1)
Cirsoc 102 (2005)
301 páginas
Construcción de Diagramas de Caja y Brazos
Aún no hay calificaciones
Construcción de Diagramas de Caja y Brazos
5 páginas
Ejercicios Avanzados de Estadística
100% (1)
Ejercicios Avanzados de Estadística
6 páginas
Problemas de Distribuciones Estadísticas
0% (3)
Problemas de Distribuciones Estadísticas
4 páginas
Análisis de Precipitaciones en La Encañada
Aún no hay calificaciones
Análisis de Precipitaciones en La Encañada
24 páginas
Análisis Estadístico: Moda, Mediana y Más
0% (1)
Análisis Estadístico: Moda, Mediana y Más
15 páginas
Introducción a la Geoestadística
85% (13)
Introducción a la Geoestadística
146 páginas
Pronósticos Cuantitativos en Operaciones
Aún no hay calificaciones
Pronósticos Cuantitativos en Operaciones
34 páginas
Primer Examen Parcial de Fundamentos de Estadística
100% (2)
Primer Examen Parcial de Fundamentos de Estadística
10 páginas
Distribuciones de Probabilidad Discreta y Continua para Ingenieria
Aún no hay calificaciones
Distribuciones de Probabilidad Discreta y Continua para Ingenieria
45 páginas