Estadistica
Estadistica
Estadística Básica
2
Copyright ©1 de octubre de 2019
Guillermo Ayala
[Link]@[Link]
This work is free. You can redistribute it and/or modify it under the terms of
the Do What The Fuck You Want To Public License, Version 2, as published by
Sam Hocevar. See [Link] for more details.
ii
Índice general
1 Datos y R 1
1.1 Bibliografía comentada . . . . . . . . . . . . . . . . . 1
1.2 Lo primero . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Lectura y escritura de datos . . . . . . . . . . . . . . . 3
1.3.1 Con Calc de LibreOffice . . . . . . . . . . . . . 4
1.3.2 Lectura de un fichero texto . . . . . . . . . . . 5
1.4 Sobre lo imprescindible en R . . . . . . . . . . . . . . 5
1.4.1 La función c . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Selección de casos . . . . . . . . . . . . . . . . 6
1.5 Algunas cosas útiles R . . . . . . . . . . . . . . . . . . 8
1.5.1 De cómo guardar un dibujo . . . . . . . . . . . 8
1.5.2 De cómo conseguir ayuda con R . . . . . . . . 8
1.5.3 De cómo trabajar con R . . . . . . . . . . . . . 8
1.6 Seguimos con lo básico de R . . . . . . . . . . . . . . . 9
1.7 Dato faltante . . . . . . . . . . . . . . . . . . . . . . . 12
1.8 Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.1 Datos de precipitaciones y temperaturas en la
Comunidad Valenciana . . . . . . . . . . . . . . 12
1.8.2 Concentraciones de ozono . . . . . . . . . . . . 14
2 Estadística descriptiva 15
2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Descriptivas numéricas . . . . . . . . . . . . . . . . . . 16
2.2.1 Media muestral . . . . . . . . . . . . . . . . . . 16
2.2.2 Media ajustada . . . . . . . . . . . . . . . . . . 17
2.2.3 Percentiles . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Varianza y desviación estándar muestrales . . . 19
2.2.5 Rango . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Rango intercuartílico . . . . . . . . . . . . . . 20
2.2.7 La función genérica summary . . . . . . . . . . 20
2.2.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 21
2.3 Descripciones gráficas de los datos . . . . . . . . . . . 21
2.3.1 Añadimos variables y seleccionamos casos o va-
riables . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Frecuencias . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Histograma . . . . . . . . . . . . . . . . . . . . 23
2.3.4 Diagramas de cajas . . . . . . . . . . . . . . . . 23
2.3.5 Estimadores kernel de la densidad . . . . . . . 24
2.3.6 Función de distribución muestral . . . . . . . . 25
2.3.7 Buscando datos anómalos . . . . . . . . . . . . 25
2.3.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 27
2.4 Un dibujo . . . . . . . . . . . . . . . . . . . . . . . . . 28
iii
iv ÍNDICE GENERAL
3 Probabilidad 33
3.1 Determinismo e incertidumbre . . . . . . . . . . . . . . 33
3.2 Probabilidad y sus reglas . . . . . . . . . . . . . . . . 33
3.2.1 Lenguaje y notación . . . . . . . . . . . . . . . 34
3.2.2 Reglas de la probabilidad . . . . . . . . . . . . 35
3.3 La fórmula de Laplace . . . . . . . . . . . . . . . . . . 38
3.3.1 Un poco de teoría . . . . . . . . . . . . . . . . 39
3.4 Probabilidad condicional . . . . . . . . . . . . . . . . . 40
3.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . 40
3.6 Una aplicación de la independencia y de la probabilidad
condicional: el pueblo contra Collins . . . . . . . . . . 41
3.7 Teorema de la probabilidad total . . . . . . . . . . . . 44
3.7.1 Encuesta sobre cuestiones delicadas . . . . . . . 44
3.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . 45
3.8.1 Padre a cara o cruz . . . . . . . . . . . . . . . . 46
3.8.2 Filtrado del correo spam . . . . . . . . . . . . . 47
3.9 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.10 Simulando un experimento con sample . . . . . . . . . 50
3.10.1 Contando: variaciones, permutaciones y combi-
naciones . . . . . . . . . . . . . . . . . . . . . 53
3.10.2 Ejercicios . . . . . . . . . . . . . . . . . . . . . 56
4 Variables aleatorias 59
4.1 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . 60
4.2 La variable aleatoria como modelo probabilístico . . . 60
4.3 Función de distribución de una variable aleatoria . . . 62
4.4 Variable aleatoria discreta . . . . . . . . . . . . . . . . 64
4.4.1 Función de probabilidad o cuantía . . . . . . . 65
4.4.2 Ejercicios . . . . . . . . . . . . . . . . . . . . . 66
4.4.3 Relación con la función de probabilidad y la de
distribución . . . . . . . . . . . . . . . . . . . . 66
4.4.4 Media y varianza de una variable aleatoria dis-
creta . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.5 Variables aleatorias discretas más notables . . . 69
4.4.6 Modelo binomial . . . . . . . . . . . . . . . . . 70
4.4.7 Media y varianza de una variable binomial . . 76
4.4.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . 77
4.5 Variable aleatoria continua . . . . . . . . . . . . . . . 78
4.5.1 Función de densidad de probabilidad . . . . . . 79
4.5.2 Relación entre la función de densidad y la de
distribución . . . . . . . . . . . . . . . . . . . . 80
4.5.3 Media y varianza de una variable aleatoria con-
tinua . . . . . . . . . . . . . . . . . . . . . . . . 80
4.5.4 Variable aleatoria uniforme . . . . . . . . . . . 80
4.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6.1 Variable aleatoria normal . . . . . . . . . . . . 83
4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.7.1 Aproximación de la binomial mediante la normal 90
5 Distribución muestral 93
5.1 Población y muestra aleatoria . . . . . . . . . . . . . . 93
5.2 Distribución muestral de una variable binomial . . . . 93
5.2.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 95
5.3 Distribución muestral de la media bajo normalidad . . 95
ÍNDICE GENERAL v
5.3.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 98
5.4 Distribución muestral de la media en poblaciones no
normales. Teorema central del límite . . . . . . . . . . 99
5.4.1 Aproximación de la distribución binomial . . . 99
5.4.2 Ilustración del teorema central del límite . . . . 99
5.4.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . 100
6 Estimación 101
6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2 La población . . . . . . . . . . . . . . . . . . . . . . . 101
6.3 Estimación puntual . . . . . . . . . . . . . . . . . . . . 102
6.4 Algunas definiciones . . . . . . . . . . . . . . . . . . . 103
6.5 Estimación puntual de la media . . . . . . . . . . . . . 104
6.6 Intervalo de confianza para la media . . . . . . . . . . 104
6.6.1 Asumimos que conocemos la varianza . . . . . 104
6.6.2 No asumimos la varianza conocida . . . . . . . 107
6.6.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . 113
6.7 Error absoluto y tamaño de la muestra . . . . . . . . . 113
6.7.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 116
6.8 Estimación de la varianza en poblaciones normales . . 117
6.8.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 118
6.9 Estimación de una proporción . . . . . . . . . . . . . . 118
6.9.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 120
6.10 Tamaño de la muestra en la estimación de una proporción120
6.10.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . 121
Datos y R
Introducción
Este texto no es más que unas notas de clase con una introducción
a la Estadística básica. Los datos que utilizamos son, en lo posible,
de aplicaciones medioambientales. Sin embargo, las técnicas estadíti-
cas son esencialmente las mismas y con una presentación similar a la
que podemos encontrar en, por ejemplo, un texto de Bioestadística.
Por esta razón en la bibliografía se incluyen buenas referencias biblio-
gráficas de Estadística aplicada a datos medioambientales y a otros
tipos de datos. No asumimos ningún tipo de conocimiento previo de la
Probabilidad. Intentar estudiar Estadística con una orientación (muy
fuertemente) aplicada es inútil si no se dispone de una herramienta
informática de calidad. En nuestro caso la herramienta es [10, R]. 1
La sección § 1.1 comenta las referencias básicas de donde sacamos
el material de la asignatura. En la sección § 1.8 describimos algunos
de los ficheros de datos que utilizamos. 2
1
2 CAPÍTULO 1. DATOS Y R
1.2 Lo primero
Vamos a empezar con el manejo básico del lenguaje R. Una vi-
sión general del software y sus posibilidades la podemos encontrar en
[Link]
quiera de las otras y abandonad Windows. Si alguna persona usa Linux que me
consulte.
1.3. LECTURA Y ESCRITURA DE DATOS 3
library(UsingR)
1 182 154 82 62
2 180 79
3 183 209 64 93
4 205 224 88 100
5 239 255 112 123
6 267 275 149 150
7 302 303 183 180
8 310 313 189 195
9 291 287 181 164
10 241 237 139 119
11 211 201 90 90
12 176 166 70 54
este curso todo el software que se utiliza es software libre. Soy de la opinión de
que en educación se debe utilizar exclusivamente software libre.
5 Tiene la ventaja de que no confundimos con la coma decimal.
1.4. SOBRE LO IMPRESCINDIBLE EN R 5
x = [Link](file="../data/temperaturas_Alicante_39-[Link]",
dec=".",sep = ";",header = TRUE)
1.4.1 La función c
Otro modo (menos elegante) de declararle a R datos es la siguiente.
x = c(35.84122,28.95458,36.02971,33.13809,39.55091,39.48182,27.52009,32.58105,
31.54865,36.73312,33.87558,30.05730,29.45515,38.70321,34.80034,35.86523,
32.76480,35.94576,30.44356,38.75483,31.21475,33.15148,36.17373,28.34059,
40.52086,39.34035,34.26828,41.92718,34.83630,43.46855)
La función c nos sirva para concatenar uno detrás de otro los datos
numéricos. Veamos si lo hemos hecho bien.
x
x[1]
## [1] 35.84122
x[13]
## [1] 29.45515
Podemos ver los datos que están entre el 13 y el 23. Para ello
fijémonos en el siguiente código.
13:23
## [1] 13 14 15 16 17 18 19 20 21 22 23
x[13:23]
Podemos tener interés en saber los valores de los datos que ocupan
las posiciones 7, 9 y de la 20 a la 25. Estas posiciones las podemos
obtener con
1.4. SOBRE LO IMPRESCINDIBLE EN R 7
c(7,9,20:25)
## [1] 7 9 20 21 22 23 24 25
x[c(7,9,20:25)]
Puede que nuestro interés en ver los datos no venga dado por la
posición que ocupan sino por su valor. Por ejemplo, queremos saber
cuántos de estos datos superan o son iguales a 35. ¿Cómo lo hacemos?
Lo lógico es comparar los valores de x con 35. Lo hacemos con
x >= 35
Nos devuelve los datos que ocupan las posiciones donde se daba la
condición, donde la condición era cierta. Podemos saber qué valores
toman los datos que son mayores que 37 con
o bien los datos que son mayores que 35 y menores o iguales que
37.
library(ggplot2)
df = [Link](x)
p = ggplot(df,aes(x=x)) + geom_histogram()
ggsave("figures/[Link]",p)
[Link]()
?hist
O simplemente,
help(hist)
programa.
1.6. SEGUIMOS CON LO BÁSICO DE R 9
8 No es mi opinión. Encuentro mucho más difícil esta opción pero para gustos
...
10 CAPÍTULO 1. DATOS Y R
library(datasets)
help(airquality)
attach(airquality)
Ozone[1:5]
## [1] 41 36 12 18 NA
Ozone[100]
## [1] 89
c(Ozone[23],Month[23])
## [1] 4 5
which(Month == 5)
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
## [16] 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
## [31] 31
Ozone[which(Month == 5)]
## [1] 41 36 12 18 NA 28 23 19 8 NA 7
## [12] 16 11 14 18 14 34 6 30 11 1 11
## [23] 4 32 NA NA NA 23 45 115 37
length(which(Month == 5))
## [1] 31
length(which(Month == 6))
## [1] 30
length(which(Month == 7))
## [1] 31
Una forma bastante más sencilla de hacerlo es hacer una tabla que
nos lo cuente. Por ejemplo con
table(Month)
## Month
## 5 6 7 8 9
## 31 30 31 31 30
[Link](Ozone)
## [1] 117
airquality[[Link](Ozone),]
sqrt(Ozone)[1:5]
## [1] 1 29 30 40 62 63 66 67 68 69 70
## [12] 71 77 79 80 81 85 86 88 89 90 91
## [23] 92 96 98 99 100 101 104 106 109 112 116
## [34] 117 118 120 121 122 123 124 125 126 127 128
## [45] 134 139
12 CAPÍTULO 1. DATOS Y R
1 182 154 82 62
2 NA 180 NA 79
3 183 209 64 93
4 205 224 88 100
5 239 255 112 123
6 267 275 149 150
7 302 303 183 180
8 310 313 189 195
9 291 287 181 164
10 241 237 139 119
11 211 201 90 90
12 176 166 70 54
1.8 Datos
En este curso usaremos distintos bancos de datos. Algunos de ellos
son datos propios que podéis encontrar en el Aula Virtual.
ANYO Año.
ALTITUD En metros.
CX Coordenada geográfica x.
CY Coordenada geográfica y.
ANYO Año.
ALTITUD
CX Coordenada geográfica.
CY Coordenada geográfica.
ANYO Año.
ALTITUD En metros.
14 CAPÍTULO 1. DATOS Y R
CX Coordenada geográfica.
CY Coordenada geográfica.
PMES77 Es la precipitación mensual obtenida sumando las precipi-
taciones diarias de 7 de la mañana de un día a 7 de la mañana
del día siguiente.
PMAX Es la precipitación diaria máxima en ese mes. No se indica
el día que se produjo.
Estadística descriptiva
2.1 Introducción
Tenemos unos datos numéricos. Ejemplos de datos medio ambien-
tales son temperaturas o precipitaciones observados en una localiza-
ción geográfica y un día determinado. Podemos tener muestras de agua
en las que determinamos la demanda química o biológica de oxígeno.
15
16 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
si están próximos entre sí. Por último, nos planteamos si tenemos datos
que son anormales. Obviamente lo que es anormal depende de cómo
son los otros. Por ejemplo, si medimos nivel de radioactividad cerca
de un reactor nuclear podemos observar valores que serían anormales
si los agrupamos con mediciones tomadas en una zona muy alejada
de cualquier central nuclear. Sin embargo, no lo son en el entorno de
dicha central.
x = c(0.32,0.36,0.24,0.11,0.11,0.44,2.79,2.99,3.47,0.23,0.55,
3.21,4.02,0.23)
mean(x)
## [1] 1.362143
length(x)
## [1] 14
sum(x)/length(x)
## [1] 1.362143
(xx = c(x,34))
mean(x)
## [1] 1.362143
mean(xx)
## [1] 3.538
mean(x,trim=.1)
## [1] 1.245
mean(x,trim=.1)
## [1] 1.245
mean(xx,trim=.1)
## [1] 1.458462
2.2.3 Percentiles
Otro manera de localizar los datos es utilizar los percentiles mues-
trales. Supongamos que tomamos un valor p entre 0 y 1. El percentil
de orden p es un valor que tiene por debajo el 100 × p por ciento de
los datos y por encima el 100 × (1 − p) por ciento. Denotaremos el
percentil de orden p como qp . De un modo algo más formal podemos
definir un percentil de orden p como el valor qp tal que
|{xi : xi ≤ qp }
≥p (2.2)
n
y
|{xi : xi ≥ qp }
≥1−p (2.3)
n
Ordenamos nuestros datos de menor a mayor con la función sort.
sort(x)
## [1] 0.11 0.11 0.23 0.23 0.24 0.32 0.36 0.44 0.55
## [10] 2.79 2.99 3.21 3.47 4.02
Fn = ecdf(x)
Fn(1)
## [1] 0.6428571
median(x)
## [1] 0.4
quantile(x,probs = 0.27)
## 27%
## 0.2351
1 Cosa antigua en franco retroceso y que no está prohibido hacer. El inconve-
O bien p = 0.76
quantile(x,probs = 0.76)
## 76%
## 2.966
quantile(x,probs = c(0.25,0.75))
## 25% 75%
## 0.2325 2.9400
quantile(x,probs = c(.25,.5,.75))
var(x)
## [1] 2.32071
sd(x)
## [1] 1.523388
2.2.5 Rango
El mínimo y el máximo lo podemos obtener con
20 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
range(x)
o bien con
min(x)
## [1] 0.11
max(x)
## [1] 4.02
max(x)-min(x)
## [1] 3.91
o bien con
diff(range(x))
## [1] 3.91
IQR(x)
## [1] 2.7075
summary(x)
2.2.8 Ejercicios
Ej. 3 — Consideremos los siguientes datos.
## [1] 22.03496 38.72421 26.08120 41.88097 43.79577
## [6] 13.96840 30.05176 42.19433 30.82933 27.66897
## [11] 44.34126 27.55963 35.03343 31.53587 15.88048
## [16] 42.44117 20.65210 13.85184 23.37960 44.26361
## [21] 42.09835 35.54114 33.79809 45.58901 34.30467
## [26] 36.06532 30.58372 32.25275 22.08769 17.35330
## [31] 44.54760 42.52363 35.47121 38.96293 13.27037
## [36] 28.37494 37.72946 19.66288 23.05497 20.17009
## [41] 17.20952 26.26683 26.23943 24.74362 17.53098
## [46] 17.07641 20.21703 27.98053 21.31487 41.04140
## [51] 13.97755 27.18853 39.07817 16.51290 31.14640
## [56] 19.33369 16.70063 37.55775 42.28186 24.93084
## [61] 34.61829 15.61104 25.24771 21.59521 39.60195
## [66] 27.39905 39.44944 39.52694 38.92543 27.10959
## [71] 37.59666 33.42194 36.12038 12.47082 28.29230
## [76] 19.78656 25.10929 32.87366 24.17542 16.15414
## [81] 20.56984 34.71629 26.37017 38.72057 15.87848
## [86] 26.94498 45.27862 42.21539 41.99601 18.28450
## [91] 16.80609 34.21789 23.89940 34.33975 23.12804
## [96] 18.70575 38.52387 15.56952 28.00775 29.49848
## [101] 32.44763 23.54301 28.73547 44.26261 28.54514
## [106] 42.12537 42.92822 32.73914 26.13829 17.35267
## [111] 43.62354 22.48996 14.47382 44.03774 36.46747
## [116] 17.19267 30.75766 44.24986 31.96416 25.93233
Se pide:
[Link] los datos utilizando el método que se prefiera.
[Link] la media, mediana, media recortada con una proporción
del 0.05, los percentiles de orden 0.1 y 0.9.
[Link] que se han seguido recogiendo datos. En concreto
una segunda muestra con los siguientes valores.
c(123.34, 78.23, 89.6, 1.2)
## [1] 123.34 78.23 89.60 1.20
y = c(1,1,1,1,1,1,1,1,2,2,2,2,2,2)
2.3.2 Frecuencias
La segunda variable que hemos introducido en el banco de datos
es la zona en que tomamos la medida. Es pues una variable categórica
que nos indica la pertenencia del dato a una categoría, en este caso, la
zona en que se observa el dato. La descripción básica más simple son
los conteos o frecuencias absolutas. Contamos el número de veces que
se repiten cada una de las categorías. Tendremos el número de datos
que se ha observado en cada zona. Los obtenemos de un modo simple
con la función table.
table(y)
## y
## 1 2
## 8 6
[Link](table(y))
## y
## 1 2
## 0.5714286 0.4285714
sum(table(y))
## [1] 14
table(y)/sum(table(y))
## y
## 1 2
## 0.5714286 0.4285714
library(ggplot2)
df = [Link](y)
ggplot(df,aes(x=y))+geom_bar()
2.3.3 Histograma
Para una variable cuantitativa una buena opción para observar la
distribución de los datos es un histograma. La idea de un histograma es
(demasiado) simple. Si x1 , . . . , xn son los datos de los cuales queremos
construir el histograma consideramos el intervalo que va del mínimo
al máximo, es decir, el intervalo
donde
b−a
δ=
k
Dependiendo del software que utilicemos los valores de a y b suelen
elegirse como un poco menos que el mínimo y un poco más que el
mínimo. El número de clases se elige de un modo automático pero
siempre modificable por el usuario. Contamos el número de datos
que hay en cada clase. Representamos una barras (que se representan
pegadas una con otra lo que también nos permite diferenciarlo de un
diagrama de barras) cuya base coincide con el subintervalo y cuya
altura es proporcional al número de datos que hemos observado en
dicho subintervalo. Este es el dibujo. Veamos cómo hacerlo con R.
Si no le indicamos nada el programa decide el número de clases o
subintervalos (figura 2.2).
library(ggplot2)
df = [Link](x)
ggplot(df,aes(x=x))+geom_histogram()
df = [Link](x)
ggplot(df,aes(y=x))+geom_boxplot()
Vamos a añadir a los datos que tenemos unos cuantos valores ex-
tremos. En concreto que sean mucho mayores que los que tenemos
df = [Link](x1)
ggplot(df,aes(y=x1))+geom_boxplot()
No parece que sea la mejor opción (es una opinión claro). Quizás
la mayor utilidad de un diagrama de cajas es comparar submuestras,
esto es, partes distintas de la muestra. Por ejemplo, para los grupos
definidos por la variable categórica y (figura 2.5).
Figura 2.4: Diagrama de cajas
añadiendo casos extremos.
df = [Link](x,y)
ggplot(df,aes(y=x,group=y))+geom_boxplot()
y
K(−u) = K(u),
es decir, es simétrica respecto del origen. Diversos ejemplos se pueden
encontrar en [Link]
En la figura 2.6 aparece un estimador kernel de la densidad utili-
zando una función kernel gaussiana.
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 25
df = [Link](x)
ggplot(df,aes(x=x))+geom_density()
df = [Link](x)
ggplot(df,aes(x=x))+stat_ecdf(geom = "point")
df = [Link](x)
ggplot(df,aes(x=x))+stat_ecdf(geom = "step")
Si queremos conocer el valor de Fn en un valor determinado, por Figura 2.7: Función de distribu-
ción muestral.
ejemplo para x = 37 podemos hacer
ecdf(x)(37)
## [1] 1
o bien en 40,
ecdf(x)(40)
## [1] 1
Figura 2.8: Función de distribu-
ción muestral.
2.3.7 Buscando datos anómalos
Tenemos unos datos numéricos x1 , . . . , xn y queremos saber si hay
alguno que se sale de madre. Si hay alguno que está muy alejado de los
demás. Que es anómalo. Lo primero es precisar qué entendemos por
dato anómalo.4 Vamos a ver las dos definiciones más habitualmente
utilizadas. En la primera utilizamos media y desviación estándar. En
la segunda utilizamos cuartiles.
La primera es la que más tradición tiene. Dados los datos calcula-
mos su media y desviación típica muestrales: x̄ y s. Se entiende por
dato anómalo aquél que está fuera del intervalo
[x̄ − 3s, x̄ − 3s],
4 La expresión inglesa es outlier.
26 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
x2 = c(x,c(0,9,14))
## numeric(0)
## [1] 14
## numeric(0)
## [1] 14
es decir, el mismo.
El segundo procedimiento utiliza los cuartiles. Denotemos por q25
y q75 los percentiles de orden 25% y 75%, esto es, los cuartiles inferior
y superior. El rango intercuartílico sería
Puede ser extremo por abajo si es menor que q25 − 1.5 × IQR o por
arriba si es mayor que q75 + 1.5 × IQR. Determinemos los extremos
del intervalo.
## 25%
## -4.24
## 75%
## 7.68
2.3. DESCRIPCIONES GRÁFICAS DE LOS DATOS 27
## numeric(0)
## [1] 9 14
Detecta los dos puntos extremos por arriba. En fin, no nos ha ido
mal con este método de detección. No obstante, el más habitual es el
primero de los procedimientos propuestos.
2.3.8 Ejercicios
Ej. 4 — Vamos a realizar distintas representaciones gráficas con los
datos del ejercicio 3. Se pide lo siguiente:
[Link] distintos histogramas de los datos que aparecen en el
ejercicio 3 modificando el número de clases. ¿Hay un comporta-
miento consistente en la representación gráfica?
[Link] gráficamente un estimador kernel de la densidad.
Observar el valor que se ha utilizado para el ancho de banda.
[Link] el valor del ancho de banda observado en el apartado
2 doblando su valor y volver a representar el estimador kernel de
la densidad.
[Link] el valor del ancho de banda observado en el apartado
2 considerando la mitad de su valor y volver a representar el
estimador kernel de la densidad.
[Link] los tres estimadores kernel que hemos obtenido. ¿Qué
ocurre cuando incrementamos el ancho de banda? ¿Y cuando lo
disminuimos?
2.4 Un dibujo
En esta sección vamos a realizar un dibujo a partir de unos datos.
El objetivo es mostrar cómo estudiar la relación entre dos variables,
cómo hacerlo con R mostrando las dificultades con las que nos encon-
tramos. Los datos que vamos a utilizar son las temperaturas mínimas
y máximas por mes en Alicante desde el año 1939 hasta el año 2010.
Leemos los datos y adjuntamos para poder usar los nombres de las
variables.
xt = [Link]("../data/alicante_temperaturas_anyo_1939_2010.txt")
xt = [Link](xt)
Nos fijamos en el mes de enero. Las variables que nos dan la tem-
peratura mínima y máxima (en décimas de grado) en enero son tmin1
y tmax1 respectivamente. La variable anyo nos indica el año.
2.4. UN DIBUJO 29
library(ggplot2)
ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_point()
En la figura 91 vemos que las etiquetas que utiliza para las abscisas
y ordenadas no son muy adecuadas. Usa el nombre de las variables.
Vamos a cambiarlas indicando para abscisas la etiqueta “año” y para
ordenadas “Temperatura”.
mean(xt[,"tmin1"])
## [1] NA
(m1 = mean(xt[,"tmin1"],[Link]=TRUE))
## [1] 62.39437
(m2 = mean(xt[,"tmax1"],[Link]=TRUE))
## [1] 167.0563
png("figures/[Link]")
p = ggplot(data = xt,aes(x=anyo,y=tmin1)) + geom_line()
p = p + geom_line(aes(x=anyo,y=tmax1))
p = p + xlab("Año") + ylab("Temperatura")
p = p + geom_hline(yintercept=mean(tmax1,[Link]=TRUE),
linetype="dashed", color = "red")
p + geom_hline(yintercept=mean(tmin1,[Link]=TRUE),
linetype="dashed", color = "red")
[Link]()
Capítulo 3
Probabilidad
33
34 CAPÍTULO 3. PROBABILIDAD
P (A o B) = P (A) + P (B).
P (A) + P (Ac ) = 1,
m casos favorables
P (A) = = .
n casos posibles
Al lanzar dos dados, la probabilidad del suceso A={la suma de las
caras es 8} vale, teniendo en cuenta que los m resultados que contiene
A son {(2,6);(3,5);(4,4);(5,3);(6,2)},
5
P (A) = .
36
La fórmula de Laplace podríamos también aplicarla al experimento
de extraer una bola de la urna con bolas blancas, azules y rojas. Su-
pongamos que la urna tiene un total de n, de las cuales nb son blancas,
na son azules y nr son rojas, de tal manera que las correspondientes
proporciones son b = nb /n, a = na /n y r = nr /n. La extracción al
azar garantiza que cada bola tiene la misma probabilidad de ser ex-
traída y como nb de ellas constituyen el suceso B, na constituyen el
suceso A y nr de ellas constituyen el suceso R, aplicando la fórmula
de Laplace,
nb na nr
P (B) = = b, P (A) = = a, P (R) = = r.
n n n
3.3. LA FÓRMULA DE LAPLACE 39
2. P (Ω) = 1.
Ω = {(1, 1), (1, 2), (1, 3), . . . , (6, 4), (6, 5), (6, 6)}.
La probabilidad del suceso
A = {el producto de ambas caras es 12} = {(2, 6), (3, 4), (4, 3), (6, 2)}
casos favorables a A 4 1
P (A) = = = .
casos posibles 36 9
Supongamos que, previamente a nuestra respuesta, sabemos de la
ocurrencia del suceso B ={la suma de las caras vale 8}. Este conoci-
miento previo sin duda alterará la probabilidad del suceso A anterior.
En efecto, es lógico incorporar la nueva información al proceso de ob-
tención de las probabilidades de los sucesos, lo que supone revisar el es-
pacio muestral y sustituirlo por B = {(2, 6), (6, 2), (3, 5), (5, 3), (4, 4)}.
La nueva probabilidad de A vendrá dada por
casos favorables a A en B 2
P ∗ (A) = = ,
casos posibles en B 5
Esta nueva probabilidad, P ∗ , recibe el nombre de probabilidad
de A condicionada a B y se la representa mediante P (A|B). Puede
comprobarse con facilidad que se verifica
P (A ∩ B)
P (A|B) = , (3.4)
P (B)
3.5 Independencia
La noción de independencia transcribe la carencia de relación en-
tre dos sucesos. La aproximación más intuitiva al concepto se hace
a través de la probabilidad condicional. En efecto, cuando obtene-
mos P (A|B) estamos viendo de qué manera la ocurrencia de B altera
nuestro conocimiento de P (A). Pero ocurre que en ocasiones este co-
nocimiento no nos aporta nada. Veamos un ejemplo.
Del mazo de una baraja española con 48 cartas, 12 de cada palo,
extraemos al azar una carta y nos interesamos por el suceso A={la
carta es un as}. Aplicando la fórmula de Laplace concluimos con fa-
cilidad que
4 1
P (A) = P (As) = = .
48 12
Si se nos informa previamente de que la carta extraída es una copa,
modificaremos la anterior probabilidad sustituyéndola por P (A|B),
3.6. UNA APLICACIÓN DE LA INDEPENDENCIA Y DE LA PROBABILIDAD CONDICIONAL: EL P
Característica Probabilidad
1
Automóvil amarillo 10
1
Varón con bigote 4
1
Mujer con cola de caballo 10
1
Mujer rubia 3
1
Varón negro con barba 10
1
Pareja interracial en coche 1000
P (A) P (A ∩ B)
= = P (A|B),
P (B) P (B)
3.6. UNA APLICACIÓN DE LA INDEPENDENCIA Y DE LA PROBABILIDAD CONDICIONAL: EL P
fórmula que se apoya en algo tan evidente como que la segunda bola es
negra y la primera puede haber sido de cualquiera de los tres colores.
Una observación posterior nos hace caer en la cuenta de que es muy
sencillo obtener la probabilidad de N2 condicionado a cualquiera de los
resultados obtenidos en la primera extracción, porque sólo necesitamos
pensar en el cambio que ha sufrido la composición de la urna. Así,
P (N2 |R1 ) = 3/8, porque la urna tiene ahora un bola menos, 8, pero
las bolas negras continúan siendo tres porque la primera fue roja.
Reescribamos pues (3.7) haciendo uso de la definición de probabilidad
condicional y obtendremos,
1
P (N2 ) = P (N2 |R1 )P (R1 ) + P (N2 |N1 )P (N1 ) + P (N2 |B1 )P (B1 ) = .
3
El resultado2 se generaliza con facilidad cuando tenemos una par-
tición, Ai , i = 1, . . . , n, de Ω y es conocido como el teorema de la
probabilidad total, cuya expresión más general es
X
n
P (B) = P (B|Ai )P (Ai ), (3.8)
i=1
Sustituyendo,
0, 25 = P (si|pregunta delicada) × 0, 7 + 0, 5 × 0, 3,
y despejando,
0, 25 − 0, 15
P (si|pregunta delicada) = ≈ 0, 14
0, 7
Es obvio que P (si|pregunta intrascendente) ha de ser conocida
muy aproximadamente, como en el caso de la terminaciones del DNI,
que por mitades deben de ser pares o impares.
P (B|A)P (A)
P (A|B) = .
P (B|A)P (A) + P (B|Ac )P (Ac )
3.8. TEOREMA DE BAYES 47
1.0
1.0
para valores de P (A) entre 0 y 0,1 y pone en evidencia la importancia
0.8
0.8
crucial que la elección de P (A) tiene, observándose que valores bajos,
0.6
0.6
P(A|B)
P(A|B)
y nada hay en contra de que sean posibles, dan lugar a valores de
0.4
0.4
P (A|B) que difícilmente condenan a cualquiera.
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.02 0.04 0.06 0.08 0.10
Otra interesante aplicación de la fórmula de Bayes es el filtrado de Figura 3.1: Valores de P (A|B) en
función de P (A)
correo spam que llevan a cabo los servidores de correo. Los mensajes
son analizados para detectar la presencia de de determinadas palabras
en este tipo de correos. Veamos un ejemplo sencillo de cómo funcionan
estos filtros.
Supongamos que una de las posibles palabras o frase clave en los
correos spam es “dinero fácil”. Comencemos como siempre definiendo
y denotando los sucesos que nos interesan:
P (F |S)P (S)
P (S|F ) = .
P (F |S)P (S) + P (F |S c )P (S c )
Sustituyendo en la fórmula,
0, 06 × 0, 45 0, 027
P (S|F ) = = = 0, 9075.
0, 06 × 0, 45 + 0, 005 × 0, 55 0, 00275 + 0, 02975
3.9 Ejercicios
Ej. 7 — Consideremos la Lotería Nacional. Se juegan N números.
Consideremos dos posibles espacios muestrales:
[Link] formado por dos resultados uno consistente en ganar y otro
en perder. ¿Son resultados equiprobables?
[Link] segundo sería el que tiene como elemento el número que ob-
tenemos en el sorteo. ¿Son resultados equiprobables?
Omega = c("cara","cruz")
sample(Omega,1)
## [1] "cara"
sample(Omega,1)
## [1] "cara"
sample(Omega,1)
## [1] "cruz"
sample(Omega,30,replace=TRUE)
Y otras 30 veces.
sample(Omega,30,replace=TRUE)
Podemos contar cuántas veces nos ha salido cara y cruz (el que
quiera puede hacerlo manualmente).
x = sample(Omega,30,replace=TRUE)
table(x)
## x
## cara cruz
## 16 14
table(x) / 30
## x
## cara cruz
## 0.5333333 0.4666667
x = sample(Omega,100,replace=TRUE)
table(x) / 100
## x
## cara cruz
## 0.52 0.48
x = sample(Omega,1000,replace=TRUE)
table(x) / 1000
## x
## cara cruz
## 0.522 0.478
x = sample(Omega,100000,replace=TRUE)
table(x) / 100000
## x
## cara cruz
## 0.49986 0.50014
cada vez más al valor 0.5 para cada uno de los posibles resultados.
Frecuencia relativa de cara
0.51
(Omega = 1:6)
0.52
Frecuencia relativa de cruces
0.51
## [1] 1 2 3 4 5 6
0.50
sample(Omega,1)
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
Lanzamientos ## [1] 3
## [1] 6 1 4 1 5 4 4 1 3 4 3 6 5 2 1 1 5 6 5 3
3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 53
x = sample(Omega,1000,replace=TRUE)
table(x) / 1000
## x
## 1 2 3 4 5 6
## 0.176 0.168 0.167 0.176 0.147 0.166
12 21 13 31 23 32
12 21
{1,2} {2,1}
factorial(10)
## [1] 3628800
choose(10,5)
## [1] 252
## [1] 1098240
(casosposibles = choose(52,5))
## [1] 2598960
casosfavorables / casosposibles
## [1] 0.422569
(cartas = rep(1:13,4))
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 1 2
## [16] 3 4 5 6 7 8 9 10 11 12 13 1 2 3 4
## [31] 5 6 7 8 9 10 11 12 13 1 2 3 4 5 6
## [46] 7 8 9 10 11 12 13
(mano = sample(cartas,5))
## [1] 11 10 12 8 11
(conteosmano = table(mano))
## mano
## 8 10 11 12
## 1 1 2 1
length(conteosmano)
## [1] 4
nsimulaciones = 1000
exitos = 0
for(i in 1:nsimulaciones){
mano = sample(cartas,5)
conteosmano = table(mano)
if(length(conteosmano) == 4) exitos = exitos + 1
}
exitos / nsimulaciones
## [1] 0.416
3.10.2 Ejercicios
Ej. 25 — Tenemos una baraja española. Se pide:
[Link] dos cartas sin reemplazamiento y consideramos el or-
den en que las obtenemos. ¿Cuántos resultados distintos tene-
mos?
2.¿Cuántas parejas distintas podemos formar?
[Link] tres cartas sin reemplazamiento de una baraja. Consi-
derando el orden en que se extraen. ¿Cuántos resultados distintos
tenemos?
3.10. SIMULANDO UN EXPERIMENTO CON SAMPLE 57
Variables aleatorias
59
60 CAPÍTULO 4. VARIABLES ALEATORIAS
E5 Elegir al azar un punto en un S={Los puntos del círculo} X=distancia del punto al centro
círculo de radio 1 Y=longitud de la cuerda que pasa por el punto
y es perpendicular al radio que lo une al centro
S3 X 6 y 7.5, respectivamente.
7,5
{X > 8} = {(3, 6), (6, 3), (4, 5), (5, 4), (4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}
Ejemplo 4.1 Tenemos un urna con 100 bolas, 30 de ellas son blan-
cas, 50 son azules y las 20 restantes son rojas. Llevamos a cabo dos
extracciones con reemplazamiento y definimos las variables
S = {B1 B2 , B1 A2 , B1 R2 , A1 B2 , A1 A2 , A1 R2 , R1 B2 , R1 A2 , R1 R2 },
Del espacio muestral anterior deducimos que las tres variables pue-
den tomar los mismos valores y estos son: 0,1,2. Para obtener las
probabilidades que se nos piden, vamos a determinar con que sucesos
se corresponde cada una de ellas:
{X = 1} = {B1 A2 , B1 R2 , A1 B2 , R1 B2 },
{Z = 2} = {R1 R2 },
{Y = 0} = {B1 B2 , B1 R2 , R1 R2 , R1 B2 },
{X = 1} ∩ {Z = 2} = ∅.
62 CAPÍTULO 4. VARIABLES ALEATORIAS
P (X = 1, Z = 2) = 0.
P(X=3)
0, x < 1;
1/6, 1 ≤ x < 2;
F(x)
3/6
F (x) =
3/6, 2 ≤ x < 3; P(X=2)
1, x ≥ 3. 1/6
P(X=1)
0 1 2 3
X
4.3. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA63
En definitiva,
0.8
0, x < 0;
0.6
x2 , x ∈ [0, 1];
F(x)
FX (x) =
0.4
1, x > 1.
0.2
a la distinta naturaleza de las variables, mientras la primera es cons- −0.5 0.0 0.5 1.0
x 0.000 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000
P (X = x) 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0.000 0.000 0.000
Tabla 4.1: Función de probabilidad de una variable discreta. En la primera fila el valor y en la segunda la probabilidad
de tomar este valor.
df = [Link](x=0:10,probabilidad=dbinom(0:10,size=10,prob=.2))
ggplot(df,aes(x=x,y=probabilidad)) + geom_point()
df = [Link](x=0:10,probabilidad=pbinom(0:10,size=10,prob=.2))
ggplot(df,aes(x=x,y=probabilidad)) + geom_step()
Figura 4.5: Probabilidades de la
tabla 4.1. 1 Para ser rigurosos una variable discreta puede tomar también un número in-
finito numerable de valores. En fin, detalles técnicos a los que no hay que prestar
demasiado interés en un curso como este.
4.4. VARIABLE ALEATORIA DISCRETA 65
fX (x) = P (X = x), ∀x ∈ R.
x fX (x)
0.25
1 1/21
función de probabilidad
2 2/21
0.20
3 3/21
0.15
4 4/21
0.10
5 5/21
6 6/21
0.05
1 2 3 4 5 6
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2),
o bien,
P (X ≥ 7) = P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10).
66 CAPÍTULO 4. VARIABLES ALEATORIAS
También
P (4 ≤ X ≤ 7) = P (X = 4) + P (X = 5) + P (X = 6) + P (X = 7).
P (4 < X ≤ 7) = P (X = 5) + P (X = 6) + P (X = 7).
P (4 < X < 7) = P (X = 5) + P (X = 6).
De un modo genérico podemos escribir que
X
P (X ∈ A) = P (X = x),
x∈A
4.4.2 Ejercicios
Ej. 29 — Consideremos el experimento aleatorio consistente en lan-
zar dos veces un dado. Un resultado del experimento puede ser ω =
(1, 3) indicando que en primer lugar hemos obtenido un 1 y en el se-
gundo lanzamiento hemos obtenido un 3. Consideramos la variable
aleatoria que asocia al resultado obtenido la suma de los valores que
obtenemos en el primer y en el segundo lanzamiento. Si ω = (i, j)
entonces X(ω) = i + j.
[Link] qué valores puede tomar la variable X.
[Link] la función de probabilidad de la variable X.
[Link] las probabilidades siguientes: P (X ≤ 1), P (X ≤ 2), P (X >
2), P (X ≤ 4), P (4 ≤ X ≤ 6), P (4 < X ≤ 6), P (4 ≤ X < 6).
fX (x) = FX (x) − F (x − 0)
σ2 = E(X 2 ) − [E(X)]2
X
6
= i2 fX (i) − µ2
i=1
X6 2
i3 91
= −
i=1
21 21
= 2, 22
√
La desviación típica es la raíz cuadrada de la varianza, σ = 2, 22 =
1, 49.
Ejemplo 4.7 (La media como límite de medias muestrales) Supongamos
que tenemos una variable que puede tomar los valores {0, 9} con pro-
babilidades dadas en la tabla 4.2. El experimento supongamos que
consiste en elegir al azar una vivienda en una gran población (por
ejemplo, Valencia) y observar el número de personas que habitan la
vivienda. En la fila etiquetada con x tenemos el número de personas
y en la fila etiquetada P (X = x) la frecuencia de cada valor posible
que asumimos conocidas.
x 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
P (X = x) 0.20 0.11 0.13 0.24 0.27 0.02 0.01 0.01 0.00 0.01
Tabla 4.2: Función de probabilidad de la variable aleatoria que nos da el número de personas que residen en una
vivienda.
x = 0:9
probabilidades = c(0.20,0.11,0.13,0.24,0.27,0.02,0.015,0.009,
0.0009,0.0051)
sample(x,size=1,replace=TRUE,prob=probabilidades)
## [1] 0
n = 100
(y = sample(x,size=n,replace=TRUE,prob=probabilidades))
## [1] 3 4 1 0 3 3 2 3 3 2 0 4 3 3 0 4 0 3 3 4 4 2
## [23] 9 1 4 2 3 4 0 4 1 3 3 0 1 3 4 4 4 9 0 2 4 1
## [45] 3 3 1 4 4 4 2 4 3 6 0 3 4 3 2 1 3 4 3 4 4 7
## [67] 1 0 4 0 3 2 0 3 5 2 3 4 0 2 4 4 3 1 3 0 3 4
## [89] 3 4 3 2 2 3 4 3 4 3 4 4
[Link](table(y))
## y
## 0 1 2 3 4 5 6 7 9
## 0.13 0.09 0.12 0.31 0.30 0.01 0.01 0.01 0.02
y = sample(x,size=1000,replace=TRUE,prob=probabilidades)
[Link](table(y))
## y
## 0 1 2 3 4 5 6 7
## 0.189 0.101 0.135 0.258 0.265 0.023 0.012 0.008
## 8 9
## 0.002 0.007
## [1] 2.4761
n = 10000
y = sample(x,size=n,replace=TRUE,prob=probabilidades)
df = [Link](x=1:n,y= cumsum(y)/(1:n))
ggplot(df,aes(x=x,y=y))+geom_point()
= a2 σX
2
. (4.6)
lo que supone que la varianza es invariante por traslación y los cambios
de escala le afectan con el cuadrado del factor de escala.
La media de X,
X
n
x1 + x2 + · · · + xn
µ= xi fX (xi ) = ,
i=1
n
12 + 22 + 32 + 42 + 52 + 62 212 525
σ 2 = E(X 2 ) − µ2 = − 2 = = 2, 92.
6 6 36
k 10−k 10
10 1 1 10 1
P (X = k) = · · = · . (4.7)
k 2 2 k 2
0.20
B(20,0.7)
B(20,0.5)
0.15
función de probabilidad
0.10
B(100,0.7)
B(100,0.5)
0.05
0.00
0 20 40 60 80 100
p
n k ··· 1/6 0.20 0.25 ···
10 0 · 0.1615 0.1074 0.0563 ·
1 · 0.3230 0.2684 0.1877 ·
2 · 0.2907 0.3020 0.2816 ·
3 · 0.1550 0.2013 0.2503 ·
4 · 0.0543 0.0881 0.1460 ·
5 · 0.0130 0.0264 0.0584 ·
6 · 0.0022 0.0055 0.0162 ·
7 · 0.0002 0.0008 0.0031 ·
8 · 0.0000 0.0001 0.0004 ·
9 · 0.0000 0.0000 0.0000 ·
10 · 0.0000 0.0000 0.0000 ·
{X ≤ m} = {X = 0 o X = 1 o · · · X = m}
= {X
Sm = 0} ∪ {X = 1} ∪ {X = m}
= k=0 {X = k},
lo que nos permite recurrir a la tabla. Por ejemplo, para una variable
X ∼ B(10, 0.20),
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
= 0.1074 + 0.2684 + 0.3020
= 0.6778.
dbinom(70,size=123,prob=0.5)
## [1] 0.02230619
rbinom(30,size=1,prob=.5)
## [1] 0 0 0 0 0 0 0 1 0 1 1 1 0 1 0 1 1 0 1 1 0 1 0
## [24] 1 1 0 0 1 1 0
rbinom(30,size=1,prob=.5)
## [1] 1 1 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0
## [24] 1 0 1 0 0 1 0
rbinom(1,size=30,prob=.5)
## [1] 20
rbinom(1,size=30,prob=.5)
## [1] 17
rbinom(40,size=30,prob=.5)
## [1] 16 13 14 17 13 12 15 15 12 16 11 16 15 15 18
## [16] 17 17 17 14 16 16 19 14 14 14 16 16 14 17 12
## [31] 13 14 20 19 16 14 17 11 22 13
rbinom(40,size=30,prob=.6)
## [1] 20 18 18 17 17 16 20 13 15 22 20 21 25 21 15
## [16] 16 16 21 20 18 15 18 20 17 21 20 20 24 20 19
## [31] 17 22 22 16 17 15 14 20 20 19
dbinom(23,size=30,prob=.6)
## [1] 0.02634109
dbinom(0:30,size=30,prob=.6)
●
●
## [10] 6.341240e-04 1.997491e-03 5.447702e-03
dbinom(0:30, size = 30, prob = 0.6)
●
●
## [13] 1.293829e-02 2.687184e-02 4.894513e-02
0.10
●
●
## [16] 7.831221e-02 1.101265e-01 1.360387e-01
## [19] 1.473752e-01 1.396186e-01 1.151854e-01
0.05
● ●
● ●
●●●●●●●●●●● ●●●●●
0:30
## [31] 2.210739e-07
Figura 4.9: Para una variable bi- En la figura 4.9 tenemos la representación gráfica de estas proba-
nomial con n = 30 y una proba- bilidades.
bilidad de éxito de p = 0.6 mos- También podemos obtener la función de la distribución binomial
tramos la función de probabilidad
que para cada x nos da la proba-
en cualquier punto, es decir, la probabilidad P (X ≤ 12) es
bilidad de que la variable tome ese
valor, P (X = x). pbinom(12,size=30,prob=.6)
0.20
## [1] 0.02123988
Densidad de una normal N(7,4)
0.15
0 2 4 6 8 10 12 14
4.4.7 Media y varianza de una variable binomial
x
X
n
(n − 1) . . . (n − x + 1)
px−1 (1 − p)n−x
P(X <= x)
0.6
= np
0.4 x=1
(x − 1)!
0.2 X n − 1
n−1
= np py (1 − p)n−y−1 = np
0.0
y=0
y
0 5 10 15 20 25 30
4.4.8 Ejercicios
Ej. 30 — Se pide:
[Link] 100 valores con distribución binomial con 20 pruebas y
una probabilidad de éxito en cada prueba de 0.3. Guardar estos
valores en el vector x.
[Link] la media y varianza muestrales de los valores generados.
[Link] la media muestral observada con 20×0.3 y la varianza
muestral observada con 20 × 0.3 × 0.7 que corresponden con la
media y la varianza teóricas.
[Link] los apartados anteriores sustituyendo las 100 simulacio-
nes por 1000, por 10000 y por 100000. Comparar en cada caso
los valores teóricos con los valores muestrales.
P(a < X ≤ b)
y = fX(x)
fX(x)dx
a b x x+dx
Z b
P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = P (a < X < b) = fX (x)dx.
a
(4.13)
La fdp tiene también dos propiedades equivalentes a las que poseía
la función de probabilidad,
P1) fX (x) es no negativa, y
P2) como P (X ∈ R) = 1,
Z +∞
f (x) dx = 1.
−∞
80 CAPÍTULO 4. VARIABLES ALEATORIAS
o alternativamente,
Z
2
σX = E[(X − µ)2 ] = E(X 2 ) − µ2 = x2 fX (x)dx − µ2 . (4.16)
DX
x = seq(-.2,1.2,.01)
y = dunif(x,min=0,max=1)
df = [Link](x,y)
ggplot(df,aes(x=x,y=y)) + geom_line()
runif(1,min=0,max=1)
## [1] 0.3378739
runif(20,min=0,max=1)
4.6 Ejercicios
Ej. 34 — Consideremos el experimento aleatorio consistente en lan-
zar dos veces un dado. Un resultado del experimento puede ser ω =
(1, 3) indicando que en primer lugar hemos obtenido un 1 y en el se-
gundo lanzamiento hemos obtenido un 3. Consideramos la variable
aleatoria que asocia al resultado obtenido la suma de los valores que
obtenemos en el primer y en el segundo lanzamiento. Si ω = (i, j)
entonces X(ω) = i + j. Se pide:
[Link] la función de distribución de la variable aleatoria X.
[Link] de un modo manual la función de distribución que
hemos determinado en el punto 1.
[Link] la función de distribución.
y aplicando (4.16)
2
b3 − a3 b+a (b − a)2
2
σ = − = .
3(b − a) 2 12
(x − µ)2
1 −
fX (x) = √ e 2σ 2 , −∞ < x < +∞. (4.17)
σ 2π
que depende de dos parámetros µ y σ 2 , razón por la cual la denota-
remos X ∼ N (µ, σ 2 ).
En la figura 4.10 aparece un ejemplo de la función definida en 4.17.
En concreto es una normal con media 7 y varianza 4.
Puede comprobarse que cumple las dos propiedades antes enun-
ciadas, aunque no es sencillo comprobar la segunda porque la función
no tiene primitiva, y su integración requiere herramientas fuera del
alcance de este curso. De estas propiedades, y de (4.17), se deduce
que µ ∈] − ∞, +∞[ y que σ 2 > 0.
Llama la atención que los parámetros se denoten con las mismas
letras griegas con las que representamos la media y la varianza. No es
84 CAPÍTULO 4. VARIABLES ALEATORIAS
1
f (x) = √ e− 2 x .
1 2
(4.18)
0.3
2π
Densidad
0.2
−6 −4 −2 0 2 4 6
esto es, la función que para cada valor z nos da la probabilidad de que
x
la variable sea menor o igual que este valor z es la siguiente
Z z
1
√ e− 2 x dx.
1 2
Figura 4.13: Función de densidad Φ(z) = (4.19)
de una normal estándar o típica. −∞ 2π
Dado un punto z el valor de la función Φ(z) nos da el área bajo la
curva de la densidad normal entre −∞ y el punto z. En la figura 4.14
hemos rayado en negro esta zona para z = 1.3
Hay tablas que nos proporcionan el valor de esta función para di-
ferentes valores de z.4 Esto era necesario cuando no teníamos herra-
mientas informáticas. Ahora lo lógico es utilizar software. En concreto
el valor de Φ(1.3) (área de la zona rayada en negro en la figura 4.14
lo obtendríamos con R del siguiente modo.
0.4
pnorm(1.3)
0.3
Densidad
0.2
## [1] 0.9031995
0.1
tón de tablas. Cualquier libro de texto de hace unos años lleva al final del texto
0.6
Densidad
∫ b (x−µ)2
∫ b−µ
1 −1 σ 1 1 2
√ e− 2 x dx.
0.0
√ e 2 σ2 dx =
2πσ a−µ 2π
−6 −4 −2 0 2 4 6 a σ
x
0.4
Nota 4.7 Un inconveniente de la fdp de la normal es que no posee
0.3
primitiva y por tanto la su función de distribución no puede obte-
Densidad
0.2
nerse de forma explícita. La expresión (4.12) no puede ser utilizada.
¿Quiere ello decir que no podemos calcular probabilidades para una
0.1
variable normal? Sí podemos hacerlo porque existen métodos que per-
0.0
miten la integración numérica de (4.12). La consecuencia de todo ello
−5 0 5 10 15 20
es que hemos de valernos de una tablas para obtener las probabilidades x
188−170
X = 188 da lugar a Z= √
225
= 1.2
Nota 4.8 (De cómo calculaban los antiguos las probabilidades con la normal)
¿Qué problema nos planteamos? Suponemos que una cierta cantidad
86 CAPÍTULO 4. VARIABLES ALEATORIAS
0.4
función de densidad de probabilidad
0.3
0.2
P(Z ≤ − 1)
0.1
0.0
−4 −3 −2 −1 0 1 2 3 4
b−µ a−µ
P (a ≤ X ≤ b) = Φ −Φ , (4.22)
0.04
σ σ
0.00
50 55 60
Nota 4.9 (Calculando la función de densidad de una normal)
x
Supongamos que µ = 16 y σ 2 = 4. La función de densidad en un punto
la podemos calcular con
Figura 4.18: Densidad de una
N (56, 9). El área de la zona raya-
da en negro corresponde a la pro-
babilidad de que la variable esté
entre 60 y 63.
4.6. EJERCICIOS 87
## [1] 0.1209854
x0 = seq(10,22,1)
dnorm(x0,mean= 16, sd= 2)
0.20
## [10] 0.064758798 0.026995483 0.008764150
0.15
## [13] 0.002215924
Densidad
0.10
En la figura 4.19 aparecen tres densidades normales con paráme-
0.05
tros distintos de modo que veamos el efecto de modificar la media y
la varianza. En concreto se representan las densidades de las distri-
0.00
buciones normales N (16, 4), N (24, 4) y N (16, 9). 5 10 15 20 25 30 35 40
1.0
pnorm(x2, mean = 16, sd = 2)
0.8
pnorm(14,mean= 16, sd= 2)
0.6
## [1] 0.1586553
0.4
0.2
x2
x) = 0.34 o dicho de otro modo el percentil de orden 0.34.
Figura 4.20: Función de distribu-
qnorm(0.34,mean= 16, sd= 2) ción (acumulada) de la distribu-
ción normal con meida 16 y des-
## [1] 15.17507 viación estándar 2.
−∞ 2π −∞ 2π
Vamos a calcular la diferencia anterior utilizando R.
pnorm(1,mean=0,sd=1) - pnorm(-1,mean=0,sd=1)
## [1] 0.6826895
P (µ − σ ≤ X ≤ µ + σ) = 0.6826895. (4.25)
pnorm(2,mean=0,sd=1) - pnorm(-2,mean=0,sd=1)
## [1] 0.9544997
que es igual a
pnorm(3,mean=0,sd=1) - pnorm(-3,mean=0,sd=1)
## [1] 0.9973002
P (µ − σ ≤ X ≤ µ + σ) 0.6826895
P (µ − 2σ ≤ X ≤ µ + 2σ) 0.9544997
P (µ − 3σ ≤ X ≤ µ + 3σ) 0.9973002
4.7 Ejercicios
Ej. 39 — Se pide:
[Link] 100 valores con distribución normal con media 20 y des-
viación típica 3. Guardar estos valores en el vector x.
[Link] la media y varianza muestrales de los valores generados.
[Link] la media muestral observada con 20 y la varianza
muestral observada con 9 que corresponden con la media y la
varianza teóricas.
[Link] los apartados anteriores sustituyendo las 100 simulacio-
nes por 1000, por 10000 y por 100000. Comparar en cada caso
los valores teóricos con los valores muestrales.
0.30
0.25
n=10
0.20
función de probabilidad
0.15
n=50
0.10
n=100
0.05
n=400
0.00
0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88 92 96 100
4.P (X ≥ 29).
5.P (34 < X ≤ 45).
6.P (34 ≤ X ≤ 45).
Distribución muestral
X[1:10]
## [1] 0 0 0 0 0 0 0 0 0 0
93
94 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL
X[100000]
## [1] 0
## [1] 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
## [23] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## [45] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
## [67] 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
## [89] 0 0 0 0 0 0 0 0 0 0 0 0
sum(x)
## [1] 4
x = sample(X,100)
sum(x)
## [1] 2
## [1] 3 5 5 2 3 2 3 7 6 4 4 0 4 4 2 4 6 3 3 2
sumas/n
## [1] 0.03 0.05 0.05 0.02 0.03 0.02 0.03 0.07 0.06
## [10] 0.04 0.04 0.00 0.04 0.04 0.02 0.04 0.06 0.03
## [19] 0.03 0.02
5.2.1 Ejercicios
Ej. 41 — ([15, pág. 79, problemas 2-3])Muchos equipos de investi-
gación pretenden realizar un estudio sobre el porcentaje de personas
que tienen cáncer de colon. Si una muestra aleatoria de diez personas
se pudo obtener, y si la probabilidad de probabilidad de tener cán-
cer de colon es 0.05, ¿cuál es la probabilidad de que un equipo de
investigación obtenga p̂ = 0.1? ¿Y la de p̂ = 0.05?
N = 237456
X = rnorm(N,mean=160,sd=10.23)
X[1:10]
df = [Link](X)
ggplot(df,aes(x=X))+geom_histogram()
df = [Link](X)
ggplot(df,aes(x=X))+stat_density()
Figura 5.1: Histograma de la po-
blación de alturas.
96 CAPÍTULO 5. DISTRIBUCIÓN MUESTRAL
n = 100
x = sample(X,n)
mean(x)
## [1] 157.9384
x = sample(X,n)
mean(x)
## [1] 158.9058
MediaMuestral = NULL
for(i in 1:300)
MediaMuestral = c(MediaMuestral,mean(sample(X,n)))
n1 = seq(100,20000,50)
MediaMuestral = NULL
for(i in n1)
MediaMuestral = c(MediaMuestral,mean(sample(X,i)))
Nota 5.1 Por ejemplo, supongamos que nos interesa saber qué proba-
bilidad tiene la media muestral de ser menor que 162. Como estamos
suponiendo que conocemos toda la población podemos tomar como
varianza la de toda la población.
sigma = sd(X)
pnorm(162,mean=mu,sd=sigma/sqrt(n))
## [1] 0.9999502
pnorm(162,mean=mu,sd=sigma/sqrt(n)) -
pnorm(159,mean=mu,sd=sigma/sqrt(n))
## [1] 0.9762937
1 - pnorm(160,mean=mu,sd=sigma/sqrt(n))
## [1] 0.5100184
Si Z
1x
(t − µ)2
Φ(x) = √
exp − dt.
−∞ 2πσ 2σ 2
lo que estamos haciendo con R es simplemente aplicar que
P (X̄ ≤ b) = Φ(b)
o
P (a ≤ X̄ ≤ b) = Φ(b) − Φ(a)
o
P (a ≤ X̄) = 1 − Φ(a)
5.3.1 Ejercicios
Ej. 44 — ([15, pág. 84, problema 8])Supongamos n = 16, σ = 2 y
µ = 30. Supongamos normalidad. Determinar:
1.P (X̄ ≤ 29),
2.P (X̄ > 30.5),
3.P (29 ≤ X̄ ≤ 31).
Ej. 47 — ([15, pág. 85, problema 12])Una compañía afirma que las
primas pagadas por sus clientes para el seguro de automóviles tiene
una distribución normal con media µ = 750 euros y desviación están-
dar σ = 100 euros. Suponiendo normalidad, ¿cuál es la probabilidad
de que para n = 9 clientes elegidos al azar, ¿la media muestral tome
un valor entre 700 y 800 euros?
P (a ≤ p̂ ≤ b) =
P (p̂ ≤ b) − P (p̂ ≤ a) =
b−p a−p
P (Z ≤ p ) − P (Z ≤ p ). (5.4)
p(1 − p)/n p(1 − p)/n
La calidad de la aproximación depende los valores de n y de p. Una
regla simple es que la aproximación es buena si np ≥ 15 y n(1 − p) ≥
15.
5.4.3 Ejercicios
Ej. 48 — [Link] una distribución binomial con p = 0.5
y n = 10 y queremos calcular la probabilidad de que p̂ sea menor
o igual a 7/10. Obtener el valor exacto y el valor aproximado
utilizando la aproximación dada por el teorema central del límite.
[Link] el punto anterior obteniendo el valor exacto y el valor
aproximado de P (0.3 ≤ p̂ ≤ 0.7).
Estimación
6.1 Introducción
Tratamos el problema de la estimación. En concreto, en poblacio-
nes normales, nos planteamos la estimación de la media y varianza.
También consideramos la estimación de una proporción. Se aborda
el problema del cálculo del tamaño de la muestra para estimar los
parámetros con un error máximo dado.
6.2 La población
¿Qué es una población? La Estadística se ocupa del estudio de
grandes poblaciones. Pero, otra vez, ¿y qué es una población? La
respuesta no es simple ni tampoco es única.
El primer sentido que podemos dar al término población es una
gran colección de elementos de los cuales queremos conocer algo. Al-
gunos ejemplos son:
101
102 CAPÍTULO 6. ESTIMACIÓN
(mu=mean(X))
## [1] 159.9984
n = 10
(x = sample(X,n))
1 Hemos tenido la santa paciencia de medir la estatura de cada uno de ellos. Y
(mediamuestral = mean(x))
## [1] 158.5324
mediamuestral - mu
## [1] -1.465993
errores = estimaciones-mu
summary(errores) [Link](x = estimaciones)
0.20
## Min. 1st Qu. Median Mean 3rd Qu. Max.
0.15
## -5.0358 -1.2988 -0.2551 -0.1178 1.1529 4.7146
Density
0.10
De hecho, en la figura 6.1 hemos representado un estimador kernel
de las estimaciones y una línea vertical mostrando la media real.
0.05
Así es como funciona la estimación puntual. Hemos visto una
0.00
situación irreal en que tenemos todos los valores que componen la 154 156 158 160 162 164 166
población y, por lo tanto, podemos conocer la media de la población. N = 100 Bandwidth = 0.6546
σ2
X̄n ∼ N (µ, ) (6.1)
n
Si las distintas variables Xi que componen la muestra no siguen una
distribución muestral entonces asumiendo que tenemos una muestra
grande el resultado que damos en 6.1 es aproximadamente cierto. En
cualquier caso, la varianza de la media muestral X̄n
√ X̄ − µ
n ∼ N (0, 1),
σ
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 105
donde N (0, 1) es una normal con media cero y varianza uno, lo que
se conoce como una normal estándar o normal típica. 2
Notemos que, asumiendo la desviación estándar conocida, en la
√
expresión n X̄−µ
σ conocemos todos los términos que aparecen (X̄, σ
y n) una vez hemos tomado la muestra salvo el valor de la media
poblacional µ. Precisamente es lo que queremos estimar.
Fijemos una probabilidad alta, por ejemplo, una probabilidad de
0.95. Podemos determinar un valor positivo c tal que
√ X̄ − µ
P −c≤ n ≤ c = 0.95
σ
qnorm(0.975,mean=0,sd=1)
## [1] 1.959964
En resumen que
√ X̄ − µ
P − 1.96 ≤ n ≤ 1.96 = 0.95
σ
o, lo que es equivalente,
σ σ
P X̄ − 1.96 √ ≤ µ ≤ X̄ + 1.96 √ = 0.95.
n n
Vemos que el intervalo [X̄ − 1.96 √σn , X̄ + 1.96 √σn ] tiene una probabi-
lidad de 0.95 de contener a µ o también de cubrir a µ. Si ahora susti-
tuimos los valores aleatorios Xi con i = 1, . . . , n con los valores obser-
vados en la muestra entonces el intervalo aleatorio [X̄ − 1.96 √σn , X̄ +
1.96 √σn ] pasa a ser un intervalo fijo [x̄ − 1.96 √σn , x̄ + 1.96 √σn ] que
conocemos como intervalo de confianza con nivel de confianza 0.95.
(x = sample(X,10))
media = mean(x)
s = sd(x)
## [1] 157.3263
## [1] 162.717
alpha = 0.01
## [1] 156.4793
y el superior
## [1] 163.5639
El intervalo es el siguiente:
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 107
c([Link],[Link])
El último paso es rogar a Dios que las cosas hayan ido bien. Te-
nemos una confianza de 1 − α (0.99 en el ejemplo) de que el valor
real de la media esté en este intervalo. Pero esto no quiere decir que
realmente lo está. Si repetimos un gran número de veces el valor real
de la media está en el intervalo un (1−α)×100 % de la veces (un 99%
en el ejemplo) pero puede ocurrir (desgracias de la vida) que estemos
en el α × 100 (en el ejemplo un 1%) restante. En general la cosa va
bien porque elegimos un nivel de confianza grande (próximo a uno)
pero no siempre va bien.
√ X̄ − µ
∼ tn−1 .
0.3
T = n (6.3)
S
dt(u, df = 9)
0.2
−3 −2 −1 0 1 2 3
3 ¿Van por ahí los datos diciendo somos normales no te decimos la media pero
Vemos que tienen una forma similar, ambas están centradas en cero.
Sin embargo, la densidad de la normal está más concentrada alrededor
0.2
−3 −2 −1 0 1 2 3
tad? Cuando se va incrementando el número de grados la densidad de
x
la t de Student se aproxima a la densidad de la normal. En la figura
Figura 6.3: Funciones de densidad
6.4 se ilustra y comenta este hecho.
de la normal estándar (trazo con-
tinuo) y de densidades t de Stu- Y ahora vamos a repetir lo visto en la sección anterior sustituyendo
dent con 2 grados de libertad. a la normal estándar con la densidad de la t de Student con n-1
grados de libertad. Dada una probabilidad, por ejemplo 0.95, podemos
determinar el valor c tal que
0.4
P (−c ≤ T ≤ c) = 0.95.
0.3
P (T ≤ c) = 0.975
0.1
−3 −2 −1 0 1 2 3 con
x
qt(0.975,df=9)
Figura 6.4: Funciones de densidad
de la normal estándar (trazo con- ## [1] 2.262157
tinuo) y de densidades t de Stu-
dent con 2, 7 y 12 grados de liber-
tad. Según el número de grados de Denotamos el valor de c tal que
libertad de la t es mayor más se α
aproxima la densidad de la t a la P (T ≤ c) = 1 − ,
normal. Por ello, la más alejada 2
es la t(2) y la más próxima es la
t(12).
como tn−1,1−α/2 . Entonces
S S
P (X̄ − tn−1,1−α/2 √ ≤ µ ≤ X̄ + tn−1,1−α/2 √ ) = 1 − α. (6.4)
n n
El intervalo de confianza lo obtenemos sustituyendo los valores alea-
torios por los valores observados.
Teorema 6.1 Si suponemos que tenemos una muestra aleatoria de
datos normales X1 , . . . , Xn y observamos los datos X1 = x1 , . . . , Xn =
xn entonces el intervalo
s s
x̄ − tn−1,1−α/2 √ , x̄ + tn−1,1−α/2 √
n n
es un intervalo de confianza con nivel de confianza 1−α para la media
µ. De un un modo abreviado el intervalo anterior se puede escribir
como
s
x̄ ± tn−1,1−α/2 √
n
6.6. INTERVALO DE CONFIANZA PARA LA MEDIA 109
alpha = 0.01
## [1] 155.5524
y el superior
## [1] 164.4908
El intervalo es el siguiente
c([Link],[Link])
alpha = 0.05
[Link](x,[Link]=1-alpha)
##
## One Sample t-test
##
## data: x
## t = 116.36, df = 9, p-value = 1.298e-15
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 156.9107 163.1326
## sample estimates:
## mean of x
## 160.0216
alpha = 0.05
[Link](x,[Link]=1-alpha)$[Link]
Intervalos de confianza
yecto Kola. 6 En concreto vamos a utilizar los datos chorizon. Con la
Figura 6.5: Intervalos de confianza
función attach podemos usar los nombres de las variables. 7
de la media en una población nor-
mal. Hemos simulado 100 interva- load("../data/[Link]")
los. La línea vertical tiene como attach(chorizon)
abscisa el valor real de la media.
¿Cuántos intervalos no contienen Vamos a obtener el intervalo de confianza para la concentración
a la media real? Cuéntalos.
media de escandio en Noruega. En primer lugar guardamos en [Link]
los datos correspondientes a Noruega.
[Link]([Link])
##
## One Sample t-test
##
## data: [Link]
## t = 18.342, df = 127, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2.479107 3.078706
## sample estimates:
## mean of x
## 2.778906
Sc.t = [Link]([Link])
Sc.t$[Link]
o simplemente
[Link]([Link])$[Link]
[Link]([Link],[Link]=.90)$[Link]
[Link]([Link],[Link]=.99)$[Link]
media = 5.021
[Link] = 2.077
n = 4499
alpha = .01
(extremoinferior = media - qt(1-alpha/2,df=n-1) *
[Link]/ sqrt(n))
## [1] 4.941204
## [1] 5.100796
bien un artículo científico no sueles disponer de los datos originales sino de los
resúmenes que de los mismos proporcionan los autores en la publicación. Tiene
sentido e interés ver cómo calcular estos intervalos a partir de los datos resumidos.
112 CAPÍTULO 6. ESTIMACIÓN
Tabla 6.1: Resumen de los resultados de Matemáticas II. Las etiquetas indican: Matric., matriculados; Pre-
sent.,presentados; Aptos, aptos; Media, nota media; DE, desviación estándar; Present. FG, presentados fase general;
Present. FE, presentados fase específica; Aprob. FE, aprobados fase específica; Media FG, media fase general; DE
FG, desviación típica fase general; Media FE, media fase específica; DE FG, desviación típica fase específica. En filas
tenemos las universidades de Alicante (UA), la Jaume I de Castellón (UJI), la Miguel Hernández de Elche (UMH),
la Universidad de Valencia (UV) y todos los estudiantes en el Sistema de Universidades Valencianas (SUV).
media = 4.969
[Link] = 1.909
n = 1724
alpha = .01
(extremoinferior =
media - qt(1-alpha/2,df=n-1) * [Link]/ sqrt(n))
## [1] 4.850441
(extremosuperior =
media + qt(1-alpha/2,df=n-1) * [Link] / sqrt(n))
## [1] 5.087559
media = 5.054
[Link] = 2.174
n = 2775
alpha = .01
(extremoinferior = media - qt(1-alpha/2,df=n-1) *
[Link]/ sqrt(n))
## [1] 4.947624
## [1] 5.160376
6.6.3 Ejercicios
Ej. 50 — Determinar el intervalo de confianza para la concentración
media de escandio en Finlandia y Rusia. Se pide utilizar como niveles
de confianza 0.90, 0.95 y 0.99.
que nuestro estudio tenga validez? Es una pregunta muy genérica sin
respuesta. La respuesta necesita que concretemos más lo que queremos
de nuestros datos. En esta sección nos planteamos la siguiente pre-
gunta: ¿Cuántos datos necesitamos para que cuanto estimamos una
media poblacional el error máximo que cometemos sea menor que una
cantidad que previamente especificamos? Por ejemplo, queremos co-
nocer la concentración media de un elemento en una zona. Queremos
conocer esta cantidad, denotada por µ, con un error máximo de δ uni-
dades siendo δ una cantidad positiva que fijamos nosotros. Lo primero
que hemos de tener en cuenta es que en Estadística nunca podemos
afirmar con seguridad nada. Podemos pedir que sea muy probable o,
mejor, que tengamos mucha confianza en que ocurra pero que seguro
que ocurra es mucho pedir. Siempre hacemos afirmaciones basadas en
la probabilidad de sucesos que pueden o no ocurrir y, por lo tanto,
afirmar que nuestro error va a ser menor que un cierto nivel δ siempre
o seguro no es posible.
Vamos a responder a la pregunta anterior utilizando los datos cho-
rizon del proyecto Kola. Pretendemos estimar la concentración media
µ de escandio en Noruega (dentro del proyecto Kola). Ya hemos de-
terminado un intervalo de confianza para µ con un nivel 1 − α. Por
ejemplo, con α = 0.05 el intervalo es
[Link]([Link],[Link]=.95)$[Link]
mean([Link])
## [1] 2.778906
## [1] 0.5995994
[Link] = [Link]([Link],[Link]=.95)$[Link]
([Link][2] - [Link][1]) / 2
## [1] 0.2997997
length([Link])
## [1] 128
table(COUN)
## COUN
## FIN NOR RUS
## 187 128 290
alpha = .05
n = length([Link])
qt(1-alpha/2,df=n-1)*sd([Link])/sqrt(n)
## [1] 0.2997997
sd0 = sd([Link])
delta = 0.2
m = n + 10
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)
## [1] 0.2885306
m = n + 100
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)
## [1] 0.2236826
m = n + 200
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)
## [1] 0.1861879
m = n + 150
qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)
## [1] 0.2023752
for(m in 280:290)
print(c(m,qt(1-alpha/2,df=m-1)*sd([Link])/sqrt(m)))
6.7.1 Ejercicios
Ej. 53 — Utilizamos los datos chorizon del paquete StatDA. Se quie-
re estimar la la concentración media de escandio en Finlandia y en
Rusia. Queremos estimar estas medias con un error máximo de 0.20.
[Link] el número de datos (tamaño de la muestra) que ne-
cesitamos en Finlandia para tener un error máximo de 0.20. ¿Y
si queremos un error máximo de 0.1?
[Link] el apartado 1 para Rusia.
0.10
i=1
0.08
2
Estamos diciendo que la variable aleatoria (n−1)S tiene una distribu-
dchisq(x, df = 10)
σ2
0.06
ción ji-cuadrado con n-1 grados de libertad. 9 En la figura 6.6 hemos
0.04
representado la función de densidad de una ji-cuadrado con 10 grados
de libertad.
0.02
Con objeto de ver cómo cambia la forma de la función de densi-
0.00
dad cuando cambia el número de grados de libertad en la figura 6.7 0 5 10 15 20 25 30
P (X ≤ χ2p,k ) = p.
0.10
El valor anterior lo podemos obtener con la función qchisq.
0.08
dchisq(x, df = 10)
0.06
p = 0.75
0.04
k = 13
0.02
qchisq(p,df=k)
0.00
## [1] 15.98391 0 10 20 30 40 50
Es decir el intervalo
(n − 1)S 2 (n − 1)S 2
,
χ21−α/2,n−1 χ2α/2,n−1
n = 100
x = sample(X,100)
alpha = .05
s2 = var(x)
(extremoinferior = (n-1)*s2 / qchisq(1-alpha/2,df=n-1))
## [1] 24.60885
## [1] 43.07894
6.8.1 Ejercicios
Ej. 55 — Consideremos los datos StatDA::chorizon. Se pide:
[Link] el código
help(chorizon)
consulta qué tipo de datos son.
[Link] un intervalo de confianza para la varianza de la concen-
tración de níquel en Rusia con un nivel de confianza de 0.99.
[Link] el apartado anterior utilizando un nivel de confianza de
0.9. ¿Qué intervalo es más grande? ¿Por qué?
[Link] los apartados 2 y 3 para el nivel medio de níquel en Fin-
landia y para el nivel medio de níquel en Noruega.
library(Hmisc,T)
binconf(x=189, n=11034, method="asymptotic")
6.9.1 Ejercicios
Ej. 57 — Para los datos de la tabla 6.1 se pide:
[Link] la proporción de aptos para cada una de las universida-
des y para todo el sistema universitario valenciano.
Ej. 58 — ([15, pág. 120, problema 21])Se observan los siguientes éxi-
tos y fracasos: 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0. Calcule un intervalo
de confianza con nivel 0,95 para la probabilidad de éxito p.
Ej. 60 — ([15, pág. 120, problema 23])Entre los 100 adultos selec-
cionados al azar, 10 se encontraron desempleados. Dar una intervalo
de confianza con un nivel de 0,99 para el porcentaje de adultos des-
empleados.
q
p̂(1−p̂)
Z1−α/2 n . Este intervalo tiene nivel de confianza 1 − α. Dados
unos datos tenemos el intervalo. Supongamos que la cosa ha ido bien:
El intervalo que calculamos cubre al valor verdadero de p. Tenemos
una confianza 1 − α de que esto sea cierto. Bien. El intervalo cubre a
p pero nuestra estimación puntual de p es p̂. Si nos piden que demos
un valor para p responderemos dando la estimación puntual, dando
el valor p̂. La diferencia entre la estimación puntual que damos y el
valor real de p (que desconocemos y siempre desconoceremos) es co-
mo mucho la mitad de la longitud del intervalo de confianza (siempre
asumiendo que p está dentro de este intervalo). En otras palabras:
r
p̂(1 − p̂)
|p̂ − p| ≤ Z1−α/2 .
n
6.10.1 Ejercicios
Ej. 62 — Pretendemos estimar la proporción de palmeras afectadas
por el picudo. Se ha tomado una primera muestra de 100 palmeras al
azar. Se han observado 23 palmeras afectadas. Se pide:
1.¿Cuál es el error máximo observado con un nivel de confianza de
0.95?
122 CAPÍTULO 6. ESTIMACIÓN
Contraste de hipótesis
7.1 Introducción
Se introduce el problema del contraste de hipótesis en una pobla-
ción.
En concreto, vamos a asumir que tenemos una muestra aleatoria
de una distribución normal, X1 , . . . , Xn , variables aleatorias indepen-
dientes y con una misma distribución. La distribución común que
asumimos es normal con media µ y varianza σ 2 . Es decir, estamos
asumiendo que
Xi ∼ N (µ, σ 2 )
y que los distintos valores son independientes entre si.
En este tema nos planteamos el problema del contraste de hipó-
tesis y lo estudiamos estudiando, fundamentalmente, los contrastes
sobre la media µ de la variable que observamos (concentración de
contaminante, nivel de radiación o de ruido).
Asumimos normalidad en los datos con los que trabajamos. Pero:
¿es razonable está hipótesis? Nos ocupamos al final de este tema de
lo que se conoce como contrastes de normalidad.
123
124 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
H0 : µ ≤ 1500,
H1 : µ > 1500,
X̄n − 1500
T = √ . (7.1)
S/ n
## [1] 1.793834
T ≥c
X̄n − 1500
T = √ ∼ tn−1 . (7.3)
S/ n
P (T ≥ c) = 0.05, (7.4)
3 En algunos textos se denotan las hipótesis nula y alternativa como H y H
0 a
respectivamente.
126 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
o, equivalentemente, que
qt(.95,df=99)
## [1] 1.660391
t0
## [1] 1.793834
−10 −5 0 5 10
mos el contraste de hipótesis.
valores.x
H0 : µ ≤ µ0 ,
Figura 7.1: Contraste unilateral
sobre la media. H1 : µ > µ0 .
pasen y asumirlas.
7.2. CONSTRASTES PARA UNA MUESTRA 127
Realidad
Decisión H0 H1
Rechazamos H0 Error tipo I
No rechazamos H0 Error tipo II
X̄n − µ0
T = √ (7.6)
S/ n
y el valor observado
x̄n − µ0
t0 = √ . (7.7)
s/ n
Bajo la hipótesis de que la media poblacional µ vale µ0 , µ = µ0 , se
tiene que
X̄n − µ0
T = √ ∼ tn−1 , (7.8)
S/ n
y t0 sería un valor observado de una variable aleatoria con distribución
t con n-1 grados de libertad.
Supongamos que queremos (es una elección del decisor que somos
nosotros) un error tipo I que sea menor o igual a α (habitualmente
0.05, 0.01 o 0.1) entonces la regla de decisión es:
p = P (T ≥ t0 )dondeT ∼ tn−1 .
(pvalor=1-pt(t0,df=n-1))
## [1] 0.0379462
128 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
t0
−4 −2 0 2 4
zar el contraste utilizando la función [Link].
valx
[Link](x,mu=1500,alternative="greater")
Figura 7.2: El p-valor corresponde
con el área de la zona negra.
##
## One Sample t-test
##
## data: x
## t = 1.7938, df = 99, p-value = 0.03795
## alternative hypothesis: true mean is greater than 1500
## 95 percent confidence interval:
## 1503.842 Inf
## sample estimates:
## mean of x
## 1551.645
H0 : µ ≤ 20,
H1 : µ > 20.
load("../data/[Link]")
attach(chorizon)
[Link] = Ni[which(COUN == "RUS")]
[Link]([Link],alternative="greater",mu=20)
##
## One Sample t-test
##
## data: [Link]
## t = 2.8777, df = 289, p-value = 0.002152
## alternative hypothesis: true mean is greater than 20
## 95 percent confidence interval:
## 21.69218 Inf
## sample estimates:
## mean of x
## 23.9669
Vemos que el p-valor vale 0.9978 que es menor que 0.05. Recha-
zamos la hipótesis nula.
H0 : µ ≥ µ 0 ,
H1 : µ < µ0 .
n = 134
mu0 = 34
(t0 = (mean(x) - mu0) / (sd(x)/sqrt(n)))
## [1] -4.463301
alpha = 0.05
qt(alpha,df=n-1)
## [1] -1.656391
[Link](x,mu=mu0,alternative="less")
##
## One Sample t-test
##
## data: x
7.2. CONSTRASTES PARA UNA MUESTRA 131
H0 : µ = µ0 ,
H1 : µ ̸= µ0 .
H0 : µ = 23,
H1 : µ ̸= 23.
[Link]([Link],alternative="[Link]",mu=23)
##
## One Sample t-test
##
## data: [Link]
132 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
H0 : µ = 24,
H1 : µ ̸= 24.
Realizamos el contrate.
[Link]([Link],alternative="[Link]",mu=24)
##
## One Sample t-test
##
## data: [Link]
## t = -0.024014, df = 289, p-value = 0.9809
## alternative hypothesis: true mean is not equal to 24
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669
H0 : µ = µ0 ,
H1 : µ ̸= µ0
H0 : θ = θ 0 ,
H1 : θ ̸= θ0
[Link]([Link],alternative="[Link]",mu=23,[Link]=0.95)
##
## One Sample t-test
##
## data: [Link]
## t = 0.70141, df = 289, p-value = 0.4836
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669
7.4 Ejercicios
Ej. 63 — ([1, ejercicio 16.1])Una empresa advierte que un produc-
to químico tiene un 90 % de efectividad en la limpieza y cita como
prueba que en una muestra de diez aplicaciones se observó un pro-
medio de limpieza del 81%. El gobierno dice que esto es publicidad
engañosa porque el 81% no igual al 90%. La compañía dice que el
134 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
valor observado es de 81%, pero fácilmente podría ser del 90%. Los
datos observados fueron 92, 60, 77, 92, 100, 90, 91, 82, 75, 50. ¿Quién
está en lo cierto y por qué?
Quizás una formulación más formalista del contraste puede ser la si-
guiente donde X es el valor aleatorio que estamos observando n veces.
(a) (b)
(c) (d)
Figura 7.3: Datos x: histograma (a) y estimador kernel de la densidad de x (b). Datos y: histograma (c) y estimador
kernel de la densidad de x (d).
es cierto que
X ∼ N (µ, σ 2 ), (7.9)
2
para algún µ y algún σ . Supongamos que es cierta la afirmación, supo-
nemos cierta que la variable sigue una distribución normal. Elegimos
una serie de probabilidades pi .5 . En concreto estos valores tienen la
forma
i−α
pi = , (7.10)
n − 2α + 1
6
donde i = 1, . . . , n. Dos son los valores de α que suelen utilizarse
α = 0.375, (7.11)
o bien
α = 0.5. (7.12)
Una vez hemos elegido estos valores pi hemos de determinar los valo-
res de la abscisa y la ordenada del i-ésimo punto. Si xi con i = 1, . . . , n
son los datos entonces los ordenamos obteniendo los estadísticos or-
denados x(i) que verifican
x(1) ≤ . . . ≤ x(n) .
qqnorm(x)
en o en [Thode2002]
6 La función pppoints nos indica los valores que realmente se utilizan.
138 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
(a) (b)
(c) (d)
Figura 7.4: (a) Dibujo q-q o cuantil-cuantil para datos x. (b) Dibujo q-q o cuantil-cuantil para la muestra x añadiendo
la línea que pasa por el primer y tercer cuartil. Vemos cómo los puntos están muy próximos a la línea. No podemos
rechazar la normalidad de los datos utilizando este dibujo. (c) Dibujo q-q o cuantil-cuantil para datos y. (d) Dibujo
q-q o cuantil-cuantil para la muestra y añadiendo la línea que pasa por el primer y tercer cuartil. Los puntos están
alejados de la línea. Parece razonable rechazar la normalidad de los datos utilizando este gráfico.
7.6. CONSTRASTES DE NORMALIDAD 139
qqnorm(x)
qqline(x)
¿Están sobre una línea recta los puntos en cada una de las gráficas?
Podemos ver que para la figura 7.4(b) correspondiente a la muestra x
los datos parecen bien alineados. Esto no parece tan cierto para los
datos de la muestra y que aparecen en la figura 7.4(d). Rechazaría-
mos gráficamente la normalidad de la muestra y mientras que no la
rechazaríamos para la muestra x.
En [Link] se tiene una explica-
ción muy completa de este gráfico.
[Link](x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98482, p-value = 0.1435
140 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
[Link](y)
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.85437, p-value = 1.486e-09
library(nortest)
[Link](x)
##
## Pearson chi-square normality test
##
## data: x
## P = 15.776, p-value = 0.2017
Y después a la muestra y.
[Link](y)
##
## Pearson chi-square normality test
##
## data: y
## P = 91.314, p-value = 9.211e-15
[Link](x)
##
## Lilliefors (Kolmogorov-Smirnov) normality
## test
##
## data: x
## D = 0.048766, p-value = 0.6069
7.7. EJERCICIOS 141
[Link](y)
##
## Lilliefors (Kolmogorov-Smirnov) normality
## test
##
## data: y
## D = 0.16577, p-value = 1.068e-08
7.7 Ejercicios
Ej. 69 — () [Link] de Aula Virtual (Recursos) el fichero ejer93datos-
[Link]. En este fichero encontraremos a su vez los ficheros
[Link], . . ., [Link].
[Link] los datos de cada uno de los ficheros utilizando la función
[Link].
[Link] cada uno de los ficheros se pide realizar un dibujo q-q y
valorar la hipótesis de normalidad de un modo gráfico.
[Link] cada fichero, se pide contrastar, utilizando los tests de
Shapiro-Wilk, ji-cuadrado y Kolmogorov-Smirnov, la hipótesis
de normalidad.
142 CAPÍTULO 7. CONTRASTE DE HIPÓTESIS
Capítulo 8
Comparación de dos
poblaciones normales
8.1 Introducción
Distintos problemas relativos a comparar dos poblaciones se tratan
en este tema. Empezamos abordando el problema de la comparación
mediante herramientas puramente descriptivas de las dos muestras de
que disponemos, una por población en estudio. Seguimos con la com-
paración de dos poblaciones normales, en particular, la comparación
de sus medias y varianzas. Continuamos con la comparación mediante
el test de Kolmogorov-Smirnov para dos muestras. Terminamos con
un test de Montecarlo para comparar las medias de dos poblaciones.
## [1] 25.4 23.1 22.2 22.0 30.2 23.5 26.7 21.4 21.6
## [10] 25.6 22.6 23.6 21.4 20.2 25.8 24.4 22.1 24.3
## [19] 28.2 21.5 23.1 22.0 24.2 23.5 22.4 23.8 23.6
## [28] 22.0 24.3 21.4 22.7 21.8 26.2 24.7 26.9 25.7
## [37] 22.1 17.9 26.2 24.9 29.4 20.4 22.4 25.0 23.3
round(y,1)
## [1] 27.8 28.1 26.9 29.0 28.9 24.9 28.8 28.4 25.4
143
144CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
## [10] 25.4 32.9 30.5 21.3 31.6 31.1 28.4 30.3 31.8
## [19] 26.4 31.0 33.1 31.8 22.1 34.8 36.4 26.2 28.2
## [28] 27.1 28.0 25.9 33.4 24.4 32.4 31.1 27.7 26.9
## [37] 28.1 27.5 27.6 30.3 27.4 32.1 32.7 33.2 29.8
## [46] 25.6 33.4 30.1 35.5 28.1 39.9 33.6 27.9 29.8
mean(x)
## [1] 23.68047
sd(x)
## [1] 2.398929
y para la segunda
mean(y)
## [1] 29.4697
sd(y)
## [1] 3.538283
(a) (b)
(c) (d)
Figura 8.1: Datos x: histograma (a) y estimador kernel de la densidad de x (b). Datos y: histograma (c) y estimador
kernel de la densidad de x (d).
146CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
15 20 25 30 35 40
y la segunda muestra procede de una población normal con media y
N = 45 Bandwidth = 1.117 varianza µY y σY2 desconocidos? Obviamente esto supone pasar test
de normalidad a nuestros datos. Cada una de las dos muestras ha de
Figura 8.2: Estimadores kernel de pasar el test de normalidad. Supongamos que la respuesta es afirma-
la densidad de x (trazo continuo) tiva. El problema de comparar las poblaciones se simplifica. ¿Cómo es
e y (trazo discontinuo). Los datos
de la muestra y tienden a tomar
la densidad de una normal? Si la variable aleatoria X ∼ N (µX , σY2 )
valores mayores que los de x. entonces su función de densidad es
2
(x−µX )
1 − 21
f (x) = √ e σ2
X
2πσX
La de la variable Y con distribución Y ∼ N (µY , σY2 ) tiene la misma
expresión en donde cambiamos µx por µY y σX por σY . En resumen
si las medias son la misma, µX = µY y las varianzas son iguales
2
σX = σY2 entonces las densidades son la misma. Tenemos la misma
población normal. En resumen, si asumimos que las dos poblaciones
son normales entonces comparar las poblaciones se reduce a comparar
las medias y las varianzas. Además cuando no sean iguales podremos
saber a qué se debe. Las situaciones en que nos podemos encontrar
son las siguientes:
1. La misma media y varianza.
2. Distinta media y la misma varianza. En la figura ?? mostramos
dos densidades normales verificándolo.
3. La misma media y distinta varianza. En la figura ?? vemos las
funciones de densidad.
4. Distinta media y varianza. En la figura ?? tenemos un ejemplo
de densidades normales verificando esto.
En la situación 1 de la enumeración anterior no tenemos dos pobla-
ciones. Tenemos una sola población. Sin embargo, en los casos 2, 3 y
4 tenemos dos poblaciones distintas bien porque la media, la varianza
o ambas son distintas. Podemos evaluar (contrastar) si la diferencia
entre las poblaciones se da en la variabilidad (en las varianzas) en las
medias o en ambas cosas. Tenemos una visión clara de las diferencias
entre las poblaciones.
En la sección § 8.4.2 planteamos el correspondiente contraste de
hipótesis en donde comparamos las varianzas de dos poblaciones nor-
males. Obviamente si rechazamos la hipótesis de igualdad de las va-
rianzas tenemos dos poblaciones distintas ya que sus varianzas lo son.
Lo que no sabemos es sus medias son o no iguales. Esto va después. Si
no hemos rechazado que las varianzas sean iguales entonces compara-
mos las medias asumiendo una misma varianza en las dos poblaciones,
es decir, asumimos que la primera muestra aleatoria es de una pobla-
ción normal con media µX y varianza σ 2 mientras que la segunda
muestra es de una normal con media µY y varianza σ 2 . Finalmente,
8.3. COMPARANDO LAS MEDIAS DE DOS POBLACIONES NORMALES147
Figura 8.3: Densidades normales: (a) distinta media y la misma varianza; (b) misma media y distinta varianza; (c)
distintas medias y varianzas.
[Link](x)$[Link]
y para la segunda
[Link](y)$[Link]
[Link](x,y,[Link]=TRUE)$[Link]
[Link](x,y,[Link]=FALSE)$[Link]
Si asumimos que las dos varianzas son iguales, esto es, asumimos
2
la hipótesis de que σX = σY2 , denotaremos por σ 2 el valor común:
8.3. COMPARANDO LAS MEDIAS DE DOS POBLACIONES NORMALES149
σ 2 = σX
2
= σY2 . El valor común σ 2 de la varianza se puede estimar
con
(n − 1)SX
2
+ (m − 1)SY2
Sp2 = .
n+m−2
q
De hecho, lo que tenemos es que SE(X̄n − Ȳm ) = Sp n1 + m 1
y
X̄ − Ȳ − (µX − µY )
T = q ∼ tn+m−2 , (8.2)
Sp n1 + m 1
[Link](x,y,[Link]=TRUE,[Link]=0.95)$[Link]
[Link](x,y,[Link]=TRUE,[Link]=0.99)$[Link]
con
2
SX Sy2
n + m
ν0 = 2 /n)2
(SX 2 /m)2
(SY
.
n−1 + m−1
[Link](x,y,[Link]=FALSE,[Link]=0.95)$[Link]
[Link](x,y,[Link]=FALSE,[Link]=0.99)$[Link]
H0 : µX = µY ,
H1 : µX ̸= µY .
p = P (T0 ≥ |t0 |)
[Link](x,y,[Link]=TRUE)
##
## Two Sample t-test
##
## data: x and y
## t = -9.3297, df = 97, p-value = 3.759e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.020785 -4.557682
## sample estimates:
## mean of x mean of y
## 23.68047 29.46970
[Link](x,y,[Link]=FALSE)
##
## Welch Two Sample t-test
##
## data: x and y
## t = -9.6524, df = 93.374, p-value =
## 1.072e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -6.980200 -4.598267
## sample estimates:
## mean of x mean of y
## 23.68047 29.46970
H0 : µX ≤ µY ,
H1 : µX > µ Y .
H0 : µX ≥ µY ,
H1 : µX < µ Y .
152CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
load("../data/[Link]")
attach(chorizon)
[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"],[Link]=TRUE)
##
## Two Sample t-test
##
## data: Ba[COUN == "RUS"] and Ba[COUN == "NOR"]
## t = 2.618, df = 416, p-value = 0.009166
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 5.865386 41.212405
## sample estimates:
## mean of x mean of y
## 69.18655 45.64766
[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"],[Link]=TRUE)
##
## Two Sample t-test
##
## data: Ba[COUN == "RUS"] and Ba[COUN == "NOR"]
## t = 2.618, df = 416, p-value = 0.009166
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 5.865386 41.212405
## sample estimates:
## mean of x mean of y
## 69.18655 45.64766
suele ser el caso). Por ello la opción por defecto de [Link] es precisa-
mente asumir varianzas distintas. Además cuando las varianzas son
realmente iguales o casi iguales los resultados que se obtienen asumien-
do que las varianzas son la misma o sin asumirlo son prácticamente
las mismas.
8.3.4 Ejercicios
Ej. 70 — ()Los biosólidos de una planta de tratamiento de aguas
residuales industriales se aplicaron a 10 parcelas que fueron selecciona-
dos aleatoriamente de un total de 20 parcelas de ensayo de las tierras
agrícolas. El maíz se cultiva en el grupo tratado (T) y no tratados
(UT), las parcelas, con los siguientes rendimientos (fanegas / acre).
Grupo T
126 122 90 135 95 180 68 99 122 113
Grupo no tratado NT
144 122 135 122 77 149 122 117 131 149
Se pide:
[Link] el intervalo de confianza con un nivel de confianza del
95 % para la diferencia de las medias.
[Link] diferencias significativas entre las medias.
n = 45
m = 54
x = rnorm(n,mean=23,sd=2.45)
154CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
y = rnorm(m,mean=30,sd=3.45)
[Link](x,y)
##
## F test to compare two variances
##
## data: x and y
## F = 0.44134, num df = 44, denom df = 53,
## p-value = 0.006117
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2509788 0.7880662
## sample estimates:
## ratio of variances
## 0.4413361
que con nuestros datos vale 0.441 indicando que la primera varianza es
menor que la segunda. Bien, nos hemos centrado en la estimación de
2
σX /σY2 . Siempre que estimamos damos una estimación puntual (que
acabamos de ver en 8.6) y un intervalo de confianza. Para obtenerlo
utilizamos la cantidad pivotal siguiente:
2 2
SX /σX
2 2 ∼ F (n − 1, m − 1) (8.7)
SY /σY
1.4
1.2
libertad.
1.0
S 2 /σ 2
función de densidad de SX2 /σX 2 aparece en la figura 8.4.
0.4
Y Y
Denotemos por Fp (n − 1, m − 1) el percentil de orden p de la
0.2
0.0
x0
un área p. Por ejemplo, si tomamos los valores de n y m anteriores y
p = 0.975 entonces el percentil viene dado como
Figura 8.4
qf(0.975,df1=n-1,df2=m-1)
## [1] 1.75846
1.4
df(x0, df1 = n − 1, df2 = m − 1)
1.2
x0
8.4. INFERENCIA SOBRE LAS VARIANZAS DE DOS POBLACIONES NORMALES155
SY2 1 SY2 1
,
SX F1−α/2 (n − 1, m − 1) SX Fα/2 (n − 1, m − 1)
2 2
var(Ba[COUN=="RUS"])
## [1] 9730.406
var(Ba[COUN=="NOR"])
## [1] 1372.308
[Link](Ba[COUN=="RUS"],Ba[COUN=="NOR"])
##
## F test to compare two variances
##
## data: Ba[COUN == "RUS"] and Ba[COUN == "NOR"]
## F = 7.0905, num df = 289, denom df = 127,
156CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
[Link](Ba[COUN=="NOR"],Ba[COUN=="FIN"])
##
## F test to compare two variances
##
## data: Ba[COUN == "NOR"] and Ba[COUN == "FIN"]
## F = 0.84466, num df = 127, denom df = 186,
## p-value = 0.3082
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.6161697 1.1692619
## sample estimates:
## ratio of variances
## 0.8446567
8.4.3 Ejercicios
Ej. 72 — ()Estamos analizando dos catalizadores con objeto de de-
terminar como afectan a la producción media de un proceso químico.
Teniendo en cuenta que el segundo catalizador es más barato, éste
sería el elegido suponiendo que la producción media no se modifica
manifiestamente. Se tomaron dos muestras, una por catalizador, y se
obtuvieron los resultados siguientes: en la muestra 1;
91.50, 94.18, 92.18, 95.39, 91.79, 89.07, 94.72, 89.21
y en la segunda muestra,
89.19, 90.95, 90.46, 93.21, 97.19, 97.04, 91.07, 92.75.
Se pide:
1.¿Podemos considerar que la varianza de las muestras es la mis-
ma?
[Link] las medias teniendo en cuenta la respuesta que hemos
dado en el apartado anterior.
cbind(x[1:10],y[1:10])
## [,1] [,2]
## [1,] 29.24987 32.80324
## [2,] 34.83893 42.76711
## [3,] 31.33967 25.71614
## [4,] 28.88061 34.32875
## [5,] 33.39721 45.76881
## [6,] 39.75553 38.95778
## [7,] 27.57826 34.95696
## [8,] 24.63107 39.40311
## [9,] 31.39403 40.21755
## [10,] 35.70377 37.72361
d = x -y
d[1:10]
[Link](d)
##
## One Sample t-test
##
## data: d
## t = -5.7985, df = 144, p-value = 4.071e-08
## alternative hypothesis: true mean is not equal to 0
8.5. COMPARACIÓN DE MEDIAS CON MUESTRAS APAREADAS159
[Link](x,y,paired=TRUE)
##
## Paired t-test
##
## data: x and y
## t = -5.7985, df = 144, p-value = 4.071e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -5.857834 -2.879485
## sample estimates:
## mean of the differences
## -4.36866
(x = c(265,240,258,295,251,245,287,314,260,279,283,240,238,225,247))
## [1] 265 240 258 295 251 245 287 314 260 279 283
## [12] 240 238 225 247
(y = c(229,231,227,240,238,241,234,256,247,239,246,218,219,226,233))
## [1] 229 231 227 240 238 241 234 256 247 239 246
## [12] 218 219 226 233
[Link](x,y,paired=T)
##
## Paired t-test
##
## data: x and y
## t = 5.4659, df = 14, p-value = 8.316e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 16.32430 37.40904
## sample estimates:
## mean of the differences
## 26.86667
160CAPÍTULO 8. COMPARACIÓN DE DOS POBLACIONES NORMALES
[Link](x,y,paired=T,alternative = "greater")
##
## Paired t-test
##
## data: x and y
## t = 5.4659, df = 14, p-value = 4.158e-05
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 18.20922 Inf
## sample estimates:
## mean of the differences
## 26.86667
8.5.1 Ejercicios
Ej. 75 — ([1, problema 17.1])Se ha evaluado la concentración de
antimonio en tres muestras de pescado. Cada muestra fue evaluada
con el método oficial y con un nuevo método. ¿Difieren significativa-
mente los procedimientos?
Muestra 1 2 3
Método nuevo 2.964 3.030 2.994
Método estándar 2.913 3.000 3.024
aunque casi seguro que nadie me ha hecho caso) una nueva va-
riable. En ella vamos a colocar las nuevas concentraciones de
arsénico.
[Link] el cambio medio que se ha producido en la concentración
de arsénico en Murcia y en la Comunidad Valenciana.
3.¿Ha sido significativo el cambio en cada una de las comunidades
autónomas con un nivel de significación de 0.01.
4.¿Es significativamente distinto el cambio observado en una y otra
comunidad autónoma?
mente no normales?
En la figura 8.6 tenemos los estimadores kernel de las densidades
0.06
0.04
una normal.
Un dibujo q-q para la muestra x aparece en la figura 8.7 y para
0.00
93Smirnov_test.
8.6. TEST DE KOLMOGOROV-SMIRNOV PARA DOS MUESTRAS 163
[Link](x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.84428, p-value = 2.617e-05
[Link](y)
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.85967, p-value = 1.504e-05
para los datos. No suponemos que son normales o que son binomiales ● ●
50
●
40 15
●
Quantiles
●
Quantiles
●●
●●
10
bien. De hecho es bueno pero también tiene su pago. Asumimos menos
30
● ●
● ●
Sample
●
●● ●
●●● ●●
Sample
●●● ●
5 20
● ●
●●● ●
●●●
10
●●●
●●
●●●●●●
●●●●●● ●●●●●
0 0
●●
●●●●●
● ● ● ●●
−2 −1 0 1 2
como: −2 −1 0 1
Theoretical Quantiles
2
Theoretical Quantiles
|{xi : xi ≤ z}|
Fn (z) = .
n
Donde | · | denota el cardinal del conjunto. En resumen, Fn (z) está
contando el número de valores en la muestra x que son menores o
iguales que z. La función Gm se define de un modo análogo con la
segunda muestra. En la figura 8.9 mostramos las dos funciones Fn y
Gm .
El estadístico del test es
## Warning in
[Link](x, y, es decir, D nos da la máxima diferencia que observamos entre las
ties, missing(ties)): funciones de distribución muestrales Fn y Gm . En la figura 8.9 repre-
collapsing to unique sentamos con un segmento vertical la máxima diferencia entre ambas
'x' values funciones, esto es, el valor del estadístico D. Por la definición del es-
## Warning in tadístico D es claro que rechazamos para valores grandes de D. Si d
[Link](x, y, es el valor observado entonces el p-valor vendría dado por
ties, missing(ties)): p = P (D ≥ d),
collapsing to unique
'x' values donde en la probabilidad anterior asumimos la hipótesis nula.
Nota 8.10 (Función [Link]) El test de Kolmogorov-Smirnov para
dos muestras lo podemos aplicar con la función [Link] del siguiente
modo:
1.0
2
0.8
[Link](x,y)
Proportion <= x
0.6
##
0.4
##
0.0
0 10 20 30 40 50 ## data: x and y
n:99 m:0
z ## D = 0.28519, p-value = 0.02968
## alternative hypothesis: two-sided
Figura 8.9: Funciones de distri-
bución empíricas de ambas mues- La salida se autoexplica. Observamos un p-valor de 0.0297. Si
tras. Vemos que la función de dis-
tribución de la segunda muestra
trabajamos con un nivel de significación de α = 0.05 entonces como el
(la muestra y indicada en la gráfi- p-valor es menor que este nivel rechazamos la hipótesis nula. Podemos
ca con el número 2) es mayor que decir que hay diferencias significativas en la distribución de los datos
la función de distribución empíri- a un nivel de significación 0.05.
ca de la primera muestra (muestra
x indicada con 1 en la gráfica). La
longitud de la línea punteada nos 8.6.1 Ejercicios
muestra la máxima diferencia en-
tre ambas funciones de distribu- Ej. 81 — ()En el fichero [Link] tenemos las tem-
ción. Esta longitud es el valor del peraturas mínimas medias en la ciudad de Valencia desde el año 1937
estadístico de
hasta el 2011.
[Link] los datos utilizando la función [Link].
[Link] las temperaturas máximas medias desde 1937 hasta
1950 con las temperaturas máximas medias desde el año 2000
hasta el 2011 utilizando un test de Kolmogorov-Smirnov para
dos muestras.
Correlación y regresión
100
el tiempo. Nuestros datos serían (xi , zi ) con i = 1, . . . , n donde xi es el ●
80
●●
medida en el instante xi . ●
●
60
Perfectamente los datos podría corresponder a los mostrados en la
●
z0
●●
40
●
●●
●●
20
la concentración. ●●●
●●
●●
●●●
●●●●
en la concentración ([4]) es 0
0 200 400 600 800 1000
x0
z = C0 e−c1 x (9.1)
Figura 9.1: Datos para la curva de
Notemos que si en la ecuación 9.1 tomamos logaritmos (naturales) reducción de residuo. En abscisas
tenemos el tiempo y en ordenadas
tendremos la concentración de contaminante.
ln(z) = ln(C0 ) − c1 x (9.2)
Si denotamos y = ln(z), β0 = ln(C0 ) y β1 = −c1 realmente podemos
escribir la ecuación anterior como
●
●●
y = β0 + β1 x (9.3) ●●
4
●
●●
●
●
●●
●●
●●
●
●
y0
●
●
de estos valores. ●●
●
●●●
Vemos que hay una relación aproximadamente lineal entre el tiem- 0 200 400 600 800 1000
Sxy
βˆ1 = 2 , βˆ0 = ȳn − βˆ1 x̄n , (9.5)
sx
donde Pn
i=1 (xi − x̄n )(yi − ȳn )
Sxy = , (9.6)
n−1
es la covarianza muestral de los valores (xi , yi ) y
1 X
n
s2x = (xi − x̄n )2 . (9.7)
n − 1 i=1
9.2 Ejemplos
Veamos algunos otros ejemplos que vamos a analizar más tarde.
● ●
● ●
●
Orange$circumference
●
●
●
data(Orange)
150
● ● ●
● ●
●
●
● ● ●
●
100
●
●
En la figura 9.3 mostramos la circunferencia del tronco frente a la
●
●
●
● edad. En este caso pretendemos predecir la circunferencia del tronco
50
●
●
●
● a partir de la edad del arbol.
500 1000 1500
●●●●
En todos los ejemplos antes comentados el problema común es de-
● ●● terminar el valor de Y a partir del valor de X. Obviamente la respuesta
80
x$tminAli1
●● ●
●●
●●
●
●●
●
● ●●
●
● ●
más simple sería buscar una función que podemos denotar por f de
●●●●●●● ●
●●●● ●●●
60
● ●●
●● ● ●●●●●
●
●
● ● ●●
● ●
●
40
● ● ● ●● ●
● ● ●
20 40 60 80 100
x$tminVal1
9.3. REGRESIÓN LINEAL SIMPLE 169
E[Y | x] = β0 + β1 x. (9.9)
Y = β0 + β1 x + ϵ, (9.10)
donde
ϵ ∼ N (0, σ 2 ). (9.11)
En la formulación de 9.10 expresamos el valor aleatorio de Y como
suma de una parte que sistemáticamente depende de x (la compo-
nente sistemática del modelo) y un término aleatorio con distribución
normal, un término de error o desajuste del modelo. En esta variable
normal con media cero y varianza constante σ 2 estamos incluyendo
todas las posibles causas que influyen el valor de Y y que no vienen
dadas por la variable predictora.
170 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
X
n
SS(Error) = (yi − ŷi )2 . (9.15)
i=1
De hecho,
SS(Error)
σ̂ 2 = . (9.16)
n−2
Nota 9.1 (La función lm) Vamos a realizar el análisis de regresión
para la curva de descenso de residuo. La función básica es lm.
lm(y0 ~ x0)
##
## Call:
## lm(formula = y0 ~ x0)
##
## Coefficients:
## (Intercept) x0
## 4.572141 -0.003976
##
## Call:
## lm(formula = y0 ~ x0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.154458 -0.026773 0.004371 0.038320 0.121202
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 4.572e+00 1.963e-02 232.9
## x0 -3.976e-03 3.127e-05 -127.2
## Pr(>|t|)
## (Intercept) <2e-16 ***
## x0 <2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06093 on 35 degrees of freedom
## Multiple R-squared: 0.9978,Adjusted R-squared: 0.9978
## F-statistic: 1.617e+04 on 1 and 35 DF, p-value: < 2.2e-16
predict([Link])[1:10]
## 1 2 3 4 5
## 4.572141 4.452851 4.333562 4.214273 4.094983
## 6 7 8 9 10
## 3.975694 3.856405 3.737115 3.617826 3.498537
y0[1:10] - predict([Link])[1:10]
## 1 2 3
## 0.046269317 -0.154458123 -0.021554504
172 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
## 4 5 6
## -0.020708684 0.069258202 -0.007416474
## 7 8 9
## 0.023173107 0.121201642 0.038320137
## 10
## 0.006657893
residuals([Link])[1:10]
## 1 2 3
## 0.046269317 -0.154458123 -0.021554504
## 4 5 6
## -0.020708684 0.069258202 -0.007416474
## 7 8 9
## 0.023173107 0.121201642 0.038320137
## 10
## 0.006657893
Yi = β0 + β1 xi + ϵi ,
H0 : β1 = 0, (9.17)
H1 : β1 ̸= 0. (9.18)
Pn
En particular, la varianza de β̂1 es σ 2 / i=1 (xi − x̄n )2 . Como sabemos
la raiz cuadrada de la varianza del estimador es lo que llamamos su
error
p estándar.
Pn En resumen, el error estándar de β̂1 es SE(β̂1 ) =
σ 2 / i=1 (xi − x̄n )2 . No conocemos (obviamente) la varianza σ 2 del
error aleatorio. Hemos visto cómo estimarla en la ecuación 9.16. El
error estándar estimado de β̂1 será
s
d σ̂ 2
SE(β̂1 ) = Pn .
i=1 (xi − x̄n )
2
9.3. REGRESIÓN LINEAL SIMPLE 173
Se verifica que
v
u n
uX
t (xi − x̄n )2 β̂1 − β1 ∼ tn−2 . (9.20)
i=1
σ̂
summary([Link])
##
## Call:
## lm(formula = y0 ~ x0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.154458 -0.026773 0.004371 0.038320 0.121202
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 4.572e+00 1.963e-02 232.9
## x0 -3.976e-03 3.127e-05 -127.2
## Pr(>|t|)
## (Intercept) <2e-16 ***
## x0 <2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06093 on 35 degrees of freedom
## Multiple R-squared: 0.9978,Adjusted R-squared: 0.9978
## F-statistic: 1.617e+04 on 1 and 35 DF, p-value: < 2.2e-16
confint([Link])
## 2.5 % 97.5 %
## (Intercept) 4.532283119 4.611998151
## x0 -0.004039794 -0.003912829
confint([Link],level=0.99)
## 0.5 % 99.5 %
## (Intercept) 4.518663613 4.625617656
## x0 -0.004061486 -0.003891137
9.3.2 Ejercicios
Ej. 85 — ()En el fichero valencia_alicante_temperaturas_mes_1939_2010.txt
tenemos como variables los años de 1939 a 2010 y como observaciones
los distintos meses del año. Vamos a considerar como variable predic-
tora la temperatura mínima en 1962 (buen año) y como respuesta la
temperatura mínima en 2002 (mal año). Se pide:
[Link] un modelo de regresión lineal simple. Obtener el valor de
los coeficientes.
2.¿Es un buen ajuste atendiendo al coeficiente de determinación.
[Link] un dibujo que en abscisas tenga las predicciones y en
ordenadas los residuos. ¿Qué indica este dibujo? Interpretarlo.
4.¿Cuál es el máximo residuo observado? ¿A qué observación co-
rresponde?
Figura 9.5: a) Datos. b) Los datos con dos líneas: la línea horizontal que corta al eje de ordenadas en ȳ y la línea
vertical que corta al eje de abscisas en x̄. c) Los datos, la línea horizontal que corta al eje de ordenadas en ȳ y la
línea vertical que corta al eje de abscisas en x̄. Representamos en rojo aquellos puntos donde el producto cruzado
(xi − x̄)(yi − ȳ) es positivo y en azul aquellos puntos donde el producto toma un valor negativo.
cor(x1,y1)
## [1] 0.8038877
(a) (b)
(c) (d)
Figura 9.6: Ejemplo con fuerte asociación lineal: datos (a) y los datos diferenciando el signo del producto cruzado.
Las figuras (c) y (d) son los dibujos análogos con datos en los que apenas hay asociación lineal entre las abscisas y
las ordenadas.
9.4. COEFICIENTE DE CORRELACIÓN DE PEARSON 177
cor(x2,y2)
## [1] 0.9896256
cor(x3,y3)
## [1] 0.02044313
La covarianza muestral
Pn
(xi − x̄n )(yi − ȳn )
sxy = i=1 ,
n−1
está estimando la cantidad
E(X − µX )(Y − µY ),
E(X − µX )(Y − µY )
ρ= .
σX σY
−1 ≤ ρ ≤ 1.
178 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
cor(x0,z0)
## [1] -0.8834627
cor(x0,y0)
## [1] -0.9989195
X
p−1
Yi = β0 + βj xij + ϵi
j=1
9.6 Estimación de β
¿Cómo estimamos los parámetros β = (β0 , . . . , βp−1 )? Nuestros
datos son (yi , xi1 , . . . , xi,p−1 ) con i = 1, . . . , n. Nuestro objetivo es
9.6. ESTIMACIÓN DE β 179
Pp−1
estimar los coeficientes β de modo que β0 + j=1 βj xij esté próximo
a y. En concreto vamos a minimizar
n
X X
p−1 2
yi − (β0 + βj xij ) (9.23)
i=1 j=1
Se tiene que
β̂i ∼ N (βi , aii σ̂ 2 ). (9.26)
Para la observación i-ésima tendremos la predicción
X
p−1
ŷi = β̂0 + β̂j xij . (9.27)
j=1
Los residuos esto es las diferencias entre los valores observados origi-
nalmente y las predicciones que de ellos hacemos, vienen dados por
Ejemplo 9.4 (Ahorro) Los datos que vamos a utilizar son los da-
tos savings contenido en el paquete faraway. Se pretende estudiar la
relación que liga la fracción de ahorro con la proporción de población
menor de 15 años, mayor de 75 y las variables dpi y ddpi.
library(faraway)
data(savings)
attach(savings)
Ajustamos el modelo.
180 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
summary([Link])
##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2422 -2.6857 -0.2488 2.4280 9.7509
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 28.5660865 7.3545161 3.884
## pop15 -0.4611931 0.1446422 -3.189
## pop75 -1.6914977 1.0835989 -1.561
## dpi -0.0003369 0.0009311 -0.362
## ddpi 0.4096949 0.1961971 2.088
## Pr(>|t|)
## (Intercept) 0.000334 ***
## pop15 0.002603 **
## pop75 0.125530
## dpi 0.719173
## ddpi 0.042471 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.803 on 45 degrees of freedom
## Multiple R-squared: 0.3385,Adjusted R-squared: 0.2797
## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904
coefficients([Link])
summary([Link])
##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2422 -2.6857 -0.2488 2.4280 9.7509
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 28.5660865 7.3545161 3.884
## pop15 -0.4611931 0.1446422 -3.189
## pop75 -1.6914977 1.0835989 -1.561
## dpi -0.0003369 0.0009311 -0.362
## ddpi 0.4096949 0.1961971 2.088
## Pr(>|t|)
## (Intercept) 0.000334 ***
## pop15 0.002603 **
## pop75 0.125530
## dpi 0.719173
## ddpi 0.042471 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.803 on 45 degrees of freedom
## Multiple R-squared: 0.3385,Adjusted R-squared: 0.2797
## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904
(SS(Error)0 − SS(Error))/r
F = ∼ Fr,n−p . (9.33)
SS(Error)/(n − p)
summary([Link])
##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2422 -2.6857 -0.2488 2.4280 9.7509
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 28.5660865 7.3545161 3.884
## pop15 -0.4611931 0.1446422 -3.189
## pop75 -1.6914977 1.0835989 -1.561
## dpi -0.0003369 0.0009311 -0.362
## ddpi 0.4096949 0.1961971 2.088
## Pr(>|t|)
## (Intercept) 0.000334 ***
## pop15 0.002603 **
## pop75 0.125530
## dpi 0.719173
## ddpi 0.042471 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.803 on 45 degrees of freedom
## Multiple R-squared: 0.3385,Adjusted R-squared: 0.2797
## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904
o bien si
F = t2i > F1,n−p,1− α2 .
Ambos procedimientos son equivalentes.
184 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
summary([Link])
##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2422 -2.6857 -0.2488 2.4280 9.7509
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 28.5660865 7.3545161 3.884
## pop15 -0.4611931 0.1446422 -3.189
## pop75 -1.6914977 1.0835989 -1.561
## dpi -0.0003369 0.0009311 -0.362
## ddpi 0.4096949 0.1961971 2.088
## Pr(>|t|)
## (Intercept) 0.000334 ***
## pop15 0.002603 **
## pop75 0.125530
## dpi 0.719173
## ddpi 0.042471 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.803 on 45 degrees of freedom
## Multiple R-squared: 0.3385,Adjusted R-squared: 0.2797
## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904
anova([Link].1,[Link].2)
ción se elegió una zona homogénea (un trozo de playa o bien un trozo ●
300
●
●
●
●●
●●● ●
●
z
la concentración de petróleo.
●
●●●●● ●
●● ●●
●
●● ●●
● ●
●
● ● ●
●
●
●
●●●●●●
● ● ●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●●●
●
●●
●
● ●●● ●
●
●● ●● ●●●● ●●
●● ●
●
● ●
●●● ● ● ● ●
●
●●
●● ●
●●
●
●●●
● ●
● ● ● ●●
●
● ●
●
●● ●
●●●
●●●
●
●●
● ●●
●●●
●●●
● ●●●
●● ●
●
●●●
●
●
●
●●
●●●
●●
●
●●
●● ●●●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
● ●●●
●●
●●● ●●●●
●●●●● ●
●●
●●●
●
●●
●
●●●
●
●
●●
●●●
Podemos ver que los datos no parecen ajustarse a una recta. Más
bien sugiere que hay alguna componente cuadrática. Es decir, que el Figura 9.7: Curva de reducción de
logaritmo (natural) de la concentración podemos aproximarlo con una residuo.
función del tipo
f (x) = β0 + β1 x + β2 x2
6
●●●
●
●
●
●
●
●●
●
●●
●●
●●●● ●
●
●●●● ●
●
●●
● ●
●●●
●
●●●
●
●●
●
●●
●
●
●
●●
●
●●
●●
●
●●●
● ●●●
● ●
●
●●●
●●
●●
●●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●●
●●
●
●●● ●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●●
●●●
● ●
● ●
●●●●
●●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●●
●●
●●
● ● ● ●
● ●
●
●●
●●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●●
●● ●
●●
●●●
●
● ●
●
●●●
●
●
●●●● ●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●● ●
●
●●
●
●●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●●●
●
●●
●●●
●●●
●
●●
● ●
●●
●
●●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●●
●●●
●
●●
● ●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●●
●
●●
●●●●
●●
●● ●
y
●
●●
●●●
●
●
● ●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●
●
● ●●●
●
●●
●●●●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●●●
●
● ●
●
●●●
●
●●
●●
●
●
●●
●
●
●●
●
●●●
●
●
●
●
●●●●
●
●
●●●●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●●
●●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●
●●●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●●●
●
●●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●●
●●●
●
●●●
●●
●
●
●●
●
●●
●
●●
●●
−4
●●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●●
●
●●
●●
●
●
●
●●
●●
●●
●
●
●●
●
●●
●
●●
●●
●
●●●
●
●●
●
●●
●
●
●
●●
●
●
●●
● ●
●
●●
●●●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●●
●
●●
●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●●
●●
●
●●
●
●
●●
●
●
●
●●
●●
●
●●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●●●
●
−6
●
●
●●
●
●●●
●
●●
●
●
●●
●
●●
●
●
●●
prestige.ajuste1 = lm(y ~ x)
● ●
●
●●●●
●
●●
●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●●●●
●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●●●
●
●●
●
●
●
●
●●
●●
−8
o bien con
summary(prestige.ajuste1)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.76579 -0.35869 0.05234 0.38334 1.56108
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 5.949e+00 1.842e-02 323.0
## x -3.644e-04 9.711e-07 -375.2
## Pr(>|t|)
## (Intercept) <2e-16 ***
## x <2e-16 ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5281 on 3284 degrees of freedom
## Multiple R-squared: 0.9772,Adjusted R-squared: 0.9772
## F-statistic: 1.408e+05 on 1 and 3284 DF, p-value: < 2.2e-16
summary(prestige.ajuste2)
##
## Call:
## lm(formula = y ~ poly(x, 2))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.09602 -0.23112 -0.00392 0.23539 1.27076
##
## Coefficients:
## Estimate Std. Error t value
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 187
summary(prestige.ajuste3)
##
## Call:
## lm(formula = y ~ poly(x, 3))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.10063 -0.23058 -0.00448 0.23650 1.26565
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) -3.528e-02 5.978e-03 -5.902
## poly(x, 3)1 -1.981e+02 3.427e-01 -578.164
## poly(x, 3)2 -2.303e+01 3.427e-01 -67.194
## poly(x, 3)3 2.782e-01 3.427e-01 0.812
## Pr(>|t|)
## (Intercept) 3.97e-09 ***
## poly(x, 3)1 < 2e-16 ***
## poly(x, 3)2 < 2e-16 ***
## poly(x, 3)3 0.417
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3427 on 3282 degrees of freedom
## Multiple R-squared: 0.9904,Adjusted R-squared: 0.9904
## F-statistic: 1.129e+05 on 3 and 3282 DF, p-value: < 2.2e-16
library(foreign)
x = [Link](file='../data/venta_casas.sav',[Link]=T)
attach(x)
##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Coefficients:
## (Intercept) valterr valmejor
## 767.4080 3.1916 0.4779
summary([Link])
##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -153634 -10451 -576 8690 356418
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.674e+02 1.290e+03 0.595 0.552
## valterr 3.192e+00 5.339e-02 59.777 <2e-16
## valmejor 4.779e-01 2.552e-02 18.728 <2e-16
##
## (Intercept)
## valterr ***
## valmejor ***
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 189
##
## Residual standard error: 28070 on 2437 degrees of freedom
## Multiple R-squared: 0.6756,Adjusted R-squared: 0.6754
## F-statistic: 2538 on 2 and 2437 DF, p-value: < 2.2e-16
data(state)
statedata = [Link](state.x77, [Link] = [Link], [Link] = T)
g = lm([Link] ~ ., data = statedata)
summary(g)
##
## Call:
## lm(formula = [Link] ~ ., data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.48895 -0.51232 -0.02747 0.57002 1.49447
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.094e+01 1.748e+00 40.586
## Population 5.180e-05 2.919e-05 1.775
## Income -2.180e-05 2.444e-04 -0.089
## Illiteracy 3.382e-02 3.663e-01 0.092
## Murder -3.011e-01 4.662e-02 -6.459
## [Link] 4.893e-02 2.332e-02 2.098
## Frost -5.735e-03 3.143e-03 -1.825
## Area -7.383e-08 1.668e-06 -0.044
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.0832 .
## Income 0.9293
## Illiteracy 0.9269
## Murder 8.68e-08 ***
## [Link] 0.0420 *
## Frost 0.0752 .
## Area 0.9649
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7448 on 42 degrees of freedom
## Multiple R-squared: 0.7362,Adjusted R-squared: 0.6922
## F-statistic: 16.74 on 7 and 42 DF, p-value: 2.534e-10
g = update(g, . ~ . - Area)
summary(g)
##
190 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
## Call:
## lm(formula = [Link] ~ Population + Income + Illiteracy + Murder +
## [Link] + Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.49047 -0.52533 -0.02546 0.57160 1.50374
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.099e+01 1.387e+00 51.165
## Population 5.188e-05 2.879e-05 1.802
## Income -2.444e-05 2.343e-04 -0.104
## Illiteracy 2.846e-02 3.416e-01 0.083
## Murder -3.018e-01 4.334e-02 -6.963
## [Link] 4.847e-02 2.067e-02 2.345
## Frost -5.776e-03 2.970e-03 -1.945
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.0785 .
## Income 0.9174
## Illiteracy 0.9340
## Murder 1.45e-08 ***
## [Link] 0.0237 *
## Frost 0.0584 .
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7361 on 43 degrees of freedom
## Multiple R-squared: 0.7361,Adjusted R-squared: 0.6993
## F-statistic: 19.99 on 6 and 43 DF, p-value: 5.362e-11
g = update(g, . ~ . - Illiteracy)
summary(g)
##
## Call:
## lm(formula = [Link] ~ Population + Income + Murder + [Link] +
## Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4892 -0.5122 -0.0329 0.5645 1.5166
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.107e+01 1.029e+00 69.067
## Population 5.115e-05 2.709e-05 1.888
## Income -2.477e-05 2.316e-04 -0.107
## Murder -3.000e-01 3.704e-02 -8.099
## [Link] 4.776e-02 1.859e-02 2.569
## Frost -5.910e-03 2.468e-03 -2.395
## Pr(>|t|)
9.9. EJEMPLOS DE REGRESIÓN LINEAL MÚLTIPLE 191
g = update(g, . ~ . - Income)
summary(g)
##
## Call:
## lm(formula = [Link] ~ Population + Murder + [Link] + Frost,
## data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.47095 -0.53464 -0.03701 0.57621 1.50683
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 7.103e+01 9.529e-01 74.542
## Population 5.014e-05 2.512e-05 1.996
## Murder -3.001e-01 3.661e-02 -8.199
## [Link] 4.658e-02 1.483e-02 3.142
## Frost -5.943e-03 2.421e-03 -2.455
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Population 0.05201 .
## Murder 1.77e-10 ***
## [Link] 0.00297 **
## Frost 0.01802 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7197 on 45 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.7126
## F-statistic: 31.37 on 4 and 45 DF, p-value: 1.696e-12
g = update(g, . ~ . - Population)
summary(g)
##
## Call:
## lm(formula = [Link] ~ Murder + [Link] + Frost, data = statedata)
##
## Residuals:
192 CAPÍTULO 9. CORRELACIÓN Y REGRESIÓN
Ajustamos el modelo.
##
## Call:
## lm(formula = agua ~ temperatura + produccion + dias + personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -444.99 -131.52 2.58 108.97 368.52
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 6360.33733 1314.39161 4.839
## temperatura 13.86886 5.15982 2.688
## produccion 0.21170 0.04554 4.648
## dias -126.69036 48.02234 -2.638
## personas -21.81796 7.28452 -2.995
9.10. EJERCICIOS 193
## Pr(>|t|)
## (Intercept) 0.000406 ***
## temperatura 0.019748 *
## produccion 0.000562 ***
## dias 0.021647 *
## personas 0.011168 *
## ---
## Signif. codes:
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 249 on 12 degrees of freedom
## Multiple R-squared: 0.767,Adjusted R-squared: 0.6894
## F-statistic: 9.877 on 4 and 12 DF, p-value: 0.0008958
9.10 Ejercicios
Ej. 88 — ()Vamos a utilizar los datos homedata (contenidos en el
paquete UsingR). Son datos sobre valores asegurados de viviendas en
el año 1970 y en el año 2000. Queremos estudiar la relación entre el
primer valor asegurado (en el año 1970 que corresponde con la variable
y1970) y el último valor asegurado (en el año 2000 que corresponde
con la variable y2000). Utilizamos como variable predictora la que nos
da el primer valor.
[Link] de los precios asegurados en el año 1970 es 0. Esto es un
error. Declarar ese valor como dato faltante con el siguiente có-
digo.
[Link] gráficamente el precio asegurado en el 2000 frente al
precio asegurado en 1970. ¿Sugiere el dibujo una relación lineal
entre las variables?
[Link] un modelo de regresión lineal simple donde la variable
predictora es y1970 y la variable respuesta es y2000.
4.¿Cuáles son los coeficientes del ajuste?
5.¿Cuál es el coeficiente de determinación? ¿Podemos considerar
que el ajuste es bueno atendiendo al valor del coeficiente de de-
terminación?
6.¿Cuál es la predicción del valor asegurado en el año 2000 para
una casa que estaba asegurada en 1970 en 75000 euros?
[Link] como variable predictora el logaritmo natural del va-
lor asegurado en y1970 y como variable respuesta el logaritmo
de la cantidad asegurada en el año 2000, y2000. Representa grá-
ficamente los nuevos datos. Realiza el ajuste y compara los coefi-
cientes de determinación. ¿Se ha incrementado o decrementado
el coeficiente de determinación? ¿Cuál de los dos ajustes es pre-
ferible?
sex[sex == 9] = NA
wt[wt == 999] = NA
parity[parity == 99] = NA
race[race == 99] = NA
age[age == 99] = NA
ed[ed == 9] = NA
ht[ht == 99] = NA
wt1[wt1 == 999] = NA
smoke[smoke == 9] = NA
time[time == 99] = NA
time[time == 98] = NA
number[number == 98 | number == 99] = NA
197
198 BIBLIOGRAFÍA
Soluciones ejercicios
seleccionados
199