Prob Estad Sol
Prob Estad Sol
[Link]/ingor/estadistica/
1. Probabilidad
2. Inferencia
3. Diseño de
Experimentos
4. Regresión
1.2 ¿Es posible que la varianza de una variable x sea 4, la de y sea 9 y la de z = x + y sea igual a 2?
Justificar la respuesta.
1.3 Demostrar que al multiplicar x por k1 e y por k2 , el coeficiente de correlación entre ambas no varía
(k1 y k2 deben tener el mismo signo).
1.4 Demostrar que si entre dos variables existe una relación exacta y = a + bx, con b > 0, el coeficiente
de correlación es uno.
1.5 Demostrar que el coeficiente de correlación es siempre en valor absoluto menor que uno.
1.6 En un proceso de fabricación se han medido tres variables y calculado la matriz de varianzas con el
resultado siguiente:
2 3 1
3 4 2
1 2 2
1.7 A la variable x de media x = 100 se le ha aplicado una transformación con el logaritmo decimal
obteniéndose la nueva variable y = log10 (x). La media de la nueva variable es y = 2.5. ¿Es posible
este resultado?
1.8 En la figura se presenta el diagrama de tallos y hojas de los residuos obtenidos de un diseño factorial.
Representa el diagrama de caja (box plot) de los datos. (Nota.- La rama -6|91 representa los valores
-0.69 y -0.61).
2 -6 | 91
2 -5 |
4 -4 | 00
10 -3 | 766320
18 -2 | 98754310
29 -1 | 98654321100
(16) -0 | 9977666554433211
36 0 | 015566677
27 1 | 2333478
20 2 | 134789
14 3 | 23455699
6 4 | 011355
1
Capítulo 2. Probabilidad
2.1 Sea X una variable aleatoria con distribución uniforme en (0, 1). Calcular la probabilidad de que
2
Y > 0.8 si Y = e−X .
2.3 Si X es una variable aleatoria con media µ. Demostrar que cuando m = µ, E[(X − m)2 ] es mínima.
2.5 De acuerdo con la teoría cinética de los gases, la velocidad V de una molécula de masa m de un gas
a la temperatura (absoluta) T es una variable aleatoria con la siguiente función de densidad:
4 2 2
f (v) = √ v 2 e−v /α , v ≥ 0
α3 π
p √
donde α = 2kT /m, siendo k la constante de Boltzmann. Además, E(V ) = 2α/ π y Var(V ) =
(3/2 − 4/π)α2 . Calcular el valor medio de la energía cinética, mV 2 /2, de una molécula. ¿ A una
misma temperatura T , qué gas tiene mayor valor medio de energía cinética, uno ligero u otro más
pesado?
2.7 Un modelo que habitualmente se utiliza en balística para comprobar la correcta calibración de las
armas es
· ¸
x x2
f (x) = 2 exp − 2 , x ≥ 0, σ ≥ 0,
σ 2σ
donde la variable aleatoria X es la distancia del punto de impacto del proyectil al centro del blanco
al que iba dirigido y σ es el parámetro que mide la precisión. Si para una distancia determinada de
disparo la precisión del arma es σ = 10 cm, ¿cuál es la probabilidad de que al lanzar 10 proyectiles,
ninguno haya impactado a una distacia menor de 5 cm del centro del blanco?
1
Obtener k, así como la media y la varianza de la variable Y = 3X − 1.
2.10 Supóngase una diana circular con centro en el origen de coordenadas y radio r y X, Y las coor-
denadas de un punto elegido al azar (por ejemplo, el lanzamiento de un dardo). Supóngase que
cualquier otro punto de la diana tiene la misma probabilidad de ser elegido. Calcule fXY (x, y) y
fX (x).
2.11 Un gran almacén guarda cajas que contienen piezas de distinto tipo. La proporción p de piezas de
tipo A en una caja se puede considerar una variable aleatoria con función de densidad:
2.12 X e Y son dos variables aleatorias independientes con la misma función de distribución F . Calcular
la función de densidad de
U = max(X, Y).
2.13 Obtén la distribución de probabilidad del máximo, del mínimo y de la media de los resultados
obtenidos al lanzar dos dados equilibrados. Se acepta que los resultados de los dados son variables
aleatorias independientes.
2.14 La función de densidad de una variable aleatoria bidemensional viene dada por la expresión:
½
xy + cex , cuando 0 < x < 1 y 0 < y < 1
fXY (x, y) =
0, en el resto
2.15 Los billetes de banco son fabricados en pliegos. La impresión se realiza por dos máquinas iguales,
una de ellas imprime el anverso y la otra el reverso. Sea X e Y , respectivamente, el número de
defectos de impresión en el anverso y reverso de un pliego. Ambas variables son independientes con
distribución de Poisson de parámetros λ1 y λ2 .
2.16 La cantidad en miligramos de dos componentes contenidos en un producto es una variable aleatoria
bidemensional, cuya función de densidad viene dada por la expresión
2
½
4xy, cuando 0 ≤ x ≤ 1 y 0 ≤ y ≤ 1
fXY (x, y) =
0, en el resto
Calcular la probabilidad de que la cantidad del primer componentes sea menor que 0.3 miligramos
cuando la del segundo es 0.8 miligramos.
2.17 La llegada de los clientes a un banco se considera un proceso Poisson con parámetro λ. Sabiendo
que en la última hora han llegado 2 clientes, ¿cuál es la probabilidad de que los dos entraran en los
primeros 15 minutos?
2.18 La función de densidad de la variable aleatoria bidemendional (X, Y ), bien dada por la expresión:
½
kxy, cuando 0 < x < y < 1
fXY (x, y) =
0, en el resto
2.19 X e Y son variables aleatorias con coeficiente de correlación lineal ρ = −1. Si las varianzas son
iguales, calcular la varianza de Z = X + Y − 1.
2.20 Un equipo de radio tiene dos partes, el receptor y el amplificador. La duración del receptor es
una variable aleatoria exponencial de media 500 horas y la duración del amplificador una variable
exponencial de media 1000 horas. ¿Cuál es la probabilidad de que el fallo del equipo (cuando se
produzca) sea debido a un fallo del receptor? (Se supone que las variables son independientes)
2.21 Una máquina en funcionamiento es reemplazada por una nueva máquina bien cuando falla, bien
cuando alcanza la edad de T años. Si el tiempo de vida de las sucesivas máquinas son variables
aleatorias independientes con la misma función de distribución F y con función de densidad f,
demuestra que el número medio esperado de máquinas empleadas en un año es
·Z T ¸−1
xf (x)dx + T (1 − F (T )) .
0
2.22 Sea X1 una variable aleatoria N(10,1), X2 una variable aleatoria N(20,1), y X3 una variable aleatoria
N(30,4). Se define
Z1 = X1 + X2 − X3
Z2 = X1 + X2 + X3
Z3 = X1 − X2 − X3
3
2.23 La distribución de probabilidad conjunta de las variables aleatorias Y1 e Y2 es la siguiente:
Y1
-1 0 1
-1 1/16 3/16 1/16
Y2 0 3/16 0 3/16
1 1/16 3/16 1/16
2.30 Un laboratorio de análisis realiza pruebas de sangre para detectar la presencia de un tipo de virus.
Se sabe que una de cada 100 personas es portadora del virus. Se va a realizar un estudio en un
colegio, para abaratar las pruebas se realiza un análisis combinado que consiste en: En lugar de
analizar la sangre de cada individuo, se toman las muestras de 50 y se analiza la mezcla. Si el
resultado del análisis es negativo, se concluye que los 50 individuos están sanos. Si el análisis es
positivo, se repite a cada persona de manera individual. El análisis es infalible.
4
(a) Determinar el número esperado de pruebas (análisis) que se tendrá que realizar si se sigue
este tipo de estrategia.
(b) ¿Cuál es la probabilidad de que un individuo determinado sea portador del virus, si el
resultado del análisis realizado a su grupo de 50 ha resultado positivo?
2.31 De un lote con una proporción de piezas defectuosas p, se extraen piexas con reposición hasta que
se observa la k−ésima defectuosa. Obtener la distribución de probabilidad de la variable aleatoria
X número total de piezas observadas.
2.32 La función de densidad de una variable aleatoria X viene dada por la expresión
½
x/8, si 0 ≤ x ≤ 4
f (x) =
0, en el resto
Se generan secuencialmente valores de esta variable. ¿Cuántos valores de X habrá que generar
por término medio hasta obtener un valor mayor que 3?
2.33 Una pareja decide tener hijos hasta el nacimiento de la primera niña. Calcular la probabilidad de
que tengan más de 4 hijos. (Supóngase P (niño) = P (niña) = 0.5)
2.34 Si las llamadas telefónicas a una centralita siguen una distribución de Poisson de parámetro λ = 3
llamadas/cinco minutos, calcular la probabilidad de:
2.35 La variable aleatoria X tiene distribución exponencial con media 1. Obtener la función de distribu-
ción y la función de densidad de
2.36 El número de averías diarias de una máquina sigue una distribución de Poisson de media 0.4 averías.
Calcular la probabilidad de que haya tres días sucesivos sin averías.
2.37 A un puesto de servicio llegan de manera independiente, por término medio, 10 clientes/hora.
Calcular la probabilidad de que lleguen 8 clientes en la próxima media hora sabiendo que en la
última hora llegaron 14 clientes, y que la variable aleatoria número de clientes que llegan en un
hora siguen una distribución de Poisson.
2.38 En una planta industrial dos bombas B1 y B2 en paralelo conducen agua desde un pozo a una
depuradora D, y posteriormente otras dos bombas B3 y B4 , también en paralelo, la trasladan a un
depósito como indica la figura.
Los tiempos de vida de la depuradora y de las bombas son variables aleatorias independientes con
distribución exponencial, siendo 20 mil horas la vida media de la depuradora y 30 mil horas
la de cada bomba.
5
- B1 B3 -
@ ¡
µ
R
@ ¡ Depósito
Pozo D
µ
¡ @
- B2 ¡ R B4
@ -
(a) Calcular la probabilidad de que llegue agua al depósito después de 20 mil horas de fun-
cionamiento.
(b) Calcular la probabilidad de que una depuradora que ha trabajado T horas falle antes de las mil
horas siguientes. ¿Es razonable que para evitar fallos de la depuradora se renueve ésta cada 20 mil
horas? ¿Por qué?
2.39 La distancia D entre dos vehículos consecutivos es una autopista sigue una distribución exponencial
con media 200 metros. ¿Cuál es la probabilidad de que en un tramo de 1 km haya exactamente 5
vehículos?
2.40 La función de densidad del tiempo T de funcionamiento de un componente hasta que falla es
Cuando un componente falla se puede reparar y queda igual que otro que no hubiera fallado nunca
y tuviera la misma edad. Además, el tiempo necesario para reparar el componente se considera
despreciable. Si un componente tiene su primer fallo en el instante t1 , calcular la probabilidad de
que el segundo fallo se produzca después de t2 con t2 > t1 .
2.41 Ricardo es un pescador experto que ha comprobado, después de una larga experiencia practicando
su deporte favorito, que el número de peces capturados por la mañana puede ser representado por
una variable aleatoria de Poisson de media 3 peces a la hora. Quiere ir a pescar el sábado próximo,
si empieza a las 7 de la mañana, ¿cuál es la probabilidad de que capture el primer pez antes de las
7 h. 15 min.? ¿Cuál es la probabilidad de que capture 5 peces durante dos horas de pesca?
2.42 La variable aleatoria T representa la duración de vida de un componente electrónico. En teoría de
la fiabilidad la probabilidad de que un componente falle en el instante t sabiendo que ha durado
hasta t se denomina tasa de fallo y se representa por λ(t), siendo su valor en función de t
f (t)
λ(t) = ,
1 − F (t)
2.43 Un examen consiste en 25 cuestiones. En cada cuestión, el alumno debe elegir entre 5 soluciones
propuestas, de las que una (y sólo una) es cierta. El número mínimo de respuestas correctas que
debe tener un alumno para aprobar es a. El profesor decide fijar a con el siguiente criterio: que
la probabilidad de aprobar para un alumno que conteste todas las cuestiones al azar sea menor de
0.05. Obtener a. (Una cuestión es respondida al azar si cada uno de los cinco resultados propuestos
tiene la misma probabilidad de ser escogido).
6
2.44 Obtener la función de densidad de una variable aleatoria χ2 con un grado de libertad. (Si X ;
N (0, 1), Y = X 2 es una χ21 .)
2.45 Dada una variable aleatoria X, cuya distribución es N(0, σ 2 ), calcular la mediana de la variable
Y = |X|.
2.46 La longitud L en milímetros de las piezas fabricadas en un proceso es una variable aleatoria que
se distribuye según una N (32, 0.3), considerándose aceptables aquellas cuya medida se encuentra
dentro del intervalo (31.1, 32.6).
(a) Calcular la probabilidad de que una pieza elegida al azar sea aceptable.
(b) Si se toma al azar una muestra de tres piezas, ¿cuál es la probabilidad de que la primera
y la tercera sean aceptables y la segunda no lo sea?
(c) ¿Cuál es la probabilidad de que en una muestra de tamaño 3 al menos una sea aceptable?
(d) Las piezas se embalan en lotes de 500. Calcular la probabilidad de que un lote tenga más
de 15 defectuosas.
2.47 En cierta fabricación mecánica el 96% de las piezas resultan con longitudes admisibles (dentro
de tolerancias), un 3% son piezas defectuosas cortas y un 1% son defectuosas largas. Calcular la
probabilidad de:
2.48 Una máquina rellena sobres de azucar para café. La cantidad de azucar en cada sobre se distribuye
como una normal de media 8 gramos y desviación típica 0.5 gramos. Los sobres llenos se colocan
en cajas de cartón. Cada caja tiene 100 sobres de azucar. El peso conjunto de la caja y los 100
sobres vacíos es 30 gramos. Al final del proceso de empaquetado se pesa cada caja llena, si el peso
es menor de 820 gramos se retiran y no se comercializan. ¿Cuál es el porcentaje de cajas llenas
que pesan menos de 820 gramos? ¿Cuál es la probabilidad de que una caja con 99 sobres llenos de
azucar supere el control? (Se supone despreciable el peso de un sobre vacío)
2.49 En un juego de apuestas una persona paga un euro, elige un número del 1 al 6 y lanza tres dados.
La banca le paga tantos euros como número de veces haya salido el número elegido. Sea X los euros
ganados o perdidos por el jugador en una jugada, calcula E[X]. ¿A quién beneficia este juego, a la
banca o al jugador?
2.50 Una empresa y su proveedor han llegado a un acuerdo en cuanto al plan de muestreo en la compra-
venta de lotes de 100.000 unidades. Para comprobar la calidad se tomará una muestra de 400
unidades, aceptando el lote cuando haya como máximo c unidades defectuosas. Calcula c para que
la probabilidad de aceptar un lote con el 6% de piezas defectuosas sea 0.05.
7
Capítulo 3. Inferencia
3.1 La variable aleatoria X tiene distribución binomial con parámetros n y p, ambos desconocidos. Si
{16,18,22,25,27} es una muestra aleatoria simple de la distribución anterior, estimar por el método
de los momentos n y p.
3.2 Los taxis en servicio de una ciudad están numerados del 1 al N. Se observa una muestra de 10 taxis
y se apuntan sus números. Obtener un estimador de N por el método de los momentos.
3.3 Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X con función de densi-
dad,
3.4 Una variable aleatoria discreta puede tomar los valores 0, 1 y 2 con probabilidades 1.5/θ, 2.5/θ y
(θ − 4)/θ respectivamente. Se toma una muestra de tamaño 25 con los resultados siguientes (la
segunda fila corresponde a la fracción observada Oi para 0, 1 y 2).
x 0 1 2
Oi 17 5 3
3.5 Se ha tomado una muestra de tamaño 10 del tiempo, en minutos, entre el paso de dos autobuses T
en una parada con los siguientes resultados: 9,10,6,4,15,6,1,5,4,10.
0 x < 0,
F (x) = α
(x/β) 0 ≤ x ≤ β,
1 x > β.
donde los parámetros α y β son positivos. Estimar los parámetros de la distribución por el método
de máxima verosimilitud.
3.7 El club de tiro de una determinada ciudad está estudiando la distancia X del punto de impacto del
proyectil al centro de la diana de sus 13 mejores tiradores.
1
y la distancia de los otros tres fue mayor que la distancia máxima permitida en su categoría que
es de 11cm.
3.8 Una compañía, para determinar el número de consumidores de un determinado producto en Madrid,
ha encuestado a personas elegidas al azar hasta encontrar a 20 que utilicen el producto. Estimar por
máxima verosimilitud la proporción de consumidores en la ciudad si el número total de entrevistados
ha sido 115.
3.9 El tiempo de duración de ciertos componentes electrónicos es una variable aleatoria con distribución
exponencial. Se ha realizado un ensayo con 10 componentes cuyos tiempos de duración han sido:
37,45,92,104,109,200,295. Despues de 400 horas, tres componentes seguían funcionando. Con esta
información, estimar por máxima verosimilitud el parámetro de la distribución exponencial.
3.11 Sea X la media aritmética de una muestra aleatoria simple de una distribución N(µ, σ). Se define
X̂ = cX como nuevo estimador para µ. Determinar c (en función de µ y σ) para que el nuevo
estimador tenga Error Cuadrático Medio (ECM) mínimo. Calcular c si se sabe que el coeficiente
de variación σ/µ = 2.
3.12 X1 , X2 , ..., Xn es una muestra aleatoria simple de una distribución normal con parámetros descono-
cidos. Para estimar la varianza se propone el siguiente estimador
n−1
X n
X
S2 = k (Xi − Xj )2 .
i=1 j=i+1
3.13 Para estimar la media σ 2 de una población normal se utiliza el estimador σ b2 = kb s2 , siendo sb2
la varianza muestral corregida y k una constante. Calcular el valor de k que minimiza el error
cuadrático medio. (Utilizar Var[χ2g ] = 2g, siendo g el número de grados de libertad).
3.14 Los tiempos de funcionamiento de dos componentes electrónicos distintos siguen distribuciones
exponenciales con esperanzas µ y 2µ. Se han obtenido los tiempos de fallo de una muestra de cada
tipo de componente, en ambos casos de tamaño n. Obtener el estimador de máxima verosimilitud
de µ, calcular su media y su varianza.
3.15 Un sistema de lectura telemática de consumo de energía eléctrica emplea un mensaje de 128-
bit. Ocasionalmente las interferencias aleatorias provocan que un bit se invierta produciéndose un
error de transmisión. Se acepta que la probabilidad de que cada bit cambie en una transmisión
es constante e igual a p, y que los cambios son independientes. Estima el valor de p si se ha
comprobado que de las últimas 10000 lecturas efectuadas (todas de 128-bit) 340 eran erróneas.
3.16 Se han tomado 12 valores de una variable física X, que se supone normal, resultando
30.2, 30.8, 29.3, 29, 30.9, 30.8, 29.7, 28.9, 30.5, 31.2, 31.3, 28.5.
2
(b) Construir un intervalo de confianza para la varianza de la población con el mismo nivel
de confianza del apartado anterior.
3.17 En la lista adjunta se indica la edad y el área científica en que trece importantes científicos de
diversas áreas descubrieron la teoría que les ha dado la fama. Construir con estos datos un intervalo
de confianza para la edad a la que los científicos realizan su contribución más importante: Galileo
(34, astronomía), Franklin (40, electricidad), Lavoisier (31, química), Lyell (33, geología), Darwin
(49, biología), Maxwell (33, ecuaciones de la luz), Curie (34, radiactividad), Plank (43, teoría
cuántica), Marx (30, socialismo científico), Freud (31, psicoanálisis), Bohr (26, modelo del átomo),
Einstein (26, relatividad), Keynes (36, macroeconomía).
3.18 Una muestra de 12 estaciones de servicio de una cadena de gasolineras proporciona un ingreso medio
por persona al mes de 2340 euros con una desviación típica de 815 euros. Calcular un intervalo de
confianza para el ingreso medio por trabajador en esta empresa. Calcular el número de estaciones
que debemos estudiar para que el intervalo tenga una amplitud máxima de 500 euros.
3.19 Se han escogido al azar 15 probetas de un determinado acero, cuya resistencia a la compresión se
supone que se distribuye normalmente, y se ha medido ésta en las unidades adecuadas, habiéndose
observado los resultados siguientes
40.15, 65.10, 49.5, 22.4, 38.2, 60.4, 43.4, 26.35, 31.2, 55.6, 47.25, 73.2, 35.9, 45.25, 52.4.
3.20 Una compañía de comida precocinada desea lanzar al mercado un nuevo producto. Para conocer la
aceptación del mismo realiza previamente una encuesta entre 200 personas elegidas al azar, de las
que 37 manifiestan su disposición a comprarlo. Obtener un intervalo de confianza (α = 0.05) para
la proporción p de compradores potenciales de este nuevo producto. ¿Cúal debería ser el tamaño
muestral si se quisiera reducir la longitud del intervalo a la mitad.
3.21 Se desea estimar la proporción de niños entre 0 y 14 años que se encuentran adecuadamente
vacunados contra la poliomielitis. Si se quiere que la diferencia en valor absoluto entre la estimación
final y el verdadero valor de la proporción sea menor que 0.05 con probabilidad 0.95, ¿ Cúal es el
tamaño muestral mínimo requerido?.
3.22 Una roca lunar es enviada a un laboratorio para determinar su nivel de radiactividad θ, nivel que se
mide por el número medio de partículas emitidas por hora. Después de 15 horas, el equipo Geiger
ha contabilizado un total de 3.547 partículas emitidas. Aceptando que el número de partículas
emitidas sigue una distribución de Poisson, dar un intervalo con 95% de confianza para el nivel
de radiactividad de la roca. (Nota.- Utilizar que si Z tiene distribución N(0,1), entonces P (Z ≤
1.96) = 0.975).
3.23 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria
exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ
tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver la cuestión siguiente:
3
El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución expo-
nencial. Se han tomado los tiempos de funcionamiento hasta el fallo de 30 equipos elegidos al azar,
obteniéndose 6.2 × 103 horas de media. Calcular un intervalo con 95 % de confianza para la vida
media de un equipo.
3.24 La velocidad de una molécula según el modelo de Maxwell, es una variable aleatoria con función
de densidad
√4 × 1 x2 exp −(x/α)2 , x ≥ 0
f (x) = π α3
0, x ≤ 0.
3.25 Los núcleos (radionucleidos) del elemento radiactivo Carbono 14 (C 14 ) se desintegran aleatori-
amente. El tiempo que tarda en desintegrarse cada radionucleido es una variable aleatoria con
distribución exponencial de media 8, 27 × 103 años.
(a) Si inicialmente había 1012 radionucleidos, obtener el número esperado de los radionucleidos
sin desintegrar al cabo de los 20.000 años.
(b) Obtener, para la variable aleatoria número de radionucleidos sin desintegrar al cabo de
20.000 años, un intervalo que contenga al valor de esa variable con probabilidad 0, 95 e
interpretar el resultado.
(c) Una pieza arqueológica ha estado enterrada durante 20.000 años al cabo de los cuales
se han observado 1010 radionucleidos de C 14 . Estimar por el método de los momentos
el número inicial de radionucleidos N y calcular la media y la varianza del estimador
obtenido.
(d) Determinar el tiempo que debe transcurrir para que el número de radionucleidos iniciales
se reduzca a la mitad.
3.26 Un proceso industrial fabrica piezas cuya longitud en mm se distribuye según una N (190, 10). Una
muestra de 5 piezas proporciona los resultados siguientes:
4
3.27 Para contrastar unilateralmente que la esperanza µ de una variable aleatoria normal es 10, se toma
una muestra de tamaño 16 y se rechaza la hipótesis en el caso en que la media muestral sea mayor
que 11, aceptándose en el caso contrario. Sabiendo que la desviación típica de la población es σ = 2,
¿cúal es la probabilidad de error de tipo I de este contraste?. ¿Cúal sería la probabilidad de error
de tipo II del contraste si el valor verdadero de la esperanza fuese 12?.
3.28 Una medicina estándar es efectiva en el 75% de los casos en los que se aplica. Se ha comprobado
un nuevo medicamento en 100 pacientes, observándose su efectividad en 85 de ellos. ¿ Es la nueva
medicina más efectiva que la estándar ? (Contrastar con α = 0.05).
3.29 Un empresario quiere comprar una empresa que fabrica cojinetes. Durante los 5 últimos años la
proporción de cojinetes defectuosos se ha mantenido en un 3%. Para verificar esto, se toma una
muestra de 200 cojinetes y obtiene que 9 son defectuosos. ¿Se puede concluir que la proporción de
cojinetes defectuosos ha aumentado? Calcular la potencia del contraste planteado anteriormente en
función de p. Calcular la probabilidad de error de tipo II cuando la hipótesis alternativa es p = 0.06,
siendo p la proporción de defectuosos.(Nota: Utilícese la aproximación normal y α = 0, 05.).
3.30 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria
exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ
tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver las cuestiones siguientes:
(a) El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con dis-
tribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de
30 equipos elegidos al azar, obteniéndose 6.2 × 103 horas de media. Contrastar con nivel
de significación igual a 0.05, H0 : λ = 5 × 103 horas, frente a H1 : λ > 5 × 103 horas;
indicando: (a) el valor crítico, y (b) la probabilidad de error tipo II cuando λ = 7.5 × 103
horas. (Es suficiente con proporcionar el valor más proximo obtenido en las tablas del
libro de texto).
(b) Se va a realizar un ensayo con 15 equipos fabricados por una segunda empresa. Si el
tiempo de funcionamiento de estos tiene también distribución exponencial. ¿ Cuál es el
valor máximo de la media muestral de estos quince equipos que permitiría concluir con
α = 0.05 que son peores que los de la primera empresa? Después de 6000 horas de ensayo
han fallado 6 equipos, siendo el promedio de estos seis valores igual a 2350 horas. ¿Es
necesario seguir el ensayo para tomar una decisión ?
3.31 Cibeles Computer S.A. ha realizado un gran pedido de chips para su nueva linea de ordenadores
personales. En el contrato de suministro se especifica que al menos el 95% de los chips deben
ser aceptables. Como es imposible comprobarlo al 100%, el control se va a realizar mediante el
siguiente procedimiento: de cada lote (que se supone de gran tamaño) se toman al azar n chips, si
la proporción de chips en la muestra que supera el control es mayor que c se acepta el lote y en caso
contrario se rechaza. Llamando p a la proporción real de chips aceptables en un lote, determinar n
y c si se desea que
(Utilizar la aproximación normal y considerar que si Z es una variable aleatoria normal estándar,
P (Z ≤ 2.33) = 0.99).
5
3.32 La estatura de 60 niños de una escuela infantil se resume en la siguiente tabla de frecuencias, dónde
la última columna muestra la frecuencia esperada bajo la hipótesis de normalidad.
Frecuencia Frecuencia
Intervalo Observada Esperada
41,5-43,5 4 4,08
43,5-45,5 7 5,58
45,5-47,5 12 9,06
47,5-49,5 8 11,27
49,5-51,5 6 11,27
51,5-53,5 11 9,08
53,5-55,5 9 5,58
55,5-57,5 3 4,08
Total 60 60
¿Se puede aceptar la hipótesis de normalidad de los datos (α = 0.05) ?
VALOR 1 2 3 4 5 6
FRECUENCIA 20 14 23 12 26 25
Contrastar la hipótesis de que el dado está equilibrado y que, por tanto, sus caras son equiproba-
bles. (Tómese α = 0.05).
3.34 Un modelo sísmico indica que la distribución de los epicentros de sismos en una región debería seguir
una distribución de Poisson en el plano. Un grupo de expertos pretende contrastar si ese modelo
se cumple, para ello ha representado un mapa de la región dividido en cuadrículas de tamaño 100
km2 , y ha señalado con puntos las posiciones de los epicentros (véase figura adjunta). Realizar el
contraste χ2 de bondad de ajuste con nivel de significación α = 0, 05 proporcionando el nivel crítico
aproximado del contraste.
6
3.35 El Ministerio de defensa está considerando un nuevo sistema de apoyo para el lanzamineto de
misiles de corto alcance. El sistema existente tiene errores en el 7% de los lanzamientos y se desea
comprobar si el nuevo sistema tiene una probabilidad de fallo menor. El ensayo va a consistir
en realizar 20 lanzamientos y se concluirá que el nuevo sistema es mejor si no se produce ningún
fallo. Llamando p a la probabilidad de fallo del sistema nuevo y aceptando independencia entre los
resultados del lanzamiento, obtenga y represente gráficamente la probabilidad de error de tipo II
del contraste
½
H0 : p = 0.07
H1 : p < 0.07
3.36 El tiempo de duración T de un componente electrodinámico es una variable aleatoria con distribu-
ción exponencial de media µ. Veinte componentes han sido sometidos a un ensayo y el número de
horas que han durado ha sido:
10.99 15.79 24.14 34.43 43.72 51.72 56.12 60.27 77.20 88.47
91.07 117.58 130.40 133.12 152.90 159.00 193.62 208.71 308.82 316.07
Teniendo en cuenta que 2T /µ tiene distribución χ2 con dos grados de libertad, realiza el siguiente
contraste
H0 : µ = 200 horas,
H1 : µ < 200 horas,
con α = 0.05.
3.37 Para controlar la calidad de un proceso textil se cuenta el número de defectos que aparecen en la
tela fabricada. Según el fabricante, cuando el proceso funciona correctamente el número de defectos
en una bobina de 100 metros cuadrados es una variable aleatoria de Poisson con media 4. Se ha
instalado un equipo de visión artificial para realizar el recuento que permite inspeccionar 900 m2
de tela cada hora. ¿Cuál es la probabilidad de que aparezcan más de 50 defectos en una hora
si el proceso funciona bien? En una jornada de 16 horas de fabricación se han contabilizado 720
defectos, ¿se puede afirmar que ha habido un aumento del número medio de defectos en ese día?
(Nivel de significación 0.05).
7
Capítulo 4. Análisis de la varianza
4.1 Se estudian los Km recorridos antes del desgaste de dos tipos de neumáticos con los resultados
siguientes:
Tipo ni xi (Km) sbi (Km)
A 121 27465 2500
B 121 27572 3000
σ 21
(a) Calcular, con α = 0.05,un intervalo de confianza para .
σ 22
(b) Un intervalo de confianza para µ1 − µ2 .
4.2 Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5; 140.7;
106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3; 121.7; 98.4;
161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos de ambas máquinas
siguen distribuciones normales).
4.3 Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero suministradas
por un proveedor A y otras suministradas por otro proveedor B. Para proceder a la elección se ha
analizado la resistencia a la tracción de las piezas suministradas por ambos proveedores, tomando
una muestra de tamaño 10 de las piezas del primero, y otra de tamaño 12 del segundo. La resistencia
media de la muestra de A es de 54000 unidades y la de la muestra de B es de 49000 unidades, siendo
las desviaciones típicas muestrales corregidas sbA = 2100 y sbB = 1900. Las resistencias de las piezas
de ambos proveedores se distribuyen normalmente. Las piezas del proveedor B son más baratas
que las del proveedor A, por lo que estas últimas sólo son rentables si tienen una resistencia media
al menos 2000 unidades mayor que las de B, y la misma variabilidad.
(a) ¿A qué proveedor habría que comprar las piezas a la vista de los resultados muestrales?
(b) Obtener un intervalo de confianza del 90\% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.
4.4 En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado
un control de calidad a una muestra tomada para cada modelo. El número de defectos encontrados
para cinco vehículos del modelo A son 5, 4, 6, 6 y 7; para seis vehículos del modelo B son 7, 8, 6, 7, 6
y 5;y para ocho vehículos del modelo C: 9, 7, 8, 9, 10, 11, 10 y 10. Contrastar si existen diferencias
en el tratamiento que se da a los distintos modelos.
4.5 Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste. Para
cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación típica corregida
en cada caso es la siguiente:
A B C D E
media x̄i 14.1 16.3 13.5 14.8 15.3
d. típica ŝi 1.3 1.2 1.4 1.2 1.5
1
(a) Contrastar (α = 0.05) la hipótesis
H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,
H1 : Alguna media es distinta a las demás.
Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales tienen
desgaste medio, distinto.
(b) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
4.6 Se mide la temperatura de una mezcla con cuatro termómetros, obteniéndose los datos siguientes:
Termómetro
1 63 63 62 65 66
2 64 64 63 64 65
3 58 59 59 68
4 61 61 62 60 63
4.7 Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo material.
Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 , T2 y T3 obteniendo
como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45
4.8 En un modelo de análisis de la varianza se ha observado que la desviación típica (ŝi ) y la media
(y i ) de las observaciones de cada tratamiento están relacionadas linealmente, ŝi = kyi , donde k
es una constante. ¿ Cuál de las siguientes transformaciones es la más adecuada para corregir la
heterocedasticidad ? z = log y, z = y 2 o z = ky
2
Capítulo 5. Diseño de experimentos
5.1 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
5.2 El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resultados:
V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor es
5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si no
se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno de
los modelos.
5.3 Para determinar el consumo de energía eléctrica para usos domésticos se ha medido el consumo
medio por persona en las distintas estaciones del año en siete comunidades autónomas para 1989,
habiéndose obtenido los siguientes resultados:
(a) Analizar si el factor estación del año es influyente, sabiendo que ŝ2y = 1.53.(No considerar
el factor Comunidad).
(b) Razonar estadísticamente cuál es la estación de mayor consumo y la de menor, utilizando
el análisis anterior. Calcular los intervalos de confianza para el consumo medio de cada
estación del año.
(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una
nueva tabla de la varianza, con dos factores, y decidir qué factor es significativo.
(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de
medias del efecto estación y comparar los resultados con los del apartado 2, justificando
las diferencias encontradas.
( NOTA: Utilizar α = 0.05 en todos los contrastes )
5.4 Una instalación típica de almacenamiento de combustible en una Estación de Servicio (gasolinera)
está formada por un tanque enterrado de gran capacidad, al que se encuentran conectados distintos
1
surtidores. La cantidad total de gasolina suministrada en un día se puede determinar midiendo
directamente la variación que se ha producido en el tanque de almacenamiento (Y1j ) o por la suma
de los suministros de los distintos surtidores (Y2j ). La comparación de ambas medidas permite
determinar pérdidas en la instalación enterrada y otras anomalías. En el proceso de comparación
es necesario tener en cuenta que las medidas están afectadas por errores aleatorios. Durante 20 días
se han tomado los valores anteriores en un gasolinera:
Día→ 1 2 3 4 5 6 7 8 9 10
Y1j 4116,2 5627,0 2820,4 2521,8 2973,5 2834,9 2335,7 2590,8 2182,7 2621,4
Y2j 4143,6 5632,0 2868,1 2477,7 2955,4 2851,9 2312,7 2630,6 2208,9 2635,9
Día→ 11 12 13 14 15 16 17 18 19 20
Y1j 4323,6 1880,7 2131,4 3349,6 2545,0 2247,3 1817,5 1461,3 1646,5 1955,4
Y2j 4305,4 1877,9 2159,2 3366,7 2566,1 2281,4 1854,6 1461,5 1607,3 1956,4
(a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo día, contrastar con
α = 0.05
H0 : µD = 0
H1 : µD 6= 0
donde Dj tiene distribución N(µD , σ D ). Calcular el nivel crítico del contraste aproximando
la distribución t de Student por la normal.
(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados
tomando el tipo de medida (tanque, surtidores) como un factor y los días como bloques.
Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor tiene
dos niveles la varianza residual cumple:
1
sb2R = sb2D
2
donde sb2D es la estimación de σ 2D del apartado 1.
(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en el
modelo de bloques aleatorizados es equivalente al contraste del apartado 1.
5.5 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos científicos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas
Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9
Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son significativos.
Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribución F con grados de libertad
1 y 8. Interpretar los resultados.
2
5.6 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3×2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han inflado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
significativa.
A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)
5.7 Una característica de la calidad de la gasolina es su índice de octanos. Una refinería de petróleo
tiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo o sin plomo.
(a) Para determinar que fórmula proporciona mayor índice de octanos, con cada una de ellas
se ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con plomo.
Si el coeficiente de determinación del análisis de la varianza de los resultados es igual a
0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas para este tipo
de gasolina.
(b) Los valores medios (ȳi• ) para cada fórmula son:
Fórmula 1 2 3 4 5
Media 89.2 90.1 90.7 90.5 89.5
Contrastar con α = 0.05 que fórmulas proporcionan índices de octanos significativamente
distintos y cuales no.
(c) Debido a los problemas medio-ambientales gran parte de la producción futura debe estar
libre de plomo. Para determinar que fórmula de las anteriores produce mejores resultados
en cuanto al índice de octanos , se realizo un diseño experimental similar al anterior (cinco
fórmulas, 10 observaciones en cada fórmula) para la obtención de gasolina sin plomo. El
coeficiente de determinación en este caso es igual a 0.25 y el índice medio para cada fór-
mula es,
Fórmula 1 2 3 4 5
Media 88.0 89.5 88.5 90.2 89.8
Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sin
plomo) y fórmula.
5.8 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea significativa con α = 0.01. (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).
3
5.9 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.
Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
5.10 Se desea determinar si cuatro laboratorios dan en promedio los mismos resultados en un análisis
químico. Cada laboratorio ha repetido el análisis cinco veces y los resultados son:
Laboratorios
1 2 3 4
58.7 62.7 55.9 60.7
61.4 64.5 56.1 60.3
60.9 63.1 57.3 60.9
59.1 59.2 55.2 61.4
58.2 60.3 58.1 62.3
Analisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de Cuadrados Gl Cuadr. Medios F-Ratio P-Valor
-----------------------------------------------------------------------------
Laboratorios 85,9255 3 28,6418 13,33 0,0001
Residual 34,38 16 2,14875
-----------------------------------------------------------------------------
Total (Corr.) 120,305 19
4
--------------------------------------------------------------------------------
Method: 99,0 percent LSD
Laboratorio Count Mean Homogeneous Groups
--------------------------------------------------------------------------------
3 5 56,52 X
1 5 59,66 X
4 5 61,12 X
2 5 61,96 X
--------------------------------------------------------------------------------
Contrast Difference +/- Limits
--------------------------------------------------------------------------------
1 - 2 -2,3 2,70784
1 - 3 *3,14 2,70784
1 - 4 -1,46 2,70784
2 - 3 *5,44 2,70784
2 - 4 0,84 2,70784
3 - 4 *-4,6 2,70784
--------------------------------------------------------------------------------
Comparación de las medias de los cuatro laboratorios.
(a) Explica que conclusiones se pueden extraer de estos resultados: ¿Existen diferencias entre
los laboratorios? ¿Qué laboratorios presentan diferencias significativas? Da un intervalo
de confianza al 99% para la media del laboratorio 3.
(b) Según el modelo, la medida yij del laboratorio i en la muestra j tiene distribución normal
de media µi y varianza σ 2 . Los cuatro laboratorios afirman que el error en sus medidas
se corresponde con σ 2 = 1. Aceptando la hipótesis de homocedasticidad contrastar H0 :
σ 2 = 1 frente a H1 : σ 2 > 1.
(c) Para confirmar los resultados se vuelve a repetir el mismo proceso y otro día se vuelve
a analizar por los cuatro laboratorios el producto químico proporcionando otras cinco
medidas. Abajo se incluye la tabla de análisis de la varianza del estudio conjunto de las
40 observaciones con un modelo de dos factores: Laboratorio (4 niveles) y Día (2 niveles),
con 5 replicaciones en cada combinación de día y laboratorio.
Análisis de la varianza
-----------------------------------------------------------------------------
Suma de Grados Cuadrados
Fuente Cuadrados Libertad Medios F P-Val
-----------------------------------------------------------------------------
A:Laboratorio 186,81 3 62,27 30,21 0,0
B:Día 0,07396 1 0,07396 0,04 0,8
AB 0,40334 3 0,134447 0,07 0,9
5
-----------------------------------------------------------------
Method: 99,0 percent LSD
Laboratorio Count LS Mean Homogeneous Groups
-----------------------------------------------------------------
3 10 56,391 X
1 10 59,766 X
4 10 61,238 XX
2 10 62,037 X
-----------------------------------------------------------------
Contrast Difference +/-
-----------------------------------------------------------------
1 - 2 *-2,271 1,7
1 - 3 *3,375 1,7
1 - 4 -1,472 1,7
2 - 3 *5,646 1,7
2 - 4 0,799 1,7
3 - 4 *-4,847 1,7
-----------------------------------------------------------------
Interpreta los resultados del análisis conjunto y compáralos con los obtenidos en el primer
análisis.
(d) Contrasta si ha habido un cambio significativo en la varianza σ 2 de un día y otro. (Ayuda.
Comprueba que la varianza residual del modelo factorial es el promedio de las varianzas
residuales de cada día).
5.11 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo
de exposición (E) sobre la cantidad absorbida de un compuesto químico por un material
sumergido en él. En el estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos
de exposición (E1, E2, E3): cada tratamiento se ha replicado tres veces. La cantidad absorbida
(mg) del compuesto químico en cada uno de los 27 experimentos se muestra en la tabla 1 y
las medias en la tabla 2:
Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5
6
La tabla 3 corresponde al análisis de la varianza del experimento y las figuras muestran los gráficos
de los intervalos de confianza para las medias de las tres temperaturas, los tres tiempos de
exposición y los nueve tratamientos por separado.
Absorcion
81
76 74
71
64
66
61 54
1 2 3 1 2 3
Tiempo Temperatura
85
Absorcion
65
45
25
T1 T2 T3 T1 T2 T3 T1 T2 T3
E1 E2 E3
7
(a) Interpreta los resultados del análisis de la varianza.
(b) Demuestra que si se hubiera utilizado el modelo de un único factor para comparar los
nueve tratamientos, la variabilidad explicada de este modelo (VE’) se puede poner como
suma de las variabilidades explicadas del modelo factorial de la tabla 3:
5.12 Se ha realizado un diseño experimental para determinar la influencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan
los resultados: mejora en tanto por mil respecto a procedimiento estándar. Los números entre
paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los cuatro niveles del
factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra la tabla de análisis
de la varianza del experimento.
8
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47
(a) Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias significativas con nivel de significación 0.05.
(b) Elige el tratamiento que proporciona el rendimiento óptimo, justificando la respuesta. Da un inter-
valo de confianza para el valor medio en dichas condiciones con nivel de confianza del 95%.
(c) El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con α = 0.05)
(d) Denominando µ y µ0 a las medias (globales) de los modelos factoriales para cada una de las dos
etapas, contrasta que son iguales ( H0 : µ = µ0 ) con α = 0.01.
5.13 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
9
5.14 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.
A B C yi ŝ2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13
(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ 2 .
(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.
(c) Dado σ 2 , construir un intervalo que cumpla que la probabilidad de que ŝ2i (la varianza
muestral corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir σ 2
por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesis
de homocedasticidad de las observaciones.
5.15 Se desea estudiar la señal recibida por un equipo de ultrasonidos en función de la profundidad a
la que se encuentra el objeto enterrado. En un experimento se han enterrando objetos a 0.5, 1.0,
1.5 y 2.0 metros. En cada distancia se han realizado 10 replicaciones. La tabla muestra la media y
varianza de cada nivel.
Nivel Profundidad Num. Media Varianza
1 0.5 10 78.21 28.19
2 1.0 10 50.29 11.11
3 1.5 10 33.49 8.86
4 2.0 10 23.574 12.55
H0 : µ1 − µ2 = µ3 − µ4 ,
H1 : µ1 − µ2 > µ3 − µ4 ,
suponiendo que las observaciones tienen distribución normal, con la misma varianza y que son
independientes (Utiliza α = 0.05). (Ayuda. Llamando δ = (µ1 − µ2 ) − (µ3 − µ4 ), el contraste
se puede escribir como H0 : δ = 0; H1 : δ > 0. Estima µ1 , µ2 , µ3 y µ4 con la media muestral
respectiva).
10
5.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de significación 0.05. (La
variabilidad total es 41.90).
1.
a b c Medias
1 11.0 11.4 12.7 11.7
2 9.8 10.8 13.7 11.43
3 7.5 10.6 11.5 9.87
4 7.9 7.6 10.1 8.53
Medias 9.05 10.1 12.0 10.38
11
Capítulo 6. Regresión lineal
6.1 Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como regresor.
Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui .
6.2 La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad de
desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H la constante de
Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias respecto a la Via Láctea.
Se pide:
Galaxia Distancia Velocidad
(millones años luz) (103 km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen. Tómese 1
año luz = 300 000 km/s × 31 536 000 s = 9.46 1012 km.
¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los obtenidos
por mínimos cuadrados?
6.4 Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura de
sus padres (x) obteniendo las siguientes conclusiones:
1
(a) Existía una correlación positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior
a la de sus progenitores, mientras que los padres con estatura inferior a la media en
promedio tenían hijos más altos que ellos, calificando este hecho como de ”regresión” a la
media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de estimar
un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente para una
muestra de tamaño 100 si la desviación típica (estimada) de β̂ 1 es 0.04.
6.5 Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β̂ 1 son indepen-
dientes. Utilizar esta propiedad para calcular la varianza de β̂ 0 = y − β̂ 1 x.
25 27 14
27 36 19.2
14 19.2 16
6.7 Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es igual al
coeficiente de correlación lineal entre la variable observada y y la prevista yb.
6.8 La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de templado
(x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando:
¿Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto signi-
ficativo en la resistencia a la tracción.?
6.10 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo y α y β son parámetros
2
desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose el
siguiente modelo
donde el término añadido u son los errores experimentales, que se consideran aleatorios e indepen-
dientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron
en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Para
determinar la influencia del tipo de cámara, se repitió exáctamente el experimento en una segunda
cámara. Los valores de ŝR para la cámara 1 y 2 son 0.64 y 0.50, respectivamente. Los modelos
estimados para cada cámara, XT X y (XT X)−1 son:
µ ¶
log M1 = −7.30 + 2.40 log T T 10.00 46.66
X X=
log M2 = −5.74 + 2.03 log T 46.66 218.9
µ ¶
T −1 18.27 −3.89
(X X) =
−3.89 0.835
(a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente. Lo
mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los dos modelos
es la misma y estimarla como el promedio de las dos varianzas residuales calculadas.)
(b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos vectores
de variables respuesta Y1 , Y2 , para los mismo regresores (matriz X). Demostrar que si
β̂ 1 y β̂2 son los resultados de la estimación de β utilizando por separado la variable Y1 e
Y2 ; entonces el estimador de β con todos los datos es (β̂1 +β̂2 )/2.
(c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que YT Y = 306.8,
donde Y = log M , dar un intervalo de confianza al 99% para los dos parámetros.
6.11 Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus estaturas
a los 7 (x1 ) y 14 (x2 ) años. La desviación típica residual obtenida es 5 cm y la desviación típica
del coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto no significativo al 95%.
Sin embargo, un segundo modelo de regresión que incluya sólo a esta variable (x1 ) conduce a una
desviación típica residual de 7 cm y a un coeficiente de regresión de 2 con desviación típica de 1.
¿Qué podemos concluir con estos resultados de la correlación entre x1 y x2 ?
6.12 En la tabla 1 se muestran los resultados de un experimento en el que se estudiaron las pérdidas por
abrasión (rozamiento) de material de goma empleado en la fabricación de neumáticos en función
de la dureza de la goma en grados Shore y de su resistencia a la tensión. Esta última variable está
representada por dos únicos valores, -1 para las gomas con una resistencia máxima a la tensión menor
de 180 kg/cm2 y con +1 aquellas que presentan una resistencia máxima superior a 180 kg/cm2 . Los
resultados del modelo de regresión múltiple (P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia +ui ) se
muestran en las tablas 1 y 2.
(a) ¿Hay diferencias significativas en las pérdidas observadas en gomas con resistencia baja
(-1) y en gomas con resistencia alta (+1)?. Explicar el significado de β 2 (coeficiente de
Resistencia) y dar un intervalo de confianza de 95% para el mismo.
3
(b) Para comprobar si el efecto de la dureza en las pérdidas es el mismo para las gomas don
resistencia alta y baja se planteó el siguiente modelo:
P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia + β 3 Dureza × Re sistencia + ui .
Explicar de forma concisa el significado de cada uno de los tres parámetros del modelo.
(c) Los resultados de la estimación del modelo del apartado 2 se proporcionan en la tabla 3 y
en la figura siguiente. Teniendo en cuenta los resultados de la tabla 2 y 3, elegir el modelo
que relaciona las pérdidas por rozamiento con las variables resistencia y dureza. Justificar
la respuesta. ¿Por qué cambia tanto el nivel crítico (p-value) correspondiente a la variable
Resistencia en uno y otro modelo?.
(d) En la tabla 1 se proporcionan los valores previstos y los residuos del modelo anterior.
Comprobar la hipótesis de homocedasticidad.
DATOS RESULTADOS
Dureza Resistencia Pérdidas Predicción Residuos
53 -1 221 227,1 -6,1
55 -1 206 215,1 -9,1
56 -1 228 209,1 18,9
60 -1 166 185,1 -19,2
61 -1 175 179,2 -4,2
64 -1 164 161,2 2,8
66 -1 154 149,2 4,8
68 -1 113 137,3 -24,3
71 -1 136 119,3 16,7
71 -1 112 119,3 -7,3
75 -1 128 95,4 32,6
79 -1 82 71,4 10,6
81 -1 55 59,4 -4,4
81 -1 32 59,4 -27,4
86 -1 45 29,5 15,5
45 1 372 378,4 -6,4
51 1 341 342,5 -1,5
59 1 249 294,6 -45,6
59 1 340 294,6 45,4
65 1 283 258,7 24,3
68 1 196 240,7 -44,7
71 1 219 222,8 -3,8
74 1 267 204,8 62,2
80 1 186 168,9 17,1
81 1 215 162,9 52,1
82 1 155 156,9 -1,9
83 1 97 150,9 -53,9
86 1 148 133,0 15,0
88 1 64 121,0 -57,0
89 1 114 115,0 -1,0
TABLA 1. Datos, valores previstos y residuos del modelo de regresión: P érdidas = β 0 + β 1 Dureza +
β 2 Re sistencia + ui
4
TABLA 2.
Multiple Regression Analysis
Dependent variable: Perdidas
Parameter Estimate Standard Error T Statistic P-Value
CONSTANT 596,075 32,8079 18,1686 0,0000
Dureza -5,98636 0,46042 -13,0019 0,0000
Resistencia 51,7421 5,51215 9,38692 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-ratio P-Value
Model 200957,0 2 100478,0 112,78 0,0000
Residual 24054,6 27 890,909
Total (Corr.) 225011,0 29
R-squared=89,3096 percent
R-squared (adjusted for d.f.)=88,5177 percent
Standard Error of Est.=29,8481
Mean absolute error =21,1946
Durbin-Watson statistic=2,25411
TABLA 3.
Multiple Regression Analysis
Dependent variable: Perdidas
Parameter Estimate Standard Error T Statistic P-Value
CONSTANT 592,59 34,4264 17,2132 0,0000
Dureza -5,93173 0,486879 -12,1832 0,0000
Resistencia 65,4644 34,4264 1,90157 0,0684
Dureza×Resistencia -0,196688 0,486879 -0,403978 0,6895
Analysis of Variance
Source Sum of Squares Df Mean Square F-ratio P-Value
Model 201107,0 3 67035,6 72,91 0,0000
Residual 23904,5 26 919,404
Total (Corr.) 23904,5 29
R-squared=89,3763 percent
R-squared (adjusted for d.f.)=88,1505 percent
Standard Error of Est.=30,3217
Mean absolute error =21,1085
Durbin-Watson statistic=2,25622
6.13 Se ha estimado un modelo de regresión múltiple para estudiar el efecto de tres regresores x1 , x2 , x3
sobre la resistencia de ciertas fibras textiles con n = 15 observaciones, resultando:
5
0.0051 −0.0041 0.0204
(X̃ T X̃)−1 = −0.0041 0.4033 0.1836 .
0.0204 0.1836 0.4818
6.14 Los datos mostrados son el resultado de un experimento para caracterizar la duración de un material
utilizado en un torno de corte de acero, en función de la velocidad de corte (X1 ) y del ratio de
alimentación (X2 ). Por sencillez, las variables se han escalado de la siguiente forma
X1 − 900 X2 − 13
V = , F =
300 6
V F Y V
√ F Y
-1 -1 54.5 -√ 2 0 20.1
-1 -1 66.0 2 0 2.9
1 -1 11.8 0 0 3.8
1 -1 14.0 0 0 2.2
-1 1 5.2 0 0 3.2
-1 1 3.0 0 0 4.0
1 1 0.8 0 0 2.8
1 1
√ 0.5 0 0 3.2
0 -√ 2 86.5 0 0 4.0
0 2 0.4 0 0 3.5
siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. y se ha
estimado el siguiente modelo
siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. Los
resultados principales del análisis son los de la siguiente tabla.
Interpreta los resultados del análisis de regresión, indica de forma específica los resultados de los con-
trastes individuales de los parámetros β i y del contraste general de regresión si se utiliza un nivel
de significación α = 0.01.
6
Análisis de Regresión Múltiple
----------------------------------------------------------------------------
Variable Dependiente: LOG10(Duración)
-----------------------------------------------------------------------------
Desviación Estadístico
Parámetro Estimación Típica t P-Valor
-----------------------------------------------------------------------------
CONSTANTE 0,515979 0,045626 11,3089 0,0000
V -0,343176 0,0372527 -9,21213 0,0000
F -0,690076 0,0372536 -18,5237 0,0000
V^2 0,181733 0,0436797 4,16058 0,0010
F^2 0,125106 0,043684 2,86389 0,0125
V x F -0,0316418 0,045626 -0,693503 0,4993
-----------------------------------------------------------------------------
Análisis de la Varianza
-----------------------------------------------------------------------------
Suma de Grados Cuadrados
Fuente Cuadrados Libertad Medios F P-Valor
-----------------------------------------------------------------------------
Modelo 7,60038 5 1,52008 91,27 0,0000
Residual 0,233154 14 0,0166539
-----------------------------------------------------------------------------
Total (Corr.) 7,83354 19
6.16 Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El volumen
y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas x1i , x2i ,
siendo α el parámetro (desconocido) de proporcionalidad, más una componente de error aleatorio
ui . La tabla siguiente contiene los datos (en metros y metros cúbicos) correspondientes a una
muestra aleatoria de 15 troncos de una variedad de pino.
Obs. x1i x2i x1i x22i yi Obs. x1i x2i x1i x22i yi
1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,821
2 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,280
3 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,034
4 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,679
5 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,073
6 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,022
7 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,630
8 22,9 0,269 1,66 0,722
7
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo de
predicción de su volumen (95% de confianza). La varianza residual del modelo es 0,0058.
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el volumen
del tronco. Para obtener homocedasticidad se propone el siguiente modelo transformado
utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
El resultado de la estimación es:
Parámetro Estimación
0, 1250 0, 0212 −0, 0317
β0 -1,45 c b = 0, 0212
y M β
0, 0082 −0, 0051
β1 1,14
−0, 0317 −0, 0051 0, 0042
β2 1,86
c b = sb2 (XT X)−1 (X es la matriz de los regresores transformados según el modelo)
siendo M β R
La transformación logarítmica del modelo inicial (αx1i x22i ) implicaría que β 1 = 1 y β 2 = 2.
Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen del
tronco del apartado 2 si la varianza residual es 0,0031.
6.17 La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión interna
(yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida (NARANJA=1,
LIMÓN=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de cada sabor, ha medido
la presión interna. El tipo de bebida se representa por las variables z1 , z2 y z3 qué identifican el
sabor NARANJA, LIMÓN y COLA, respectivamente. El modelo estimado de regresión de y con
respecto a x1 , x2 , z2 y z3 es:
0.1772 −0.6909 −0.5043 −0.0605 −0.0896
−0.6909 5.8085 0.2541 0.1478 0.2444
T
(X X) −1
=
−0.5043 0.2541 5.0070 −0.0680 0.1216
−0.0605 0.1478 −0.0680 0.1049 0.0546
−0.0896 0.2444 0.1216 0.0546 0.1127
(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen
significativamente en la presión. Interpretar el resultado explicando el significado de cada
parámetro.
(b) Si se realiza una regresión entre la presión interna (yi ) y las dos variables continuas x1 y
x2 se obtiene el siguiente modelo de regresión
ŷ = 23.86 + 65.1x1 − 56.3x2 ; ŝR = 4.78.
Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 = 0
frente a H1 : α2 ó α3 es distinto de cero).
8
(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMÓN y COLA?
(α = 0.01)
6.18 Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehículos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente es
el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el Peso en
Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma el valor 1 para
los coches europeos y cero en los demás.
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE sb2R = 0.506, R2 = 75.7%
4.791e − 1 5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
5.054e − 2 1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2
T
(X X) −1
=
−3.794e − 1 −1.931e − 1 4.646e − 1 5.210e − 2 2.865e − 2
−9.157e − 2 −3.443e − 3 5.210e − 2 6.667e − 2 2.744e − 2
−4.682e − 2 −1.262e − 2 2.865e − 2 2.744e − 2 9.759e − 2
Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una potencia
de 120 Cv y 1600 kg de peso.
6.19 Sea X la matriz completa de un diseño 2k , por ejemplo para el caso de k = 3,
1 −1 −1 −1 1 1 1 −1
1 1 −1 −1 −1 −1 1 1
1 −1 1 −1 −1 1 −1 1
1 1 1 −1 1 −1 −1 −1
X=
1 −1 −1 1 1 −1 −1 1
1 1 −1 1 −1 1 −1 −1
1 −1 1 1 −1 −1 1 −1
1 1 1 1 1 1 1 1
Y = Xβ + U,
6.20 Demuestra que la recta de regresión pasa por el punto (x̄, ȳ) y que el intervalo de predicción para
la media de la variable respuesta cuando el regresor toma el valor igual a x̄, es
ŝR
ȳ ± tα/2 √
n
donde n es el número de observaciones, tα/2 se obtiene de la distribución t de Student con n − 2
grados de libertad y ŝ2R es la varianza residual.
9
6.21 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo en horas, y α y β
son parámetros desconocidos. La relación anterior se linealiza con la transformación logarítmica,
estimándose el siguiente modelo
donde el término añadido u son los errores experimentales, que se consideran aleatorios e indepen-
dientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron
en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. El
modelo estimado, X T X y (X T X)−1 son:
d
log Mi = −7.30 + 2.40 log Ti , ŝR = 0.64
µ ¶ µ ¶
T 10.00 46.66 T −1 18.27 −3.89
X X= (X X) =
46.66 218.9 −3.89 0.835
Predice el crecimiento medio esperado del cristal después de 3 horas en la cámara con un intervalo
al 95% de confianza.
6.22 La siguiente tabla muestra los datos recogidos en un estudio sobre el efecto de disolver azufre en la
tensión superficial del cobre fundido
Variables Observaciones
X: % en Peso deAzufre 0.034 0.093 0.30 0.40 0.61 0.83
Y: Reducción de [Link]. 301 430 593 630 656 740
(dos replicaciones) 316 422 586 618 642 714
Se ha estimado el modelo de regresión lineal simple con log(X) como regresor. El resultado del
análisis de regresión y la gráfica del modelo se proporcionan más [Link] ha estimado el modelo de
regresión lineal simple con log(X) como regresor. El resultado del análisis de regresión y la gráfica
del modelo se proporcionan más abajo.
Análisis de Regresión: Modelo Logarítmico Y = a + b*ln(X)
--------------------------------------------------------------------------
Variable dependiente: Tensión Superficial
Variable Independiente: Azufre
--------------------------------------------------------------------------
Desviación Estadístico
Parámetro Estimación Típica t P-Valor
--------------------------------------------------------------------------
Constante 735,784 7,47038 98,4935 0,0000
Pendiente 127,457 4,12867 30,8712 0,0000
--------------------------------------------------------------------------
Analisis de la Varianza
--------------------------------------------------------------------------
Fuente Suma de Grados Cuadrados
Cuadrados Libertad Medios F P-Va
--------------------------------------------------------------------------
Modelo 241678,0 1 241678,0 953,03 0,0
Residual 2535,9 10 253,59
--------------------------------------------------------------------------
Total (Corr.) 244214,0 11
10
800
700
Tension_Sup
600
500
400
300
0 0,2 0,4 0,6 0,8 1
Azufre
Utiliza el modelo para predecir la reducción de la tensión superficial del cobre fundido con un 0.8%
de azufre disuelto. Da un intervalo de confianza del 95% para la predicción.
6.23 Se ha estimado un modelo de regresión con dos variables independientes y 20 observaciones obtenién-
dose la siguiente ecuación:
11
Estadística
Soluciones a los ejercicios propuestos.
Curso 2004/05
1
Capítulo 1. Descriptiva
r
(10 − 50)2 + ... + (150 − 50)2
1.1 xp = (10 + 18 + 22 + 150)/4 = 50; sp = = 57.9; xa = 10(10/200) +
4
... + 150(150/200) = 117.04;
p
sa = (10 − 117.04)2 (10/200) + ... + (150 − 117.04)2 (150/200) = 57.1.
¯ ¯
¯ 4 −11/2 ¯¯
1.2 Si es posible el resultado, z = x + y; s2z = s2x + s2y + 2sxy ; sxy ¯
= −11/2; ¯
−11/2 9 ¯ ≥ 0.
1.3 x0 = k1 x; y 0 = k2 y; cov(x0 , y 0 ) = k1 k2 cov(x, y); sx0 = |k1 | sx ; sy0 = |k2 | sy ; r(x0 , y0 ) = r(x, y).
1.7 No. y = log10 xG ; xG es la media geométrica; xG < xA ; log10 xG < log10 xA ; 2.5 ≮ 2.
1.8 Q1 = −0.16; Q2 = mediana = −0.0.3; Q3 = 0.18; RI = 0.34; LI = −0.67; LS = 0.69, como el valor
máximo muestral es 0.45, entonces LS = 0.45.
Capítulo 2. Probabilidad
2.1 p = 0.472
2z z2
2.2 La función de densidad es fz (z) = r2 con 0 < z < r y la función de distribución es Fz (z) =
r2
25
2.4 k = log 2; E[X] = y V ar[X] ' 51.67
log 2
· ¸
mV 2
2.5 E = 32 kT,que es independiente de su masa. Fijada la temperatura T , cualquier gas tiene
2
el mismo valor medio de energía cinética molecular independientemente de su masa.
Ra R∞ R∞
2.8 E[X] = 0 xfX (x)dx + a xfX (x)dx ≥ a xfX (x)dx = aP (x > a) y despejando se obtiene la
desigualdad de Markov.
3 1 171
2.9 k = , E[Y ] = , V ar[Y ] = .
2 8 320
½
c si x2 + y 2 ≤ r2 2 √
2.10 fXY (x,y) = 2 2 2 , fX (x) = 2 r2 − x2 , −r ≤ x ≤ r
0 si x + y > r πr
2
1 1
2.11 (a) k = 6; E[p] = ; V ar[p] = .
2 20
³R ´10
0.75
(b) 0 6p(1 − p)dp = 0.183
Valor Probabilidad
1 1/36
2 3/36
3 5/36
4 7/36
5 9/36
6 11/36
Valor Probabilidad
1 11/36
2 9/36
3 7/36
4 5/36
5 3/36
6 1/36
Valor Probabilidad
1 1/36
1, 5 2/36
2 3/36
2, 5 4/36
3 5/36
3, 5 6/36
4 5/36
4, 5 4/36
5 3/36
5, 5 2/36
6 1/36
2.14 fXY (x, y) 6= fx (x)fY (y), por lo que X e Y no son variables aleatorias independientes.
Pn −(λ1 +λ2 )
Pn λk1 λn−k
2
2.15 (a) P (Z = n) = k=0 P (X = k)P (Y = n − k) = e k=0 , multiplicando y
k!(n − k)!
Pn n!
dividiendo por n!, y utilizando que (λ1 + λ2 )n = λk λn−k , se obtiene que:
k=0
k!(n − k)! 1 2
3
e−(λ1 +λ2 )
P (Z = n) = (λ1 + λ2 )n ,
n!
que es la probabilidad de Poisson con parámetro λ = λ1 + λ2.
n! ³ ´k ³ ´n−k λ1
λ1 λ2
(b) P (X = k|Z = n) = λ +λ λ +λ , si llamamos p = ,
k!(n − k)! 1 2 1 2 λ1 + λ2
¡n¢ λ1
P (X = k|Z = n) = k (p)k (1 − p)n−k que es una binomial de parámetros n y p =
λ1 + λ2
2.16 P (X < 0.3|Y = 0.8) = 0.09
2.17 Sea X la variable llegada de clientes en una hora, X1 la variable llegada de clientes en los 15
primeros minutos de esa hora y X2 la variable llegada de clientes en los 45 últimos minutos de esa
hora. La probabilidad pedida:
µ ¶2
1
P (X1 = 2|X2 = 2) = .
4
2.18 (a) k = 8
(c) Las variables aleatorias X e Y no son independientes ya que el campo de variación de X depende
de Y.
2.19 V ar(Z) = 0
2.20 LLamando X al tiempo de vida del receptor e Y al tiempo de vida del amplificador, P (X < Y ) =
2
.
3
2.21 El número medio de años que dura una máquina es:
RT
E[Y ] = 0 xfx (x)dx + T (1 − F (T )).
2.23 ρ = 0. Las variables no son independientes porque por ejemplo P (Y1 = 0|Y2 = 0) = 0 6= P (Y1 = 0)
y
2.24 (a) fX (x) = 2x con 0 < x < 1, fY (y) = con 0 < y < 2. Las variables X e Y son independientes
2
ya que fXY (x, y) = fX (x)fY (y)
1
(b) P (X + Y < 1) =
24
4
2.25 FX (x) = 1 − e−ax ; x ≥ 0 y FY (y) = 1 − e−ay ; y ≥ 0. Como FXY (x, y) = FX (x)Fy (y) las variables
aleatorias X e Y son independientes.
se sustituye Y = U + V, obteniendo:
Cov(X, Y ) = E[(X(U + V )] − E[X]E[U + V ] = E[XU ] − E[X]E[U ] + E[XV ] − E[X]E[V ] =
= Cov(X, U ) + Cov(X, V )
2.30 (a) Sea Y el número de pruebas a realizar, E[Y ] = 51 × 0.395 + 1 × 0.605 = 20.75 ' 21
(b) Sea A el suceso de que un individuo sea portador del virus y B el suceso el resultado dela
análisis ha resultado positivo, P (A|B) = 0.025.
µ ¶
n
2.31 P (X = n) = pk (1 − p)n−k+1 .
k−1
2.32 16/7
P4 1 i
2.33 p=1− i=1 ( 2 ) = 0.0625
36
2.34 (a) e−3
6!
63
(b) e−6
3!
P15 −9 9i
(c) 1 − i=0 e
i!
3 ( 3 )2
−
(d) e 5 5
2!
w
b b−1 −( )b
2.35 La función de densidad es fW (w) = b w e a con a > 0, < b > 0, w > 0 y la función de
µ w ¶b a
−
distribución es FW (w) = 1 − e a
2.36 p = 0.3
2.37 p = 0.065
5
(b) Sea D el tiempo de vida de la depuradora P (D < T + 1000|D > T ) = 0.049. No depende de
T, por lo que no está justificado renovar la depuradora antes del fallo ya que la probabilidad
de fallo no depende del tiempo que ha estado funcionando.
2.39 p = 0.175
β β
2.40 p = e−k(t2 −t1 )
3 0
2.41 Sea X el número de peces capturados en 15 minutos, P (X > 1|λ = ) = 0.5276. Sea X el número
0 0
4
de peces capturados en dos horas de pesca P (X = 5|λ = 6) = 0.1606.
1
2.42 λ(t) = 1000
(b) 0.0229
(c) 0.999
(d) 0.1
(b) 0.119
(c) 0.7103
Y ∼ B(n = 3; p = 1/6);
X = balance del jugador = Y − 1
E[X] = 3/6 − 1 = −0.5; sale ganando la banca.
6
√
X ∼ B(n = 400; p = 0, 06) ∼ (aprox) ∼ N (µ = 400 × 0, 06 = 24; σ = 400 × 0, 06 × 0, 94 = 4, 745);
c−24 c−24
Hay que calcular c tal que φ( 4,745 ) = 0, 05, es decir 4,745 = −1, 645; c = 16, 18
Capítulo 3. Inferencia
3.1 b = 103; pb = 0.21.
n
3.2 b = 2x − 1.
N
b 6 θ2
3.3 θ = x; E[b
θ] = θ y V ar[b
θ] = .
5 35
3.4 b
θ = 100/22.
3.5 b = 1/7.
P (t > 10) = 1 − P (t ≤ 10) = 1 − FT (10) = exp(−10/7) = 0.24, siendo α
n b = máx{x1 , x2 , ..., x3 }.
3.6 b=
α Ã !; β
b
β
n log
i=1
xi
dL(θ) 20 2 10 726
3.7 = − + 3 (xi )2 + 3 ; b
θMV = 8.2582.
dθ θ θ i=1 θ
dL(p)
3.8 L(p) = 20 log p + 95 log(1 − p) + k; = 0; pb = 0.174.
dp
1 2082 b 2082 = 297.4.
3.9 l(λ) = 7 exp(− λ ); λ =
λ 7
b θ2
3.10 θ = 3x; V ar(b
θ) = .
2n
nµ2 n
3.11 c= 2 2
;c= .
σ + nµ 4+n
1
3.12 k= .
n(n − 1)
2k 2 σ 4 n−1
3.13 σ 2 ) = σ 4 (k − 1)2 +
ECM (b ;k= .
(n − 1) n+1
t1 t2 1 1 17
3.14 b=
µ + ; E[µ] = µ; V ar[µ] = V ar[t1 ] + V ar[t2 ] = .
2 4 4 16 64nµ2
3.15 P = P (fallo en un mensaje) = P (fallo en al menos un bit de los 128) = 1 − (1 − p)128 . En los
340
últimos 10000 mensajes (lecturas) ha habido 340 erróneos. Pb = p)128 ; pb = 0.000270.
= 1−(1−b
10000
sb
3.16 (a) µ ∈ x ± t(11; α2 ) √ ; µ ∈ (29.47, 30.70).
n
s2
(n − 1)b
(b) ; χ211 ; σ 2 ∈ (0.472, 2.709).
σ2
7
sb
3.17 µ ∈ x ± t(12; α2 ) √ ; µ ∈ (30.37, 38.25).
n
sb
3.18 ingreso ∈ x ± t(11; α2 ) √ ; ingreso ∈ (2857, 1822).La amplitud es 500.
n
sb2
L = 250; n = z 2α = 40.8; al menos n = 41 estaciones.
2 L2
3.19 (a) x = 45.75; sb2 = 201.6
sb
(b) µ ∈ x ± t(14; α2 ) √ ; µ ∈ (34.82, 56.67)
n
(n − 1)b s2
(c) ; χ214 ; σ 2 ∈ (90.19, 693.60)
σ2
sb √ sb
(d) L = 2 × √ × t(14; α2 ) ; n > × t(14; α2 ) ; n > 23; n = 24.
n 6
r r
pb(1 − pb) pb(1 − pb)
3.20 p ∈ pb ± z α2 ; p ∈ (0.131, 0.239); L = 2 × 1.96 × ;
n 200
r
pb(1 − pb) L
L1 = 2 × 1.96 × , L1 = ; m = 4 × 200 = 800.
m 2
à r !
p(1 − p) 0.05 1.962 p(1 − p)
p − p| ≤ 0.05) = 0.95; pb ; N p,
3.21 P (|b ;r = 1.96; n = ;p =
n p(1 − p) 0.052
n
1/2; n = 384.
s
b
θ b
3.22 θ∈b
θ ± z α2 ; θ = 236.5; T = 15; θ ∈ (228.72, 244.28).
T
2 × 30 × x
3.23 χ2a,60 ≤ ≤ χ2b,60 ; λ ∈ (4.46, 9.18).
λ
r P
2 x2i α2
b MV =
3.24 (a) α ; V ar(b αMV ) = .
3n 6n
√ µ ¶
x π 3π 1
bM =
(b) α ; V ar(b
αM ) = − α2 .
2 8n n
r sµ ¶
αb 2MV 3π 1
b MV ± z α2
(c) α ∈ α b M ± z α2
; α ∈ (2.74, 3.21); α ∈ α − b 2M ; α ∈ (2.78, 3.27).
α
6n 8n n
(b) El intervalo es µ ± 1.96σ; (8.9 × 1010 ± 5.58 × 105 ). Se ve que el cociente entre la desviación
típica y la media es 6.26 × 10−6 , lo cual indica que la incertidumbre del proceso es despreciable.
8
b e−λt = 1010 ; N
(c) E[X] = N p = N e−λt ; x = x1 = 1010 ; N b = x1 eλt = 1.12×1011 ; E[N
b ] = eλt E[x1 ] =
λt
e Ne −λt b ) = e V ar(x1 ) = e N e (1 − e ) = N e (1 − e ).
= N ; V ar(N 2λt 2λt −λt −λt λt −λt
N log 2
(d) N e−λT = ;T = = 5.73 × 103 .
2 λ
190 − x
3.26 (a) t = √ ; tn−1 ; t = 1.84; |t| < t(4;0.025) = 2.78, no se puede rechazar H0 : µ = 190.
sb/ n
s2
(n − 1)b
(b) D = ; χ24 ; D = 4.58 < χ2(4,0.05) = 9.49, no se puede rechazar H0 : σ 2 = 100.
100
3.27 P (Error tipo I) = P (x > 11|µ = 10) = 0.0227; P (Error tipo II) = P (x < 11|µ = 12) = 0.0227.
¡ ¡ √ ¢¢
3.28 P X ≥ 85|X ; N 100 × 0.75, 100 × 0.75 × 0.25 = 0.01044 < α = 0.05. Con nivel de signifi-
cación α = 0.05, la nueva medicina es más efectiva que la antigua.
½
H0 : p = 0.03 pb − p
3.29 ;Z = r ; N (0, 1); Z = 1.24 < Z0.05 = 1.65, no se puede rechazar
H1 : p > 0.03 p(1 − p)
n
0.04978 − p
H0 ; P ot(p) = 1 − Φ
r p(1 − p) ; P (Error tipo II|p = 0.06) = 1 − P ot(p = 0.06) = 0.2709.
200
2nx
3.30 (a) X 2 = ; χ260 ; X 2 = 74.4 < χ2(60;0.05) = 79.1, no se puede rechazar H0 ;
λ
µ ¶
2 2nx
Nivel crítico: P (χ60 ≥ 74.4) = 0.10.P (Error tipo II|λ = 7.5) = P ≤ 79.1 |λ = 7.5 ≈ 0.25.
5
½
H0 : λ1 = λ2 x1 /λ1 x1
(b) ; ; F2n1 ,2n2 . Se rechaza H0 si > 1.74; x2 < 3.56. Después de 6000
H1 : λ1 > λ2 x2 /λ2 x2
2.35 × 6 + 6 × 9
horas x2 ≥ = 4.54 > 3.56. No es necesario seguir el ensayo.
15
3.31 P (b
p > c|p = 0.85) = 0.01; P (b
p > c|p = 0.95) = 0.99; n ≈ 180; c = 0.912.
(Oi − Ei )2
3.32 X 2 =8i=1 ; χ25 ; X 2 = 7.5181 < χ2(5;0.05) = 11.1, no se puede rechazar la hipótesis de
Ei
normalidad.
(Oi − Ei )2
3.33 X 2 =6i=1 ; χ25 ; Ei = 20 ∀i; X 2 = 8.5 < χ2(5;0.05) = 11.1,no existe evidencia para
Ei
rechazar la hipótesis de que el dado está equilibrado.
3.34 X : v.a número de epicentros en una cuadrícula de tamaño 100 km2 ; P oisson(λ);
P
b no total de epicentros xi 48 (Oi − Ei )2
λ= o =P = = 1.41 epicentros/100 km2 ; X 2 =5i=1 ; χ23 ;
n total de cuadrículas ni 34 Ei
X 2 = 0.44 < χ2(3;0.05) = 7.8147; no existe evidencia para rechazar la hipótesis de que la distribución
de epicentros es una Poisson. Nivel crítico: P (χ23 ≥ 0.44) ≈ 0.90 ÷ 0.95.
9
3.35 P (error tipo II ) = P (X > 0|p < 0.07) = 1 − (1 − p)20 , p < 0.07; P (error tipo I ) = P (X = 0|p =
0.07) = (1 − p)20 = 0.234. El método tiene una probabilidad muy alta (0.234) de dar como mejor
el apoyo nuevo cuando es igual que el existente.
P20 2T
i
3.36 X2 = Ã χ240 ; X 2 = 22.74 < χ2(40;0.95) = 26.5. Se rechaza H0 con α = 0.05. Conviene
i=1 200
resaltar que el contraste es unilateral con la región de rechazo a la izquierda.
4.2 La región de rechazo es:|d| > 2.179, como d = 0.51 no se rechaza las máquinas son iguales.
4.4 El valor calculado de la F (19.2) se compara con el valor de tablas F(2,16;0.05) = 3.63. Como
19.2>3.63 se puede concluir que para α = 0.05 existen diferencias significativas entre los tratamien-
tos.
4.5 (a) Se compara el valor obtenido de la F(3.99) con el valor de tablas F(4,25;0.05) = 2.76. Como
3.99>2.76 se concluye que existen diferencias significativas entre los materiales. No se puede concluir
que exista un material con desgaste significativamente menor. Los materiales que tiene un desgaste
medio significativamente distinto son: B y C, B y A, y E y C. El resto no se pueden considerar
significativamente distintos.
4.6 (a) El valor de la F obtenido es 2.05, que se compara con el de tablas F(3,15;0.05) = 3.29. Como3.29 >
2.05 no puede rechazarse la hipótesis nula de igualdad de medias.
(b) No, el valor 68 del tercer termómetro parece discordante con los demas.
10
(c) El termómetro 4 es distinto al 1 al 2. La diferencia de las conclusiones proviene de que el valor
68 del grupo 3 es atípico y distorsiona todo el resultado.
4.7 (a) Se compara el valor de la F (64.348) obtenido con el de las tablas F(2,12;0.01) = 6.92. Como
64.348 > 6.92 se rechaza la hipótesis nula de que las medias son iguales.
(b) El valor que se obtiene de la t es 2.9853 que no está incluido en el intervalo (−2.18, 2.18), con
lo que se rechaza la hipótesis nula.
5.2 Si no se tiene en cuenta el bloque el resultado es el mismo que si no se tiene en cuenta. El factor
es significativo. Es mejor el modelo en bloques que el de un factor para cualquier caso. Ya que si el
bloque no es significativo, podemos pasar directamente al modelo con un factor (sin realizar ningún
cálculo), pero si el bloque es significativo se pierde mucho no planteando el modelo en bloques,
incluso podría suceder que el factor no resultara significativo.
5.3 (a) Existe evidencia de que el consumo medio no es igual en cada estación del año.
(b) La estación de mayor consumo es el invierno. No se puede hablar de una estación de menor
consumo, ya que el consumo medio en otoño, primavera y verano no se pueden considerar significa-
tivamente distintos. Los intervalos de confianza para el consumo medio de las diferentes estaciones
del año son: µI ∈ (13.36, 14.96), µI ∈ (12.17, 13.77), µI ∈ (11.86, 13.46) y µI ∈ (11.26, 12.86).
(d) El consumo en invierno es significativamente mayor que en el resto de las estaciones, el consumo
en otoño y primavera es significativamente mayor que en verano y, el consumo en primavera es
significativamente mayor que en primavera. Al incluir el factor comunidad disminuye la varianza
residual y el test para el invierno resulta más significativo y permite detectar el efecto de las demás
estaciones.
(b) El número de niveles del factor y del bloque es respectivamente I = 2 y J = 20, sb2R =
P2 P20 2 P20 2 P20 2
i=1 j=1 eij j=1 e1j + j=1 e2j
= , donde eij = yij − yi• − y•j + y•• . Para un mismo día
(I − 1)(J − 1) (J − 1)
1 P20 2
P20 2 P20 2 2 2 j=1 (Dj − D) 1
e1j + e2j = 0 ⇒ j=1 e1j = j=1 e2j , por lo tanto sbR = = sb2D
(J − 1) 2
µ ¶ µ ¶2
VE y1• − y 2• 2 D
(c) F1,J−1 = 2 = √ = √ = t2J−1.
sbR sbD / J sbD / J
11
5.5 El efecto del sexo y el tipo de de formación son significativos y además existe interacción entre ellos.
Interpretacción: 1) Existen diferencias significativas en el número medio de errores cometidos entre
profesores de ciencias y profesores de letras (11.67 más en ciencias). 2) También es significativa la
diferencia entre hombres y mujeres (9 errores más para hombres). 3) Además la diferencia observada
entre hombres y mujeres de letras (2 errores más para hombres) difieren significativamente de la
observada para los profesores de ciencias (16 errores más para hombres).
5.6 La interacción entre los dos factores no es significativa. Esta conclusión se puede obtener al
comparar el valor de la F (2.16) obtenido con el de las tablas F(2,24;0.05) = 3.4. Como 2.16>3.4 la
interacción no resulta significativa.
5.7 (a) Se compara el valor de laF (2.8125) con el obtenido en las tablas F(4,45;0.05) = 2.59. Como
2.8125 > 2.59 se rechaza la hipótesis nula de igualdad de medias, y se concluye que el índice de
octanos medido no es igual para cada fórmula.
(b) La fórmula 3 proporciona índice medio de octanos significativamente distintos a las fórmulas 1
y 5, y la fórmula 4 es significativamente distinto a la 1. Las demás fórmulas no se pueden considerar
que proporcionen índice de octanos diferentes.
(c) El valor de la F (2.43) correspondiente a la interaccion se compara con el valor de las tablas
F(4,90;0.05) = 2.47. Como 2.47 > 2.43 no se puede rechazar que la interacción sea nula, o de otra
forma, el efecto de la interacción no es significativo al 95%.
5.8 Para que la interacción sea significativa debe cumplirse que 1.125(R − 1) > F(4,9(R−1);0.05) , donde
R es el número de replicaciones. El cálculo de R es iterativo. Se irán dando valores hasta conseguir
que la interacción sea significativa.
5.10 (a) El laboratorio 3 tiene una media significativamente menor que los otros tres. La diferencia
entre las medias de los laboratorios 1,2 y 4 no son significativas. Este resultado se observa en la
tabla del enunciado, en la que se marcan con un asterísco las diferencias significativas entre los
valores medios de los laboratorios. El intervalo para la media del tercer laboratorio es:
r
1
µ3 ∈ y 3• ± t16;0.005 sbR ,
n3
(b) El contraste
H0 : σ 2 = 1
H1 : σ 2 > 1
12
se realiza con el estadístico
(n − I)ŝ2R
σ2
que tiene distribución de probabilidad χ2n−I siendo I = 4 el número de laboratorios y n = 20 el
número de datos.
(n − I)ŝ2R 16 × 2.14872
χ20 = = = 34. 38
σ2 1
que es mayor que el valor χ216,0.01 = 32, por consiguiente se rechaza la hipótesis H0 y se concluye
que la varianza es mayor que 1.
(c) Como resultado del análisis del modelo con dos factores se observa que el efecto principal día y
la interacción entre el laboratorio y el día no resultan significativas, obteniendo para ambos casos
p-valores (0.8510 y 0.9779 respectivamente) claramente superiores a 0.01. Por otra parte al hacer
las comparaciones para los laboratorios dos a dos se observa que además de las diferencias entre
laboratorios obtenidos en el primer apartado, se aprecia ahora una nueva diferencia significativa
entre el laboratorio 1 y 2.
H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22
16ŝ2R1
σ 21
El contraste se realiza según: ∼ F16,16 ,donde ŝ2R1 = 2.14875 y ŝ2R2 se calcula como se
16ŝ2R2
σ 22
muestra a continuación.
La varianza residual correspondiente al modelo de dos factores es:
P4 P2 P5
i=1 j=1 r=1 (yijr − ȳij. )
ŝ2R = ,donde I = 4 es el número de laboratorios, J = 1 es el
IJ(R − 1)
número de días y R = 5 es el número de replicaciones. Esta varianza residual se puede escribir
como:
P4 P5 P P
(yi1r − ȳi1. ) + 4i=1 5r=1 (yi2r − ȳi2. ) 16ŝ2R1 + 16ŝ2R2
ŝ2R = i=1 r=1 = ,de donde se obtiene
32 32
que:
ŝ2R2 = 2ŝ2R − ŝ2R1 = 2 × 2.06152 − 2.14875 = 1.9743. El valor del estadístico de contraste
2.14875
es: = 1.0884, que pertenece al intervalo (F16,16;0.95 = 0.26, F16,16;0.05 = 3.92), por lo
1.9743
que no se rechaza la hipótesis nula y se concluye que no ha habido un cambio en la varianza
de un día a otro.
5.11 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: En la
tabla 3 se puede ver que el nivel crítico de los tres contrastes es p-valor=0.0000, ésto quiere decir que
13
con un nivel de significación α = 0.05, por ejemplo, la temperatura, el tiempo de exposición
y la interacción entre ambas tienen un efecto significativo sobre la cantidad absorbida.
Como la interacción es significativa, el efecto de la temperatura y del tiempo de exposición sobre la
cantidad absorbida debe hacerse de forma conjunta. El gráfico de interaccciones que se proporciona
en el enunciado ayuda a realizar la interpretación: Para el tiempo de exposición E1: La
absorción media es diferente para cada temperatura. La máxima absorción se consigue a T 2 y la
mínima a T 1. Para el tiempo de exposición E2: La absorción media para cada temperatura
son más parecidas. Sólo es distinta la media de la temperatura T 1, que es mayor que las medias
de las otras dos. Para el tiempo de exposición E3: No existen diferencias significativas en la
absorción media de cada temperatura. Para este tiempo de exposición la temperatura no influye
en la absorción.
(b)La tabla de análisis de la varianza para el nuevo modelo es:
(c) Con los datos del experimento, se rechazará H0 cuando|z i. − z j. | > 6.99. El tratamiento que
tiene mayor media es el número 2, z 2. = 91.43, que es significativamente distinto de todos los demás
salvo del 8, z 8. = 87.06, pero éste a su vez no se puede distinguir del 7, z 7. = 83.76. Luego no
se puede decir que exista un único tratamiento que proporcione una absorción significativamente
mayor que el resto.
(d) No se aprecian signos preocupantes de heterocedasticidad. Unicamente comentar que los resid-
uos correspondientes al valor previsto zk. = 91.43 tienen mayor variabilidad que el resto. Al
representar los residuos frente a los tratamientos, se observa que es el tratamiento 2 el que presenta
mayor variabilidad. Este resultado debe ser analizado en detalle: El tratamiento 2, que es el que
presenta la mayor media de cantidad absorbida, es también el que presenta una mayor variabili-
dad. Este resultado tendría que ser comentado y discutido con los expertos que han realizado el
experimento.
5.12 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: los
factores hidrocarburo e hidrógeno son significativos pero la interacción entre ellos no lo es. Las
diferencias significativas con nivel de significación de 0.05 son:
- Para Hidrocarburos: B 6= A, B 6= C, D 6= A, D 6= C.
- Para Hidrógeno: 1 6= 2, 1 6= 3, 2 6= 3.
(b) Teniendo en cuenta que la interacción no es significativa el tratamiento que proporciona el
rendimiento óptimo es el correspondiente al hidrocarburo C y el hidrógeno 3. El intervalo de
confianza para el valor medio en esas condiciones es:
1 √ 1
µ ∈ y33. ± t36;0.025 sbR √ → µ ∈ 29.975 ± 2.02 14.55
4 2
(c) .Se contrasta la hipótesis H0 : σ 21 = σ 22 frente a la alternativa H1 : σ 21 6= σ 22 , obteniendo
un valor de F = 0.3922, que se compara con los valores obtenidos en las tablas (F12,12 ). Como
0.3922 ∈ (0.30, 3.28),no se rechaza la hipótesis nula.
14
(16.6875 − 20.03)
(d) Teniendo en cuenta que x1 = 18.6875 y x2 = 20.03, el estadístico t = p = −1.38.
3.36 1/12
Como −1.38 está dentro del intervalo (−2.7, 2.7), no se rechaza la hipótesis nula de igualdad de
medias.
5.13 El número de parámetros correspondientes a efectos principales son 14, correspondientes a inter-
acciones de orden 2 son 71, correspondientes a interacciones de orden 3 son 154, y correspondientes
a interacciones de orden 4 son 120. Por lo tanto, el número de parámetros totales son 359.
(c) El intervalo pedido es: 0.0253σ 2 ≤ sb2i ≤ 3.69σ 2 . Sustituyendo σ 2 por su estimador se obtiene
que 0.106 ≤ sb2i ≤ 15.47. Como todos los valores de sb2i pertenecen al intervalo construido no se puede
rechazar la hipótesis de homocedasticidad.
q
5.15 . d = (y 1 − y2 ) − (y 3 − y4 ) ∼ N (µ = µ1 − µ2 − µ3 + µ4 ; σ = 4σ 2y /10);
P
4
10 s2i
SbR
2 = i=1
4×10−4 ;
(y 1 −y3 )−(y3 −y 4 )
t= √
bR 4/10
∼ t(4 × 10 − 4)
S
H0 : δ = 0; H1 : δ > 0;
Para la muestra, t = 6, 93 > t0,95 (36) = 1, 69, se rechaza H0
Capítulo 6. Regresión lineal
½
b = 2.5876; β
b = 0.5414; en el contraste H0 : β 1 = 0
6.1 (a) β 0 1 se rechaza H0 ; sb2R = 0.1269; en el
H1 : β 1 6= 0
gráfico de los residuos frente a los valores previstos se aprecia falta de linealidad, el modelo no es
adecuado.
b
β 2.8971
0
(b) βb= βb1 = 0.6575 .
b2
β −01161
15
6.3 Como ui ; N (0, σ),la estimación por máxima verosimilitud
" #es equivalente a la estimación por
P b ¡ ¢
b = β 1 = WT W −1 W0 Y; siendo W =
mínimos cuadrados; M = (yi − β 1 x1i − β 2 x22i )2 ; b b
β 2
2
x11 x21 y1
... ... e Y = ... .
x1n x22n yn
½ b −0
H0 : β 1 ≤ 0 β
6.4 (a) ;t = 1 ; tn−2 ; t = 22.75 > t(98;0.05) ≈ 1.66, se rechaza H0 .
H1 : β 1 > 0 b )
sb(β 1
½ b −1
H0 : β 1 ≥ 1 β
(b) ;t = 1 ; tn−2 ; t = −2.25 < t(98;0.95) ≈ −1.66, se rechaza H0 .
H1 : β 1 < 1 b )
sb(β 1
1P b − E(βb ) = 1 P (xi − x) ui ;
y − E(y) = ui ; β 1 1
n ns2x
2
b1 ) = P (xi − x) E(u2 ) = σ P (xi − x) = 0.
cov(y, β i
n2 s2x n2 s2x
6.6 b = 83.2; β
(a) Con x1 : yi = β 0 + β 1 x1i + ui ; β b = 0.56;
0 1
b ± t(n−2;α/2) sb(β b )=
b ); sb(β sbR eT e b T XT Y = 81.6;
β1 ∈ β 1 1 1 √ ; sb2R = ; eT e = YT Y−β
s1 n n−2
β 1 ∈ (0.1, 1.02).
Con x2 : yi = α0 + α1 x2i + ²i ; α b 0 = 78.8; α
b 1 = 0.53;
sbR ²T ²
α1 ∈ α α1 ) = √ ; sb2R =
α1 ); sb(b
b 1 ± t(n−2;α/2) sb(b αT XT Y = 58.3;
; ²T ² = YT Y−b
s2 n n−2
α1 ∈ (0.21, 0.85).
bi − 0
β ³ ´−1 εT ε
(c) Los contrastes individuales ti = ; tn−2−1 ; Vd b = sb2 X
ar(β) e
eTX ; b
s2 = ;
b) R R
sb(β n−2−1
i · ¸
bT X
e −β
eTY eTY
e = 57.1; Vd b = 0.17 −0.13
εT ε = Y ar(β)
−0.13 0.12
t1 = −0.21 < t(7,0.025) = 2.36; t2 = 1.7 < t(7,0.025) = 2.36. Ninguno de los coeficientes es
significativo.
El contraste conjunto:
16
½ bT XeTX eβb
H0 : β 1 = β 2 = 0 β
;F = 2 ; F(2,7) ; F = 6.73 > F(2,7;0.05) = 4.73. Se rechaza H0 .
H1 : Alguno 6= 0 k × sbR
cov(x1 , x2 )
Existe multicolinealidad provocada por la alta correlación entre x1 y x2 . r12 = =
s1 s2
0.9.
(d) Regresión Y − X1 : R12 = 0.49; Regresión Y − X2 : R22 = 0.64; Regresión Y − X1 , X2 :
R32 = 0.64. El modelo con dos regresores y el modelo de regresión simple con X2 son similares.
La selección de un modelo u otro depende del objetivo. Si el interés es estimar los coeficientes
β, son preferibles las regresiones simples. Si lo que se pretende es hacer predicciones de Y para
valores de X1 , X2 se podría usar el modelo de regresión múltiple pues la multicolinealidad no
afecta a las predicciones.
µP ¶1/2
yi − y)2
(b syb
6.7 Coeficiente de correlación múltiple R = P 2
= .
(yi − y) sy
P
(yi − y)(b yi − y) syby
Coeficiente de correlación lineal r = P p pP = .
(yi − y) 2 (b
yi − y) 2 sy syb
P P s2yb syb
Se demuestra (yi − y)(b yi − y)2 ; entonces r =
yi − y) = (b = = R.
sy syb sy
n − k − 1 R2
6.8 F = = 21.12 > F(1,28;0.05) = 4.196. El efecto es significativo.
k 1 − R2
n − 2 R2
6.9 Conocidos los valores de R2 y n se calcula F = = 294, y se compara con el valor de
1 1 − R2
tablas F(1,98;0.05) = 3.92. Como 294 > 3.92 se rechaza la hipótesis nula.
(
H0 : β 1 = β 1
0
b −β
β b0
6.10 (a) 0 , t = √1 1
; t(2(n−2)) ; sbT = 0.5743;
H1 : β 1 6= β 1 sbT 2 × 0.835
(c) Yb = −6.52+2.215 log T ; Vd b = sb2 (XT XR )−1 ; sb2 = 0.2258; (XT XR )−1 = 1 (XT X)−1 ; β 1 ∈
ar(β) R R R R
2
b b b b ); β ∈ −6.52 ± 4.1333.
β 1 ± t(18;0.005) × sb(β 1 ); β 1 ∈ 2.215 ± 0.8836; β 0 ∈ β 0 ± t(18;0.005) × sb(β 0 0
6.11
6.12 (a) En la tabla 2 del enunciado: β b = 51.7421; p − V alue = 0.00. La variable resistencia es
2
[Link] de β 2 : Independientemente del valor de la dureza, las gomas de resistencia
alta(+1) tienen, por término medio, unas pérdidas superiores en 2 × β 2 unidades a las gomas de
resitencia baja (-1). En el problema 2 × β b = 103.4842. Esta diferencia se aprecia en la gráfica
2
b
del enunciado. Intervalo para β 2 . β 2 ∈ β b2 ± t27;0.025 × sb(β
b2 ) con los datos de la tabla 2, β 2
∈ [40.44; 63.04].
17
(b) β 0 : Ordenada en el origen. En este caso no tiene interés práctico. β 3 : Cuantifica el efecto de
la interacción dureza×resistencia en las pérdidas. Mide el cambio del efecto de la dureza al utilizar
gomas con resistencia alta o gomas con resistencia baja. Al observar la figura del enunciado, se
puede ver que la influencia de la dureza sobre las pérdidas no depende de la resistencia. En ambos
casos al aumentar la dureza, las pérdidas disminuyen en una cantidad muy similar, puesto que
las rectas que determinan esta relación son prácticamente paralelas en el rango de variación de la
dureza.
(c) Eligiríamos el modelo del apartado 1. Ambos modelos parecen adecuados porque en ambos
se rechaza el contraste general de regresión. Sin embargo en la tabla 3, se observa que la inter-
2 2
acción dureza×resistencia no es significativa. Además Rmodelo1 =88.5177 > Rmodelo2 = 88.1505.
La variable resistencia (significativa en el modelo 1), deja de serlo al introducir la interacción
dureza×resistencia. sb(βb ) crece desde 5.52215 (modelo 1) hasta 34.4264 (modelo 2). Hay mul-
1
ticolinealidad entre resistencia y dureza×resistencia que tambien ocasiona el cambio en el nivel
crítico.
(d) El gráfico de residuos frente a valores previstos no presenta anomalías que indiquen falta de
homocedasticidad.
n − k − 1 R2
6.13 F = Ã F(3,11); F = 42.166 > F(3,11;0.05) = 3.5874. Se rechaza H0 en el contraste
k 1 − R2
general de regresión.
½ b −0
H0 : β i = 0 β
Los contrastes individuales: ; ti = i √ Ã t11 ; t1 = 8.347 > t(11;0.025) = 2.20;
H1 : β i 6= 0 sbR qii
t2 = 1.018 < 2.20; |t3 | = 1.429 < 2.20. Solo x3 es significativa.
às !
z2
(b) El error de predicción eh = yh − ybh ; eh à N 0, σ 1 + Ph 2 ;
zi
18
s
z2
yh ∈ ybh ± t(n−1;α/2) sbR 1 + Ph 2 = 0.525 ± 0.1636.
zi
½
H0 : β 1 = 1 1.14 − 1
(c) ,t = √ = 1.54 < t(15−2−1;0.025) = 2.18. No se rechaza H0 .
H1 : β 1 6= 1 0.0081
½
H0 : β 2 = 2 1.86 − 2
,t = √ = −2.16; |t| < t(15−2−1;0.025) . No se rechaza H0 .
H1 : β 2 6= 2 0.0042
√
(d) En general yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; en nuestro caso
\
ybh = log(volumen) = −1.45 + 1.14 log 20 + 1.86 log 0.25 = −0.6134;
0
¡ T
¢−1 √ √
vhh = xh X X xh = 149.64; log(volumen) ∈ −0.6134 ± 2.18 0.0031 1 + 149.64;
volumen ∈ (0.1221, 2.4022).
b ;α
6.17 (a)
β i bi 77.2 −50.8 2.95 5.52
; los valores |ti | se comparan con
ti 7.415 −5.255 2.108 3.806
∆V E/2 275.92/2
(b) F = 2 Ã F(2,55) ; F = = 7.3833 > F(2,55;0.01) ≈ 5.00. Se rechaza H0 .
sbR 4.322
½
H0 : α2 − α3 = 0 α2 − α
(b b3) − 0
(c) ;t = q à t55 ;
H1 : α2 − α3 6= 0
Vdar(b b3)
α2 − α
Vdar(b b 3 ) = Vd
α2 − α α2 )+ Vd
ar(b ar(b c α2 , α
α3 )−2cov(b b 3 ) = 2.023; |t| = |−1.8073| < t(55;0.005) = 2.68.
No existe diferencia significativa entre los botes de limón y cola.
√
6.18 yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; ybh = 3.305 + 0.843 × 1.2 + 3.829 × 1.6 + 0 + 0 = 10.446;
¡ ¢−1 √
vhh = x0h XT X xh = 0.0639; yh ∈ 10.443 ± 2 × 0.7113 1 + 0.0639; yh ∈ 10.443 ± 1.4674.
¡ ¢
6.19 b = σ 2 XT X −1 . En el problema XT X = nI, donde I
En el modelo de regresión múltiple V ar(β)
¡ ¢−1
es la matriz identidad. XT X bi ) = σ 2 /n.
= (1/n)I, luego V ar(β
T
b h ) = V ar(xh β)
V ar(m b h = (σ 2 /n)n;
b = xT V ar(β)x
h
b h ) = σ2 + σ2 .
b h ; V ar(eh ) = V ar(yh ) + V ar(m
eh = yh − m
P
n
b −βb xi ) = 0; P yi = β
n
b +βb P xi ; y = β
n
b +βb x.
6.20 (yi − β 0 1 0 1 0 1
i=1 i=1 i=1
19
sbR sbR
mh ∈ ybh ± t(n−2;α/2) v ; xh = x; ybh = y; mh ∈ yh ± t(n−2;α/2) √ .
u n n
u µ ¶2
u
t xh − x
1+
sx
√
6.21 mh ∈ ybh ± t(8;0.025) sbR vhh
¡ ¢−1 √
vhh = x0h XT X xh = 10.7306; mh ∈ −4.66 ± 2.31 × 0.64 10.7306; mh ∈ −4.66 ± 4.41.
r
1 n
6.22 yh ∈ ybh ± t(10;0.025) sbR 1 + bh =
;n µ ¶ ; xh = −0.2231;
bh
n xh − x 2
1+
sx
b = 735.784; β
x = −1.4262; sx = 1.1134; n = 12; β b = 127.457; sb2 = 253.59; yh ∈ (668.79, 745.89).
0 1 R
20