3er Examen de Estadistica Bautista Lopez Sara
3er Examen de Estadistica Bautista Lopez Sara
Estadística
3er examen departamental
Integrantes:
Bautista López Sara
2015050975
EJERCICIOS ANOVA
1. ¿Qué es el análisis de varianza de un factor y para qué se utiliza?
Es una generalización de la hipótesis t-student que analiza más de dos muestras
independientes, se emplea para determinar las diferencias entre las medias muéstrales
4. Señale en cuál de los siguientes diagramas los datos tienen una mayor variabilidad
dentro de los niveles A, B, C y D, y en cuál diagrama los datos tienen mayor variabilidad
entre los cuatro niveles. Explique
En el diagrama verde se puede apreciar que las “cajas” son muy largas en comparación
las del diagrama rojo lo que indica una mayor variabilidad dentro de los niveles A, B, C y
D, sin en cambio podemos observar que sus medias no están muy alejadas lo que nos
dice que no hay mucha variabilidad entre las muestras
En el diagrama sucede lo contrario, sus “cajas” son pequeñas lo que indica poca
variabilidad dentro de los niveles A, B, C y D, sin en cambio utilizando el razonamiento
del diagrama verde podemos asegurar que hay mucha variabilidad entre los 4 niveles.
5. Para los siguientes experimentos ANOVA, determina la región y el valor críticos que se
usan en el enfoque clásico para poner a prueba la hipótesis nula.
a) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 , 𝑐𝑜𝑛 𝑛 = 18 𝑦 𝛼 = 0.05
b) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 , 𝑐𝑜𝑛 𝑛 = 15 𝑦 𝛼 = 0.01
c) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 , 𝑐𝑜𝑛 𝑛 = 25 𝑦 𝛼 = 0.05
Solución:
Se utiliza una distribución F de Snedecor con k-1 grados de libertad en el numerador y n-
k grados de libertad en el Denominador
a) Sea) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 , 𝑐𝑜𝑛 𝑛 = 18 𝑦 𝛼 = 0.05.
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.05 , 3 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 14 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 3.34
b) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 , 𝑐𝑜𝑛 𝑛 = 15 𝑦 𝛼 = 0.01
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.01 , 4 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 10 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 5.99
c) c) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 , 𝑐𝑜𝑛 𝑛 = 25 𝑦 𝛼 = 0.05
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.05 , 2 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 22 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 3.44
6. Supón que una prueba F (usando el método clásico) tiene un valor 𝐹𝑐𝑟ì𝑡𝑖𝑐𝑜 = 2.2, como
se muestra en esta figura:
8. Dos nuevos medicamentos se pondrán a prueba por su efecto sobre el número de días
que un paciente debe permanecer hospitalizado después de cirugía. Un grupo de control
recibe un placebo y dos grupos de tratamiento reciben cada uno por separado uno de los
dos nuevos medicamentos, ambos desarrollados para promover la recuperación. La
hipótesis nula es que no hay diferencia entre las medias. A continuación, se muestran los
resultados del análisis de varianza.
ANOVA
Fuente gl SS MS F* P
Entre grupos 2 11.00 5.50 2.11 0.159
Dentro de grupos 14 36.53 2.61
Total 16 47.53
Al diagrama
azul le
Diagrama de dispersion
16 (5,15)
14
12
10
(3,8)
8
y
(2,6)
6
4 (1,3)
2(0,1)
0
0 1 2 3 4 5 6
x
𝑠𝑠 (𝑥𝑦)
𝑟=
√𝑠𝑠(𝑥). 𝑠𝑠(𝑦)
(∑ 𝑥)2
𝑠𝑠(𝑥) = ∑ 𝑥 2 −
𝑛
(∑ 𝑦)2
2
𝑠𝑠(𝑦) = ∑ 𝑦 −
𝑛
(∑ 𝑥)(∑ 𝑦)
𝑠𝑠(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
1 3 1 9 3
0 1 0 1 0
5 15 25 225 75
2 6 4 36 12
3 8 9 64 24
∑ 𝑥 = 11 ∑ 𝑦 = 33 ∑ 𝑥 2 = 39 ∑ 𝑦 2 = 335 ∑ 𝑥 𝑦 = 114
121 1089 11 ∗ 33
𝑠𝑠(𝑥) = 39 − = 14.8, 𝑠𝑠(𝑦) = 335 − = 117.2, 𝑠𝑠(𝑥𝑦) = 114 − = 41.4
5 5 5
41.4
→𝑟= = 0.9940441586
√14.8 ∗ 117.2
𝑟 2 = (0.994044)2 = 0.9881234739 ∗ 100% = 98.81%
El valor de r2=98.81% es la proporción de la variación de Y que está explicada por la relación
lineal entre X y Y.
b)
X 0 3 3 1 4
y 1 7 2 5 5
diagra de dispersion
8
(3,7)
7
6
(1,5) (4,5)
5
4
y
3
(3,2)
2
(0,1)
1
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
0 1 0 1 0
3 7 9 49 21
3 2 9 4 6
1 5 1 25 5
4 5 25 25 20
∑ 𝑥 = 11 ∑ 𝑦 = 20 ∑ 𝑥 2 = 35 ∑ 𝑦 2 = 104 ∑ 𝑥 𝑦 = 52
121 400 11 ∗ 20
𝑠𝑠(𝑥) = 35 − = 10.8, 𝑠𝑠(𝑦) = 104 − = 24, 𝑠𝑠(𝑥𝑦) = 52 − =8
5 5 5
8
→𝑟= = 0.496903995
√10.8 ∗ 24
𝑟 2 = (0.496903)2 = 0.2469125914 ∗ 100% = 24.70%
El valor de r2=98.81% es la proporción de la variación de Y que está explicada por la relación
lineal entre X y Y.
5. Para cada inciso, considera las dos variables y señala cuál usarías como la variable de
entrada. Explica por qué.
a) Estatura y peso de una persona
En el caso de las variables altura y peso de una persona, cualquier variable podría
tratarse como entrada y la otra como salida, dependiendo de la pregunta que se plantee.
b) horas de estudio para un examen y calificación obtenida
lavariable de entrada son las horas de estudio puesto que son satos que podemos
manipular en cuanto a la calificación seria esta nuestra variable de salida.
3
(3,2)
2
1
(5,0)
0
0 1 2 3 4 5 6
variable de entrada
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
0 6 0 36 0
3 5 9 25 15
3 2 9 4 6
5 0 25 0 0
∑ 𝑥 = 11 ∑ 𝑦 = 13 ∑ 𝑥 2 = 43 ∑ 𝑦 2 = 65 ∑ 𝑥𝑦 = 21
121 169 11 ∗ 13
𝑠𝑠(𝑥) = 43 − = 12.75, 𝑠𝑠(𝑦) = 65 − = 22.75, 𝑠𝑠(𝑥𝑦) = 21 − = −14.75
4 4 4
−14.75
→𝑟= = −0.8660565038
√12.75 ∗ 22.75
c)
8 ¿Estudiar para un examen rinde frutos?
X 2 5 1 4 2
Y 80 80 70 90 60
70 60
60
50
40
30
20
10
0
0 1 2 3 4 5 6
horas de estudio
(∑ 𝑥)(∑ 𝑦)
𝑠𝑠(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛
1. Calcula las sumas ∑ 𝑥, ∑ 𝑦, ∑ 𝑥 2 , ∑ 𝑦 2 , 𝑦 ∑ 𝑥𝑦 y encuentra 𝑆𝑆(𝑥), 𝑆𝑆(𝑦), 𝑆𝑆(𝑥𝑦) y r para el
siguiente conjunto de datos bivariados.
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
11.4 8.1 129.96 65.61 92.34
9.4 8.2 88.36 67.24 77.08
6.5 5.8 42.25 33.64 37.7
7.3 6.4 53.29 40.96 46.72
7.9 5.9 62.41 34.81 46.61
9 6.5 81 42.25 58.5
9.3 7.1 86.49 50.41 66.03
10.6 7.8 112.36 60.84 82.68
∑ 𝑥 =71.4
∑ 𝑦 =55.8 ∑ 𝑥 2 =656.12 ∑ 𝑦 2 =395.76 ∑ 𝑥𝑦 =507.66
2 2
71.4 55.8
𝑠𝑠(𝑥) = 656.12 − = 18.875, 𝑠𝑠(𝑦) = 395.76 − = 6.555,
8 8
71.4 ∗ 55.8
𝑠𝑠(𝑥𝑦) = 507.66 − = 9.645
8
9.645
→𝑟= = 0.8671064242; 𝑟 2 = 0.751873
√18.875 ∗ 6.555
Diagrama de dispersion
9
6
variable de salida
0
0 2 4 6 8 10 12
Vaiable de entrada
2. Construye un diagrama de dispersión de los siguientes datos bivariados calcula r y r^2
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
A 1 1 1 1 1
B 1 2 1 4 2
C 3 2 9 4 6
D 3 3 9 9 9
E 5 3 25 9 15
F 5 4 25 16 20
G 7 4 49 16 28
H 7 5 49 25 35
I 9 5 81 25 45
J 9 6 81 36 54
∑ 𝑥 =50 2 2
∑ 𝑦 =35 ∑ 𝑥 =330 ∑ 𝑦 =145 ∑ 𝑥𝑦 =215
Total
502 352 50 ∗ 35
𝑠𝑠(𝑥) = 330 − = 80, 𝑠𝑠(𝑦) = 145 − = 22.5, 𝑠𝑠(𝑥𝑦) = 215 − = 40
10 10 10
40
→𝑟= = 0.943; 𝑟 2 = 0.889
√80 ∗ 22.50
diagrama de dispersion
7
6
variable de salida
0
0 2 4 6 8 10
variable de entrada
3. Dibuja un diagrama de dispersión para los siguientes datos bivariados calcula r y r^2.
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
A 0 6 0 36 0
B 1 6 1 36 6
C 1 7 1 49 7
D 2 4 4 16 8
E 3 5 9 25 15
F 4 2 16 4 8
G 5 3 25 9 15
H 6 0 36 0 0
I 6 1 36 1 6
J 7 1 49 1 7
K ∑ 𝑥 =34 ∑ 𝑦 =59 ∑ 𝑥 2 =176 ∑ 𝑦 2 =1401 ∑ 𝑥𝑦 =66
342 592 34 ∗ 59
𝑠𝑠(𝑥) = 176 − = 60.4, 𝑠𝑠(𝑦) = 1401 − = 1052.9, 𝑠𝑠(𝑥𝑦) = 66 − = −134.6
10 10 10
−134.6
→𝑟= = −0.534; 𝑟 2 = 0.285
√60.4 ∗ 1052.9
diagrama de dispersion
8
7
6
variable de salida
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8
variable de entrada
4. Un psicólogo experimental afirma que, mientras más edad tenga un niño, son menos las
respuestas irrelevantes que dará durante un experimento controlado. Para investigar
esta afirmación, se recopilaron los siguientes datos. Calcula r y r^2
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
2 12 4 144 24
4 13 16 169 52
5 9 25 81 45
6 7 36 49 42
6 12 36 144 72
7 8 49 64 56
9 6 81 36 54
9 9 81 81 81
∑ 𝑥 =48 2 2
∑ 𝑦 =76 ∑ 𝑥 =328 ∑ 𝑦 =768 ∑ 𝑥𝑦 =426
482 762 48 ∗ 76
𝑠𝑠(𝑥) = 328 − = 40, 𝑠𝑠(𝑦) = 768 − = 46, 𝑠𝑠(𝑥𝑦) = 426 − = −30
8 8 8
−30
→𝑟= = −0.699; 𝑟 2 = 0.489
√40 ∗ 46
diagrama de dispersion
14
variable de salida 12
10
0
0 2 4 6 8 10
variable de entrada
Ejercicios
1. Usa la tabla 10 del apéndice B para determinar un intervalo de confianza de 95% para el
verdadero coeficiente de correlación lineal poblacional basada en los siguientes estadísticos
maestrales:
a) 𝑛 = 8, 𝑟 = 0.20 𝑃 = (−0.5, 0.75) .
b) 𝑛 = 100, 𝑟 = −0.40 𝑃 = (−0.55,0.225).
c) 𝑛 = 25, 𝑟 = + 0.65 𝑃 = (0.4, 0.825)
d) 𝑛 = 15, 𝑟 = – 0.23 𝑃 = (−0.65, 0.35).
70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
Primera calificacion
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
75 72 5625 5184 5400
87 90 7569 8100 7830
60 52 3600 2704 3120
75 75 5625 5625 5625
98 94 9604 8836 9212
80 78 6400 6084 6240
68 72 4624 5184 4896
84 80 7056 6400 6720
47 53 2209 2809 2491
72 70 5184 4900 5040
∑ 𝑥 =746 ∑ 𝑦 =736 ∑ 𝑥 2 =57496 ∑ 𝑦 2 =55826 ∑ 𝑥 𝑦 =56574
7462 7362
𝑠𝑠(𝑥) = 57496 − = 1844.4, 𝑠𝑠(𝑦) = 55826 − = 1656.4,
10 10
746 ∗ 736
𝑠𝑠(𝑥𝑦) = 56574 − = 1668.4
10
1668.4
→𝑟= = 0.9545309474
√1844.4 ∗ 1656.4
𝑟 −.50
𝑟∗ = = = −2.30
√1 − 𝑟2 √1−. 52
𝑛−2 18 − 2
Iv) criterios de prueba: con el nivel de significancia 𝛼 = 0.01
De acuerdo con la tabla con distribución t con 16 gl se tiene un valor crítico de 2.58.
Conclusión: Ya que el estadístico de prueba se encuentra dentro del area de no rechazo de Ho
entonces se interpreta como que no se ha demostrado una relación lineal entre las dos
variables en la población.
5 ¿Un valor de r =+0.24 es significativo al tratar de demostrar que 𝜌 es mayor que cero para un
tamaño de muestra 62 en el nivel de significancia 0.05?
𝑛 = 18, 𝛼 = 0.05, 𝑟 = −0.50
i) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 > 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:
∗
𝑟 . 24
𝑟 = = = −1.915
2 2
√1 − 𝑟 √1 −. 24
𝑛−2 62 − 2
iv) Criterio de prueba: Con el nivel de significancia 𝛼 = 0.05
De acuerdo con la tabla con distribución t con 60 gl y 𝛼 = 0.05 se tiene un valor crítico de 1.68.
Conclusión: el estadístico de prueba se encuentra dentro de la zona de rechazo de Ho, significa
que hay evidencia de una relación lineal entre lasdos variables en la población.
6. Cuando se trata de restaurantes de alta cocina japonesa que ofrecen sushi, la calidad y
presentación de la comida sin duda son indicadores del costo. ¿Y qué hay de la decoración del
restaurante? Los resultados de la encuesta Zagat, publicados en Newsweek, produjeron un
coeficiente de correlación de 0.532 entre calificación de decoración del restaurante y el costo
promedio de la comida. Si estos resultados se basaron en cinco restaurantes, ¿puedes concluir
que la relación es significativa en el nivel de significancia 0.05?
𝑛 = 18, 𝛼 = 0.01, 𝑟 = −0.50
b) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 ≠ 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:
𝑟 −.532
𝑟∗ = = = −1.088
√1 − 𝑟2 √1 −. 5322
𝑛−2 5−2
iv) Criterio de prueba: con el nivel de significancia 𝛼 = 0.05
Calculamos el valor critico considerando 𝛼 = 0.05 y 3gl, entonces el intervalo es de (-3.182,
3.182)
Conclusión:
Ya que el estadístico de prueba se encuentra dentro del are a de no rechazo de Ho entonces se
interpreta como que no se ha demostrado una relación lineal entre las dos variables en la
población.
7. La población (en millones) y la tasa de crímenes violentos (por 1000) se registraron para 10
áreas metropolitanas. Los datos se muestran en la siguiente tabla.
Población 10.0 1.3 2.1 7.0 4.4 0.3 0.3 0.2 0.2 0.4
Tasa de 12.0 9.5 9.2 8.4 8.2 7.3 7.1 7.0 6.9 6.9
crímenes
¿Estos datos proporcionan evidencia para rechazar la hipótesis nula de que ρ = 0 en favor de p
≠ 0 con α=0.05?
Diagrama de dispersion
14
12
tasa de crimenes
10
0
0 2 4 6 8 10 12
Poblacion
x y X2 Y2 X
10 12 100 144 120
1.3 9.50 1.69 90.25 12.35
2.1 9.2 4.41 84.64 19.32
7 8.4 49 70.56 58.8
4.4 8.2 19.36 67.24 36.08
0.3 7.3 0.09 53.29 2.19
0.3 7.1 0.09 50.41 2.13
0.2 7 0.04 49 1.4
0.2 6.9 0.04 47.61 1.38
0.4 6.9 0.16 47.61 2.76
∑ 𝑥 =26.2 2 2
∑ 𝑦 =82.5 ∑ 𝑥 =174.88 ∑ 𝑦 =704.61 ∑ 𝑥 𝑦 =256.41
26.22 82.52
𝑠𝑠(𝑥) = 174.88 − = 106.236, 𝑠𝑠(𝑦) = 704.61 − = 23.985,
10 10
26.2 ∗ 82.5
𝑠𝑠(𝑥𝑦) = 256.41 − = 40.26
10
40.26
→𝑟= = 0.7975686118
√106.236 ∗ 23.985
𝑛 = 10, 𝛼 = 0.05, 𝑟 = 0.7975
b) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 ≠ 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:
𝑟 . 7975686118
𝑟∗ = = = 3.74
√1 − 𝑟2 √1 −. 79756861182
𝑛−2 10 − 2
iv) Criterio de prueba: con 𝛼 = 0.05
Calculamos al valor critico considerando 8gl y 𝛼 = 0.05 y obtenemos 𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 = 2.31, así el
intervalo de confianza es (-2.31, 2.31)
Conclusión:
De acuerdo con la grafica podemos ver que el estadístico de prueba 3.77 se encuentra dentro
de a zona de rechazo de Ho, significa que hay evidencia de una relación lineal entre las dos
variables en la población.