0% encontró este documento útil (0 votos)
389 vistas34 páginas

3er Examen de Estadistica Bautista Lopez Sara

r = ss(xy)/√ss(x)ss(y) = 41.4/√14.8*117.2 = 0.9 r2 = r^2 = 0.81 = 81% Interpretación: El 81% de la variación en y se explica por la variación en x. b) X: 1, 2, 3, 4, 5 Y: 2, 3, 5, 7, 9 Diagrama de dispersión: 10 9 8 7 y 6 5 4 3 2 1 0 0 1 2 3 4 5 x Calculations:

Cargado por

Sara Bautista
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
389 vistas34 páginas

3er Examen de Estadistica Bautista Lopez Sara

r = ss(xy)/√ss(x)ss(y) = 41.4/√14.8*117.2 = 0.9 r2 = r^2 = 0.81 = 81% Interpretación: El 81% de la variación en y se explica por la variación en x. b) X: 1, 2, 3, 4, 5 Y: 2, 3, 5, 7, 9 Diagrama de dispersión: 10 9 8 7 y 6 5 4 3 2 1 0 0 1 2 3 4 5 x Calculations:

Cargado por

Sara Bautista
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Instituto Politécnico Nacional

Escuela Superior De Física Y


Matemáticas

Estadística
3er examen departamental

Profesor: Armando De León Solórzano


Grupo: 6MV1

Integrantes:
Bautista López Sara
2015050975
EJERCICIOS ANOVA
1. ¿Qué es el análisis de varianza de un factor y para qué se utiliza?
Es una generalización de la hipótesis t-student que analiza más de dos muestras
independientes, se emplea para determinar las diferencias entre las medias muéstrales

2. En el contexto del análisis de varianza, ¿qué es un tratamiento?


Es el análisis de la dispersión que hay en las muestras de un grupo

3. ¿Qué es la varianza entre muestras y qué es la varianza dentro de muestras?


La primera indica que tanto varían las medias muéstrales de los niveles de tratamiento, y
la segunda es la variación de los datos de una muestra o de un nivel.

4. Señale en cuál de los siguientes diagramas los datos tienen una mayor variabilidad
dentro de los niveles A, B, C y D, y en cuál diagrama los datos tienen mayor variabilidad
entre los cuatro niveles. Explique

En el diagrama verde se puede apreciar que las “cajas” son muy largas en comparación
las del diagrama rojo lo que indica una mayor variabilidad dentro de los niveles A, B, C y
D, sin en cambio podemos observar que sus medias no están muy alejadas lo que nos
dice que no hay mucha variabilidad entre las muestras
En el diagrama sucede lo contrario, sus “cajas” son pequeñas lo que indica poca
variabilidad dentro de los niveles A, B, C y D, sin en cambio utilizando el razonamiento
del diagrama verde podemos asegurar que hay mucha variabilidad entre los 4 niveles.

5. Para los siguientes experimentos ANOVA, determina la región y el valor críticos que se
usan en el enfoque clásico para poner a prueba la hipótesis nula.
a) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 , 𝑐𝑜𝑛 𝑛 = 18 𝑦 𝛼 = 0.05
b) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 , 𝑐𝑜𝑛 𝑛 = 15 𝑦 𝛼 = 0.01
c) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 , 𝑐𝑜𝑛 𝑛 = 25 𝑦 𝛼 = 0.05
Solución:
Se utiliza una distribución F de Snedecor con k-1 grados de libertad en el numerador y n-
k grados de libertad en el Denominador
a) Sea) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 , 𝑐𝑜𝑛 𝑛 = 18 𝑦 𝛼 = 0.05.
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.05 , 3 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 14 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 3.34
b) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 , 𝑐𝑜𝑛 𝑛 = 15 𝑦 𝛼 = 0.01
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.01 , 4 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 10 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 5.99

c) c) 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 , 𝑐𝑜𝑛 𝑛 = 25 𝑦 𝛼 = 0.05
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.05 , 2 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 22 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 3.44
6. Supón que una prueba F (usando el método clásico) tiene un valor 𝐹𝑐𝑟ì𝑡𝑖𝑐𝑜 = 2.2, como
se muestra en esta figura:

a) ¿Cuál es la conclusión si se obtiene un valor calculado F* mayor que 2.2?


Rechazar la hipótesis nula ya que habría muy poca probabilidad de que Ho suceda
b) ¿Cuál es la conclusión si se obtiene un valor calculado F* menor que 2.2?
Se podría concluir que no hay datos suficientes para poder rechazar H0

7. Un estudiante aplica una prueba de razonamiento abstracto a estudiantes de inglés,


matemáticas y ciencias de su universidad, elegidos al azar. Luego, utiliza el análisis de
varianza con los datos muéstrales y concluye que no todas las medias son iguales. ¿El
estudiante puede concluir que, los estudiantes de inglés, matemáticos y ciencias tienen
puntuaciones medias de razonamiento abstracto que no son iguales? ¿Por qué?
No, porque son poblaciones diferentes

8. Dos nuevos medicamentos se pondrán a prueba por su efecto sobre el número de días
que un paciente debe permanecer hospitalizado después de cirugía. Un grupo de control
recibe un placebo y dos grupos de tratamiento reciben cada uno por separado uno de los
dos nuevos medicamentos, ambos desarrollados para promover la recuperación. La
hipótesis nula es que no hay diferencia entre las medias. A continuación, se muestran los
resultados del análisis de varianza.
ANOVA
Fuente gl SS MS F* P
Entre grupos 2 11.00 5.50 2.11 0.159
Dentro de grupos 14 36.53 2.61
Total 16 47.53

Enuncia la decisión y la conclusión que se obtienen como resultado de este análisis


Sol: considerando 𝛼 = 0.05
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼, 𝑘 − 1 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 𝑛 − 𝑘 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = (𝛼 = 0.05,2 𝑔𝑙 𝑛𝑢𝑚𝑒𝑟𝑎𝑑𝑜𝑟, 14 𝑔𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟)
𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎 = 3.74
Entonces:

Por lo que se concluiría que no hay evidencia suficiente para rechazar H0


EJERCICIOS CORRELACIÓN
1. Identificación de diagramas de dispersión. A continuación, se presentan tres diagramas
de dispersión generados por STATDISK. Determine cuál de los diagramas de dispersión
corresponde a los siguientes valores del coeficiente de correlación lineal: r = 0.857, r = —
0.658, r = 0.012.

Al diagrama
azul le

corresponde el coeficiente de correlación de r=0.012


Al diagrama amarillo le corresponde el coeficiente de correlación de r=0.857
Al diagrama verde le corresponde el coeficiente de correlación de r=-0.658
2. Escribe un valor aproximado del coeficiente de correlación para cada diagrama de
dispersión

Al diagrama azul le corresponde el coeficiente de correlación de r=—0.890


Al diagrama amarillo le corresponde el coeficiente de correlación de r=0.010
Al diagrama verde le corresponde el coeficiente de correlación de r=0.890
3. Edades de corredores de maratón. Se registraron las edades y los tiempos de 150
corredores elegidos al azar que completaron la maratón de la ciudad de Nueva York. El
coeficiente de correlación lineal es r = 0. 44.
a) ¿Existe una correlación lineal entre la edad y el tiempo?
Se trata de una correlación positiva pero no perfecta.
b) ¿Qué proporción de la variación del tiempo puede explicarse por la variación de la edad?
El 19.36 % ya que 𝑟 2 = (0.44)2 = 0.1936 + 100% = 19.36% lo que podria decir que el el 19.36%
del tiempo que hcieron los corredores es explicado por la edad
4. Dibuja un diagrama de dispersión y da un valor aproximado del coeficiente de correlación, r, y
de determinación, r2, para cada inciso Interpreta el valor de r2
a)
X 1 0 5 2 3
y 3 1 15 6 8

Diagrama de dispersion
16 (5,15)

14
12
10
(3,8)
8
y

(2,6)
6
4 (1,3)

2(0,1)
0
0 1 2 3 4 5 6
x

𝑠𝑠 (𝑥𝑦)
𝑟=
√𝑠𝑠(𝑥). 𝑠𝑠(𝑦)
(∑ 𝑥)2
𝑠𝑠(𝑥) = ∑ 𝑥 2 −
𝑛
(∑ 𝑦)2
2
𝑠𝑠(𝑦) = ∑ 𝑦 −
𝑛
(∑ 𝑥)(∑ 𝑦)
𝑠𝑠(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
1 3 1 9 3
0 1 0 1 0
5 15 25 225 75
2 6 4 36 12
3 8 9 64 24
∑ 𝑥 = 11 ∑ 𝑦 = 33 ∑ 𝑥 2 = 39 ∑ 𝑦 2 = 335 ∑ 𝑥 𝑦 = 114

121 1089 11 ∗ 33
𝑠𝑠(𝑥) = 39 − = 14.8, 𝑠𝑠(𝑦) = 335 − = 117.2, 𝑠𝑠(𝑥𝑦) = 114 − = 41.4
5 5 5
41.4
→𝑟= = 0.9940441586
√14.8 ∗ 117.2
𝑟 2 = (0.994044)2 = 0.9881234739 ∗ 100% = 98.81%
El valor de r2=98.81% es la proporción de la variación de Y que está explicada por la relación
lineal entre X y Y.
b)
X 0 3 3 1 4
y 1 7 2 5 5

diagra de dispersion
8
(3,7)
7
6
(1,5) (4,5)
5
4
y

3
(3,2)
2
(0,1)
1
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x

𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
0 1 0 1 0
3 7 9 49 21
3 2 9 4 6
1 5 1 25 5
4 5 25 25 20
∑ 𝑥 = 11 ∑ 𝑦 = 20 ∑ 𝑥 2 = 35 ∑ 𝑦 2 = 104 ∑ 𝑥 𝑦 = 52

121 400 11 ∗ 20
𝑠𝑠(𝑥) = 35 − = 10.8, 𝑠𝑠(𝑦) = 104 − = 24, 𝑠𝑠(𝑥𝑦) = 52 − =8
5 5 5
8
→𝑟= = 0.496903995
√10.8 ∗ 24
𝑟 2 = (0.496903)2 = 0.2469125914 ∗ 100% = 24.70%
El valor de r2=98.81% es la proporción de la variación de Y que está explicada por la relación
lineal entre X y Y.

5. Para cada inciso, considera las dos variables y señala cuál usarías como la variable de
entrada. Explica por qué.
a) Estatura y peso de una persona
En el caso de las variables altura y peso de una persona, cualquier variable podría
tratarse como entrada y la otra como salida, dependiendo de la pregunta que se plantee.
b) horas de estudio para un examen y calificación obtenida
lavariable de entrada son las horas de estudio puesto que son satos que podemos
manipular en cuanto a la calificación seria esta nuestra variable de salida.

c) número de sesiones en terapia para tratar la ansiedad y nivel de ansiedad de una


persona
Como se puede manipular el número de sesiones entonces esta es la variable de
entrada.

d) kilómetros recorridos por un carro y litros de gasolina consumidos


La variable de entrada son los kilómetros recorridos, porque podemos controlar la
distancia que queremos recorer.

e) años de escolaridad de una persona y su ingreso mensual


Por intuición podríamos decir que las personas mejor preparadas deberían ganar más en
comparación que las personas con pocos estudios, pero en muchos casos no es así,
entonces podríamos decir que no hay una relación fuerte entre ambas variables y por
ende descalificaríamos a ambas de ser una variable de entrada
f) años de escolaridad y número de hijos de una persona
Aunque si existe una relación entre ambas variables, no se puede manipular ninguna,
como en el ejemplo de kilómetros recorridos/litros de gasolina
g) Número de revistas al mes que lee una persona y su estatura
No existe una relación entre ambas variables por lo tanto ninguna puede ser considerada
variable de entrada
6. Para cada par de variables del ejercicio anterior, indique entre cuáles de ellas podría existir
relación. En caso de existir relación, indique si es directa o inversa
a) Si se tuviese que analizar por ejemplo la edad de niños en desarrollo con su estatura
tendríamos una relación directa.
b) La relación seria directa, ya que se esperaría que entre más se estudie se podría
asegurar una mejor calificación.
c) La relación que podría existir seria indirecta ya que si la terapia funciona y las terapias
son frecuentes se esperaría que bajara los índices de ansiedad en el paciente.
d) La relación es directa ya que se esperaría que entre más kilómetros de recorran, se
consumirían más litros de gasolina
e) Como se dijo en el ejercicio anterior n encontramos mucha relación entre ambas
variables
f) Se esperaría una relación directa
g) No existe ninguna relación
7. Dibuja un eje coordenado y grafica los puntos (0, 6), (3, 5), (3, 2) y (5, 0) para formar un
diagrama de dispersión.
7
(0,6)
6
(3,5)
5
variable de salida

3
(3,2)
2

1
(5,0)
0
0 1 2 3 4 5 6
variable de entrada

a) Señala si existe algún tipo de relación lineal


Se trata de una correlación inversa pero no perfecta.
b) Si la respuesta en el inciso a) fue afirmativa, indica si la relación es directa o inversa y
escribe un posible valor del coeficiente de correlación.

𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
0 6 0 36 0
3 5 9 25 15
3 2 9 4 6
5 0 25 0 0
∑ 𝑥 = 11 ∑ 𝑦 = 13 ∑ 𝑥 2 = 43 ∑ 𝑦 2 = 65 ∑ 𝑥𝑦 = 21

121 169 11 ∗ 13
𝑠𝑠(𝑥) = 43 − = 12.75, 𝑠𝑠(𝑦) = 65 − = 22.75, 𝑠𝑠(𝑥𝑦) = 21 − = −14.75
4 4 4
−14.75
→𝑟= = −0.8660565038
√12.75 ∗ 22.75
c)
8 ¿Estudiar para un examen rinde frutos?
X 2 5 1 4 2
Y 80 80 70 90 60

a. Dibuja un diagrama de dispersión del número de horas de estudio, x, en comparación con la


calificación recibida en el examen y.
100 90
90 80 80
80 70
calificacion obtenida

70 60
60
50
40
30
20
10
0
0 1 2 3 4 5 6
horas de estudio

b. ¿Existe relación lineal entre x & y?


Se trata de una correlación positiva pero no perfecta.
c. Da un valor aproximado del coeficiente de correlación
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
2 80 4 6400 160
5 80 25 6400 400
1 70 1 4900 70
4 90 16 8100 360
2 60 4 3600 120
∑ 𝑥 = 14 ∑ 𝑦 = 380 ∑ 𝑥 2 = 50 ∑ 𝑦 2 = 29400 ∑ 𝑥 𝑦 = 1110

196 144400 14 ∗ 380


𝑠𝑠(𝑥) = 50 − = 10.8, 𝑠𝑠(𝑦) = 29400 − = 520, 𝑠𝑠(𝑥𝑦) = 1110 − = 46
5 5 5
46
→𝑟= = 0.6138245896
√10.8 ∗ 520

d. Estima e interpreta el coeficiente de determinación (r2)


𝑟 2 = (0.61)2 = 0.3721 + 100% = 37.21%
El valor de r2=37.21% es la proporción de la variación de Y que está explicada por la relación
lineal entre X y Y.
Puede interpretarse como que un 37.21% del rendimiento académico es debido a la inteligencia
(variabilidad explicada), En consecuencia, un 62.79% del rendimiento académico no es
explicado por la inteligencia.
9. Las tablas de crecimiento son utilizadas por los pediatras para monitorear el crecimiento de
un niño. Considera la siguiente gráfica de crecimiento.
a) ¿Cuáles son las dos variables que se muestran en la gráfica?
La variable de entrada es la edad en años de un niño y la variable de salida es su
estatura
b) ¿Qué información representa el par ordenado (¿3?5, 88)?
Que a la edad de 3.5 años el niño mediría aproximadamente 88 cm
c) Haz una estimación de la estatura de un niño de 4.2 años.
90 cm
d) ¿Qué puedes afirmar de la precisión de la estimación que proporcionaste en el inciso c?
Que respeta una relación directa ya que al aumentar edad aumenta la estatura
10. Consulta el siguiente diagrama de dispersión.

Relaciona las descripciones en la columna II con los términos en la columna I.


I II
(b) Población a) Caballos de fuerza
(d) Muestra b) Todos los automóviles 2005 fabricados en EU
(a) Variable de c) Millaje EPA
entrada
(c) Variable de salida d) Los automóviles cuyas calificaciones se
presentan en el diagrama de dispersión

b) Encuentra el tamaño de la muestra.


12 automóviles 2005 fabricados en EU
c) ¿Cuál es el valor más pequeño reportado para la variable de salida?
10 mpg
d) ¿Cuál es el valor más grande reportado para la variable de entrada?
175 caballos de fuerza
e) ¿Qué tipo de relación (directa o inversa) sugiere el diagrama de dispersión entre la
variable de entrada y la de salida?
Al parecer entre más caballos de fuerza tenga un automóvil se clasificará con menor
pillaje lo que significa que existe una relación inversa
f) ¿Cuáles son las coordenadas del punto Q?
(125, 13,5)
g) ¿De acuerdo con el diagrama de dispersión, qué valor tiene la variable de salida cuando
la variable de entrada tiene el valor 100?
16 mpg
11. Identificación de errores de correlación. En los siguientes ejercicios, describa el error en la
conclusión.
a) Se sabe que: Los datos muéstrales apareados de las edades de sujetos y sus puntuaciones
en una prueba de razonamiento dan como resultado un coeficiente de correlación lineal muy
cercano a 0.
Conclusión: Las personas más jóvenes tienden a obtener puntuaciones más altas.
R= 3er error: implica la propiedad de linealidad. Puede existir una relación entre x y, aun cuando
no haya una correlación lineal.
b) Se sabe que: Existe una correlación lineal significativa entre los ingresos personales y los
años de escolaridad.
Conclusión: Una mayor escolaridad causa que se incrementen los ingresos de una persona.
R=1er error común es concluir que la correlación implica causalidad
c) Se sabe que: Sujetos resuelven una prueba de habilidades verbales y una prueba de
destreza manual, y esos pares de puntuaciones dan como resultado un coeficiente de
correlación lineal muy cercano a 0.
Conclusión: Las puntuaciones en ambas pruebas no tienen ninguna relación.
R= 3er error: implica la propiedad de linealidad. Puede existir una relación entre x y, aun cuando
no haya una correlación lineal.
d) Se sabe que: Existe una correlación lineal entre las cargas del impuesto estatal promedio y
los ingresos estatales promedio.
Conclusión: Existe una correlación lineal entre las cargas de impuestos y los ingresos
individuales.
R=2do error proviene de los datos basados en promedios. Los promedios eliminan la variación
individual y pueden inflar el coeficiente de correlación.

CALCULO DEL COEFICIENTE DE CORRELACION


𝑠𝑠 (𝑥𝑦) (∑ 𝑥)2 (∑ 𝑦)2
𝑟= ; 𝑠𝑠(𝑥) = ∑ 𝑥 2 − ; 𝑠𝑠(𝑦) = ∑ 𝑦 2 − ;
√𝑠𝑠(𝑥). 𝑠𝑠(𝑦) 𝑛 𝑛

(∑ 𝑥)(∑ 𝑦)
𝑠𝑠(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛
1. Calcula las sumas ∑ 𝑥, ∑ 𝑦, ∑ 𝑥 2 , ∑ 𝑦 2 , 𝑦 ∑ 𝑥𝑦 y encuentra 𝑆𝑆(𝑥), 𝑆𝑆(𝑦), 𝑆𝑆(𝑥𝑦) y r para el
siguiente conjunto de datos bivariados.

𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
11.4 8.1 129.96 65.61 92.34
9.4 8.2 88.36 67.24 77.08
6.5 5.8 42.25 33.64 37.7
7.3 6.4 53.29 40.96 46.72
7.9 5.9 62.41 34.81 46.61
9 6.5 81 42.25 58.5
9.3 7.1 86.49 50.41 66.03
10.6 7.8 112.36 60.84 82.68
∑ 𝑥 =71.4
∑ 𝑦 =55.8 ∑ 𝑥 2 =656.12 ∑ 𝑦 2 =395.76 ∑ 𝑥𝑦 =507.66
2 2
71.4 55.8
𝑠𝑠(𝑥) = 656.12 − = 18.875, 𝑠𝑠(𝑦) = 395.76 − = 6.555,
8 8
71.4 ∗ 55.8
𝑠𝑠(𝑥𝑦) = 507.66 − = 9.645
8
9.645
→𝑟= = 0.8671064242; 𝑟 2 = 0.751873
√18.875 ∗ 6.555
Diagrama de dispersion
9

6
variable de salida

0
0 2 4 6 8 10 12
Vaiable de entrada
2. Construye un diagrama de dispersión de los siguientes datos bivariados calcula r y r^2
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
A 1 1 1 1 1
B 1 2 1 4 2
C 3 2 9 4 6
D 3 3 9 9 9
E 5 3 25 9 15
F 5 4 25 16 20
G 7 4 49 16 28
H 7 5 49 25 35
I 9 5 81 25 45
J 9 6 81 36 54
∑ 𝑥 =50 2 2
∑ 𝑦 =35 ∑ 𝑥 =330 ∑ 𝑦 =145 ∑ 𝑥𝑦 =215
Total
502 352 50 ∗ 35
𝑠𝑠(𝑥) = 330 − = 80, 𝑠𝑠(𝑦) = 145 − = 22.5, 𝑠𝑠(𝑥𝑦) = 215 − = 40
10 10 10
40
→𝑟= = 0.943; 𝑟 2 = 0.889
√80 ∗ 22.50
diagrama de dispersion
7

6
variable de salida

0
0 2 4 6 8 10
variable de entrada

3. Dibuja un diagrama de dispersión para los siguientes datos bivariados calcula r y r^2.
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
A 0 6 0 36 0
B 1 6 1 36 6
C 1 7 1 49 7
D 2 4 4 16 8
E 3 5 9 25 15
F 4 2 16 4 8
G 5 3 25 9 15
H 6 0 36 0 0
I 6 1 36 1 6
J 7 1 49 1 7
K ∑ 𝑥 =34 ∑ 𝑦 =59 ∑ 𝑥 2 =176 ∑ 𝑦 2 =1401 ∑ 𝑥𝑦 =66
342 592 34 ∗ 59
𝑠𝑠(𝑥) = 176 − = 60.4, 𝑠𝑠(𝑦) = 1401 − = 1052.9, 𝑠𝑠(𝑥𝑦) = 66 − = −134.6
10 10 10
−134.6
→𝑟= = −0.534; 𝑟 2 = 0.285
√60.4 ∗ 1052.9
diagrama de dispersion
8
7
6
variable de salida

5
4
3
2
1
0
0 1 2 3 4 5 6 7 8
variable de entrada

4. Un psicólogo experimental afirma que, mientras más edad tenga un niño, son menos las
respuestas irrelevantes que dará durante un experimento controlado. Para investigar
esta afirmación, se recopilaron los siguientes datos. Calcula r y r^2
𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
2 12 4 144 24
4 13 16 169 52
5 9 25 81 45
6 7 36 49 42
6 12 36 144 72
7 8 49 64 56
9 6 81 36 54
9 9 81 81 81
∑ 𝑥 =48 2 2
∑ 𝑦 =76 ∑ 𝑥 =328 ∑ 𝑦 =768 ∑ 𝑥𝑦 =426
482 762 48 ∗ 76
𝑠𝑠(𝑥) = 328 − = 40, 𝑠𝑠(𝑦) = 768 − = 46, 𝑠𝑠(𝑥𝑦) = 426 − = −30
8 8 8
−30
→𝑟= = −0.699; 𝑟 2 = 0.489
√40 ∗ 46
diagrama de dispersion
14

variable de salida 12

10

0
0 2 4 6 8 10
variable de entrada

Ejercicios
1. Usa la tabla 10 del apéndice B para determinar un intervalo de confianza de 95% para el
verdadero coeficiente de correlación lineal poblacional basada en los siguientes estadísticos
maestrales:
a) 𝑛 = 8, 𝑟 = 0.20 𝑃 = (−0.5, 0.75) .
b) 𝑛 = 100, 𝑟 = −0.40 𝑃 = (−0.55,0.225).
c) 𝑛 = 25, 𝑟 = + 0.65 𝑃 = (0.4, 0.825)
d) 𝑛 = 15, 𝑟 = – 0.23 𝑃 = (−0.65, 0.35).

2. El método examinar-reexaminar es una forma de establecer la fiabilidad de un examen. El


examen se administra y después, en una fecha posterior, el mismo examen se vuelve
administrar a los mismos individuos. El coeficiente de correlación se calcula entre los dos
conjuntos de calificaciones. Las siguientes calificaciones del examen se obtuvieron en una
situación examen-reexamen.
Primera 75 87 60 75 98 80 68 84 47 72
calificación
Segunda 72 90 52 75 94 78 72 80 53 70
calificación

Encuentra r y establece un intervalo de confianza de 95% para ρ.


diagrama de dispersion
100
90
80
Segunda Calificacion

70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
Primera calificacion

𝑥 𝑦 𝑥2 𝑦2 𝑥𝑦
75 72 5625 5184 5400
87 90 7569 8100 7830
60 52 3600 2704 3120
75 75 5625 5625 5625
98 94 9604 8836 9212
80 78 6400 6084 6240
68 72 4624 5184 4896
84 80 7056 6400 6720
47 53 2209 2809 2491
72 70 5184 4900 5040
∑ 𝑥 =746 ∑ 𝑦 =736 ∑ 𝑥 2 =57496 ∑ 𝑦 2 =55826 ∑ 𝑥 𝑦 =56574
7462 7362
𝑠𝑠(𝑥) = 57496 − = 1844.4, 𝑠𝑠(𝑦) = 55826 − = 1656.4,
10 10
746 ∗ 736
𝑠𝑠(𝑥𝑦) = 56574 − = 1668.4
10
1668.4
→𝑟= = 0.9545309474
√1844.4 ∗ 1656.4

Intervalo de confianza P=(0.7,0.975)


3. Determina los valores críticos que usarías para poner a prueba cada una de las siguientes
hipótesis nulas usando el enfoque clásico:
a) 𝐻𝑂: 𝜌 = 0 𝑓𝑟𝑒𝑛𝑡𝑒 𝑎 𝐻𝑎: 𝜌 ≠ 0 𝑐𝑜𝑛 𝑛 = 18 𝑦 𝛼 = 0.05
Se tiene 𝛼 = 0.05 , 𝑦 𝑡(𝑛 − 2 𝑔𝑙) = 𝑡(18 − 2𝑔𝑙) = 𝑡(16𝑔𝑙) = 1.75
𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 =1.75, -1.75
c) 𝐻𝑂: 𝜌 = 0 𝑓𝑟𝑒𝑛𝑡𝑒 𝑎 𝐻𝑎: 𝜌 > 0 𝑐𝑜𝑛 𝑛 = 32 𝑦 𝛼 = 0.01
Se tiene 𝛼 = 0.01 , 𝑦 𝑡(𝑛 − 2 𝑔𝑙) = 𝑡(32 − 2𝑔𝑙) = 𝑡(30𝑔𝑙) = 2,46
𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 =2.46
d) 𝐻𝑂: 𝜌 = 0 𝑓𝑟𝑒𝑛𝑡𝑒 𝑎 𝐻𝑎: 𝜌 < 0 𝑐𝑜𝑛 𝑛 = 16 𝑦 𝛼 = 0.05
Se tiene 𝛼 = 0.05 , 𝑦 𝑡(𝑛 − 2 𝑔𝑙) = 𝑡(16 − 2𝑔𝑙) = 𝑡(14𝑔𝑙) = 2.62
𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 =2.62
4. si una muestra de tamaño 18 tiene un coeficiente de correlación lineal de - 0.50, ¿existe
razón significativa para concluir que el coeficiente de correlación lineal de la población es
negativo? Usa 𝛼 = 0.01.
Sol:
𝑛 = 18, 𝛼 = 0.01, 𝑟 = −0.50
h) Prueba de cola izquierda (aseveración de correlacion negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 < 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:

𝑟 −.50
𝑟∗ = = = −2.30
√1 − 𝑟2 √1−. 52
𝑛−2 18 − 2
Iv) criterios de prueba: con el nivel de significancia 𝛼 = 0.01
De acuerdo con la tabla con distribución t con 16 gl se tiene un valor crítico de 2.58.
Conclusión: Ya que el estadístico de prueba se encuentra dentro del area de no rechazo de Ho
entonces se interpreta como que no se ha demostrado una relación lineal entre las dos
variables en la población.
5 ¿Un valor de r =+0.24 es significativo al tratar de demostrar que 𝜌 es mayor que cero para un
tamaño de muestra 62 en el nivel de significancia 0.05?
𝑛 = 18, 𝛼 = 0.05, 𝑟 = −0.50
i) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 > 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:


𝑟 . 24
𝑟 = = = −1.915
2 2
√1 − 𝑟 √1 −. 24
𝑛−2 62 − 2
iv) Criterio de prueba: Con el nivel de significancia 𝛼 = 0.05
De acuerdo con la tabla con distribución t con 60 gl y 𝛼 = 0.05 se tiene un valor crítico de 1.68.
Conclusión: el estadístico de prueba se encuentra dentro de la zona de rechazo de Ho, significa
que hay evidencia de una relación lineal entre lasdos variables en la población.
6. Cuando se trata de restaurantes de alta cocina japonesa que ofrecen sushi, la calidad y
presentación de la comida sin duda son indicadores del costo. ¿Y qué hay de la decoración del
restaurante? Los resultados de la encuesta Zagat, publicados en Newsweek, produjeron un
coeficiente de correlación de 0.532 entre calificación de decoración del restaurante y el costo
promedio de la comida. Si estos resultados se basaron en cinco restaurantes, ¿puedes concluir
que la relación es significativa en el nivel de significancia 0.05?
𝑛 = 18, 𝛼 = 0.01, 𝑟 = −0.50
b) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 ≠ 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:

𝑟 −.532
𝑟∗ = = = −1.088
√1 − 𝑟2 √1 −. 5322
𝑛−2 5−2
iv) Criterio de prueba: con el nivel de significancia 𝛼 = 0.05
Calculamos el valor critico considerando 𝛼 = 0.05 y 3gl, entonces el intervalo es de (-3.182,
3.182)
Conclusión:
Ya que el estadístico de prueba se encuentra dentro del are a de no rechazo de Ho entonces se
interpreta como que no se ha demostrado una relación lineal entre las dos variables en la
población.
7. La población (en millones) y la tasa de crímenes violentos (por 1000) se registraron para 10
áreas metropolitanas. Los datos se muestran en la siguiente tabla.
Población 10.0 1.3 2.1 7.0 4.4 0.3 0.3 0.2 0.2 0.4
Tasa de 12.0 9.5 9.2 8.4 8.2 7.3 7.1 7.0 6.9 6.9
crímenes
¿Estos datos proporcionan evidencia para rechazar la hipótesis nula de que ρ = 0 en favor de p
≠ 0 con α=0.05?
Diagrama de dispersion
14

12
tasa de crimenes

10

0
0 2 4 6 8 10 12
Poblacion

x y X2 Y2 X
10 12 100 144 120
1.3 9.50 1.69 90.25 12.35
2.1 9.2 4.41 84.64 19.32
7 8.4 49 70.56 58.8
4.4 8.2 19.36 67.24 36.08
0.3 7.3 0.09 53.29 2.19
0.3 7.1 0.09 50.41 2.13
0.2 7 0.04 49 1.4
0.2 6.9 0.04 47.61 1.38
0.4 6.9 0.16 47.61 2.76
∑ 𝑥 =26.2 2 2
∑ 𝑦 =82.5 ∑ 𝑥 =174.88 ∑ 𝑦 =704.61 ∑ 𝑥 𝑦 =256.41

26.22 82.52
𝑠𝑠(𝑥) = 174.88 − = 106.236, 𝑠𝑠(𝑦) = 704.61 − = 23.985,
10 10
26.2 ∗ 82.5
𝑠𝑠(𝑥𝑦) = 256.41 − = 40.26
10
40.26
→𝑟= = 0.7975686118
√106.236 ∗ 23.985
𝑛 = 10, 𝛼 = 0.05, 𝑟 = 0.7975
b) Prueba de cola izquierda (aseveración de correlación negativa)
𝐻0 : 𝜌 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛)
𝐻𝑎 : 𝜌 ≠ 0 (ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ),
ii) Suposiciones: los pares ordenados forman una muestra aleatoria y se supondrá que los
valores y en cada x tienen una distribución normal.
iii) Estadístico de prueba:
𝑟 . 7975686118
𝑟∗ = = = 3.74
√1 − 𝑟2 √1 −. 79756861182
𝑛−2 10 − 2
iv) Criterio de prueba: con 𝛼 = 0.05
Calculamos al valor critico considerando 8gl y 𝛼 = 0.05 y obtenemos 𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 = 2.31, así el
intervalo de confianza es (-2.31, 2.31)

Conclusión:
De acuerdo con la grafica podemos ver que el estadístico de prueba 3.77 se encuentra dentro
de a zona de rechazo de Ho, significa que hay evidencia de una relación lineal entre las dos
variables en la población.

También podría gustarte