0% encontró este documento útil (0 votos)
144 vistas11 páginas

Análisis Estadístico y Probabilidades

Este documento describe diferentes medidas estadísticas como media, mediana y moda utilizando ejemplos numéricos. También explica conceptos de probabilidad y distribuciones normales con ejercicios.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
144 vistas11 páginas

Análisis Estadístico y Probabilidades

Este documento describe diferentes medidas estadísticas como media, mediana y moda utilizando ejemplos numéricos. También explica conceptos de probabilidad y distribuciones normales con ejercicios.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PORTAFOLIO ESTADÍSTICA

2. DESCRIPCIÓN DE DATOS CON MEDIDAS NUMÉRICAS


Las gráficas son sumamente útiles para la descripción visual de un conjunto de
datos, pero no siempre son la mejor herramienta cuando se desea hacer inferencias
acerca de una población a partir de la información contenida en una muestra. Para
este propósito, es mejor usar medidas numéricas para construir una imagen mental
de los datos.

EJERCICIO 2.1.
Nos dan n = 5 mediciones: 0, 5, 1, 1, 3.
a. Trace una gráfica de puntos para los datos. (sugerencia: Si dos mediciones son
iguales, ponga un punto arriba del otro.) Calcule el “centro” aproximado.

b. Encuentre la media, mediana y moda.

Para el cálculo de la media, se realiza una sumatoria de los datos y se dividen en la


cantidad de los mismos, es decir, la suma de nuestros datos es de 10, que al ser
divido en 5 que es la cantidad de datos, nos da un resultado de 2.
La mediana se halla ordenando los datos de menor a mayor, seguidamente se
reconoce como la mediana el valor que se encuentra en la mitad, que para este caso
es de 1. Finalmente la moda corresponde al dato que más se repite, que se puede
observar que corresponde a 1.

c. Localice las tres mediciones de centro en la gráfica de puntos en el inciso a). Con
base en las posiciones relativas de la media y mediana, ¿las mediciones son
simétricas o son sesgadas?

Los tres resultados obtenidos del punto anterior se encuentran ubicados en la gráfica
ya expuesta. Desde la media y la moda se observa su posición hacia la izquierda, de
lo cual es posible concluir que existe un sesgo hacia la derecha.

EJERCICIO 2.5 - Aplicación


Un reproductor de discos de video es un aparato común en casi todas las casas en
Estados Unidos. De hecho, casi todas las familias los tienen y muchas tienen más
de uno. Una muestra de 25 familias produjo las siguientes mediciones en x, el
número de los DVD en la casa:

a. La distribución de x, el número de los DVD en una familia, ¿es simétrica o


sesgada? Explique.
Aunque puede haber algunos hogares que posean más de un reproductor de DVD,
la mayoría debería no tener o contar mínimamente con uno. De lo cual se puede
concluir que la distribución debe estar ligeramente sesgada a la derecha.

b. Calcule el valor de la moda, el valor de x que se presenta con más frecuencia.


Dado que la mayoría de hogares solo cuentan con un DVD, se considera que la
moda es 1. Sin embargo al realizar los cálculos por medio de excel, esto confirma lo
anterior.

c. Calcule la media, la mediana y la moda para estas mediciones.

d. Trace un histograma de frecuencia relativa para el conjunto de datos. Localice la


media, mediana y moda a lo largo del eje horizontal. ¿Las respuestas a los incisos a)
y b) son correctas?

El histograma de frecuencia relativa se muestra a continuación con las tres medidas


superpuestas. Se debe tener en cuenta que el gráfico cae ligeramente hacia la
derecha de la mediana y la moda, lo que indica que las medidas están ligeramente
sesgadas hacia la derecha.
EJERCICIO 2.17 - Aplicación
Un hallazgo arqueológico, otra vez Un artículo en Archaeometry contenía un análisis
de 26 muestras de cerámica romano-británica hallada en cuatro hornos diferentes en
el Reino Unido.7 Las muestras fueron analizadas para determinar su composición
química. El porcentaje de óxido de hierro en cada una de las cinco muestras
recolectadas en el sitio de Island Thorns fue:

1.28 2.39 1.50 1.88 1.51

a. Calcule el rango.

b. Calcule la varianza muestral y la desviación estándar usando la fórmula


computacional.

c. Compare el rango y la desviación estándar. ¿El rango es aproximadamente


cuántas desviaciones estándar?

El rango, R= 1.11, se encuentra: 1.11/0.4359 = 2.5 desviaciones estándar.

4. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD


En esta técnica interviene una herramienta estadística llamada probabilidad y, para
usarla correctamente, usted debe primero entender cómo funciona. La primera parte
de este capítulo le enseñará el nuevo lenguaje de la probabilidad, presentando los
conceptos básicos con ejemplos sencillos. Las variables que medimos en los
capítulos 1 y 2 se pueden definir ahora como variables aleatorias, con valores que
dependen de la selección de la probabilidad de los elementos de la muestra. Usando
la probabilidad como herramienta, se pueden crear distribuciones de probabilidad
que sirven como modelos para variables aleatorias discretas y usted puede describir
estas variables aleatorias usando una media y desviación estándar semejantes a las
del capítulo 2.

EJERCICIO 4.9 - Aplicación


Un estudio clasificó a un gran número de adultos de acuerdo a si se considera que
necesitan lentes para corregir su vista para leer y si usan lentes cuando leen. Las
proporciones que caen en las cuatro categorías se muestran en la siguiente tabla.
(Observe que una pequeña proporción, .02, de adultos usaba lentes cuando de
hecho se considera que no los necesitan.)

Si un solo adulto se selecciona de este grupo grande, encuentre la probabilidad de


cada evento:
a. Se considera que el adulto necesita lentes.
P (Adulto diagnosticado para usar gafas) = .44 + .14 = .58

b. El adulto necesita lentes para leer pero no los usa.


P( Adulto que necesita gafas pero no de uso obligatorio) = .14

c. El adulto usa lentes para leer, los necesite o no.


P(Adulto que usa gafas) = .44 + .02 = .46

EJERCICIO 4.33 - Aplicación


Se va a efectuar un estudio en un hospital para determinar las actitudes de las
enfermeras hacia diversos procedimientos administrativos. Si se selecciona una
muestra de 10 enfermeras de entre un total de 90, ¿cuántas muestras diferentes se
pueden seleccionar? (SUGERENCIA: ¿El orden es importante para determinar la
conformación de la muestra a seleccionar para el estudio?)

Se debe tener en cuenta que una muestra de 10 enfermeras será la misma sin
importar en qué orden se seleccionaron. Por lo tanto, el orden no tiene importancia y
se utilizan combinaciones. El número de muestra de 10 seleccionadas da un total de
90 es:
19
90! 2.0759076 (10 ) 12
C= 10! 80!
= 6 = 5. 720646 (10 )
3.6288 (10 )

EJERCICIO 4.77 - Aplicación


Las historias de casos clínicos indican que diferentes enfermedades pueden producir
síntomas idénticos. Suponga que un conjunto particular de síntomas, que se
denotarán como evento H, se presenta sólo cuando se presenta cualquiera de tres
enfermedades, A, B o C. (Para mayor simplicidad, supondremos que las
enfermedades A, B y C son mutuamente excluyentes.) Estudios realizados
demuestran estas probabilidades de adquirir las tres enfermedades:

P(A) .01
P(B) .005
P(C) .02

Las probabilidades de desarrollar los síntomas H, dada una enfermedad específica,


son:
P(HA) .90
P(HB) .95
P(HC) .75

Suponiendo que una persona enferma presente los síntomas H, ¿cuál es la


probabilidad de que la persona tenga la enfermedad A?

La probabilidad de interés es P(A|H), que se puede calcular utilizando la regla de


Bayes y las probabilidades dadas en el ejercicio.

𝑃(𝐴) 𝑃(𝐴|𝐻)
P (A|H) = 𝑃(𝐴) 𝑃(𝐴|𝐻) + 𝑃(𝐵) 𝑃(𝐻|𝐵) + 𝑃(𝐶) 𝑃(𝐻|𝐶)

.01(.90) .009
= .01(.90) + .005 (.95) + .02(.75) = .02875
=. 3130

6. LA DISTRIBUCIÓN NORMAL DE PROBABILIDAD


En los capítulos 4 y 5, usted aprendió acerca de variables aleatorias discretas y sus
distribuciones de probabilidad. En este capítulo veremos variables aleatorias
continuas y sus distribuciones de probabilidad, así como una variable aleatoria
continua muy importante, la normal. Usted verá cómo calcular probabilidades
normales y, bajo ciertas condiciones, cómo usar la distribución normal de
probabilidad para aproximar la distribución binomial de probabilidad. Entonces, en el
capítulo 7 y en los capítulos que siguen, veremos la forma en que la distribución
normal de probabilidad desempeña un papel central en inferencia estadística.

EJERCICIO 6.19 - Aplicación


Las estaturas en personas son unas de las muchas variables biológicas que pueden
ser modeladas por la distribución normal. Suponga que las estaturas de hombres
tienen una media de 69 pulgadas, con una desviación estándar de 3.5 pulgadas.
a. ¿Qué proporción de todos los hombres será más alta de 6’ 0”? (sugerencia:
Convierta las mediciones a pulgadas.)
Una altura de 6’ 0” representa 6 (12) = 72 pulgadas, entonces:

72 − 69
P(x > 72) = 𝑃(𝑧 > 3.5
) = 𝑃 (𝑧 > 0. 86) = 1 − . 8051 = . 1949

b. ¿Cuál es la probabilidad de que un hombre seleccionado al azar mida entre 5’ 8” y


6’ 1”?
Las alturas correspondientes a 5’ 8” y 6’ 1” representan 5 (12) + 8 = 68 y 6(12) + 1 =
73 pulgadas respectivamente. Entonces:
68−69 73−79
𝑃 (68 < 𝑥 > 73) = 𝑃( 3.5
< 𝑧 < 3.5
) = 𝑃 (−. 29 < 𝑧 < 1. 14)
=. 8729 − . 3859 = . 4870

c. El presidente George W. Bush mide 5’ 11” de estatura. ¿Es ésta una estatura poco
común?
Una altura de 6’ 0” representa 6(12) = 72 pulgadas, que tiene un valor z de:

72−59
𝑧= 3.5
=. 86
Esto no se consideraría un valor inusualmente grande, ya que es menor a la suma
de dos desviaciones estándar de la medida.

d. De los 42 presidentes elegidos de 1789 a 2006, 18 medían 6’ 0” o más.


¿Consideraría usted esto como poco común, dada la proporción hallada en el inciso
a)?
La probabilidad de que un hombre tenga una estatura de 6’ 0” o más, se evidenció
en el punto a con .1949, siendo esto un suceso anormal. Sin embargo, si se define
“y” como el número de hombres en una muestra aleatoria de tamaño n= 36, que son
6’ 0” o más altos entonces cuenta con una distribución binomial que significa
µ = 𝑛𝑝 = 36 (. 1949) = 7. 02 . esto con una desviación estándar
σ= 𝑛𝑝𝑞 = 36(. 1949)(. 8051) = 2. 38 lo que indica que y = 17.

𝑦−µ 17 − 7.02
σ
= 2.38
= 4. 19
Las desviación estándar de la media, que se consideraría una ocurrencia inusual
para la población general de hombres humanos. Tal vez nuestros presidentes no son
una muestra representativa aleatoria de la población.

EJERCICIO 6.49 - Aplicación


¿Un presidente alto es mejor que uno de baja estatura? ¿Los estadounidenses
tienden a votar por el más alto de los dos candidatos en una selección presidencial?
En 33 de nuestras elecciones presidenciales entre 1856 y 2006, 17 de los ganadores
eran más altos que sus oponentes.1 Suponga que los estadounidenses no están
sesgados por la estatura de un candidato y que el ganador tiene igual probabilidad
de ser más alto o más bajo en estatura que su oponente. ¿Es poco común el
número observado de ganadores más altos en las elecciones presidenciales de
Estados Unidos?
a. Encuentre la probabilidad aproximada de hallar 17 o más de los 33 pares en los
que gana el candidato más alto.
Usando la aproximación normal con corrección para la continuidad, encontramos el
área derecha x= 16.5
16.5 − 15.5
𝑃( 𝑥 > 16. 5) = 𝑃 ( 𝑧 > 2.784
) = 𝑃 (𝑧 > . 36) = 1 − . 6406 = . 3594
b. Con base en su respuesta al inciso a), ¿puede usted concluir que los
estadounidenses podrían considerar la estatura de un candidato cuando depositen
su voto?
Dado que la ocurrencia de 17 de las 33 opciones más altas no es inusual, según los
resultados de la parte a, parece que los estadounidenses no tienen en cuenta la
altura al votar por un candidato.

8. ESTIMACIÓN DE MUESTRAS GRANDES


En capítulos previos, usted ya se enteró de las distribuciones de probabilidad de
variables aleatorias y las distribuciones muestrales de varias estadísticas que, para
tamaños muestrales grandes, pueden ser aproximadas por una distribución normal
de acuerdo con el teorema del límite central. Este capítulo presenta un método para
estimar parámetros poblacionales e ilustra el concepto con ejemplos prácticos. El
teorema del límite central y las distribuciones muestrales presentadas en el capítulo
7 desempeñan un papel clave para evaluar la confiabilidad de estimaciones.

EJERCICIO 8.5
Calcule el margen de error al estimar una media poblacional µ para estos valores:

a. n 50, s 2 4 b. n 500, s 2 4 c. n 5000, s 2 4


4
1. 96 5000
= . 055
4 4
1. 96 50
= . 554 1. 96 500
= . 175

EJERCICIO 8.13 - Aplicación


Unos geólogos están interesados en los corrimientos y movimientos de la superficie
terrestre indicados por fracturas (grietas) de la corteza de nuestro planeta. Una de
las fracturas más famosas es la falla de San Andrés, en California. Una geóloga que
trata de estudiar el movimiento de los cambios relativos en la corteza terrestre, en un
lugar en particular, encontró numerosas fracturas en la estructura local de rocas. En
un intento por determinar el ángulo medio de las roturas, ella muestreó n 50
fracturas y encontró que la media muestral y desviación estándar eran de 39.8° y
17.2°, respectivamente. Estime la dirección angular media de las fracturas y
encuentre el margen de error para su estimación.

La estimación puntual de m es 7 = 39.8 y el margen de error con s= 17.2 y n = 50


es:
σ 𝑠 17.2
1. 96 𝑆𝐸 = 1. 96 ≈ 1. 96 ≈ 1. 96 = 4. 768
𝑛 𝑛 50

EJERCICIO 8.31 - Aplicación


La lluvia ácida, causada por la reacción de ciertos contaminantes del aire con el
agua de lluvia, parece ser un problema creciente en la región noreste de Estados
Unidos. (La lluvia ácida afecta al suelo y causa corrosión en superficies metálicas
expuestas.) La lluvia pura que cae en aire limpio registra un valor de pH de 5.7 (el
pH es una medida de la acidez: 0 es ácido; 14 es alcalino). Suponga que muestras
de agua de 40 lluvias se analizan para el contenido del pH y _ x y s son iguales a 3.7
y .5, respectivamente. Encuentre un intervalo de confianza de 99% para el pH medio
en agua de lluvia e interprete el intervalo. ¿Qué suposición debe hacerse para que el
intervalo de confianza sea válido?

𝑠 .5
𝑥 ± 2. 58 = 3. 7 ± 2. 58 = 3. 7 ± . 204 𝑜𝑟 3. 4996 < µ < 3. 904
𝑛 40
En el muestreo, el 99% de todos los intervalos construidos de esta manera
encerrarán la valla, estamos bastante seguros de que este intervalo en particular
contiene 4 - ( para que esto sea cierto, la muestra debe seleccionarse al azar).

10. INFERENCIA A PARTIR DE MUESTRAS PEQUEÑAS


Los conceptos básicos de estimación estadística de muestra grande y prueba de
hipótesis, para situaciones prácticas que involucran medias y proporciones
poblacionales, se introdujeron en los capítulos 8 y 9. Como todas estas técnicas se
apoyan en el teorema del límite central para justificar la normalidad de los
estimadores y estadísticas de prueba, aplican sólo cuando las muestras son
grandes. Este capítulo complementa las técnicas de muestra grande al presentar
pruebas de muestra pequeña e intervalos de confianza para medias y varianzas
poblacionales. A diferencia de sus similares de muestras grandes, estas técnicas de
muestra pequeña requieren que las poblaciones muestren.

EJERCICIO 10.13 - Aplicación


Aun cuando hay muchos tratamientos para la bulimia nerviosa, algunas personas no
se benefician del tratamiento. En un estudio para determinar qué factores
pronostican quién se beneficiará del tratamiento, un artículo en el British Journal of
Clinical Psychology indica que la autoestima es uno de estos importantes
pronosticadores.4 La tabla siguiente da la media y desviación estándar de califi
caciones de autoestima para tratamiento, después del tratamiento y durante un
seguimiento:

a. Use una prueba de hipótesis para determinar si hay suficiente evidencia para
concluir que la media verdadera de tratamiento es menor a 25.
𝐻𝑜 : µ = 25 𝑉𝑠 𝐻𝑎 : µ < 25
La prueba estadística es :
𝑥 − µ𝑜 20.3 − 25
𝑡= = 5 = − 4. 31
𝑠/ 𝑛
21

El valor crítico de t con α = 0. 05 𝑦 𝑛 − 1 = 20 𝑔𝑟𝑎𝑑𝑜𝑠 de libertad es tos = 1.725 y


la región de rechazo es t < - 1.725. Dado que el valor observado cae en la región de
rechazo. Ho es rechazado y concluimos que la media previa al tratamiento es inferior
a 25.

b. Construya un intervalo de confianza de 95% para la media verdadera después del


tratamiento.
𝑠 7.4
𝑋 ± 𝑡. 025 ⇒ 26. 6 ± 2. 086 ⇒ 26. 6 ± 3. 37
𝑛 21
o 23. 33 < µ < 29. 97
c. En la sección 10.4, introduciremos técnicas de muestra pequeña para hacer
inferencias acerca de la diferencia entre dos medias poblacionales. Sin la formalidad
de una prueba estadística, ¿qué está usted dispuesto a concluir acerca de las
diferencias entre las tres medias poblacionales muestreadas representadas por los
resultados de la tabla?

La media de pre tratamiento parece considerablemente más pequeña que las otras
dos medidas.

EJERCICIO 10.61 - Aplicación


Exámenes del SAT en química y física para dos grupos de 15 estudiantes, habiendo
cada uno de éstos seleccionado estos exámenes, se dan a continuación:

Para usar la prueba t de dos muestras con una estimación agrupada de s2 , se debe
suponer que las dos varianzas poblacionales son iguales. Pruebe esta suposición
usando la prueba F de igualdad de varianzas. ¿Cuál es el valor p aproximado para la
prueba?

2 2 2 2
La hipótesis de interés es : 𝐻𝑜: σ 1 = σ 2 𝑉𝑠 𝐻𝑎: σ 1 ≠ σ 2

2 2
𝑠 1 71
y la estadística de la prueba es: 𝐹 = 2 = 2 = 1. 059
𝑠 2 69
Los valores críticos para F para varios valores de α se dan a continuación usando df1 = 15 y
df2= 14.

α .10 .05 .025 .01 .005

Fα 2.01 2.46 2.95 3.66 4.25

Por lo tanto:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 2𝑃 (𝐹 > 1. 059) > 2(. 10) =. 20
Dado que el valor P es tan grande, Ho no es rechazado y no hay evidencia que indique que
las variaciones son diferentes.

12. REGRESIÓN LINEAL Y CORRELACIÓN


En este capítulo, consideramos la situación en la que el valor medio de una variable
aleatoria y está relacionada con otra variable x. Al medir tanto y como x para cada
unidad experimental, con lo cual se generan datos bivariados, se puede usar la
información dada por x para estimar el valor promedio de y y para predecir valores
de y para valores de x asignados previamente.

EJERCICIO 12.17 - Aplicación


Consulte el ejercicio 12.6. Los datos se reproducen a continuación.

a. ¿Los datos presentan suficiente evidencia para indicar que y y x están


relacionadas linealmente? Pruebe la hipótesis de que b 0 al nivel de significancia de
5%.
Hipótesis: 𝐻𝑜 : β = 0 𝑉𝑠 𝐻𝑎: β ≠ 0
El estadístico de prueba es la de t Student calculado como:
𝑏−β𝑜 1.2−0
𝑡= = = 5. 20
𝑀𝑆𝐸/𝑆 0.533/10
El valor crítico de empate de r se basa en n-2 = 3 grados de libertad y la region de
rechazo para α =0.05 es |t| > t .025 = 3.182. Dado que el valor observado de r cae
en la región de rechazo, se rechaza Ho y se concluye que β ≠ 0. Es decir que x es
útil en la predicción de y.

b. Use la tabla ANOVA del ejercicio 12.6 para calcular F MSR/MSE. Verifique que el
cuadrado de la estadística t empleada en la parte a) es igual a F.
𝑀𝑆𝑅 14.4
𝐹= 𝑀𝑆𝐸
= 0.5333
= 27
2 2
Que es el cuadrado de la estadística de r de la parte a: 𝑡 = (5. 20) = 27

c. Compare el valor crítico de dos colas para la prueba t del inciso a) con el valor
crítico para F con a .05. ¿Cuál es la relación entre los valores críticos?

El valor crítico de la parte a fue = 3.182, mientras que el valor crítico de F de la parte
b con df1 = 1 y df 2= 3 es F.05 = 10.13. Nota que la relación entre dos valores
críticos es :
2 2
𝐹 = 10. 12 = (3. 182) = 𝑡

14. ANÁLISIS DE DATOS CATEGÓRICOS

Numerosos tipos de estudios y experimentos resultan en variables de respuesta


cualitativas y no cuantitativas, de modo que las respuestas pueden ser clasificadas
pero no cuantificadas. Los datos de estos experimentos están formados por la
cuenta o número de observaciones que caen en cada una de las categorías de
respuesta incluidas en el experimento. En este capítulo, nos ocupamos de métodos
para analizar datos categóricos.

EJERCICIO 14.17 - Aplicación


Suponga que un estudio de consumidores compendia las respuestas de n 307
personas en una tabla de contingencia de tres renglones y cinco columnas.
¿Cuántos grados de libertad están asociados con el estadístico de prueba ji
cuadrada?

Hay (r-1) (c-1) = (2) (4) = 8 Grados de libertad.

También podría gustarte