Estadistica II - Unsa
Temas abordados
Estadistica II - Unsa
Temas abordados
C C CCC
S CCS
C
C CSC
S
S CSS
C C SCC
S SCS
S S C SSC
S SSS
={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
Dra. Ilse Janine Villavicencio Ramírez
(C) Suceso: Podemos considerar los siguientes
subconjunto del espacio muestral, sucesos:
5
seleccionado de acuerdo a una condición.
A: la suma de puntajes es 7, es decir
Se representan por letras latinas
mayúsculas. A={(1,6) (2,5) (3,4) (4,3) (5,2)
(6,1)}
Ejemplo:
Se lanzan dos dados. El espacio muestral B: la suma de puntajes es 11, es decir
de este experimento es: B={(5,6) (6,5)}
W={cara, sello}
P(cara) = 0,5 P(sello) = 0,5
2. Se lanzan 3 monedas
W = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
1/8 1/8 1/8 1/8 /8 1/8 1/8 1/8
A: obtener exactamente 2 caras
A = {CCS, CSC, SCC}
1/8 + 1/8 + 1/8
P(A) = 3/8
(1º) P(W) = 1
(2º) P() = 0
Si : (A B) =
U
U
Por lo tanto : P(A B) = 0
Sexo M F
Estado (Masculino) (femenino) Total
A (Anémico) 5 3 8
N (Normal) 1 2 3
Total 6 5 11
Derivación de la fórmula:
P(F B)
P(F )=
A P(A)
3
comprobando: P(F ) = 11
A 8
11
3
P(F ) =
A 8
Dra. Ilse Janine Villavicencio Ramírez
Ejemplo 2
15
50 40 30 60
0,30
200 200 200 200
Dra. Ilse Janine Villavicencio Ramírez
18
Aplicación:
La probabilidad de que el personal
administrativo que labora en una clínica local,
llegue tarde el día lunes es 0,50 y la probabilidad
de que llegue retrasado los días lunes y martes
es 0,20. Dado que cierto trabajador llegó tarde el
día lunes, ¿cuál es la probabilidad de que llegue
tarde el día siguiente?.
TM P(TM TL )
P(TL ) = 0,50 P( )=
TL P(TL )
P(TL TM ) = 0,20
0,20
= = 0,40
0,50
Dra. Ilse Janine Villavicencio Ramírez
Regla de la Multiplicación
P(A B)
19 A partir de P( B )
A P(A)
Se despeja
P(A B) P(A) P B ( A)
Aplicación:
Se sabe que en un lote de medicamentos de 50 frascos, hay 4 que no están
adecuadamente empacados (defectuosos). Si se extraen al azar 2 frascos, uno a
continuación del otro, ¿cuál es la probabilidad de que ambos sean defectuosos?.
4
P(D1 )
50
(D
P(D1 D 2 ) P(D1 ) P 2
D1
)
D2 3 4 3 12
P( ) =
D1 49 50 49 2450
Ejercicio
En una población de pacientes hospitalizados, la
probabilidad de que uno de ellos, elegido
aleatoriamente tenga problemas cardiacos es 0,35. La
probabilidad de que un paciente con problemas
cardiacos sea un fumador es de 0,86. ¿Cuál es la
probabilidad de que el paciente elegido al azar de entre
la población sea fumador y tenga problemas
cardiacos?.
P (B ) P ( B)
Entonces, A
P ( A B) P ( A) P ( B)
Ejemplo:
¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean
varones? P(V V ) P(V ) P(V )
1 2 1 2
P (V1 ) 0,5
= (0,5) (0,5)
P (V2 ) 0,5
P(V1 V2 ) 0,25
Dra. Ilse Janine Villavicencio Ramírez
22
Solución:
P. Total P( E) = 0,60
P (C E)
P(C )=
E P (C E) + P (C ' E)
0.12 0.12
0.20
0.12 0.48 0.60
P(D/1)= 0,10
1=0,10 P( 1 D) = 0,20 0,10 = 0,0200
20
0,
)=
1
P(
P(D/2)= 0,15
P(2) = 0,30 2=0,15 P( 2 D) = 0,30 0,15 = 0,045
P(
3
)=
0,
50
P(D/3)= 0,25
3=0,25 P( 3 D) = 0,50 0,25 = 0,1250
P(D) = 0,1900
Dra. Ilse Janine Villavicencio Ramírez
Respuesta A:
Hay tres
29
maneras posibles de obtener un equipo defectuosa del lote. Por lo tanto, la
probabilidad de obtener una pieza defectuosa, cualquiera que se la tasa porcentual de
defectuosos 10, 15 ó 25 es:
P( D) P( 1 D) P( 2 D) P( 3 D)
0,0200 0,0450 0,1250
0,19
Respuesta B:
P( 3 D) 0.1250
P( 3 / D) 0.6579
P( D ) 0.1900
32
Es el promedio de la variable aleatoria, si el experimento se repite un
número infinito de veces.
Ejemplo : Se lanzan 3 monedas
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Nº de Probabilidad
Resultados Probabilidad
varones 0.50
0 MM 0,25
1 VM,MV 0,50 0.25
2 VV 0,25
0 1 2 Nº de
caras
Dra. Ilse Janine Villavicencio Ramírez 33
(B) TIPOS DE DISTRIBUCIONES
34
35
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC,
SSS}
3 caras. 2 caras 1 cara 0 caras => x
x
Número P(x) XP(x) ( X) = XP( x )
de Cara
0 1/8 0 12
3/8 =
1 3/8 8
2 3/8 6/8
3 1/8 3/8 = 1,5
12/8
caras
Dra. Ilse Janine Villavicencio Ramírez
Distribuciones Discretas de Probabilidad
La distribución binomial
Se utiliza para describir variables discretas.
Es una de las distribuciones mas utilizadas en la estadística aplicada. La
distribución se deriva de un procedimiento llamado ensayo de Bernoulli,
nombrado así en honor del matemático Suizo James Bernoulli (1654 - 1785).
36
a) Características:
El experimento consiste en una serie de ensayos repetidos.
Cada ensayo sólo tiene dos resultados posibles: éxito y fracaso.
La probabilidad de éxito, designado por p es la misma para cada ensayo, la probabilidad de
fracaso q (igual a 1p) es también constante.
1. Los ensayos sucesivos son independientes.
2. Puede ser simétrica o sesgada.
3. La información de la muestra se obtiene con reposición de una población finita.
37
p : probabilidad de éxitos en un ensayo
q : probabilidad de fracaso en un ensayo
n - x : número de fracaso en el ensayo
n!
P(X = x ) = p xq n-x
Datos: x! (n - x)!
n=4
x=2 4!
p = 0,20
P(X = 2) = 0.2 0.80
2 2
2! (4 - 2)!
q = 0,80
0,1536
39
que el proceso resulte 1 3
deficiente. En cuatro 4! 1 1
repeticiones se puede 1 416
1!3! 2 2
obtener 0,1,2,3 ó 4
2 2
procesos deficientes. 4! 1 1
Se puede calcular la 2 616
probabilidad de cada
2!2! 2 2
uno de estos posibles 3
4! 1 1
1
40
La media
= XP ( x)
41
3 4/16 12/16
También:
4 1/16 4/16 = np
32/16
= 4( 1 2 ) 2
x P( x) (x ) (x )2 ( x ) 2 P( x)
42
0 1/16 -2 4 4/16
1 4/16 -1 1 4/16
2 6/16 0 0 0
3 4/16 +1 1 4/16
4 1/16 +2 4 4/16
16/16
16
16
(X ) P( x) 2
1 proceso deficiente
16
43
También:
npq
4(0,5)(0,5) 1
P = 0.52
q = 1 - 0.52 = 0.48
n=5 5!
P(3,5) 0.523 0.48(53) 0.32 32%
r=3 3!(5 3)!
46
P(X = x) =
x e
x!
donde
(lambda): media = np = variancia
e : base de logaritmos naturales =2.71828
x! : factorial de x
Dra. Ilse Janine Villavicencio Ramírez
47
Ejemplo:
Supongamos que estamos investigando la seguridad de
una peligrosa intersección de calles, los registros
policíacos indican un media de 5 accidentes mensuales
en esta intersección. El número de accidentes esta
distribuido de acuerdo con una distribución de Poisson y
el departamento de seguridad vial desea que calculemos
la probabilidad de que en cualquier mes ocurra
exactamente 3 accidentes.
X = 3 acc/mes 53 2.71835
P( x 3) 0.14042 14.04%
= 5 acc/mes 3!
a)Características
La información de la muestra se obtiene sin
reposición de una población finita, por lo tanto la probabilidad
de éxito varía.
b) Formula
donde:
M N M M : número de éxitos en la población
k : número de éxitos en la muestra
P(X = k ) =
k n k N : tamaño de la población
N-M: número de fracasos en la población
N n : tamaño de la muestra
n-k : número de fracasos en la muestra
n
Dra. Ilse Janine Villavicencio Ramírez
c)
49
Aplicación
P(X = x)
20! 1
10!(20 - 10)! 2
10
1
2
10
184756
0,1762
1048576
La media: E ( X ) np
La desviación estándar: N n
np (1 p )
N n
N 1
Donde N 1 es un factor de corrección de población finita
que se produce debido al proceso de muestreo sin reposición
de poblaciones finitas.
La distribución normal de
probabilidad es simétrica con
respecto a una línea vertical que
pase por la media
2
donde:
e : constante matemática: 2.71828
:constante matemática: 3.14159
: media de la población
: desviación estándar de la población
x : cualquier valor de la variable aleatoria continua
Areas debajo de la curva normal
2
2
3: Aproximadamente 99.7% de
todos los valores de una
población normalmente
distribuida se encuentra
datos 3 desviación estándar
3
3
de la media
99% datos
Dra. Ilse Janine Villavicencio Ramírez
La distribución normal estándar ( Z )
56
La distribución normal tiene diferente y para calcular probabilidades habría que integrar la función
de densidad. Por este motivo se estandariza la variable.
La estandarización es un proceso estadístico que consiste en restar la media a la variable y el
resultado dividirlo por la desviación estándar.
Distribución
normal estándar
50
1
2.5 2.5
x 15 10
Calculando Z: z 2
2.5
10 15
Para Z=2, buscamos en la tabla cual es la
probabilidad (o área) que le corresponde:
Área = .4772
2.5
Como deseamos conocer esta área:
P ( x 15) 0.5 0.4772 0.0228 2.28%
10 15
Calculando Z:
11 10
Cuando x 11 z 0.4 A 0.1554
2.5
14 10
Cuando x 14 z 1.6 A 0.4452
2.5
11
14
Solución:
En la figura, podemos ver que la
mitad del área bajo la curva está
P(X>500)=0.5
localizada a ambos lados de la media
de 500 horas. Por lo tanto podemos
deducir que la probabilidad de que la
variable aleatoria tiene un valor
mayor a 500 es el área sombreada,
es decir, 0.5.
Solución:
La gráfica se muestra la
respuesta como zona
P(500 X 650)=0.4332 sombreada, representada por el
área entre la media (500 horas)
y el valor de X, en el cual
estamos interesados (650
horas). Estandarizando la
variable tenemos un valor para
Z
650 500
Z 1.5
100
Solución:
Estamos interesados en el área a la derecha de 700.
Estandarizamos
x P(X >700)= 0..0228
Z
700 500
Z 2
100
x
Z
550 500
Z 0.5
100
N O
c) Grados de libertad
Se definen como el número de
valores que podemos escoger
SI libremente.
¿es n 30? U S A R Z
N O
U S A R t
74
a) Características
n
Es una distribución asimétrica a la izquierda Z i2
2
b) Definición
d) Distribución
Existe una “familia” de distribuciones F.
Cada miembro de la familia está determinado por dos parámetros:
los grados de libertad (gl) en el numerador y los grados de libertad
en el denominador.
El valor de F no puede ser negativo y es una distribución continua.
La distribución F tiene sesgo positivo.
Sus valores varían de 0 a . Con forme
F la curva se aproxima al eje X.
A) MUESTREO NO PROBABILÍSTICO: No
permite inferencia estadística.
3. M. Estratificado: El marco poblacional se divide en grupos homogéneos
(estratos); de cada uno se extrae una submuestra, proporcional al tamaño
del estrato. Muestreo por tipo de servicio
4. M. por Conglomerado: El marco poblacional se encuentra agrupado en
conglomerados o racimos Se selecciona en forma aleatoria, el o los
racimos. Todos los pacientes que ingresaron un determinado día.
donde
Z 2 : Valor tabular para un nivel de confianza.
Depende del nivel de confianza utilizado
por la estimación del parámetro
desconocido. Toma un valor de 1,96
para un nivel de confianza de 0,95.
n
nf
n
1
N
Ejemplo 1:
En una población grande, se desea estimar la
prevalencia de DM con 0,95 de confianza. De la
literatura se sabe que p = 0,10 si se asume un
error muestral de 5%, calcular n
0,05 0,345744
n 138,3 139
0,0025
Distribuciones de muestreo
La totalidad de datos de una población,
constituye la distribución de población original
(PO)
PO
X1 Media :
X2
Varianza : x2
X3
. x-
. z
. x
XN
Dra. Ilse Janine Villavicencio Ramírez
De la88PO se extraen muestras de tamaño n. A cada una se
calcula su media. El conjunto de ese total de medias se
denomina población derivada de medias (PDM)
PO PDM
X1 x1
X2 x2
X3 n x3
. .
..
.
XN
Media : xm
x
Varianza : x 2
2
x
n
x x
x -
z x
Dra. Ilse Janine Villavicencio Ramírez
x n
Si se busca comparar dos poblaciones, se deriva de cada población
una población de medias y luego se comparan
89
92 A) Estimación puntual
Ejemplo:
Para el próximo mes se espera que las ventas
sean 700 unidades con un error de 10%.
Ls
LI
muestra
1 2 3 4 5 6 7 8
Dra. Ilse Janine Villavicencio Ramírez
A partir de muestras pequeñas
100
Pero, x -
t =
S
-t0 t0 n
Pr t 0 t t 0 1
x
Pr t 0 t0 1
S
n
s s
Pr x t 0 x t0 1
n n
Dra. Ilse Janine Villavicencio Ramírez
Ejemplo
Se desea estimar el tiempo medio de estancia hospitalaria para cierto tipo
de101
pacientes. Se selecciona una muestra aleatoria de 25 HC y se calculó
y S = 4,5 días. Estimar con 0,95 de confianza.
x 5,7
S S
Pr x t n1 x t n1 1
n n
4,8 4,8
Pr 5,7 2,064 5,7 2,064 1 0,1
25 25
Pr 3,72 7,68 0,90
Interpretación:
Hay 0,95 de confianza que el intervalo construido se encuentre dentro
del grupo de intervalos que contienen a la verdadera media
poblacional (
Pero
p
Z
p
-Z0 Z0
donde
Pr{ Z o Z Z } 1
p (1 p )
p
p n
Pr{ Z o Z} 1
`p
Pr{ p Z p p Z o p } 1
Ejemplo 1
N n N n
Pr{ x Z xZ 1
n N 1 n N 1
75 250 40 75 250 40
Pr{450 1,96 450 1,96 } 0,95
40 250 1 40 250 1
Pr{450 23,24( 0,8433 ) 450 23,24( 0,8433 )} 0,95
Pr{428,66 471,34} 0,95
Interpretación:
Hay 0,95 de confianza que el intervalo elaborado pertenezca
al grupo de intervalos que contienen a la verdadera media
poblacional.
Hay 0,95 de confianza que el intervalo construido pertenezca
Interpretación:
al grupo de intervalos que contienen a la verdadera
proporción poblacional.
Dra. Ilse Janine Villavicencio Ramírez
El tamaño de la muestra y el IC
110
2
Z p(1-p)
n= 2
e
Dra. Ilse Janine Villavicencio Ramírez
Ejemplo 2
Un congresista desea determinar su popularidad en zona norte del
país. 113
Especifica que la proporción de electores que lo apoyarán debe
calcularse dentro del ± 2% de la proporción de la población, además,
desea tener un grado de confianza de 0,95. En las elecciones pasadas
recibió 40% de los votos en esa parte del país. Duda que esto haya
sufrido muchos cambios. ¿De cuántos electores debe ser la muestra?.
Solución
Datos:
1 - = 0,95 (1,96) 2 (0,40)(0,60)
n
Z = 1,96 (0,02) 2
p = 0,40 0,921984
e = 0,02 n
(0,02) 2
n 2305
CONCEPTOS BÁSICOS
(A) Hipótesis: Suposición acerca del parámetro.
Hipótesis planteada o nula. H p ó H0
Es la suposición que el parámetro tome un
determinado valor.
(1 -
Zona de
Aceptación
-Z0 Z0
El nivel de confianza (1), indica la probabilidad de aceptar la
hipótesis planteada, cuando es verdadera en la población.
Dra. Ilse Janine Villavicencio Ramírez
117
(1 - Zona de rechazo
si Hp es cierta
o
Hp o
Poder de la prueba
Ha o
(1 -
Zona de aceptación Hp
1
Zona de Rechazo Hp
Ejemplo
(1 -
Hp : = 200 Zona de
Aceptación
Ha : 200 -Z0 Z0
(1 - (1 -
poblacional
(A) Con varianzas conocidas (muestras grandes)
Ejemplo:
Se afirma que el salario diario medio de los técnicos de una cierta zona
minera es de S/.65,42, con una desviación estándar S/. 2,32. Una muestra
de 144 técnicos que laboran en esa zona reciben un salario diario medio
de 64,82 soles. ¿Puede considerarse este resultado como sustento para
afirmar que técnicos de esa zona tienen un salario diario diferente de S/.
65,42 a un nivel de significación = 0,05 ?.
(1 -
-Z0 Z0
-1.96 1,96
64,82 65,42
c 3,10
2,32
144
Dra. Ilse Janine Villavicencio Ramírez
6) Conclusiones
125
EJEMPLO
Ejemplo:
131 En un programa de mejoramiento del desempeño en un centro de
salud los participantes miden su progreso mediante el tiempo que les toma
realizar cierto proceso.
Se tomó una muestra de 25 sujetos de esta empresa para medirles el tiempo
que requieren para culminar el proceso (en minutos) de otorgar una cita a un
paciente, encontrándose una media muestral de 11,7 minutos y una
desviación de estándar de 2,3 minutos.
¿Se puede afirmar que el tiempo medio para culminar este proceso es inferior
de 12 minutos?. Utilice un nivel de significación = 0,05.
Solución
1) Hipótesis: Hp : m ³ 12
Ha : m < 12
2) Nivel de significación: a = 0,05 x -
3) Prueba estadística: tc
S
Los supuestos son: n
•la población se distribuye normalmente.
•la muestra elegida al azar.
-t0
-1.711
to con GL = 24 y = 0,05
Si { tc>-1,711} se acepta la Hp en caso contrario se rechaza
5) Cálculos:
6) CONCLUSIONES
Z
-2,33
Si { Zc>-2,33} se acepta la hipótesis planteada, en caso contrario se rechaza.
(1 )
p
n
5) Cálculos
(0,55)(0, 45)
p 0,022
500
Reemplazando valores en Z:
6) Conclusiones
1) Se rechaza la hipótesis planteada y se acepta la hipótesis
alternante a un nivel de significación = 0,01. La prueba
resultó ser altamente significativa.
2) La evidencia empírica nos permite rechazar la hipótesis
planteada.
3) El Gerente de Clínica está equivocado en su afirmación,
puesto que el resultado de la prueba indica que los
pacientes que se encuentran plenamente satisfechos es
menor a 55%.
Ilse
Janine
Gracias