DISTRIBUCIÓN BINOMIAL
Se utiliza para calcular probabilidades de variable aleatoria discreta, y se aplica en experimentos aleatorios que
tienen sólo dos resultados mutuamente excluyentes.
Ejemplo:
Experimento aleatorio Resultados posibles
Lanzamiento de una moneda Cara, sello
Sexo de un recién nacido Varón mujer
Situación ocupacional de una persona Ocupado, desocupado
adulta
Calidad de un producto Bueno, malo
Condición de una alumno Aprobado, desaprobado
Cuando se llevan a cabo estos experimentos aleatorios, siempre se está interesado en que suceda uno de los dos
posibles resultados. Si el resultado que se espera sucede, entonces se dirá que se hubo ÉXITO, en caso contrario se
dirá que hubo FRACASO.
En términos de probabilidad se define a p como probabilidad de éxito y a q = 1 - p la probabilidad de fracaso,
además se debe cumplir que p + q =1
.Resultados Probabilidad
Éxito p (éxito)
Fracaso q (fracaso)
p+q=1
A este fenómeno aleatorio también se denomina experimento binómico y se caracteriza porque consiste en realizar
“n” ensayos independientes y repetitivos de Bernoulli, y el resultado de cada prueba son dos eventos mutuamente
excluyentes: ÉXITO (E) y FRACASO (F), donde la probabilidad “p” de éxito es invariante (no cambia) en cada
una de las pruebas.
Ω = {(w1, w2, . . . , wn) / wi = E ó F}
Cuando la variable aleatoria X se distribuye como Binomial se denota por:
X ~ B (n, p) n: Número de ensayos o pruebas
p: Probabilidad de éxito
PARAMETROS
FUNCIÓN DE PROBABILIDAD
n x n−x
P( X= x )=f ( x )=C x p (1− p )
; x=0,1,2, .. . ,n
FUNCIÓN DE DISTRIBUCIÓN (PROBABILIDAD ACUMULADA P( X≤ x )=F (x ) )
CARACTERÍSTICAS
Sí X ~ B (n, p), entonces:
Valor esperado (Esperanza matemática o media)
µ = E(x) = np
Varianza
σ2 = V(x) = npq = np(1-p)
Ejemplos:
1. Si la probabilidad de que un foco cualquiera dure por lo menos 1000 horas es 0.80. Calcule la probabilidad
de que:
a. exactamente 9 de 10 focos duren 1000 horas o más
b. a lo más 9 de 10 focos duren 1000 horas por lo menos
c. por lo menos 9 de 10 focos duren 1000 horas o más
d. exactamente 4 de 10 focos duren menos de 1000 horas
2. Una máquina produce cierto tipo de piezas, de las cuales un promedio de 5% son defectuosas. En una
muestra aleatoria de 5 piezas. Cuál es la probabilidad de obtener:
a. Exactamente 1 pieza defectuosa
b. Por lo menos 1 pieza defectuosa
c. Cuando mucho 2 piezas defectuosas
DISTRIBUCIÓN POISSON
Es una distribución de probabilidad de variable discreta. Los ensayos consisten en observar el número de veces
que ocurre un determinado éxito o carácter de interés en unidades de observación con respecto al tiempo,
longitud, área, volumen, etc., sabiendo que en promedio ocurren λ éxitos por unidad de observación. Ejm.
- Número de individuos que requieren atención en un día en la ventanilla de un banco
- Número de accidentes de tránsito ocurridos en un mes en la ciudad de Lima
- Número de fallas en una superficie rectangular
El parámetro de la distribución es λ (λ >0) el promedio de ocurrencias por unidad de observación.
FUNCIÓN DE PROBABILIDAD
−λ x
e λ
P( X= x )=f ( x )= ; x=0,1,2, . ..
x
e = 2.71828 (base del sistema de logaritmos naturales)
CARACTERÍSTICAS
Sí X ~ P (λ), entonces:
Valor esperado (Esperanza matemática o media)
E(x) = λ
Varianza
V(x) = λ
Ejemplo:
En una determinada colectividad, el número de casos de accidentes de trabajo por semana, en promedio es de 3.
Suponiendo que se ajusta a una distribución de Poisson, calcule la probabilidad de que:
a. En la siguiente semana no ocurran accidentes de trabajo
b. En la siguiente semana se produzca exactamente un accidente de trabajo
c. En 4 semanas, se produzca no más de dos accidente de trabajo
d. En 1 mes, se produzca al menos tres accidentes de trabajo
2
DISTRIBUCIÓN NORMAL
Esta distribución es la de mayor importancia en Estadística, puesto que se presenta naturalmente en muchos casos
reales como peso de grano, peso por hectárea, etc. En plantas de la misma variedad.
En general, son muchas las características continuas que se ajustan al modelo de la distribución normal, cuyos
valores van desde -∞ a +∞.
FUNCIÓN DE DENSIDAD:
x− μ 2
1 −( σ
)
f (x )= e
√2 π σ
e = 2.71828 π = 3.1416 µ y σ: parámetros (media y desviación estándar respectivamente)
Para referir que la variable X se aproxima a la distribución Normal suele escribirse X ~ N (µ, σ).
La representación gráfica se asemeja a una campana y es de forma simétrica. Conocida también como curva o
Campana de Gauss.
DISTRIBUCIÓN NORMAL ESTANDAR (reducida)
X−μ
Z=
Si X ~ N (µ, σ).y se toma la transformación σ , la variable aleatoria Z sigue también una distribución
normal con parámetros µ = 0 y σ = 1 y se puede escribir: Z ~ N (0, 1).
Ejemplo:
El tiempo requerido para ensamblar una pieza mecánica es una v.a. con distribución normal, con media µ=12.9
minutos y desviación estándar σ = 2.0 minutos. ¿Cuáles son las probabilidades de que el ensamblador de tal pieza
mecánica tarde:
a. por lo menos 11.5 minutos?
b. cuando mucho 12.5 minutos
c. entre 11.0 y 14.8 minutos?
PRÁCTICA DE DISTRIBUCIONES DE PROBABILIDAD
1. Se conoce que en las universidades, sólo 25% de los estudiantes que ingresan a estudiar Ingeniería
de Sistemas, logran terminar sus estudios de pre grado, por lo que un equipo de investigación se propuso
estudiar los factores que influyen en la deserción, para lo cual tomó una muestra de 20 alumnos que están en el
X ciclo de la Carrera de Ingeniería de Sistemas. Calcular la probabilidad de que:
a. Más de la mitad logren culminar su carrera?
b. Exactamente 15 alumnos logren culminar su carrera?
c. Más de 10, pero menos de 15 logren culminar su carrera?
d. Estimar el número promedio de alumnos que no lograrán terminar su carrera.
e. Estimar el número promedio de alumnos que lograrán terminar su carrera.
2. Un estudiante contesta al azar (es decir sin saber nada) 9 preguntas, siendo cada una de 4
respuestas de las cuales sólo una es la correcta.
a) Determinar la distribución de probabilidades del número de preguntas contestadas correctamente.
b) Si para aprobar tal examen debe contestar correctamente al menos 6 preguntas, ¿cuál es la probabilidad de
aprobar el examen?
3. El número medio de automóviles que llegan a una garita de peaje es de 120 por hora.
a) Calcular la probabilidad de que en un minuto cualquiera no llegue automóvil alguno.
b) Calcular la probabilidad de que en e] período de 3 minutos lleguen más de 5 automóviles.
4. Por estadísticas pasadas se sabe que el 40% de los estudiantes de cierta universidad desaprueban la
asignatura de Estadística General. Si se tiene un grupo de 20 estudiantes. ¿Cuál es la probabilidad de que
desaprueben:
a. 5 o más estudiantes?
b. exactamente 4 estudiantes?
c. más de 7 estudiantes?
d. cuando mucho 10 estudiantes?
e. entre 6 y 10 alumnos?
3
¿Cuál es el número esperado de estudiantes que aprobarían la asignatura de Estadística General?
5. El ingreso familiar mensual en una comunidad tiene distribución normal con media $400 y
desviación estándar $50. Si se elige al azar a una familia de esa comunidad, calcular la probabilidad de que:
a. Tenga ingresos menores a $ 450
b. Tenga ingresos de cuando mucho $ 600
c. Tenga ingresos entre $ 500 y $700
d. Si el 10% de las familias con mayores ingresos debe pagar un impuesto, ¿a partir de que ingreso familiar se
debe pagar el impuesto?
6. Una compañía grande dedicada a la construcción tiene en promedio 2 camiones de carga inactivos
en un día cualquiera debido a reparaciones. La compañía tiene 2 camiones extra. ¿Cuál es la probabilidad de
que en un día
a. no se necesite ningún camión extra?
b. El número de camiones extra sea insuficiente?
4
ESTADÍSTICA INFERENCIAL
Es parte de la estadística en la que se hacen afirmaciones acerca de la población o de sus parámetros en base a la
información obtenida de una muestra o muestras extraídas de dicha población, para tomar decisiones frente a
situaciones de incertidumbre.
ESTIMACIÓN DE PARÁMETROS
7. Estimación puntual:
El parámetro θ se estima en base a un número que se escucha a partir de una muestra (este valor es un
aproximado del valor exacto desconocido θ).
θ: μ, σ2, π θ : x̄ , S2, p
8. Estimación interválica (Intervalo de confianza):
Consiste en estimar el parámetro θ mediante un intervalo confidencial, dentro del cual este el verdadero valor
del parámetro, obteniéndose límites confidenciales (inferior y superior). En base a una muestra aleatoria y su
correspondiente estadístico θ se trata de encontrar un intervalo [ L1 , L2 ] (intervalo de confianza) el cual
debe contener el parámetro θ, con una probabilidad dada de 1- α (nivel de confianza).
1- α
α/2 α/2
L1 θ L2
La estimación interválica consiste en calcular L 1 y L2, dada una muestra aleatoria y un nivel de confianza (1-
α). Se dice que θ tiene una confianza de 100(1- α) % que se encuentre en el intervalo.
P [ L1 ≤θ≤L2 ] =1−α
L1 y L2 son límites de confianza
2.1 Estimación interválica para la Media Poblacional (μ):
σ σ
[
I . C .=P x́ −z
1−
∝
2 √n
≤ μ≤ x́ + z ∝
1−
2 √n
=1−α
]
Si n<30 y σ desconocido, entonces usar la distribución T-Student, caso contrario la distribución normal Z (se
puede estimar σ mediante S).
s s
[
P x́−t
n−1,1−
∝
2 √n
≤ μ ≤ x́ +t ∝
n−1,1− √ n
2
=1−α
]
2.2 Estimación interválica para la proporción poblacional (π):
P(1−P) P(1−P)
P p−z
[ 1−
∝
2 √ n
≤ π ≤ p+ z ∝
1−
2
n √
=1−α
]
2.3 Estimación interválica para la Varianza Poblacional (σ2):
( n−1 ) S2 2 ( n−1 ) S
2
P
[ X2 ∝
≤σ
1− , n−1
2
≤
X 2∝
2
=1−α
, n−1 ]
5
2.4 Estimación interválica para la diferencia entre dos medias ¿
[
P ( x́ 1−x́ 2 )−Z ∝
1−
2 √ σ 21 σ 22
+ ≤ μ −μ ≤ ( x́ 1−x́ 2 )+ Z ∝
n 1 n2 1 2 1−
2
σ 21 σ 22
√ ]
+ =1−α
n1 n 2
2 2
Para n1y n2 <30 y varianzas σ 1 y σ 2 desconocidas pero iguales, se usa:
2 2
[
P ( x́ 1−x́ 2 )−t
n +n −2,1−
1
∝
2
2 √ ( n1−1 ) S 1 + ( n2 −1 ) S 22 1 1
n1 +n 2−2
+
(n n )
≤ μ 1−μ2 ≤ ( x́ 1−x́ 2 ) +t
1 2
n1+n2−2,1−
∝
2 √ ( n1−1 ) S 1 + ( n2−1 ) S22 1 1
n1 +n2 −2 (n 1
+
n
2 2
Para n1y n2 <30 y varianzas σ 1 y σ 2 desconocidas pero supuestamente diferentes, se usa:
[
P ( x́ 1−x́ 2 )−t ∝
r , 1−
2 √ S 21 S 22
+ ≤ μ −μ ≤ ( x́ 1−x́ 2 )−t
n1 n 2 1 2 r , 1−
∝
2
S 21 S22
√ ]
+ =1−α
n 1 n2
Donde r se calcula:
S 21 S 22
+
n1 n2
r= 2 2
S 21 S 22
( ) ( )
n1
+
n2
n1−1 n2−1
Si r no es entero, entonces se debe aproximar al entero más cercano.
2.5 Estimación interválica para la diferencia entre dos proporciones poblacionales ( P1−P2 ):
[
P ( p1− p2 ) −Z
1−
∝
2 √ P1 (1−P 1) P2 (1−P2 )
n1
+
n2
≤ π 1−π 2 ≤ ( p1− p2 )−Z ∝
1−
2
P1 (1−P1 ) P2 (1−P2 )
n1
+
n2
=1−α
√ ]
σ 21
2.6 Estimación interválica para la razón entre dos varianzas
( )
σ 22
:
S 21 σ 21 S21
P
[ S 22
F∝
2
,n2−1 ,n 1−1
≤
σ 22
≤
S22
F ∝
1− , n2−1 , n 1−1
2
] =1−α
6
PRUEBA DE HIPÓTESIS
Una hipótesis estadística es una suposición (afirmación o conjetura) que se plantea acerca de la distribución de una
o más variables aleatorias o poblaciones.
1. Definición:
Es una técnica que se sigue mediante observaciones muestrales para decidir si ACEPTAR o RECHAZAR una
hipótesis estadística. A partir de la información muestral se puede determinar que unidades satisfacen la
hipótesis y que unidades no.
2. Elementos:
2.1 Hipótesis nula (Ho): Conocida también como la hipótesis de no diferencia, es la hipótesis
estadística principal, es establecida con el único propósito de rechazarla o anularla.
2.2 Hipótesis alternativa (H1): Es la hipótesis opuesta a la hipótesis nula Ho, es decir es aquella que
contradice a Ho y sirve para contrastarla.
3. Tipos de prueba:
Unilaterales (una cola):
3.1.1. Cola inferior o de cola a la izquierda:
Ho: θ = θo
H1: θ < θo
3.1.2. Cola superior o de cola a la derecha:
Ho: θ = θo
H1: θ > θo
Bilateral (dos colas):
Ho: θ = θo
H1: θ ≠ θo
4. Errores:
4.1. Error tipo I: Ocurre cuando se RECHAZA una hipótesis correcta ó verdadera.
4.2. Error tipo II: Ocurre cuando se ACEPTA una hipótesis falsa o incorrecta.
Decisión Ho verdadera Ho falsa
Rechazar Error tipo I Decisión correcta
Probabilidad: α Probabilidad: 1- β
Ho
Aceptar Ho Decisión correcta Error tipo II
Probabilidad: 1- Probabilidad: β
α
7
5. Nivel de significación o riesgo (α):
Frecuentemente el investigador toma es 0.01 ó 0.05, pero el más utilizado es 0.05 (α = 5%).
6. Regiones de aceptación y de rechazo:
A partir de la información muestral se puede determinar que unidades satisfacen la hipótesis y que unidades no,
el problema fundamental radica en precisar el punto crítico tal que se establezcan las regiones de aceptación y
de rechazo.
Región de Aceptación: Es la que contiene los valores para los cuales no se rechaza la hipótesis
formulada.
Región de rechazo: Es la que contiene los valores para los cuales se rechaza la hipótesis formulada.
7. Procedimiento para formular una prueba de hipótesis:
Relativa al parámetro θ de una población.
- Formular la hipótesis nula Ho de acuerdo al problema.
Ho: θ = θo
- Formular la hipótesis alternativa adecuada, que puede ser una de estas tres:
H1: θ < θo o H1: θ > θo o H1: θ ≠ θo
- Escoger el nivel de significación o riesgo α (generalmente es igual a 0.05)
Si se utiliza la distribución normal, se puede hacer uso de estos valores:
Α 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001
1-α 0.80 0.90 0.95 0.98 0.99 0.995 0.998 0.999
Z1-α (una cola) ± ± ± 1.645 ± ± 2.327 ± 2.88 ± 2.575 ± 3.09
1.2817
Z 1-α/2 (dos colas) ± 1.28 ± 1.645 ± 1.96 ± 2.327 ± 2.575 ± 3.08 ± 2.81 ± 3.29
Cuando se trabaja con una cola, tener en cuenta que para cola a la izquierda tomar el coeficiente de
confianza (Z) con signo negativo, y para cola a la derecha tomar dicho coeficiente con signo positivo.
- Seleccionar la Estadística de Prueba adecuada.
- Establecer la regla de decisión determinando la región crítica de la prueba ó los valores críticos.
- Calcular el valor del estadístico de la prueba a partir de los datos de la muestra.
- Tomar la decisión de rechazar la hipótesis nula Ho, si el valor del estadístico de la prueba está en la región
crítica. En caso contrario, no rechazar Ho.
- Formular la conclusión.
Las pruebas de hipótesis se realizan para los diferentes parámetros de la población; éstas son para la media, para la
varianza, para la proporción, así como para sus respectivas diferencias y razón.
PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL (µ)
X̄−μ 0
Zc=
σ
√ n ~ N (0,1)
si n< 30 y σ 2 desconocido
X̄ −μ 0
t c=
S
√ n ~ t (n-1)
PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN POBLACIONAL (π)
p−π 0
Zc=
π o (1−π o )
n
PRUEBA DE HIPÓTESIS PARA LA VARIANZA (σ 2)
√ ~ N (0,1)
2 ( n−1 ) S 2
X = 2
σ 20 ~ X n−1
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS (μ1-μ2)
2 2
1. Si n1 y n2 ≥ 30 y σ 1 y σ 2 conocidas:
8
( X̄ 1 − X̄ 2 )−( μ1 −μ2 )
Zc=
σ 21 σ 22
n1 y n2 ≥ 30 y 2
σ1
√
2
σ2
+
n1 n 2 ~ N (0,1)
2. Si y desconocidas:
( X̄ 1 − X̄ 2 )−( μ1 −μ2 )
Zc=
2 2
S1 S2
n1 y n2 < 30 y 2
σ1
√
2
σ2
+
n 1 n2 ~ N (0,1)
3. Si = desconocidas:
( X̄ 1 − X̄ 2 )−( μ1 −μ 2 )
t c=
( n1−1) S 21 +( n 2−1 ) S 22 1 1
√ n1 +n 2−2
+
n1 n 2 ( ) ~
t n +n −2
1 2
4. Si n1 y n2 y σ 21 ≠ σ 22 desconocidas:
( X̄ 1− X̄ 2 )−( μ1 −μ2 )
t c=
2 2
S1 S 2
Donde:
√ +
n1 n 2 ~ tr
S21 S 22
+
n1 n 2
r= 2 2 2 2
S1 S2
( ) ( )
n1
+
n2
n1 −1 n2 −1
aproximar al entero más cercano.
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS DE MUESTRAS
EMPAREJADAS
X −μd
t c= d
Sd
~ n−1,1−α √n t
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS PROPORCIONES (π 1-π 2)
( p1 −p 2 )−( π 1 −π 2 )
Zc=
n 1 +n2 n p +n p
√
p^ ( 1− ^p )
n1 n 2
n1 y n2 < 30, usar:
(
~ N (0,1)
)
con
^p= 1 1 2 2
n1 +n2
Si
( p1 − p2 )−( π 1 −π 2 )
t c=
n1 +n 2
~ √ ^p ( 1− p^ )
t n +n −2 , p^
1 2
PRUEBA DE HIPÓTESIS PARA LA COMPARACIÓN DE VARIANZAS (σ 12 /σ 22)
( n 1 n2 )
2
S
F c= 12
S 2 ~ F v1−1 ,v2−1
PRUEBA DE INDEPENDENCIA DE CRITERIOS CHI – CUADRADO (JI – CUADRADA)
Ho: A es independiente de B
H1: A no es independiente de B
9
b a 2
( Oij −e ij )
X 2c = ∑∑ ~ X 20 . 95 ,( a−1)( b−1) gl
j i e ij
Oij: frecuencias observadas eij: frecuencias esperadas, donde eij = (total fila i) (total de la columna j) / n
a: número de filas b: número de columnas
10