Análisis Estocástico de Datos Estadísticos
Análisis Estocástico de Datos Estadísticos
Campus Guadalajara
Temario
1. Modelado de Procesos para la Calidad.
1.1. La Variación.
1.1.1. Diagramas de Tallos y Hojas
1.1.2. El Histograma
1.1.3. Técnicas numéricas para resumir datos
1.1.4. Diagrama de cajas
1.1.5. Distribuciones de probabilidad
1.2. Distribuciones Discretas más importantes
1.2.1. Distribución Hipergeométrica
1.2.2. Experimentos de Bernoulli
1.2.3. Distribución Binomial
1.2.4. Distribución Poisson
1.2.5. Distribución Pascal
1.3. Distribuciones Continuas más importantes
1.3.1. Distribución normal
1.3.2. Distribución Lognormal
1.3.3. Distribución Exponencial
1.3.4. Distribución Gamma
1.3.5. Distribución Weibull
UNIVERSIDAD
PANAMERICANA
NOTA: TODOS LOS MATERIALES DE ESTE DOCUMENTO FUERON EXTRAIDOS DE LAS SIGUIENTES FUENTES BIBLIOGRÁFICAS Y LAS IMÁGENES SON
BAJADAS DE INTERNET DE DOMINIO PÚBLICO.
BIBLIOGRAFÍA
CRITERIOS DE EVALUACION
CALIFICACION POR PARCIAL
¿Qué es Estadística?
CLASIFICACIÓN
Estadística Descriptiva:
Inferencia Estadística:
Incertidumbre
.
Inferencia
Población Muestra
Deducción
Probabilidad
Muestra: Es una parte o un subconjunto de una población. Tiene la característica fundamental de ser
representativa de la población. Estadístico medida de resumen de la muestra.
UNIVERSIDAD
PANAMERICANA
Los caracteres de un elemento pueden ser muy diversos tipos, por que los podemos clasificar en
dos grandes tipos:
1. Variables Cuantitativas.
2. Variables Cualitativas o atributos
1. Las variables cuantitativas son las que se describen por medio de números, como por
ejemplo el Peso, Altura, Edad...
Cuantitativas discretas: Aquellas a las que se les puede asociar un número entero, es
decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo
numero de hermanos, páginas de un libro, etc.
Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número
entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la
variable pueda tomar cualquier valor intermedio, por ejemplo, peso, tiempo, etc.
UNIVERSIDAD
PANAMERICANA
2. Los atributos (cualitativas) son aquellos caracteres que para su definición precisan de
palabras, es decir no le podemos asignar un numero. Por ejemplo sexo, profesión, estado civil,
etc. A su vez las podemos clasificar en:
Ordenables: aquellas que sugieren una jerarquía, por ejemplo la graduación militar, el
nivel de estudio, etc.
No ordenables: aquellas que solo admiten una mera ordenación alfabética pero no
establece orden por su naturaleza, por ejemplo el color de pelo, seco, estado civil, etc
UNIVERSIDAD
PANAMERICANA
Forma: Sirve para identificar la distribución de los datos. Es útil cuando se desea
definir el tipo de estadístico a utilizar para descubrir a la población o muestra.
UNIVERSIDAD
PANAMERICANA
Estadística Descriptiva
La Estadística Descriptiva es el presentar tablas o gráficos para sintetizar o resumir los datos
mediante descripciones numéricas. Los datos son ordenados y clasificados con objeto de tener
una visión precisa y conjunta de las observaciones, intentando descubrir posibles relaciones
entre los datos.
Lo primero que se debe hacer con la información obtenida de una muestra, es reducirla a unas
cuantas cifras que condensen o concentren la información más importante. Estas cifras se
conocen como las estadísticas de la muestra.
Una manera de visualizar la información de una muestra es tabularla o mostrar la gráfica de los
valores obtenidos.
UNIVERSIDAD
PANAMERICANA
Herramientas estadísticas:
Gráficas:
• Dotplot
• Diagrama de tallo y hoja
• Histograma
• Caja y bigotes
Numéricas:
• Medidas de tendencia central
• Medidas de dispersión
a.
UNIVERSIDAD
PANAMERICANA
TABLA DE FRECUENCIAS
Es una gráfica de barras para un conjunto de datos numéricos que contiene la siguiente
información:
60 72 80 88
Ejemplo
60 75 80 89
Calificaciones de alumnos de un grupo de Probabilidad 60 77 80 90
61 77 80 94
65 79 81 95
69 80 88 95
Límite Límite Frecuencia
inferior superior absoluta
60.00 67.15 5
67.15 74.30 2
74.30 81.45 10
81.45 88.60 2
88.60 95.75 5
UNIVERSIDAD
PANAMERICANA
HISTOGRAM- HISTOGRAMA
Un histograma es una gráfica que puede utilizar para evaluar la forma y dispersión de datos de
muestra continuos. Puede crear un histograma antes o durante un análisis para ayudar a
confirmar supuestos y orientar análisis posteriores.
Para dibujar un histograma se dividen los valores de muestra en intervalos llamados secciones.
Por opción predeterminada, cada barra en el histograma representa el número de observaciones
incluidas en cada sección (la frecuencia). El software determina automáticamente un número
óptimo de secciones, pero usted puede editar el número de secciones, así como los intervalos
que cubre cada una.
UNIVERSIDAD
PANAMERICANA
HISTOGRAM- HISTOGRAMA
Una gráfica de tallo y hoja muestra los datos de tal modo que se pueda apreciar su forma y
distribución. Es similar a un histograma. Sin embargo, una gráfica de tallo y hoja muestra puntos
exactos de los datos, lo que facilita considerablemente el cálculo de la media, la mediana y la
moda.
En una gráfica de tallo y hoja, cada valor de los datos se divide en un "tallo" y una "hoja". La
"hoja" por lo general es la última cifra del número y las otras cifras a la izquierda de la "hoja"
forman el "tallo". La "unidad de la hoja" indica qué lugar decimal representan los valores de la
hoja. Por ejemplo, si la unidad de la hoja es 1.0, el número 125 se dividiría como: tallo 12, hoja 5.
El número 8124 se dividiría como: tallo 812, hoja 4.
Cada fila de la gráfica muestra el conteo, tallo y hoja. Los conteos de las filas por encima y por
debajo de la mediana son acumulativos. El conteo de una fila por encima de la mediana
representa el conteo total para esa fila y las filas que se encuentran por encima de ésta. El
conteo de una fila por debajo de la mediana representa el conteo total de esa fila y las filas por
debajo de ésta.
UNIVERSIDAD
PANAMERICANA
La siguiente gráfica de tallo y hoja muestra las temperaturas más altas de cada día del mes de
junio. La primera fila tiene un valor de tallo de 6 y contiene los valores de hoja 8, 9 y 9. Por lo
tanto, la primera fila de la gráfica representa valores de muestra de aproximadamente 68, 69 y
69.
DIAGRAMA DE DISPERSIÓN
La variable medida o dependiente usualmente se representa a lo largo del eje de las ordenadas.
Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y
el diagrama de dispersión, mostrará el grado de correlación entre las dos variables.
Esta gráfica encierra el rango intercuartil de los datos en una caja que contiene la mediana
representada. El rango intercuartil tiene como extremos el percentil 75 (cuartil superior) y el
percentil 25 (cuartil inferior). Además de la caja se prolongan “bigotes” que indican las
observaciones alejadas en la muestra.
UNIVERSIDAD
PANAMERICANA
BOXPLOT
-el primer cuartil (Q1) de un conjunto de datos es el valor de dato ordenado tal que 25% de los
valores en el conjunto de datos son menores o iguales que este.
-el segundo cuartil (Q2) de un conjunto de datos es la mediana de los datos. 50% de los valores
en el conjunto de datos son menores o iguales al segundo cuartil.
-el tercer cuartil (Q3) de un conjunto de datos es el valor de los datos ordenados tal que 75% de
los valores son menores o iguales a este.
-el rango intercuartil IQR (Q3-Q1) es otra medida de dispersión para la mitad del conjunto de
datos.
UNIVERSIDAD
PANAMERICANA
BOXPLOT
Ejemplo:
Los siguientes datos son una muestra de las edades de los trabajadores cuando se jubilaban. El
conjunto de datos está de forma ordenada de menor a mayor.
Lower whisker: es la línea que se extiende desde la parte inferior de la caja (Q1) a la observación más
pequeña dentro del límite inferior . Q1 - 1.5*IQR
Upper whisker: es la línea qie se extiende desde la parte superior de la caja (Q3) a la observación más
grande dentro del límite superior. Q3 + 1.5*IQR
Outlier: es el valor de un dato que está más allá de los bigotes superiores o inferiores. Se identifica por
un *.
UNIVERSIDAD
PANAMERICANA
Valores de nicotina
0.72 1.40 1.64 1.69 1.79 1.88 2.03 2.28
Una gráfica de distribución de probabilidad es una gráfica que usted puede utilizar para ver y
comparar las formas de curvas de distribución y para ver áreas debajo de las curvas de
distribución correspondientes a probabilidades o valores de datos. Esta gráfica muestra
funciones de densidad de probabilidad (PDF) que describen la probabilidad de cada valor de los
datos. Usualmente, usted especifica la distribución y los valores de los parámetros. También
puede especificar una región de interés para sombrear debajo de la curva.
Visualizar las formas de la distribución. Determinar cómo cambiar un valor de los Ver probabilidades con áreas asociadas bajo
parámetros afecta la curva la curva
UNIVERSIDAD
PANAMERICANA
Medidas de tendencia central
Media
Mediana
Moda
MEDIDAS DE DISPERSIÓN :
Rango
Varianza
Desviación estándar
UNIVERSIDAD
PANAMERICANA
Medidas de tendencia central
MEDIA:
Ventajas:
Desventaja :
•Es una medida a cuyo valor afecta sobremanera la dispersión ,de modo que cuanto menos
homogéneos sean los datos, menos información proporciona.
UNIVERSIDAD
PANAMERICANA
Medidas de tendencia central
MEDIANA
Ventaja .
Desventajas :
•En el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos.
•Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.
UNIVERSIDAD
PANAMERICANA
Medidas de tendencia central
Media aritmética:
La media aritmética de una variable se define como la suma ponderada de la variable por sus
frecuencias relativas y la denotaremos por x. Donde Xi representa el valor de la variable (datos)
y n ó N el total de datos.
n n
xi x i
x i 1 i 1
n N
Muestra Población
Mediana:
Moda:
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que mas se repite, es
la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no
precisa la realización de ningún cálculo matemático.
Dispersiones diferentes
UNIVERSIDAD
PANAMERICANA
Medidas de tendencia central
Cuando los datos no están sesgados (por ejemplo, distribuidos normalmente) la media y la
mediana serán esencialmente muy cercanas, siendo posible que coincidan.
También puede utilizar la moda, por ejemplo, si hay una encuesta que mide el aumento de
conocimiento después de una capacitación y se quiere saber el puntaje más común de los
participantes.
UNIVERSIDAD
PANAMERICANA
Medidas de dispersión
MEDIDAS DE DISPERSIÓN:
Medidas de dispersión
Medidas de Dispersión:
Varianza:
x x
n 2 n
x
2
i i
S
2 i 1
2 i 1
n 1 n
Desviación Estándar:
x x
n 2 n
xi
2
i
S i 1
i 1
n 1 n
UNIVERSIDAD
PANAMERICANA
COEFICIENTE DE VARIACIÓN
Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por
el coeficiente de variación.
Para muestra:
Para población:
UNIVERSIDAD
PANAMERICANA
COEFICIENTE DE VARIACIÓN
Ejemplo: En marzo del año pasado, los datos de préstamos personales de un Banco mostraron
un promedio de $6,500,000 y una desviación estándar de $3,000,000. Recientemente se calculó
la media y la desviación estándar correspondiente a los préstamos personales de marzo del
presente año, resultado $9,000,000 y $3,500,000 respectivamente. ¿En cuál de los dos años los
préstamos personales presentaron menor dispersión relativa?
Año pasado:
Presente año:
La menor dispersión relativa se presenta en los préstamos personales otorgados este año.
UNIVERSIDAD
PANAMERICANA
EJERCICIO
Las temperaturas en dos ciudades A y B son elevadas en el mes de agosto. Las siguientes
tablas expresan las temperaturas de cada una de las ciudades (grados Fahrenheit) durante
42 años.
Ciudad A
Ciudad B
UNIVERSIDAD
PANAMERICANA
EJERCICIO
Las temperaturas en dos ciudades A y B son elevadas en el mes de agosto. Las siguientes
tablas expresan las temperaturas de cada una de las ciudades (grados Fahrenheit) durante
42 años.
Boxplot of ciudades A, B
105
100
95
Temperaturas
90
85
80
75
70
A B
UNIVERSIDAD
PANAMERICANA
DEFINICIÓN
El modelado y análisis de sistemas que están sujetos a la incertidumbre son llamados procesos
estocásticos.
“estocástico” es un sinónimo para aleatorio.
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Todos los posibles resultados deben ser definidos y a la colección de todos esos resultados se le
llama espacio muestral.
Definición: Un espacio muestral está denotado por (Ω,F , Pr) ,donde Ω es el espacio muestral, F
es una colección de eventos del espacio muestral y Pr es una probabilidad que asigna un número
a cada evento contenido en F .
Pr(Ω) 1,
Pr(A) 0,
Pr( A B) Pr( A) Pr( B) si A B , donde denota un conjunto vacio
Pr( AC ) 1 Pr( A)
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Ejemplo: una compañía fabricante de teléfonos, manufactura teléfonos tipo A y tipo B y los
envía en cajas de dos teléfonos (mismo tipo por caja). Se selecciona una caja aleatoriamente
para verificar el control de calidad , registran el tipo de teléfono, prueban los teléfonos y
contabilizan el número de defectuosos. El espacio muestral es:
Por ejemplo la probabilidad de que una caja seleccionada que contiene teléfonos tipo A tenga
máximo un defectuoso es:
DEFINICIONES BÁSICAS:
Definición: Permite que (Ω,F , Pr) sea un espacio de probabilidad donde A y B son eventos en F
con Pr(B)>0. La probabilidad condicional de A dado B, denotado por P(A\B) es:
Pr( A B)
Pr( A \ B )
Pr( B)
Ejemplo
Una cadena de tiendas de video vende tres marcas diferentes de reproductores de DVD. 50% son
de la marca 1 (la menos cara), 30% son de la marca 2 y 20% son de la marca 3. Cada fabricante
ofrece 1 año de garantía en las partes y manos de obra. Se sabe que 25% de los reproductores de
DVD de la marca 1 requieren trabajo de reparación dentro del período de garantía, mientras que
los porcentajes correspondientes de las marcas 2,3 son 20% y 10% respectivamente.
Si un cliente regresa a la tienda con un reproductor de DVD que necesita reparación dentro de la
garantía .
¿cuál es la probabilidad de que sea un DVD marca 1?
¿cuál es la probabilidad de que sea un DVD marca 2?
¿cuál es la probabilidad de que sea un DVD marca 3?
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Definición Independencia:
Sean A y B dos sucesos. Decimos que A y B son independientes si
DEFINICIONES BÁSICAS:
Para i= 0,1
A i = el emisor envía i
B i = el receptor decidió i
DEFINICIONES BÁSICAS:
Ejemplo
Permite que t sea la edad de una persona cuando muere. La probabilidad que t≤t0 está dado
por: t0
Pr(t t0 ) (t )dt
0
Donde α(t) es una función determinada de los registros de mortalidad. Podemos asumir que:
Es igual al número de personas que mueren entre 60 y 70 años dividido entre la población total
con:
A 60 t 70 M= t 60 A M A
Por lo que la probabilidad de que una persona muera entre 60 y 70 años, asumiendo que a los 60
años aún está vivo es: 70
(t )dt
Pr 60 t 70 | t 60 100
60
0.486
(t )dt
60
UNIVERSIDAD
PANAMERICANA
Ejemplo
Una caja contiene 3 pelotas blancas w1, w2 y w3 y 2 pelotas rojas r1 y r2. Se sacan aleatoriamente
dos pelotas (una seguida de la otra) . Cuál es la probabilidad que la primer pelota extraída sea
blanca y la segunda roja?
Primera solución:
El espacio del experimento consiste de todos los pares ordenados que podemos formar con las 5
pelotas:
w1w2 w1w3 w1r1 . . . r2 w1 r2 w2 r2 r1
El número total de elementos del espacio muestral es 20.
Ejemplo
Una caja contiene 3 pelotas blancas w1, w2 y w3 y 2 pelotas rojas r1 y r2. Se sacan aleatoriamente
dos pelotas . Cuál es la probabilidad que la primer pelota extraída sea blanca y la segunda roja?
Segunda solución:
La caja contiene 3 pelotas blancas y dos rojas, la probabilidad de el evento w1={primero blanca}
es igual a 3/5.
Si una pelota blanca es removida, quedan dos pelotas blancas y dos rojas.
Ejercicio
Solución:
C={sufrir el cáncer}
H={no tener la enfermedad}
A={prueba positiva}
N={prueba negativa}
(0.95)(0.02)
Pr(C | A) 0.279
(0.95)(0.02) (0.05)(0.98)
UNIVERSIDAD
PANAMERICANA
Ejercicio
Suponga que la caja 1 contiene a pelotas blancas y b pelotas negras, la caja 2 contiene c pelotas
blancas y d pelotas negras. Una pelota desconocida es transferida de la caja 1 a la 2, después
sacamos una pelota de la segunda caja.
Solución:
En este caso una pelota es primero transferida de la caja 1 a la 2 y hay dos posibilidades
mutuamente excluyentes para este evento, el transferir la pelota ya sea blanca o negra.
W la pelota transferida es blanca B la pelota transferida es negra
a b
Pr(W ) Pr( B )
ab ab
UNIVERSIDAD
PANAMERICANA
Ejercicio
El evento de interés:
A={sacar una pelota blanca de la segunda caja}
Puede suceder solo bajo las dos posibilidades mutuamente excluyentes mencionadas:
y
c 1 c
Pr( A | W ) Pr( A | B )
c d 1 c d 1
Por lo que:
a (c 1) bc
Pr( A) +
(a b)(c d 1) ( a b)(c d 1)
ac bc a
Pr( A)
(a b)(c d 1)
UNIVERSIDAD
PANAMERICANA
Ejercicio
Tenemos cuatro cajas. Caja uno, tiene 5% de partes defectuosas, caja dos 40% de partes
defectuosas, caja tres y cuatro tienen 10% de partes defectuosas cada una. Seleccionamos una
caja aleatoriamente y sacamos un componente.
Solución:
P(B1)=P(B2)=P(B3)=P(B4)= 1/4
D={defectuoso}
DEFINICIONES BÁSICAS:
Las variables aleatorias son definidas para facilitar el uso de expresiones matemáticas y para
centrarse solo en los resultados de interés.
Definición: Una variable aleatoria es una función que asigna un número real a cada resultado
en el espacio muestral.
Una variable aleatoria se llama variable aleatoria discreta si se puede contar con su conjunto de
resultados posibles. Ejemplo número de clientes en una fila, en caso contrario es llamada variable
aleatoria continua.
Minitab
- En una columna de minitab escriba los posibles valores de la variable (0,1,2,3,4)
Estos valores representan el número de jonrones que el jugador podría batear durante el
partido.
-Calc>Distribuciones de probabilidad>Binomial
-Número de ensayos ingrese 4
-Probabilidad del evento ingrese 0.10
-En columna de entrada ingrese su columna
UNIVERSIDAD
PANAMERICANA
x P( X = x )
0 0.6561
1 0.2916
2 0.0486
3 0.0036
4 0.0001
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Propiedades de la CDF
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Por ejemplo, los pesos de llenado de una lata de gaseosa siguen una distribución normal, con
una media de 12 onzas y una desviación estándar de 0.25 onzas. La función de densidad de
probabilidad (PDF) describe la probabilidad de valores posibles de peso de llenado. La CDF
proporciona la probabilidad acumulada de cada valor de x.
UNIVERSIDAD
PANAMERICANA
Minitab:
-En una columna (celdas separadas) escriba 11.5 y 12.5.
-Calc>Distribuciones de probabilidad>Normal
-Probabilidad acumulada
-Media, ingrese 12
-Desviación estándar ingrese 0.25
-En columna de entrada ingrese su columna
UNIVERSIDAD
PANAMERICANA
x P( X ≤ x )
11.5 0.022750
12.5 0.977250
La probabilidad de que una botella seleccionada aleatoriamente tenga un peso de llenado entre
11.5 onzas y 12.5 onzas es la CDF en 12.5 menos la CDF en 11.5 , 0.977250 – 0.022750 = 0.954500.
UNIVERSIDAD
PANAMERICANA
DEFINICIONES BÁSICAS:
Pr X a F (a) f (k )
k a
DEFINICIONES BÁSICAS:
g (u)du Pr a Y b
a
Por ejemplo, una máquina que corta corchos para botellas de vino produce corchos de
diferentes diámetros. En la siguiente gráfica de barras de los diámetros de los corchos,
cada barra representa el porcentaje de corchos con ese diámetro correspondiente.
UNIVERSIDAD
PANAMERICANA
MEDIAY VARIANZA
Definición: permite que h sea una función definida en los números reales y X sea la variable
aleatoria. El valor esperado de h(X) está dado por:
E h( X ) h( k ) f ( k )
k
Donde f es la pmf
Donde f es la pdf.
UNIVERSIDAD
PANAMERICANA
MEDIAY VARIANZA
Ejemplo:
Un proveedor vende huevos en cajas que contienen 144 huevos. Hay una pequeña
probabilidad que algunos huevos se rompan y él tenga que regresar ese dinero (de acuerdo
a la cantidad rota). Sea B la variable aleatoria que indica el número de huevos rotos por caja
con la siguiente pmf:
La Varianza de X es:
Si X es discreta:
Si X es continua:
MEDIAY VARIANZA
Ejemplo:
Un proveedor vende huevos en cajas que contienen 144 huevos. Hay una pequeña
probabilidad que algunos huevos se rompan y él tenga que regresar ese dinero (de acuerdo
a la cantidad rota). Sea B la variable aleatoria que indica el número de huevos rotos por caja
con la siguiente pmf:
k f(k)
0 0.779
1 0.195
2 0.024
3 0.002
Distribución de Probabilidad
DISTRIBUCIONES DISCRETAS IMPORTANTES
Bernoulli:
Descrita por Jacob Bernoulli. La variable aleatoria N tiene una distribución d Bernoulli si hay
un número 0<p<1.
Solo son posibles dos resultados; éxito o fracaso. Podemos definir una variable aleatoria
discreta X tal que:
Éxito=1
Fracaso=0
1 p para k=0
f (k )
p para k=1
E[ N ] p; V[N]=p (1 p )
UNIVERSIDAD
PANAMERICANA
Binomial:
Descrita por Jacob Bernoulli y publicada después en 1713 por su sobrino. La variable
aleatoria N tiene una distribución Binomial si hay un número 0<p<1 y un entero positivo n tal
que la pmf de N puede ser escrita como:
n!
f (k ) p k (1 p) n k para k=0,1,...n
(n k )!k !
E[ N ] np; V[N]=np(1 p )
Ejemplo (Binomial):
Se están monitoreando llamadas en una firma de manufactura y se ha determinado que un
tercio de las llamadas son hechas para larga distancia y dos tercios de las llamadas son
locales. Se ha decidido analizar cuatro llamadas aleatoriamente y es de interés conocer
cuántas llamadas de las cuatro son de larga distancia. En otras palabas, permite que N sea la
variable aleatoria que indica el número de llamadas a larga distancia en el grupo de cuatro.
La mitad de los individuos que realizan las llamadas son mujeres y la mitad hombres. Es de
interés saber cuantas llamadas fueron hechas por hombres. Permite que M sea el número
de llamadas realizadas por hombres.
n!
f (k ) p k (1 p ) n k para k=0,1,...n
(n k )!k !
UNIVERSIDAD
PANAMERICANA
Ejemplo (Binomial):
Por lo tanto n=4 llamadas p= 1/3 larga distancia q=2/3
k 0 1 2 3 4
P(k) 0.197 0.395 0.296 0.098 0.013
4
f (k 0) (1/ 3)0 (2 / 3) 4 =0.197
0
4
f (k 1) (1/ 3)1 (2 / 3)3 =0.395
1
Por lo que n=4 llamadas p=0.5 realizada por hombres q=0.5
k 0 1 2 3 4
P(k) 0.0625 0.25 0.375 0.25 0.0625
UNIVERSIDAD
PANAMERICANA
Ejercicio (Binomial):
Suponga que se sabe que un algoritmo heurístico acierta a la solución óptima (conocida) en
una serie de ejecuciones con una probabilidad de 0.8 y se considera que el resultado de cada
ejecución es independiente del anterior.
Geométrica:
La variable aleatoria N tiene una distribución geométrica si hay un número 0<p<1 tal que la
pmf de N puede escribirse como:
f (k ) p (1 p) k 1 para k=1,2...
1 (1 p )
E[ N ] ; V[N]=
p p2
La variable aleatoria representa el número de ensayos hasta que el primer éxito ocurre. La
variable aleatoria N es entonces igual al número de ensayos que se han desarrollado. Nota
que aunque la variable aleatoria geométrica es discreta, su rango es infinito.
UNIVERSIDAD
PANAMERICANA
Ejemplo Geométrica:
Un vendedor de autos hizo un análisis estadístico de sus ventas previas y determinó que
cada día hay una oportunidad del 50% que él venda un carro de lujo. La venta de un carro en
un día dado es independiente de la venta en otro día. El vendedor quiere determinar cuando
venderá su primer carro de lujo este año. Si N es la variable aleatoria indicando el día de la
primer venta del carro de lujo (N=1 implica que la venta fue en enero) entonces N es
distribuida acorde a la distribución geométrica con p=0.5.
f (k 1) (0.5)(0.5)0 0.5
f (k 2) (0.5)(0.5)1 0.25
f (k 3) (0.5)(0.5) 2 0.125
UNIVERSIDAD
PANAMERICANA
Poisson:
(Por Simeon Denis Poisson 1781-1840 publicado en 1837). La variable aleatoria N tiene una
distribución de Poisson si hay un número λ>0 tal que la pmf de N puede escribirse como:
k e
f (k ) para k=0,1...
k!
E[ N ] ; V[N]=
Ejemplo Poisson:
El número de quejas promedio que ocurren en el área de atención a clientes es de 20 por
semana. Suponga que el número de quejas sigue una distribución de Poisson, esto es que las
quejas son independientes y ocurren al azar. Calcule:
f ( x 3) 1 f ( x 2)
200 e 20 201 e20
f ( x 2) 4.12 10 7 4.55 107
0! 1!
f ( x 3) 1 (4.55 107 ) 0.9999
UNIVERSIDAD
PANAMERICANA
Poisson:
Existe una aproximación para la distribución binomial. Para n grande y p pequeña, la
distribución binomial es aproximada a la distribución de Poisson mediante:
np
Por ejemplo suponga que tenemos una caja de 144 huevos y hay 1% de probabilidad que
algún huevo esté roto. Asumiendo que los ensayos son independientes, la probabilidad que
exactamente 3 huevos estén rotos de los 144 puede ser determinado usando distribución
binomial con:
144
n=144 ; p=0.01 f ( k 3)
3 141
(0.01) (0.99) =0.1181
3
ó por la Distribución de Poisson con λ=1.44
1.443 e1.44
f ( x 3) 0.1179
3!
UNIVERSIDAD
PANAMERICANA
Hipergeométrica:
La manera más simple de ver la diferencia entre la Distribución multinomial y la
Hipergeométrica está en la forma en que se realiza el muestreo. En el caso de la binomial y
multinomial el muestreo se realiza con reemplazo y en la hipergeométrica el muestreo se realiza
sin reemplazo.
𝑛𝑘 𝑁−𝑛 𝑘 𝑘
µ= 𝑦 𝜎2 = (𝑛) 1−
𝑁 𝑁−1 𝑁 𝑁
UNIVERSIDAD
PANAMERICANA
Ejemplo Hipergeométrica:
Lotes de 40 componentes cada uno se denominan aceptables sino contienen más de tres
defectuosos. El procedimiento para muestrear el lote es la selección de cinco componentes al
azar y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la probabilidad de que
se encuentre exactamente un defectuoso en la muestra si hay tres defectuosos en todo el lote?
UNIVERSIDAD
PANAMERICANA
Distribución Uniforme:
La variable aleatoria X tiene una distribución uniforme si hay dos números a y b con a<b tal que la
pdf de X puede ser escrita como:
1
para a s b
f (s) b a
0 otro caso
b a
2
a b
EX ; V X
2 12
Distribución Exponencial:
Es usada como el modelo para la parte de la vida útil. También se utiliza para modelar los tiempos
entre ocurrencias de dos sucesos del mismo tipo, tiempo entre llegadas a un banco, tiempo entre
fallas en una máquina etc.
Se usa para modelar artículos a una tasa de falla constante y está relacionada con la distribución
de Poisson.
UNIVERSIDAD
PANAMERICANA
Distribución Exponencial:
La variable aleatoria X tiene una distribución exponencial si hay un número λ>0 tal que la pdf de X
puede ser escrita como:
e s para s 0
f ( s)
0 otro caso
1 1
EX ; V X
2
Distribución Exponencial:
Distribución Exponencial:
Un sistema usa un componente cuya duración en años es una variable con distribución
exponencial con media de 4 años. Si se instalan 3 de estos componentes, determine la
probabilidad que al cabo de 6 años, dos componentes sigan funcionando.
1
x
4
Pr( x 6) e 6| 0.22
3
Pr( x 3) (0.22) 2 (0.78) =0.11
2
UNIVERSIDAD
PANAMERICANA
Distribución Gamma:
Es una distribución común usada para describir tiempos de procesos y tiene dos parámetros: un
parámetro de forma α y un parámetro de escala β. El parámetro de forma es así llamado porque
varía los resultados de los valores en diferentes formas para la pdf. Variando el parámetro de
escala no cambia la forma de la distribución pero se hace más angosta o extendida en el eje de las
x. La función gamma es definida para x>0 como:
( x) s x 1e s ds
0
Una propiedad útil de la distribución gamma es la relación ( x 1) x( x) , para x≥1. Si x es un entero
positivo ( x) ( x 1)!. La función de densidad para la variable aleatoria x está dada por:
s
1
s e
f ( s) para s 0
( )
EX EX
2
E X ; V X = 2
V X
UNIVERSIDAD
PANAMERICANA
Distribución Gamma:
La distribución gamma puede describir el tiempo que transcurre para que falle un
componente eléctrico. La mayoría de los componentes eléctricos de un tipo particular
fallará aproximadamente en el mismo momento, pero unos pocos tardarán más en fallar.
La distribución gamma es una distribución continua que se define por sus parámetros de
forma y escala. La distribución gamma de 3 parámetros se define por sus parámetros de
forma, escala y valor umbral. Por ejemplo, en la siguiente gráfica, la distribución gamma se
define según valores de forma y escala diferentes cuando el valor umbral se establece en
0.0. Note que la mayoría de los valores en una distribución gamma ocurren cercanos entre
sí, pero algunos valores quedan al final de la cola superior.
UNIVERSIDAD
PANAMERICANA
Distribución Weibull:
En 1939 W. Weibull desarrolló una distribución para describir la fuerza de rompimiento de varios
materiales. Muchos estadísticos han mostrado que la distribución de Weibull puede ser usada
para describir tiempos de fallas para diferentes tipos de sistemas. Modela las características de
vida de los componentes y partes.
La distribución de Weibull tiene dos parámetros: uno de escala β y uno de forma α. La función de
distribución acumulada está dada por:
1 e
para s 0 1 e
para s 0
El parámetro de forma describe la manera en que se distribuyen los datos. Una forma de 3
se aproxima a una curva normal. Un valor de forma bajo, por ejemplo 1, da una curva con
asimetría hacia la derecha. Un valor de forma alto, por ejemplo 10, da una curva con
asimetría hacia la izquierda.
UNIVERSIDAD
PANAMERICANA
La escala, o vida característica, es el percentil 63.2 de los datos. La escala define la posición
de la curva de Weibull respecto del valor de umbral, lo cual es similar a la manera en que la
media define la posición de una curva normal. Una escala de 20, por ejemplo, indica que el
63.2% de los equipos fallará en las primeras 20 horas después del tiempo umbral.
UNIVERSIDAD
PANAMERICANA
Aplicación de Weibull
R (t ) e (t / )
A partir de R(t) se puede definir la probabilidad de que un componente falle antes del momento t,
que se indica como F(t).
F (t ) 1 R(t )
( t / )
F (t ) 1 e
A partir de la función F(t) también se puede definir la función de densidad de probabilidad f(t) que
muestra la probabilidad que tiene un componente genérico de fallar en un tiempo dado.
1 t
f (t ) t e
UNIVERSIDAD
PANAMERICANA
Una forma simple de ver la distribución de los fallos y poder analizar es representar
gráficamente la función de Weibull. La gráfica muestra como varia F(t) respecto al tiempo.
¿Cómo determinar los valores de probabilidad acumulada de fallo Fi para método gráfico?
i 0.3
Fi
n 0.4
Donde i es el número de tiempo de fallo y n el tamaño de la muestra.
Estimar β y α:
x 0.5772
=e
S 6
donde :
n n
ln(ti ) ln(ti ) x
2
x i 1
S2 i 1
n n 1
UNIVERSIDAD
PANAMERICANA
Cálculos y análisis
Para calcular valores de fiabilidad o percentiles de fallo se recurre ala formula de Weibull
sustituyendo los parámetros obtenidos.
t p ln(1 p )
1
UNIVERSIDAD
PANAMERICANA
Ejemplo:
Calcular:
a) Porcentaje de fallos a las 3 horas
b) Tiempo en el que habrán fallado el 5% de los componentes
n
i
1
ti
0.22
Ln(ti) Fi (Ln(ti)-x)^2
-1.5141277 0.06730769 2.68336472
ln(t ) i
1.23970164
2 0.5 -0.6931472 0.16346154 0.66768075 x i 1
= =0.123970
3 0.88 -0.1278334 0.25961538 0.06340502
n 10
n
4 1 0 0.35576923 0.0153686
ln(t ) x
2
5 1.32 0.27763174 0.45192308 0.02361188 i
5.34665099
6 1.33 0.28517894 0.54807692 0.02598827 S
2 i 1
0.59407
7 1.54 0.43178242 0.64423077 0.09474838 n 1 9
8 1.76 0.56531381 0.74038462 0.19478421 S 0.7707
9 2.5 0.91629073 0.83653846 0.62777188
10 3 1.09861229 0.93269231 0.94992727
1.23970164 5.34665099 = 1.664
i 0.3 S 6
Fi
n 0.4
=e
x 0.5772
e 0.1239 0.57721.664 1.60
UNIVERSIDAD
PANAMERICANA
1.66
Ejemplo:
1.60
Calcular:
a) Porcentaje de fallos a las 3 horas
( t / )
F (t ) 1 e
(3/1.60)1.66
F (t ) 1 e 0.94
t p ln(1 p )
1
Distribución Normal:
(Descubierta por A. de Moivre 1667-1754 pero usualmente atribuida a Karl Gauss, 1777-1855). La
variable aleatoria X tiene una distribución normal si hay dos número µ y σ con σ>0 tal que la pdf
de X puede ser escrita como:
s
2
1 2
2
E X ; V X 2
La distribución normal es la distribución más reconocida por la gente por su “forma de campana”.
Su pdf y CDF son mostradas en la figura con media 0 y desviación estándar de 1.
Distribución Normal:
La integral de esta función no puede hacerse de forma exacta, solo de forma aproximada
mediante métodos numéricos.
Si x es una variable aleatoria normal utilizando un cambio de variable se pueden utilizar las tablas
para la distribución normal estándar (media cero y varianza 1) para el cálculo de probabilidades.
x
z
Distribución Normal:
La distribución Normal puede ser usada para aproximar la distribución Binomial y la de Poisson.
Una regla común es para aproximar la binomial cuando n es más grande que 30. Si np<5 entonces
usa la de Poisson para la aproximación con λ=np. Si np≥5 entonces usa la normal para la
aproximación con µ= np y σ2= npq. Además la distribución normal puede ser usada para
aproximar la de Poisson cuando λ>30.
Cuando se usa la distribución normal para aproximar una distribución discreta (Poisson ,
Binomial) el intervalo entre los valores discretos es usualmente dividido. Por ejemplo si deseas
aproximar la probabilidad que una variable aleatoria de Poisson tome los valores sobre 29, 30 ó 31
con una distribución continua, entonces determinaríamos la probabilidad que la variable aleatoria
continua esté entre 28.5 y 31.5
UNIVERSIDAD
PANAMERICANA
Un examen de opción múltiple tiene 80 preguntas cada una con 4 respuestas posibles de las que
solo una es correcta. ¿Cuál es la probabilidad de que solamente adivinando se obtengan de 25 a
30 respuestas correctas de los problemas para los que el estudiante no tiene conocimiento?
x1 0.5 x2 0.5
z1 ; z2
np; 2 np (1 p)
D. Normal: D. Binomial
Pr(25 x 30) Pr(25 x 30)
(80)(0.25) 20; 2 (80)(0.25)(0.75) 15 80
f ( x 25) (0.25)25 (0.75)55 =0.0433
25
25 0.5 20 30 0.5 20 .
z1 1.16; z 2 2.71 .
15 15
.
Una compañía de software ha recibido quejas referentes al servicio al cliente. Quieren analizar las
llamadas a servicio al cliente y se tiene evidencia que es una variable de Poisson con una media de
120 llamadas en una hora. A la compañía le gustaría conocer la probabilidad de que en una hora
140 o más llamadas sean recibidas.
120; 2 120
D. Normal: D. Poisson
Pr( x 140) Pr( x 140) 1 Pr( x 140)
(d) Que porcentaje de tiempos de sobrevivencia es más corto que tu mejor tiempo?
UNIVERSIDAD
PANAMERICANA
Distribución Lognormal:
Un tiempo de falla se distribuye según una lognromal si el logaritmo del tiempo de falla está
normalmente distribuido.
La distribución lognormal es una distribución sesgada hacia la derecha. La pdf comienza en cero
aumenta hasta su moda y disminuye después.
La transformación más común se hace tomando el logaritmo natural, pero también se puede
hacer con los logaritmos base 2 y base 10.
Y= x1 x2 x3
ln Y=ln x1 + ln x2 + ln x3
t y 2
/ 2
2 2 2
media e ; var= e(2 )
e 1
UNIVERSIDAD
PANAMERICANA
Muchos análisis estadísticos, como el análisis de capacidad, se basan en el supuesto de que los
datos siguen una distribución particular. Identificación de distribución individual ofrece gráficas
de probabilidad y pruebas de bondad de ajuste.
Minitab:
Para ejecutar la identificación de distribución individual, elija Estadísticas > Herramientas de
calidad > Identificación de la distribución individual.
Mean
Median
68 70 72 74 76
UNIVERSIDAD
PANAMERICANA
Mean
Median
60 64 68 72 76