Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
Población. Es el conjunto que contiene todos los elementos cuyas características son sujetas a
estudio estadístico.
Muestra. Es una porción de la población que es estudiada para conocer dicha población.
Muestra Aleatoria. Es una muestra obtenida de la población de tal manera que todas la posibles
muestras de igual número de observaciones tienen la misma probabilidad de ser seleccionada. En
otras palabras, en una muestra aleatoria solo el azar es “quien decide” que elementos están en la
muestra, se debe evitar cualquier procedimiento que involucre la participación del investigador ya
que inconscientemente se podría sesgar el muestreo y se no representativo de la población.
SE dice que una muestra aleatoria es representativa de la población cuando tiene las mismas
características de la población, y el muestreo aleatorio es la manera con mayor posibilidades de
obtener una muestra representativa.
Usando la función RAND( ) de excel, se pueden obtener números aleatorios entre cero y uno. Si N
es la cantidad de elementos en la población, a cada elemento se le asocia un número entero:
1,2,3,..,N. Luego el número u se multiplica por N redondeando el resultado a un número entero y el
entero uN es el número del sujeto que aparecerá en la muestra, lo anterior es fácil hacerlo si ya se
tiene una base de datos de la población.
Ejemplo 1.1 Por ejemplo, considerar una población de 10000 individuos y se desea obtener una
muestra aleatoria de tamaño 30 (n=30). Suponer que se tiene una base de datos y a cada individuo
se le asigna un número entero del 1 al 10000. Luego, se toma un número aleatorio u entre 0 y 1 y se
multiplica por 10000 (N=10000). El resultado de esta multiplicación se redondea a un entero y
dicho entero define al individuo que estará en la muestra aleatoria. La tabla 1.1 muestra estos
resultados.
número u uN número u uN
1 0.97537197 9754 16 0.930653595 9307
2 0.14914612 1491 17 0.334356922 3344
3 0.160281994 1603 18 0.959487122 9595
4 0.340792721 3408 19 0.226122407 2261
5 0.136635177 1366 20 0.406375603 4064
6 0.105396701 1054 21 0.357417274 3574
7 0.312324594 3123 22 0.894526636 8945
8 0.551166065 5512 23 0.631573485 6316
9 0.213248581 2132 24 0.32159864 3216
10 0.525638103 5256 25 0.254873258 2549
11 0.503133393 5031 26 0.237454795 2375
12 0.484383856 4844 27 0.222994209 2230
13 0.345172578 3452 28 0.35617673 3562
14 0.151211124 1512 29 0.980770273 9808
15 0.255772103 2558 30 0.719251547 7193
Tabla 1.1 Individuos de una muestra aleatoria de tamaño 30.
La columna uN de la tabla 1.1 muestra a los individuos que estarán en la muestra, por ejemplo en
esta muestra aleatoria están los individuos: 9754, 1491, 1603, 3408, etc. Por supuesto es posible que
uN sea cero, se ignora este resultado así también se ignoran valores de uN repetidos. Este
procedimiento no es más que la simulación de un sorteo.
Por otra parte, los paquetes estadísticos pueden dar directamente una muestra aleatoria. No siempre
se puede aplicar este procedimiento, sobre el tema hay libros que hablan exclusivamente sobre
técnicas de muestreo. En esas obras el lector interesado puede conocer otras técnicas de muestreo.
En los análisis estadísticos siempre supondremos que la muestra es aleatoria.
Organización de datos
Cuando ya se tienen los datos de la muestra, ahora de deben organizar de una manera conveniente
para que el investigador pueda percibir rápidamente el comportamiento de la distribución de los
datos. Para esto se debe hacer una tabla de frecuencias, que básicamente es un agrupamiento de
datos en grupos pequeños llamados intervalos de clase o clases. La tabla de frecuencias se hace con
datos que son números reales correspondientes a una variable continua.
Tablas de Frecuencias. Los datos se agrupan en clases o intervalos de clase, luego se cuenta el
número de observaciones que “caen” en cada clase.
Número de clases. Sea n el tamaño o número de observaciones en la muestra. Luego el número de
clases se puede determinar como n , se recomiendan de 5 a 20 clases. Hay otros criterios pero
usaremos este que es muy sencillo. También se recomiendan un mínimo de 5 clases y un máximo
de 20 clases y evitar si es posible las clases vacías.
Longitud de los intervalos de clase. Sea MAX la mayor observación de la muestra y sea MIN la
MAX − MIN
menor observación de la muestra. Luego, la longitud de clase es , lo anterior es
número de clases
considerando que todas las clases tienen la misma longitud.
Ejemplo 1.2 Lo siguiente son horas por semana dedicadas a ver TV de una muestra de 50
estudiantes.
16, 24, 22, 21, 23, 25, 15, 18, 20, 20, 22, 18, 15, 23, 21, 21, 21, 15, 21, 22, 21, 18, 21, 18, 22,
21, 23, 19, 19, 20, 19, 22, 22, 20, 22, 21, 19, 20, 20, 15, 22, 21, 17, 23, 20, 20, 18, 19, 20, 18.
Se hará una tabla de frecuencias, primero debemos definir el número de clases. Tenemos que 50
= 7.071 que redondeando a entero nos da 7, luego usaremos 7 clases. Ahora para obtener la longitud
de clase, tenemos que MAX = 25 y MIN = 15 de donde longitud de clase = (25 – 15)/7 = 1.43, es
recomendable redondear la longitud de clase hacia arriba para asegurar que el valor máximo de la
muestra se incluya en la última clase.
Entonces, la primera clase es el intervalo que inicia en el valor mínimo de la muestra que es 15
hasta el valor 15 + 1.43 = 16.43, es decir el límite inferior de la primera clase es 15 y el límite
superior es 16.43. Luego, el límite superior de la primera clase es el límite inferior de la segunda, tal
que los límites de la segunda clase son: 16.43 y 16.43 + 1.43 = 17.86, y así sucesivamente. Otro
valor importante es el valor central de cada clase que se llama marca de clase, éste se obtiene
promediando los límites del intervalo de clase. Para la primera clase se tiene que la marca de clase
es (15 + 16.43)/2 = 15.715, para la segunda clase se tiene que la marca de clase es (16.43 + 17.86)/2
= 17.145, etc. La tabla 1.2 muestra los intervalos de clase y sus marcas de clase en las primeras tres
columnas.
Técnicas Gráficas
Histograma. Es una gráfica de la tabla de frecuencias, colocando una barra rectangular sobre cada
intervalo de clase. La longitud de la base es la longitud del intervalo de clase y la altura es la
frecuencia de clase.
20
Frequency
10
horas
0.25
0.20
0.15
Density
0.10
0.05
0.00
horas
50
Cumulative Frequency
40
30
20
10
horas
100
Cumulative Percent
50
horas
Cuartiles.
El Primer cuartil (q1). Es el valor cuya frecuencia acumulada relativa es el 25% de los datos.
El segundo cuartil (q2). Es el valor cuya frecuencia acumulada relativa es el 50% de los datos.
El Tercer cuartil (q3). Es el valor cuya frecuencia acumulada relativa es el 75% de los datos. El
rango intercuartílico es q3 – q1.
Ejemplo 1.3. Considerando los datos del ejemplo 1.2, después de ordenarlos en forma creciente
quedan como se muestra en la tabla 1.4.
15 15 15 15 16 17 18 18 18 18
18 18 19 19 19 19 19 20 20 20
20 20 20 20 20 20 21 21 21 21
21 21 21 21 21 21 22 22 22 22
22 22 22 22 23 23 23 23 24 25
Tabla 1.4 Datos del ejemplo 1.2 ordenados en forma creciente.
Para estimar el primer cuartil vemos que el 25% de 50 es 12.5, entonces el primer cuartil debe ser
un valor entre el valor de la posición 12 y 13, es decir un valor entre 18 y 19 de donde el primer
cuartil es aproximadamente 18.5. Si el 25% del número de datos es exactamente un entero entonces
el cuartil es el dato ubicado en esa posición. Para estimar el segundo cuartil se procede de manera
similar, aquí vemos que el 50% de 50 es 25 de donde se tiene que el valor estimado del segundo
cuartil es el valor ubicado en la posición 25 es decir 20. Si la ubicación del segundo cuartil es
intermedio a dos valores estos se promedian (al segundo cuartil también se le llama mediana).
Finalmente, para estimar el tercer cuartil tenemos que el 75% de 50 es 37.5 de donde el tercer
cuartil debe ser un valor entre el ubicado en la posición 37 y 38, de donde promediando se tiene
(22+22)/2=22.
Los cuartiles se pueden estimar en paquetes estadísticos y en excel con la función QUARTILE pero
pueden dar valores diferentes a los obtenidos aquí porque usan otros algoritmos más sofisticados.
Finalmente mencionaremos otra apoyo gráfico de datos, es el diagrama de caja. Para elaborar el
diagrama de caja es necesario un paquete estadístico ya que hacerlo a mano no es fácil. La figura
1.1 muestra el diagrama de caja para los datos del ejemplo 1.2.
Bo xplot of ho ra s
15 20 25
horas
En la parte inferior se tiene la escala de los valores de los datos que en este caso son horas.
Aparece un rectángulo cuyo lado vertical izquierdo esta sobre el primer cuartil, el lado
vertical derecho esta sobre el tercer cuartil. La línea vertical intermedia esta sobre el
segundo cuartil. La distancia entre el primer y tercer cuartil se llama rango intercuartílico y
es una medida de dispersión. Luego, más allá de los lados verticales del rectángulo se
extienden segmentos de recta horizontales que llegan hasta el valor mínimo (máximo) de
los datos o hasta 1.5 veces el rango intercuartílico (esta distancia se mide desde el primer
cuartil o segundo cuatil lo que corresponda). Cuando hay valores todavía más allá de 1.5
veces el rango intercuartílico (desde el primer o segundo cuartil) se colocan puntos, lo cual
es un indicador de valores atípicos o valores muy alejados.
El diagrama de caja da una idea de la dispersión de los datos, este diagrama también se
puede colocar verticalmente.
MEDIDAS NUMÉRICAS PARA DATOS NO AGRUPADOS
Tenemos datos no agrupados cuando conocemos todos y cada uno de los valores de la
muestra. Para este caso consideraremos algunas medidas numéricas importantes.
Medidas de Tendencia central. Estas medidas tratan de obtener el valor numérico ubicado
en el centro de los datos, de tal manera que este valor sea representativo de todos los datos
de la muestra. Por medida representativa de todos los datos queremos decir que la mayoría
de los valores están alrededor de esta medida de tendencia central. Las medidas de
tendencia central son: la media aritmética o promedio, la mediana y la moda.
n
∑ xi
i =1
La media aritmética. Es la suma de los datos dividida entre n. Es decir; X = .
n
Ejemplo 2.1. Calcular la media aritmética de los datos de las horas de TV que abajo se
presentan nuevamente en la tabla 2.1 donde X = (15+15+ ... +23+24+25)/50 = 1003/50 =
20.06 horas, es decir el promedio o media aritmética de los datos es 20.06 horas. En excel,
el promedio de datos se obtiene con la función AVERAGE.
15 15 15 15 16 17 18 18 18 18
18 18 19 19 19 19 19 20 20 20
20 20 20 20 20 20 21 21 21 21
21 21 21 21 21 21 22 22 22 22
22 22 22 22 23 23 23 23 24 25
Tabla 2.1 Datos del ejemplo 1.4 (horas a la semana dedicadas a ver tv).
La mediana ( X~ ) . Es el valor cuya frecuencia acumulada relativa es el 50% (el 2º. cuartil).
Para calcular la mediana, primero se ordenan los datos en forma creciente (de menor a
mayor). Luego, si n es un número impar la mediana es el valor ubicado en el “centro” de
los datos. Si n es par, la mediana se obtiene promediando los dos valores centrales.
Ejemplo 2.2. Para calcular la mediana de los datos del ejemplo 1.2 se tiene que es un
número par de datos, de donde se tienen dos valores centrales que después de ordenarlos en
formas creciente son 20, 20 que al promediarlos da 20, de donde se tiene que la mediana de
~
( )
estos datos es igual a 20 horas X = 20 . En excel, la mediana se obtiene con la función
MEDIAN.
La Moda. La moda es el valor con mayor frecuencia, es decir el valor que se repite el
mayor número de veces. Continuando con los datos del ejemplo 1.2 se tiene que el valor
que más se repite es el 21 (se repite 10 veces), entonces la moda es igual a 21 horas (Mo =
21). La desventaja de la moda es que con frecuencia hay empates, es decir hay más de un
valor que se repite el mismo número de veces y en esos caso la moda ya no tiene sentido
como medida de tendencia central, igualmente cuando todos los datos de la muestra son
diferentes. Por tal razón, las medidas de tendencia central más utilizadas son la media
aritmética y la mediana. La moda se puede obtener en excel con la función MODE.
~
Analizando X y X se observa que X es muy sensible a valores atípicos muy alejados.
~
Por ejemplo considere los valores: 25 30 38 42 50 52 60 se tiene que X = 42.43 y X =
42 ambos con valores muy similares. Pero si se cambia el 60 por 200 se tienen los datos: 25
~
30 38 42 50 52 200 de donde X = 62.43 y X = 42, donde es fácil apreciar que en este
caso la mediana es más representativa que la media ya que la mayoría de los datos están
alrededor de 42 y no alrededor de 62.43 (observe que el valor de la mediana no cambió).
~
Entonces, X es sensible a valores atípicos mientras que X no lo es.
Otra medida de tendencia central es la media ponderada. Suponer que se tiene n valores (x1,
x2, ..., xn) y cada uno con diferente ponderación (w1, w2, ..., wn) respectivamente. Dode la
ponderación generalmente es un reflejo de la importancia de los datos, por ejemplo a mayor
ponderación mayor importancia o valor tiene ese dato. Luego, el promedio ponderado se
n
∑ xi wi
i =1
define como: X p = n
. Por ejemplo, suponer que una persona fue evaluada (en
∑ wi
i =1
escala de 0 a 100) de acuerdo a sus conocimientos obteniendo un 80 en historia, 65 en
matemáticas y 73 en economía. La ponderaciones son: 6 de historia, 8 de matemáticas y 5
de economía. Luego su promedio ponderado es:
X p = [80(6)+65(8)+73(5)]/(6+8+5) = 71.84
15 15 15 15 16 17 18 18 18 18
18 18 19 19 19 19 19 20 20 20
20 20 20 20 20 20 21 21 21 21
21 21 21 21 21 21 22 22 22 22
22 22 22 22 23 23 23 23 24 25
en excel se puede obtener el rango con la ecuación de funciones MAX – MIN, donde
MAX es la función que obtiene el valor máximo de los datos y la función MIN obtiene el
valor mínimo de los datos.
La otra medida importante de dispersión es la varianza, pero hay dos tipos de varianza, la
varianza poblacional y la varianza muestral. La primera se aplica cuando lo que se tiene es
toda la población (cosa en es poco usual). La varianza muestral se aplica cuando se tiene
una muestra aleatoria de la población y con ella se desea estimar la varianza poblacional.
( )
La varianza poblacional σ 2 . Se obtiene mediante la fórmula;
n N
2
∑ (x i − X ) ∑ ( x i )2
2
σ2 = i =1
= i =1
− (X )
n n
La varianza muestral S( )2
. Se obtiene mediante la fórmula;
n 2
n
2 2 ⎛ n ⎞
∑ ( xi − X ) n∑ ( xi ) − ⎜⎜ ∑ xi ⎟⎟
2
S = i =1
= i =1 ⎝ i =1 ⎠
n −1 n(n − 1)
también se puede usar la siguiente relación para obtener S2 es función de σ2: S2 = nσ2/(n-
1).
Ejemplo 2.3 Continuando con los datos del ejemplo 1.2 se tiene que para obtener σ2 se
tiene
(15 2 + 15 2 + ! + 24 2 + 25 2
σ2 = − 20.06 2 = 407.86 – 20.062 = 5.4564 horas2 (aquí se
50
supone que los datos son toda la población). En excel la varianza poblacional se obtiene
con la función VARP. Pero, so lo que se desea es la varianza muestral (es una muestra lo
que se tiene), entonces S2 = 50(5.4564)/49 = 5.5678 horas2. En excel, la función VAR
obtiene la varianza poblacional. Por supuesto, mientras mayor sea n (el tamaño de la
muestra) la diferencia entre S2 y σ2 se reduce y es prácticamente lo mismo.
La figura 2.1 muestra un análisis descriptivo de los datos del ejemplo 1.2 generado por el
paquete minitab, donde incluye: histograma, diagrama de caja, prueba de ajuste a la
distribución normal, quartiles e intervalos de confianza para la media, mediana y desviación
estándar.
Descriptive Statistics
Variable: horas
Mean 20.0600
StDev 2.3596
Variance 5.56776
Skewnes s -5.2E-01
Kurtos is 4.59E-02
N 50
15 17 19 21 23 25
Minim um 15.0000
1s t Quartile 18.7500
Median 20.0000
3rd Quartile 22.0000
95% Confidence Interval for Mu Maxim um 25.0000
95% Confidence Interval for Mu
19.3894 20.7306
19.5 20.0 20.5 21.0 95% Confidence Interval for Sigm a
1.9711 2.9404
95% Confidence Interval for Median
95% Confidence Interval for Median
20.0000 21.0000
La Media aritmetica.
k
∑ xi f i
i =1
X = donde: xi es la marca de clase i (la marca de clase es el valor
n
central de un intervalo de clase), fi es la frecuencia de clase i, k es el número de clases y n
k
= ∑ f i , es decir, el número total de observaciones.
i =1
Observe que esta fórmula es un promedio ponderado de las marcas de clase, donde la
ponderación es la frecuencia absoluta del intervalo de clase.
Ejemplo 2.4. Considere los datos agrupados en la siguiente tabla de frecuencia
clase f MC
10--20 5 15
20--30 18 25
30--40 10 35
40--50 7 45
50--60 2 55
La Mediana.
⎡n ⎤
⎢ − (∑ f )1 ⎥C
2
X~ = L1 + ⎣ ⎦ donde L1 es el límite real inferior de la clase mediana. La
f X~
clase mediana se obtiene sumando la frecuencia de la 1a. clase, más la frecuencia de la 2a.
clase, etc... hasta incluir la mitad de la frecuencia total, siendo esta última clase la clase
mediana. n es el total de las frecuencias. (∑ f )1 es la suma de las frecuencias de las clases
anteriores de la clase mediana. f X~ es la frecuencia de la clase mediana. C es la amplitud de
la clase mediana, es decir la longitud de dicho intervalo de clase.
Ejemplo 2.5. Considerando los datos agrupados en la siguiente tabla de frecuencia, se tiene
que la clase mediana es la 2ª. clase ya que es al primera que acumula por lo menos el 50%
de los datos. Entonces, L1 = 20, n = 42, (∑ f )1 = 5, C = 10, f X~ = 18.
clase f MC
10--20 5 15
20--30 18 25
30--40 10 35
40--50 7 45
50--60 2 55
⎡ 42 ⎤
~ ⎢⎣ 2 − 5⎥⎦10
Luego X = 20 + = 28.89
18
La Moda
⎡ ∆1 ⎤
M o = L2 + ⎢ ⎥C L2 es el límite real inferior de la clase modal (clase de
⎣ ∆1 + ∆ 2 ⎦
mayor frecuencia). ∆ 1 es la diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase que le antecede. ∆ 2 es la diferencia entre la frecuencia de la clase modal y la
frecuencia de la clase que le precede. C es la amplitud de la clase modal.
Ejemplo 2.6. Considerando los datos agrupados en la siguiente tabla de frecuencia, se tiene
que la clase modal es la 2ª. clase ya que es la que tiene mayor frecuencia absoluta.
Entonces, L2 = 20, ∆1 = 18-5 = 13 , ∆2 = 18-10 = 8, C = 10.
clase f MC
10--20 5 15
20--30 18 25
30--40 10 35
40--50 7 45
50--60 2 55
⎡ 13 ⎤
Luego M o = 20 + ⎢ ⎥10 = 24.19
⎣13 + 8 ⎦
La Varianza.
k
∑ ( xi − X ) 2 ( f i )
Varianza Poblacional: σ2 = i =1
o equivalentemente
n
k
∑ (xi2 )( f i )
σ2 = i =1
− ( X )2
n
xi es la marca de clase i, fi es la frecuancia de clase i, k es el número de clases y n =
k
∑ f i , es decir, el número total de observaciones.
i =1
k
∑ ( x i − X )2 ( f i )
⎛ n ⎞
Varianza Muestral: S 2 = i =1
, o también S 2 = σ 2 ⎜ ⎟.
n −1 ⎝ n −1⎠
clase f MC
10--20 5 15
20--30 18 25
30--40 10 35
40--50 7 45
50--60 2 55
∑ xi2 f i = [(152)5+(252)18+(352)10+(452)7+(552)2]/42 = 1067.857
n
Variable Aleatoria (v.a.). Para nosotros, una variable al eatoria es una característica de
interés en una población, con la condición de que se puede medir numéricamente.
Rango de una v.a. Es el conjunto de valores que realmente puede tomar una v.a. Hay dos
tipos de variables aleatorias: variable continua y variable discreta.
Una variable aleatoria (v.a.) es discreta cuando el rango de la v.a. (los valores que puede
tomar la v.a.) son tales que se pueden enum erar en una list a y agotar todos los valores
posibles. Para nuestro curso, el rango de una v.a. discreta es un conjunto de números
enteros positivos o no negativos.
La distribución uniforme discreta modela los casos en donde todos los resultados posibles
tienen la m isma probabilidad de oc urrir, y se aplica pa ra modelar jue gos de azar. Por
ejemplo, se lanza un dado legal y se registra el núm ero que aparece con la cara h acia
arriba, luego el rango de X = núm ero que aparece con la cara hacia arriba, es
{1,2,3,4,5,6} (observe que aquí k = 6). Es decir, el rango es el conjunto de núm eros
posibles en un dado legal. Com o es razonabl e pensar que todos los núm eros tienen la
misma posibilid ad de o currir, en tonces P( X = i) = 1/6 para i = 1,2,3,4,5,6. Luego, el
número promedio que aparece por lanzamiento es: E(X) = (6+1)/2 = 3.5 con una varianza
de V(X) = (6 2 – 1)/12 = 2.9167 y una desviación estándar de σ X = 2.9167 = 1.7078.
P P
La Distribución Bernoulli.
La distribución Bernoulli está asociada con un experim ento aleatorio denom inado
experimento Bernoulli. Un expe rimento Bernoulli es aquél, en donde son sólo dos los
resultados posibles del experim ento, a estos resultados posibles los llamaremos “éxito” y
“fracaso”. Por ejemplo, lanzar una moneda y registrar el lado que cae hacia arrib a es un
experimento Bernoulli, porque sólo hay dos resultados posibles. Otro ejemplo, al analizar
un producto para saber si está defectuoso o no está defectuoso es un experim ento
Bernoulli, ya que hay dos resultados posibles: “defectuoso” y “no defectuoso”.
Ejemplo 3.1
Se analizará un producto para determ inar si es “defectuoso” o “no defectuoso”. Se
sabe que el 11% de la producción sale defectuosa. Si se define la v.a. X = núm ero de
artículos defectuosos que resultan, obten er la función de probabilidad de X. Para obtener
f(x), observe que el rango de X es {1, 0}, solo dos resultados posibles, entonces X tiene
distribución Bernoulli, donde P( X=1) = P(“defectuoso”) = 0.11 y P( X=0) = P(“no
defectuoso”) = 1-0.11 = 0.89; luego:
⎧011
. si x = 1
⎪
f(x) = ⎨0.89 si x = 0
⎪0 de otro modo.
⎩
además, E(X) = 0.11 y Var(X) = 0.11(0.89) = 0.0979.
La Distribución Binomial.
La distribución binom ial se aplica en la siguiente situ ación. Suponer que un
experimento Bernoulli se repite n veces de manera independiente , donde la probabilidad
U U
de que ocurra “éxito” es p. Sea la v.a. X definida com o X = al núm ero de “éxitos”
ocurridos en las n repeticiones del experim ento Bernoulli. Entonces, la v.a. X tiene
distribución binomial con parámetros n, p. Observe que el rango de X es: {0, 1, 2, L , n}.
⎛ n⎞ ⎛ n⎞
El sím bolo ⎜ ⎟ (se lee: “com binaciones de n en x”) y se define como ⎜ ⎟=
⎝ x⎠ ⎝ x⎠
n!
con 0 ≤ x ≤ n, donde r! = 1 ×2×3×4×L×r, y 0!=1. El símbolo r!, s e lee “ r
x !( n − x )!
factorial” o “el factorial de r”. Además, E(X) = np y Var(X) = np(1-p).
⎛ n⎞
El cálcu lo de ⎜ ⎟ ya está in tegrado en las calcu ladoras cien tíficas de bolsillo y no
⎝ x⎠
debe ser problema obtener el resultado de estos cálculos.
Ejemplo 3.2
Se tiene un lote de 50 artículos, d e los cuales se sabe que el 10 % de la producción es
defectuoso. Al hacer la inspección del lote, obtener la probabilidad de que hay a a) 3
artículos d efectuosos, b) a lo m ás 4 artícu los defectuo sos, c) m ás de 3 artículos
defectuosos, d) el prom edio del núm ero de artículos defectuosos, e) la varianza y la
desviación estándar del núm ero de artículos de fectuosos, f) determ inar cuantos artículos
buenos se deben tener de refacción por lo te, de tal manera que haya una probabilidad de
por lo menos 90% de que se repongan todos los productos defectuosos.
i= 0 ⎝ ⎠ ⎝ 0⎠ ⎝ 1⎠
i=0
i
⎛ 50⎞ 48 ⎛ 50⎞ 47 ⎛ 50⎞
⎜ ⎟ ( 0.1) ( 0.9) + ⎜ ⎟ ( 0.1) ( 0.9) + ⎜ ⎟ ( 0.1) ( 0.9) ≈ 0.4312.
2 3 4 46
⎝ 2⎠ ⎝ 3⎠ ⎝ 4⎠
Estas probabilidades se pueden obtener en una hoja de cálculo como excel.
Para resolver el c), tenemos que:
⎡ 3 ⎤ ⎡⎛ 50⎞ ⎛ 50⎞
P(X > 3) = 1 - P(X ≤ 3) = 1 - ⎢∑ f (i )⎥ = 1 - ⎢⎜ ⎟ ( 01 . ) 1 ( 0.9) +
49
. ) 0 ( 0.9) 50 + ⎜ ⎟ ( 01
⎢⎣i = 0 ⎥⎦ ⎣⎝ 0 ⎠ ⎝ 1⎠
⎛ 50⎞ 48 ⎛ 50⎞ 47 ⎤
⎜ ⎟ ( 0.1) ( 0.9) + ⎜ ⎟ ( 01
2
. ) 3 ( 0.9) ⎥ ≈ 1 - 0.2503 = 0.7497.
⎝ 2⎠ ⎝ 3⎠ ⎦
Para resolver el d), de la definici ón de distribución binom ial tenemos que: E(X) = np
= (50)(0.1) = 5.0; es decir, en prom edio salen 5 artí culos defectuosos por lote.
Igualmente, para resolver el e), tenemos de la definición de distribución binomial, que:
Var(X) = np(1-p) = (50)(0.1)(0.9) = 4.5 y σ X = 4.5 ≈ 2.121
B B
Para resolver el f), sea w el núm ero de artículos buenos que se tienen de refacción y
sea X el núm ero de productos defectuosos en el lote. Para que se puedan reponer todos
los productos defectuosos se tiene que X no debe superar a w, es decir X ≤ w. Como se
desea que haya una probabilidad de por lo m enos 90% de que se repongan todos los
productos defectuosos el lote entonces se debe cum plir que P( X ≤ w) ≥ 0.90. Luego, w
debe ser un valor tal q ue su probabilid ad acu mulada sea por lo m enos 0.9, la tabla 1
muestra valores de w con su correspondiente probabilidad acumulada.
De la tabla 1 (hecha en excel) vemos que el valor mínimo de w que tiene probabilidad
acumulada m ayor a 90% es 8, de donde se deduce que w = 8, es decir con 8 artículos
buenos de refacción se pueden su stituir todos lo s artículos defectuosos del lote con un a
probabilidad de 94.2% (¿Cuántos artículos son necesarios si se desea una probabilidad de
por lo menos 99%?)
Las figuras 3.1 y 3.2 ilustran el aspecto de la gráfica de una función de probabilidad
para una distribución binomial.
G rá fic a d e la D is trib u c ió n B in o m ia l c o n n = 2 0
0 .3
0 .2 5 p = 0 .1
p = 0 .9
0 .2 p = 0 .5
probabilidad
0 .1 5
0 .1
0 .0 5
0
0 5 10 15 20 25
n ú m e ro d e é x ito s
G r á fi c a d e l a D i str i b u c i ó n B i n o m i a l c o n p = 0 . 1
0 .7
0 .6 n= 5
0 .5
probabilidad
0 .4
0 .3
n= 50
0 .2 n= 100
0 .1
0
0 10 20 30 40
n ú m e r o d e é x it o s
La Distribución Geométrica.
La distribución geométrica se aplica en la siguiente situación. Suponer que se tiene un
experimento Bernoulli c on probabilidad de “éxito” p. Suponer que este experim ento de
Bernoulli se repite independi entemente hasta que por prim era vez ocurre el “éxito”. Sea
la v.a. X = número de repeticiones realizadas hasta que ocurre el “éxito” por primera vez.
Entonces, X tiene distribución geométrica con parámetro p. Observe que el rango de X es
{1, 2, 3, L }.
Por ejem plo, suponga que se tienen 5 llaves , de las cuales sólo una llave pone a
funcionar u na m áquina. Una perso na saca (a l azar) con reposición un a llav e e intenta
encender la m áquina con dicha llave, entonces , el núm ero de intent os realizados h asta
que se enciende la máquina tiene distribución geométrica con parámetro p = 1/5. Observe
que, como se saca una llave con rep osición, entonces los in tentos son independien tes y
son experim entos de Bernoulli, ya que hay dos resultados posibles: enciende o no
enciende la máquina.
1 1⎛1 ⎞
además, E(X) = y Var(X) = ⎜ − 1⎟ .
p p⎝ p ⎠
Ejemplo 3.3
Se tiene un equipo de transm isión. Se sabe que la señal enviada se recibe
incorrectamente el 5.7 % de la s veces. Se envía una señal consecutivamente hasta que se
recibe en forma incorrecta. Calcular la probabilidad de que se hagan; a) 5 envíos, b) a lo
más 5 enví os, c) m ás de 3 envíos, d) m ás de 2 y m enos de 7 envíos, e) calcular el
promedio del número de envíos, f) calcular la varianza y desviación estándar del núm ero
de envíos.
Sea X = núm ero de envíos hechos hasta que se recib e in correctamente la señ al.
Entonces, suponiendo resultados independiente s en cada señal para el a), tenem os que:
4
P(X = 5) = f(5) = (0.943) (0.057) ≈ 0.045, para el b) tenemos que
P P
5
∑ f (i ) = (0.943)
0 2 3
P(X ≤ 5) = P P (0.057) + (0.943)(0.057) +(0.943) (0.057) +(0.943) (0.057)
P P P P
i =1
4
+(0.943) (0.057) ≈ 0.2543, para el c) tenemos que:
P P
0 2
P(X > 3) = 1 - P( X ≤ 3) = 1 - [(0.943) (0.057) + (0.943)(0.057) +(0.943) (0.057)] ≈ P P P P
6
∑ f (i ) = (0.943)
2 3
Para el d) tenemos que: P(2 < X < 7) = P P (0.057) + (0.943) (0.057) +
P P
i= 3
4 5
(0.943) (0.057) + (0.943) (0.057) ≈ 0.18606, para el e), de la de finición de distribución
P P P P
geométrica, tenemos que E( X) = 1/0.057 ≈ 17.54; entonces, en prom edio se hacen 17.5
envíos hasta que se recibe la se ñal incor rectamente. Ta mbién de la definición de
distribución geométrica se tiene que para el f), Var(X) = (1/0.057)[(1/0.057) - 1] ≈ 290.24
y σ X ≈ 17.037.
B B
La figura 3. 3 m uestra el asp ecto de la f unción de probabilidad de una distribución
geométrica variando el valor de p.
G r á f i c a d e l a D is t r ib u c ió n G e o m é t r ic a
1 .2
p = 0 .9
1
probabilidad
0 .8
0 .6
p = 0 .5
0 .4
0 .2 p = 0 .1
0
0 5 10 15 20 25
n ú m e r o d e in te n to s
La Distribución Poisson
La distribución Poisson se us a para modelar el núm ero de ocurrencias de un evento
que denom inaremos “éxito” en un intervalo específico de tiem po o de espacio. Por
ejemplo, la distribución Poisson podría utilizarse para m odelar el número de clientes por
hora que llegan a un negocio, el nú mero de imperfecciones por 100 m en un cab le de
acero, el núm ero de defectos por 5 m 2 de lám ina, el núm ero de partículas de plom o por
P P
m 3 de aire, etc.
P P
λx e −λ
f ( x) = para x = 0, 1, 2, 3, L
x!
0 .4
0 .3 5 λ = 1.0
0 .3
probabilidad
0 .2 5
λ = 5.0
0 .2
0 .1 5
λ = 10.0
0 .1
0 .0 5
0
0 5 10 15 20 25
n ú m e r o d e é x it o s
Ejemplo 3.4
Suponer qu e el núm ero de im perfecciones en una lám ina de acero tiene una
distribución Poisson con un pro medio de 5 im perfecciones por 7 m 2 . Calcu lar la P P