REPÚBLICA BOLIVARIANA DE VENEZUELA
UNIVERSIDAD RAFAEL BELLOSO CHACÍN
FACULTAD DE INGENIERÍA
ESCUELA DE INGENIERÍA INDUSTRIAL
CÁTEDRA: ESTADÍSTICA
SECCIÓN: T-511
UNIDAD IV:
INFERENCIA ESTADÍSTICA
PRESENTADO POR:
Br. POLANCO, Ariana
Maracaibo, (marzo) de 2022
TEMA 1. Distribución Muéstrales
En estadística, la distribución muestral es lo que resulta de considerar todas
las muestras posibles que pueden ser tomadas de una población. Su estudio permite
calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro
de la población.
1. Error Típico
En estadística, un error típico se refiere a las variaciones que son a menudo
inevitables. El error típico puede definirse también como la variación producida por
factores distorsionantes tanto conocidos como desconocidos.
¿cómo calcular el error típico en estadística?
Se halla dividiendo la desviación típica entre la raíz cuadrada del número de
individuos de la muestra. Un buen intervalo para estimar la media de la población es el
que resulta de restar y sumar a la media de la muestra dos veces su error estándar.
EJEMPLO:
En una muestra de 64 alumnos con una puntuación media de 56 y una
desviación típica de 24, el error estándar de la media es 24: 8 = 3, y los extremos del
intervalo de estimación para la media de las puntuaciones en la población serían 56 –
(2 x 3) = 50 y 56 + (2 x 3) = 62.
2. Distribuciones Muéstrales: para una media, para diferencia entre dos
medias.
2.1. Distribución Muestral Para Una Media
Consiste en tomar de una población todas las muestras posibles de tamaño n.
Luego se calcula las medias de cada muestra, obteniéndose así la distribución de todas
las medias muéstrales posibles. Para hallar la distribución muestral de la media se
procede de la siguiente manera:
Se seleccionan desde la población todas las muestras posibles de tamaño n.
En cada muestra se calcula la media muestral.
A partir de dicha información se construye la distribución de frecuencias relativas
de las medias muéstrales, la cual se define como su distribución muestral.
EJEMPLO:
La población de las temperaturas corporales de adultos sanos tiene
media y desviación típica de . Si obtenemos una muestra
de personas. ¿Cuál es la probabilidad de que la media de la temperatura de la
muestra sea menor o igual a ?
1. Calcular la distribución normal a la que se aproxima la media
Dado que la muestra es grande podemos aplicar el teorema del límite central.
Por lo tanto, la media de la muestra se aproxima a una distribución normal con los
parámetros
Esto es
2. Aproximar la probabilidad usando la distribución normal obtenida
Calculamos la probabilidad de obtener una temperatura menor o igual
a . Para ello, calculamos el valor equivalente en la variable normal tipificada
2.2. Distribución muestral para diferencia entre dos medias
Suponga que se tienen dos poblaciones distintas, la primera con media y
1
desviación estándar 1, y la segunda con media y desviación estándar
2 2. Más
aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra
independiente aleatoria de tamaño n2 de la segunda población; se calcula la media
muestral para cada muestra y la diferencia entre dichas medias. La colección de todas
esas diferencias se llama distribución muestral de las diferencias entre medias o
la distribución muestral del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las
poblaciones son normales, entonces la distribución muestral de medias es normal sin
importar los tamaños de las muestras.
En ejercicios anteriores se había demostrado que y que , por lo
que no es difícil deducir
que y que . La fórmula que se utilizará
para el cálculo de probabilidad del estadístico de diferencia de medias es:
EJEMPLO:
Uno de los principales fabricantes de televisores compra los tubos de rayos
catódicos a dos compañías. Los tubos de la compañía A tienen una vida media de 7.2
años con una desviación estándar de 0.8 años, mientras que los de la B tienen una vida
media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de
que una muestra aleatoria de 34 tubos de la compañía A tenga una vida promedio de al
menos un año más que la de una muestra aleatoria de 40 tubos de la compañía B.
Solución:
Datos:
A = 7.2 años
B = 6.7 años
A = 0.8 años
B = 0.7 años
nA = 34 tubos
nB = 40 tubos
= ?
TEMA 2. Estimación
1. Diferencia entre Estimación y Estimador
Estimación
La estimación es la determinación de un elemento o factor. Esto, usualmente
tomando como referencia una base o conjunto de datos.
En otras palabras, la estimación es un cálculo que se realiza a partir de la
evaluación estadística. Dicho estudio suele efectuarse sobre una muestra y no sobre
toda la población objetivo.
Para llevar a cabo una estimación, entonces, es necesario primero contar con
una serie de datos. Además, es común que los investigadores se sustenten en un
marco teórico. Por ejemplo, podemos estimar la inflación definiéndola como la
diferencia entre los precios (de la economía) del periodo A y los precios del periodo B.
Entonces, se calcula una variación porcentual entre los datos registrados en ambos
puntos del tiempo.
Estimador
Valor numérico extraído de las observaciones de una muestra que se aproxima
en más grande o menor medida al parámetro poblacional sobre el que se desea
investigar.
Por ejemplo, si se desea conocer el precio medio poblacional de un artículo
(parámetro desconocido) se recogen observaciones del precio de dicho artículo en
diversos establecimientos (muestra) pudiendo utilizarse la media aritmética de las
observaciones para estimar el precio medio poblacional.
2. Estimador Puntual
Una estimación puntual de un parámetro poblacional es cuando se utiliza un
único valor para estimar ese parámetro, es decir, se usa un punto en concreto de la
muestra para estimar el valor deseado.
La estimación puntual utiliza la información de una muestra para llegar a un solo
número, que estima el parámetro de interés. La estimación se realiza mediante un
estimador. Un estimador es una regla que expresa cómo calcular la estimación,
basándose en la información de la muestra y se enuncia mediante una fórmula.
La media muestral X es un estimador puntual de la media poblacional µ,
igualmente la varianza muestral S2 es un estimador de la varianza poblacional σ2.
EJEMPLO:
Se quiere hacer un estudio sobre el precio del galón de gasolina en Bogotá,
teniendo en cuenta que varía según la fecha, la estación y la localización. Los datos
tomados en una muestra aleatoria de cinco estaciones en junio del 2011 son: 7995,
8310, 8180, 7958, 8099 a.
La estimación puntual para el precio promedio es:
X=
∑ X i = 40542 =8108,4=μ
n 5
3. Por Intervalos: para una media y para diferencia entre dos medias.
3.1. Por Intervalos para una media.
Para construir el intervalo de confianza para la media poblacional se tendrán en
cuenta tres situaciones diferentes:
a) Cuando la población es normal y la varianza de la población es conocida
b) Cuando la población es normal y la varianza de la población es desconocida
c) Cuando la población no es normal
A. Intervalo de confianza para la media μ de una población normal con una
desviación típica conocida σ.
La distribución muestral de X, es normal con media µ y varianza conocida σ2,
entonces se establece un intervalo de confianza (1- α) de la siguiente manera:
X −Z α α X ≤ μ ≤ X +Z α α X
2 2
Si la población es conocida, el intervalo se define como:
X ±Z
σX
√n √ N−n
N −1
Si la población es desconocida, el intervalo se define como:
σX
X ±Z
√n
EJEMPLO:
Se recibe un cargamento muy grande de bultos de arroz provenientes de una
importación y se desea estimar el peso promedio (µ) de dichos bultos, para esto se
toma una muestra aleatoria de 100 bultos, que arrojan un peso promedio de X =21.6
kilos. Se sabe por experiencias anteriores, que la desviación estándar de dichos
cargamentos es de σ =5.1 kilos. Se quiere un nivel de confianza en la estimación del
95% (1-α) =0.95
Observemos que no se sabe si el peso de los bultos de arroz se distribuye
normalmente, pero como n=100 (muestra grande ya que n>30), entonces, las medias
muéstrales se comportarán aproximadamente de acuerdo a una distribución normal,
según el teorema del límite central.
Solución:
La variable X: peso de los bultos de arroz
La información dada es
n = 100
X =21.6 kilos
σ =5.1 kilos
por lo tanto, el tamaño de la población N es desconocida, entonces para
reemplazar en el intervalo, solo falta encontrar el valor Z en la tabla normal para un
nivel de confianza de 0.95.
Como el nivel de confianza siempre queda en el centro de la distribución
entonces:
1 – 0,95 = 0,05 0,05/2 = 0,025 α/2 = 0,025
En la tabla normal para un área de 0,025 el valor de Z es ±1,96
Si reemplazamos en la fórmula tenemos:
21,6 ± (1,96)5.1/√100 = 21,6 ±0,9996
El intervalo queda entonces en la forma:
20,6 ≤ µ ≤ 22,6
La expresión anterior, significa que con una confianza del 95% se estima que el
peso promedio de todo el cargamento fluctúa entre 20,6 y 22,6 kilos.
B. Intervalo de confianza para la media μ de una población con desviación
típica desconocida
Cuando se tiene una muestra aleatoria de tamaño n ≤ 30 (muestra pequeña)
cuyas observaciones son tomadas de una distribución normal con varianza
desconocida, es posible hallar un intervalo en el cual se encuentra la media poblacional
a un nivel de confianza (1 – α) con la varianza muestral S2. Este intervalo se determina
así:
X −t n−1 , α α X ≤ μ ≤ X +t n−1 , α α X
2 2
En el anterior intervalo n 1, 2 t − α corresponde al valor de una distribución t-
student con n-1 grados de libertad.
En la forma resumida el intervalo es:
SX
X ±t
√n
EJEMPLO:
El sueldo mensual promedio de una muestra de 11 empleados, en el área
administrativa de cierta multinacional, es de $1 500 000 y la desviación típica muestral
es de 100 000. Si las observaciones son tomadas de una distribución normal, determine
el intervalo de confianza al 90% para el salario promedio de todos los empleados del
área administrativa de la empresa.
Primero escribamos los datos dados:
X: Salario mensual de los empleados del área administrativa
S= 100000
n= 11
Luego calculamos α/2
100(1-α) %= 90%
1 –α=0.90
α=1- 0.90
α=0.10
α/2 = 0.05
Ahora hallamos el factor de confiabilidad, t n- 1, α/2: es decir t 10 (0,05) = 1,8125
En la tabla de distribución de t student, se ubica en la parte vertical los grados de
libertad de la primera columna y las probabilidades en la primera fila. Donde se
encuentra el valor de 1,8125.
Reemplazando los valores en la fórmula se obtiene:
100000
1500000 ±1,8125
√ 11
1500000 ±54648.93
1445351,069 ≤ μ ≤ 1554648,93
Luego podemos concluir con un nivel de confianza del 95% que el salario
promedio de la empresa en el área administrativa, está entre $1´445.351,069 y $1
554.648,93.
3.2. Por Intervalos para diferencia entre dos medias.
Sean X11, X12, … X1n1, Una muestra aleatoria de n1 observaciones tomadas de
una primera población con valor esperado µ1, y varianza σ21; y X21, X22, …X2n2, una
muestra aleatoria de n2 observaciones tomada de la segunda población con valor
esperando µ2 y varianza σ22. Si X 1 y X 2 son las medias muéstrales, la estadística
X ₁− X ₂ es un estimador puntual de µ₁−µ ₂, y tiene una distribución normal si las dos
poblaciones son normales, o aproximadamente normal si cumple con las condiciones
del teorema del límite central (tamaños de muestras relativamente grande). Por lo tanto,
X ₁−X ₂−(µ ₁−µ ₂)
Z=
√ σ ²₁ σ ²₂
+
n ₁ n₂
Para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que
sean desconocidas, se debe probar si son iguales o diferentes. Cada uno de estos tres
casos se analizarán por separado.
A. Varianzas conocidas pero diferentes, σ1 ≠ σ₂
Si las varianzas poblacionales son conocidas y diferentes, los pasos a seguir
para encontrar el intervalo de confianza son los siguientes:
a) El estadístico usado como estimador puntual de la diferencia de medias µ₁−µ ₂ ,
será X ₁− X ₂ , que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable normal estándar
X ₁−X ₂−(µ ₁−µ ₂)
Z=
dada por:
√ σ ²₁ σ ²₂
+
n ₁ n₂
c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de
confianza que se quiere considerar.
TEOREMA. Si X ₁− X ₂ son las medias de dos muestras aleatorias independientes de
tamaño n1 y n2 tomadas de poblacionales que tienen varianzas conocidas σ21 y σ22 ,
respectivamente, entonces el intervalo de confianza para µ₁−µ ₂ es:
√ √
2 2
σ ₁ σ ₂ σ ²₁ σ ²₂
X ₁− X ₂−Z + 2 ≤ µ₁−µ ₂ ≤ X ₁−X ₂+Z +
n 1
n n ₁ n₂
EJEMPLO:
construya un intervalo de confianza del 94% para la diferencia real entre las
duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la
primera marca dio una duración media de 418 horas, y una muestra de 50 focos de otra
marca dieron una duración media de 402 horas. Las desviaciones estándares de las
dos poblaciones son de 26 horas y 22 horas, respectivamente.
Solución:
Tenemos que:
X ₁=418
X ₂=402
σ ₁=26
σ ₂=22
n ₁=40
n ₂=50
Z=1.88
El intervalo de confianza es, entonces:
X ₁− X ₂−Z
√ σ 2₁ σ2₂
n
1
+ 2 ≤ µ₁−µ ₂ ≤ X ₁−X ₂+Z
n √σ ²₁ σ ²₂
+
n ₁ n₂
√ √
2 2 2 2
26 22 26 22
(418−402)−1.88 + ≤ µ ₁−µ ₂≤( 418−402)+1.88 +
40 50 40 50
6.3 ≤ µ ₁−µ ₂≤ 25.7
B. Varianza desconocidas e iguales (σ 2 ₁=σ 2 ₁=σ 2 )
Cuando las varianzas son desconocidas, se debe realizar previamente una
prueba estadística para verificar si estas son iguales o diferentes. Para hacerlo
debemos hacer uso de la distribución F, bien sea mediante el cálculo de la probabilidad
de que la muestra tomada provenga de dos poblaciones con varianzas iguales, o
mediante el uso de un intervalo de confianza para la relación de dos varianzas
Como se desconocen las varianzas de la población, se usan las varianzas de
las muestras como estimadores.
El procedimiento a seguir para el cálculo del intervalo de confianza para la
diferencia de dos medias será el siguiente;
a) El estadístico usado como estimador puntual de la diferencia de medias µ₁−µ ₂
será X ₁− X ₂ , que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable definida como (se
usa t en caso de muestras pequeñas):
X ₁−X ₂−(µ₁−µ ₂)
t=
Sₚ
√ 1 1
+
n₁ n₂
donde Sₚ es un estimador combinado de las S ₂ , “mejor” que S2 ₁, S ²₂ por separado,
donde
2 ( n ₁−1 ) S 2 ₁+(n ₂−1)S ²₂
S ₚ=
n₁+n ₂−2
c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de
confianza que se quiere considerar y los grados de libertad que se calculan
g . L=n ₁+n ₂−2
De nuevo, manipulando la expresión anterior en forma similar al caso previo se
llega al siguiente teorema que nos define el intervalo de confianza para la diferencia
entre dos medias µ₁−µ ₂ con varianzas desconocidas pero iguales:
TEOREMA. Si X₁, X₂, S²₁, S²₂ son las medias y las varianzas de dos muestras
aleatorias de tamaños n₁, n₂, respectivamente, tomadas de dos poblaciones normales e
independientes con varianzas desconocidas pero iguales, entonces un intervalo de
confianza para la diferencia entre medias µ₁−µ ₂ es:
X ₁− X ₂−t Sₚ
√ 1 1
1
n n
+ 2 ≤ µ ₁−µ ₂ ≤ X ₁−X ₂+ t Sₚ
1
√+
n₁ n₂
1
EJEMPLO:
La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de nicotina de dos marcas de cigarrillos.
MARCA A MARCA B
nᵢ 10 8
Xᵢ 3.1 2.7
Sᵢ 0.5 0.7
Suponiendo que los conjuntos de datos provenientes de muestras tomadas al
azar de poblaciones normales con varianzas desconocidas e iguales, construya un
intervalo de confianza del 95% para la diferencia real de nicotina de las dos marcas.
Solución. Como las varianzas son iguales, calculamos S ² ₚ que está dado por
( n ₁−1 ) S 2 ₁+(n ₂−1)S ²₂
S2 ₚ=
n₁+n ₂−2
2 ( 9 ) 0.52 + ( 7 ) ²
S ₚ= =0.355⇒ Sₚ=0.596
16
El intervalo de confianza del 95% está dado por (t (0.025, g.l.16) = 2.21):
X ₁− X ₂−t Sₚ
√ 1 1
1
n n
+ 2 ≤ µ ₁−µ ₂ ≤ X ₁−X ₂+ t Sₚ
n
1
₁
+
√n
1
₂
3.1−2.7−2.21(0.596)
√ 1 1
+ ≤ µ ₁−µ ₂≤ 3.1−2.7+2.21 ( 0.596 )
10 8
+
√
1 1
10 8
−0.2 ≤ µ ₁−µ ₂≤ 1.0
C. Varianzas desconocidas y diferentes σ²1 ≠ σ²₂
a) El estadístico usado como estimador puntual de la diferencia de medias µ₁−µ ₂ ,
será X ₁− X ₂ , que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable t definida como:
X ₁−X ₂−(µ₁−µ ₂)
t=
√ S ²₁ S ²₂
+
n ₁ n₂
c) El intervalo de confianza está dado por el siguiente teorema, basado en la
distribución t con n grados de libertad.
TEOREMA. Si X₁, X₂, S²₁, S²₂ son las medias y las varianzas de dos muestras
aleatorias de tamaños n₁, n₂, respectivamente, tomadas de dos poblaciones normales e
independientes con varianzas desconocidas y diferentes, entonces un intervalo de
confianza para la diferencia entre medias µ₁−µ ₂ es (nuevamente para el caso de
muestras pequeñas):
X ₁− X ₂−t
√ S ²₁ S ²₂
n
1
√
+ 2 ≤ µ ₁−µ ₂ ≤ X ₁−X ₂+ t
n
S ²₁ S ²₂
+
n₁ n₂
Los grados de libertad están dados por:
2 2
S ₁ S ₂
( + )
n₁ n₂
v=
[( ) ] [( ) ]
S2 ₁ S2 ₂
² ²
n₁ n₂
+
(n ₁−1) (n ₂−1)
NOTA: El valor obtenido re redondea al entero más próximo.
Nota: Si llevamos a cabo un cálculo de intervalo de confianza para diferencia de
medias, suponiendo que las varianzas no son iguales, en el dado caso que, si lo fueran,
perderíamos muy poco, y el intervalo obtenido sería un poco conservador.
El caso de que supongamos que las varianzas son iguales, siendo que no lo son,
nos produce un error mayor que puede ser considerable por lo que una sugerencia es
usar varianzas diferentes como regla general.
PROBLEMA:
n Media S
12 443.3 24.8
Cierto metal se produce, por lo común, mediante un
12 451.4 14.9
proceso estándar. Se desarrolla un nuevo proceso en el
que se añade una aleación a la producción del metal. Los
fabricantes se encuentran interesados en estimar la verdadera diferencia entre las
tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal
se seleccionan 12 ejemplares y cada uno de estos se somete a una tensión hasta que
se rompe.
La siguiente tabla muestra las tensiones de ruptura de los ejemplares, en
kilogramos por centímetros cuadrado:
Proceso 44 401 47 421 459 43 481 41 456 427 45 445
estándar 6 6 8 1 9
Proceso nuevo 46 448 43 465 429 47 453 45 427 468 45 447
2 5 2 9 2
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales
e independientes, obtener los intervalos de confianza estimados del 95% y 99% para la
diferencia entre los dos procesos. Interprete los resultados.
Solución: Calculamos los valores que necesitamos.
2 2
S ₁ S ₂
( + )
n₁ n₂
v= =18
[ ][ ]
( Sn ₁₁ ) ² + ( Sn ₂₂ ) ²
2 2
(n ₁−1) (n ₂−1)
95% de confianza
t ₁=2.10 ,t ₂=−2.10
X ₁− X ₂−t
√ S ²₁ S ²₂
n 1
+ 2 ≤ µ ₁−µ ₂ ≤ X ₁−X ₂+ t
n √S ²₁ S ²₂
+
n₁ n₂
Por lo tanto:
√ √
2 2
14.9 24.8 14.9² 24.8²
(451.4−443.3)−2.10 + ≤ µ₁−µ ₂ ≤(451.4−443.3)+2.10 +
12 12 12 12
−25.65 ≤ µ ₁−µ ₂≤ 9.49
y para 99% de confianza
t ₁=2.88 ,t ₂=−2.88
√ √
2 2
14.9 24.8 14.9² 24.8²
(451.4−443.3)−2.88 + ≤ µ₁−µ ₂ ≤(451.4−443.3)+2.88 +
12 12 12 12
−32.16 ≤ µ ₁−µ ₂≤ 15.99