Estadística y Muestras Aleatorias
Estadística y Muestras Aleatorias
Distribuciones Muestrales
FCE UNCuyo - CP-LA
Estadı́stica I
FCE UNCuyo
Contador Público - Licenciatura en Administración
2023
Población
Se llama población al conjunto total de elementos en discusión y sobre los
cuáles se quiere tener alguna información.
Esta información está representada por una (o varias) variable aleatoria.
Ejemplo 2
En un estudio sobre los salarios docentes en Argentina.
La población es el conjunto de docentes a los que va dirigido el
estudio (primarios, secundarios, etc.).
La variable aleatoria que representa a esta población en este estudio es
el salario ($) de un docente.
Ejemplo 2 (continuación)
En un estudio para estimar el ı́ndice de precios al consumidor (IPC).
La población es el conjunto de todos los artı́culos seleccionados a
tal efecto.
Las variables aleatorias de interés son el conjunto de precios y
demandas de cada artı́culo.
Muestra Aleatoria
Una muestra aleatoria de tamaño n de una población representada por la
variable aleatoria X con función densidad de probabilidad fX es un
conjunto de n variables aleatorias independientes, cada una con idéntica
distribución a la de la población.
Simbólicamente se indica,
iid
X1 , X2 , . . . , Xn muestra aleatoria ⇔ X1 , X2 , . . . , Xn ∼ fX (·, θ)
Muestra Aleatoria
Si la población consiste en N objetos y de éstos se seleccionan n, el
proceso de muestreo debe asegurar que cada muestra de tamaño n
tenga la misma probabilidad de ser seleccionada.
Si N es finito, se deben elegir los n elementos con reposición.
Si N es infinito, población infinita, es decir suficientemente grande, se
eligen los n elementos sin reemplazo. Hay que garantizar la
independencia en la selección.
Si cada uno de los n valores proviene del resultado de un experimento,
como por ejemplo arrojar una moneda y observar la cara que muestra,
este experimento debe repetirse n veces bajo las mismas condiciones
para asegurar la independencia en los valores obtenidos.
Demostración
fX1 , X2 ,..., Xn (x1 , x2 , . . . , xn ; θ) = fX1 (x1 ; θ) · fX2 (x2 ; θ) · . . . · fXn (xn ; θ)
indep.
n
Y n
Y
= fXi (xi ; θ) = fX (xi ; θ)
i.d.
i=1 i=1
Ejemplo 3
Supongamos que X = (X1 , X2 , . . . , Xn )T es una muestra aleatoria de una
población normal, X1 ∼ N(µ, σ 2 ).
Luego, su función densidad conjunta es:
n n
2
Y
2
Y 1 1
fX (x1 , x2 , . . . , xn ; µ, σ ) = fX (xi ; µ, σ ) = √ exp − 2 (xi − µ)2
2πσ 2 2σ
i=1 i=1
n n
!
1 1 X
= √ exp − 2 (xi − µ)2
2πσ 2 2σ
i=1
Gráfico de Barras
En un estudio sobre la pobreza se clasifica a las personas de una población en dos
categorı́as:
Definimos la variable aleatoria:
por debajo de la lı́nea de la pobreza (a)
X : S → R,
por encima de la lı́nea de la pobreza (b) {a} 7→ X ({a}) = 0
S = {a, b} {b} 7→ X ({b}) = 1
En una muestra observada (x1 , x2 , . . . , x1000 ) de unos y ceros obtenemos 225 ceros y 775
unos.
Estos resultados los ubicamos en una tabla:
Densidad empı́rica
Cuando la variable aleatoria es discreta, entonces la función que resulta de
asignar a cada valor de la variable su frecuencia relativa se llama función
densidad empı́rica
Densidad Empı́rica fe(x) = 0.225I{0} (x) + 0.775I{1} (x)
######################################
## Opción 1 - Frecuencia absoluta ##
######################################
barplot(table(datos), col=c("blue","red"),
names=c("Por debajo de la\n lı́nea de pobreza",
"Por encima de la\n lı́nea de pobreza"),
main="Datos sobre pobbreza",
ylim = c(0,1000),
ylab="Frecuencia absoluta"
)
######################################
## Opción 2 - Frecuencia relativa ##
######################################
barplot([Link], col=c("blue","red"),
names=c("Por debajo de la\n lı́nea de pobreza",
"Por encima de la\n lı́nea de pobreza"),
main="Datos sobre pobbreza",
ylim = c(0,1),
ylab="Frecuencia relativa"
)
Sectores Circulares
Continuando con el ejemplo de los Datos sobre pobreza.
X Frecuencia Frecuencia relativa
Por debajo de la lı́nea de pobreza (0) 225 0.225
Por encima de la lı́nea de pobreza (1) 775 0.775
pie(table(datos), col=c("blue","red"),
main="Datos sobre pobreza",
labels = c("Por debajo de la\n lı́nea de pobreza",
"Por encima de la\n lı́nea de pobreza")
)
Histogramas
Cuando el número de valores posibles de una variable discreta es grande o
cuando ésta es continua conviene agrupar los datos en clases.
Para esto se deben seleccionar los lı́mites de clase que definen los intervalos
de manera que la unión de todas las clases contenga a todas las
observaciones de la muestra.
El número de observaciones en cada clase se denomina frecuencia de clase y
la frecuencia relativa de clase se obtiene dividiendo aquella por el total de
datos.
La representación más frecuente para datos agrupados es el [Link]
bases son iguales a la amplitud del intervalo, y las alturas se determinan de
manera que su área sea proporcional a la frecuencia de cada clase. Las
alturas se pueden determinar considerando la frecuencia absoluta o relativa
de cada clase.
Histograma
En un estudio sobre el consumo de agua diario (en litros), se obtiene una muestra
de 40 familias.
Los valores se muestran en la tabla siguiente:
44.9 46.6 44.0 35.1 41.3 40.1 52.1 41.4 43.5 38.0
47.7 43.8 44.5 46.8 43.1 44.3 39.7 44.1 37.9 45.5
37.7 41.5 39.2 44.2 41.0 43.1 43.6 30.3 41.0 51.1
46.5 40.5 32.4 38.3 40.8 40.3 37.3 36.9 43.7 37.7
datos <- c(44.9, 46.6, 44.0, 35.1, 41.3, 40.1, 52.1, 41.4, 43.5,
38.0, 47.7, 43.8, 44.5, 46.8, 43.1, 44.3, 39.7, 44.1,
37.9, 45.5, 37.7, 41.5, 39.2, 44.2, 41.0, 43.1, 43.6,
30.3, 41.0, 51.1, 46.5, 40.5, 32.4, 38.3, 40.8, 40.3,
37.3, 36.9, 43.7, 37.7)
######################################
## Opción 1 - Frecuencia Absoluta ##
######################################
hz <- hist(datos, col = "red",
main = title("Histograma del consumo de agua"),
xlab = "Consumo de agua",
ylab = "Frecuencia absoluta")
datos <- c(44.9, 46.6, 44.0, 35.1, 41.3, 40.1, 52.1, 41.4, 43.5,
38.0, 47.7, 43.8, 44.5, 46.8, 43.1, 44.3, 39.7, 44.1,
37.9, 45.5, 37.7, 41.5, 39.2, 44.2, 41.0, 43.1, 43.6,
30.3, 41.0, 51.1, 46.5, 40.5, 32.4, 38.3, 40.8, 40.3,
37.3, 36.9, 43.7, 37.7)
######################################
## Opción 2 - Densidad empı́rica ##
######################################
hz <- hist(datos, col="red", freq = FALSE,
main = title("Histograma del consumo de agua"),
xlab = "Consumo de agua",
ylab = "Frecuencia absoluta")
Densidad Empı́rica
fe(x) = 0.010 I[30,35) (x) + 0.050 I[35,40) (x) + 0.105 I[40,45) (x) +
0.025 I[45,50) (x) + 0.010 I[50,55) (x)
fe(x) = 0.010 I[30,35) (x) + 0.050 I[35,40) (x) + 0.105 I[40,45) (x) +
0.025 I[45,50) (x) + 0.010 I[50,55) (x)
Estadı́stico
Problema: Estudiar una población con función densidad fX (., θ),
donde la familia a la que pertenece la densidad es conocida pero
contiene un parámetro θ desconocido.
Solución: Tomar una muestra aleatoria X1 , X2 , ..., Xn de esa densidad
y usar el valor de una función g (x1 , x2 , ..., xn ) como una estimación
del parámetro desconocido θ.
Esta función g (X1 , X2 , ..., Xn ) recibe el nombre de estadı́stico
Estadı́stico
Si X1 , X2 , . . . , Xn es una muestra aleatoria de tamaño n de una población
representada por la variable aleatoria X , se llama estadı́stico a cualquier
función T = l(X1 , X2 , . . . , Xn ) que no depende de parámetros
desconocidos.
T Estadı́stico ⇒ T = l(X1 , X2 , . . . , Xn )
Observaciones
Un estadı́stico es una función de variables aleatorias observables y en
consecuencia él mismo es una variable aleatoria.
Si la función densidad de la población de la cual proviene la muestra
(X1 , X2 , . . . , Xn ) depende del parámetro desconocido θ, entonces, la función
densidad del estadı́stico también depende del mismo parámetro θ.
Ejemplo 4
Sea X = (X1 , X2 , . . . , Xn )T una muestra aleatoria de una población con densidad
f (·, θ), donde θ es un parámetro desconocido y x = (x1 , x2 , . . . , xn ) una muestra
observada. Entonces:
1 T1 = X1 · X5 = l1 (X1 , X2 , . . . , Xn ) es un estadı́stico donde
l1 (x1 , x2 , . . . , xn ) = x1 · x5 es una estimación.
Pn
2 T2 = n1 i=1 Xi = l4 (X1 , X2 , . . . , Xn ) es un estadı́stico donde
l4 (x1 , x2 , . . . , xn ) = x1 + x2 + . . . xn es una estimación.
3 T3 = X1 + X2 + · · · + Xn − θ = l5 (X1 , X2 , . . . , Xn , θ) no es un estadı́stico
ya que l5 depende no sólo de las variables aleatorias observables
X1 , X2 , . . . , Xn sino también del parámetro desconocido θ.
E(X ) = E(X ) = µX
Demostración
n
! n n
1X 1X 1X 1
E(X ) = E Xi = E (Xi ) = µX = nµX = µX = E(X )
n i=1 n i=1 id n
i=1
n
var(X ) σ2
var(X ) = = X
n n
Demostración
n
! n n
1X 1 X 1 X 2 1 σ2
var(X ) = var Xi = 2
var (Xi ) = 2
σX = 2 nσX2 = X
n i=1 ind n i=1 id n i=1 n n
var(X )
=
n
E(T ) = n E(X ) = n µX
Demostración
n
! n n
X X X
E(T ) = E Xi = E (Xi ) = µX = n µX = n E(X )
id
i=1 i=1 i=1
Demostración
n
! n n
X X X
var(T ) = var Xi = var (Xi ) = σX2 = nσX2 = nvar(X )
ind id
i=1 i=1 i=1
Varianza Muestral
Hemos visto en unidades anteriores como medida de variabilidad de una
variable aleatoria a la varianza. La varianza la definimos como la
esperanza (“promedio pesado” por las probabilidades) del cuadrado del
desvı́o de la variable aleatoria respecto de la media poblacional, es decir
varianza muestral al estadı́stico
h 2 i
σ2 = E X − X
Varianza Muestral
Serı́a natural pensar que un representante en la muestra de esta medida fuese
considerar un promedio pesado por las frecuencias relativas de los cuadrados de
los desvı́os de cada valor observado de la muestra respecto de la media muestral,
este estadı́stico generalmente se denomina “Cuasi-Varianza” y su expresión es
n
1X 2
S˜2 = Xi − X
n
i=1
E(S˜2 ) 6= σ2
Varianza Muestral
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población representada
por la variable aleatoria X con densidad fX y X su media muestral,
entonces llamamos varianza muestral al estadı́stico
n
2 1 X 2
S = Xi − X
n−1
i=1
Demostración
n n
! !
2 1 X 2 1 X 2
E(S ) = E Xi − X = E Xi − X
n − 1 i=1 n−1 i=1
n n n
! !
1 X
2 2
1 X
2
X 2
= E Xi − 2Xi X + X = E Xi − 2X Xi + nX
n−1 i=1
n−1 i=1 i=1
n n
! !
1 X 2 1 X 2
= E Xi2 − 2X nX + nX = E Xi2 − nX
n−1 i=1
n−1 i=1
n n
! !
1 X 2 1 X 2
= E(Xi2 ) − nE(X ) = E(X 2 ) − nE(X )
n − 1 i=1 id n − 1
i=1
1 2
n
= nE(X 2 ) − nE(X ) = var(X ) + E2 (X ) − var(X ) − E2 (X )
n−1 n−1
n 2 var(X ) n 1
= var(X ) + E (X ) − − E2 (X ) = var(X ) 1 −
n−1 n n−1 n
n n−1 2
= var(X ) = var(X ) = σX
n−1 n
Demostración (alternativa)
n n h i2
2
X X
(Xi − X ) = (Xi − µ) − (X − µ)
i=1 i=1
n h i
2 2
X
= (Xi − µ) − 2(Xi − µ)(X − µ) + (X − µ))
i=1
n n n n
2 2
X X X X
= (Xi − µ) − 2(X − µ) Xi − µ + (X − µ))
i=1 i=1 i=1
n
2 2
X
= (Xi − µ) − 2(X − µ)[nX − nµ] + n(X − µ))
i=1
n
2 2 2
X
= (Xi − µ) − 2n(X − µ) + n(X − µ))
i=1
n
2 2
X
= (Xi − µ) − n(X − µ)
i=1
1 2
= var(X ) (n − 1) = var(X ) = σX
n−1
Estadı́stico de Orden i
Sea X la variable aleatoria definida en el espacio muestral S que representa
a la población, (X1 , X2 , . . . , Xn ) una muestra aleatoria proveniente de esta
población y gi la función de Rn en R definida por gi (a1 , a2 , . . . , an ) = a(i) ,
donde a(i) es el valor que ocupa el lugar i-ésimo cuando se ordenan los
números a1 , a2 , . . . , an de menor a mayor, i = 1, . . . , n.
X(i) = gi (X1 , X2 , . . . , Xn ), i = 1, . . . , n
Ejemplo 5
Dada una muestra observada (x1 , x2 , . . . , xn ) el valor del estadı́stico de orden i en
esta muestra es el número x(i) que resulta ser el valor que ocupa el lugar i-ésimo
cuando se ordena la muestra de menor a mayor.
En el ejemplo, (x1 , x2 , . . . , xn ) = (6, 4, 2, 10, 8):
x(3) = g3 (6, 4, 2, 10, 8) = 6
Mediana Muestral
Sea (X1 , X2 , . . . , Xn ) una muestra aleatoria proveniente de esta población,
llamamos mediana muestral a:
X( n+1 ) ; n impar
2
Xe0.5 = Me = Md =
X n + X( n +1)
(2)
2
; n par
2
Observación
Note que si n es par, la mediana muestral no es un estadı́stico de
orden.
datos <- c(15.3, 15.9, 17.4, 14.6, 15.6, 16.7, 16.1, 14.7,
17.7, 16.2, 18.7, 16.8, 17.8, 16.4, 16.9)
qqnorm(datos, col="blue",
xlab="Cuantiles poblacionales",
ylab="Cuantiles muestrales",
main="Gráfico cuantil-cuantil para datos")
qqline(datos, col="red")
Distribución de un estadı́stico
Un estadı́stico es una variable aleatoria y como tal tiene una distribución
de probabilidades. A la distribución de probabilidades de un estadı́stico se
le llama distribución del estadı́stico. Esta distribución es muy importante
para determinar que tan buena es la inferencia que se hace a partir de los
valores del estadı́stico. Si bien no se puede observar empı́ricamente, es
más bien un concepto teórico, podemos determinar la distribución de los
datos observados.
Distribución de un estadı́stico
A modo de ejemplo determinaremos la distribución de X a partir de
muestras de tamaño 2 con reemplazo de una variable aleatoria discreta X
(población) definida como:
X : ”Número de etiquetas de sostenibilidad obtenidas por los hoteles 5
estrellas de Mendoza” X (S) : {0, 1, 2, 3, 5}
cuya función de densidad es
1
fX (x) = I{ 0, 1, 2, 3, 5}(x)
5
Distribución de un estadı́stico
Determinaremos la esperanza y la varianza de esta variable aleatoria X .
1
E(X ) = · (0 + 1 + 2 + 3 + 5) = 2.2
5
Por tanto, se espera que, en promedio, los hoteles 5 estrellas tengan 2,2 etiquetas de
sostenibilidad.
Distribución de un Estadı́stico
Ahora determinaremos la distribución de X a partir de muestras de
tamaño 2 con reemplazo extraı́das de la variable aleatoria discreta X
Muestras (0,0) (0,1) (0,2) (0,3) (0,5) (1,0) (1,1) (1,2) (1,3) (1,5) (2,0) (2,1)
x 0 0.5 1 1.5 2.5 0.5 1 1.5 2 3 1 1.5
Muestras (2,2) (2,3) (2,5) (3,0) (3,1) (3,2) (3,3) (3,5) (5,0) (5,1) (5,2) (5,3)
x 2 2.5 3.5 1.5 2 2.5 3 4 2.5 3 3.5 4
Muestras (5,5)
x 5
Distribución de un Estadı́stico
Todas estas muestras tienen la misma probabilidad de ser obtenidas y son
1
25 muestras, entonces la probabilidad de cada una es . Luego, la
25
distribución del estadı́stico X se muestra en la tabla que sigue.
Distribución de un Estadı́stico
La esperanza de X es:
P 1 2 3 4
E(X ) = X ∈X (S) x · fX (x) = (0 + 5) + (0.5 + 3.5 + 4) + (1 + 2 + 3) + (1.5 + 2.5) = 2.2
25 25 25 25
La varianza de X es:
X
var(X ) = (x − E(X )2 · fX (x)
x∈X (S)
1 2 3 4
= (0 − 2.2)2 + (0.5 − 2.2)2 + (1 − 2.2)2 + (1.5 − 2.2)2 +
25 25 25 25
3 4 3 2
(2 − 2.2)2 + (2.5 − 2.2)2 + (3 − 2.2)2 + (3.5 − 2.2)2 +
25 25 25 25
2 1 2.96 var(X )
(4 − 2.2)2 + (5 − 2.2)2 = 1.48 = =
25 25 2 n
Distribución de un Estadı́stico
Ahora determinaremos la distribución de X a partir de muestras de
tamaño 3 con reemplazo extraı́das de la variable aleatoria discreta X
Muestras (0,0,0) (0,0,1) (0,0,2) (0,0,3) ... (5,5,1) (5,5,2) (5,5,3) (5,5,5)
x 0 0.33 0.67 1 ... 3.67 4 4.33 5
Distribución de un Estadı́stico
Todas estas muestras tienen la misma probabilidad de ser obtenidas y son
1
125 muestras, entonces la probabilidad de cada una es . Luego, la
125
distribución del estadı́stico X se muestra en la tabla que sigue.
1 3 6 9 10
Es decir: fX (x) = I{0,5} (x) + I{0.33,4,4.33} (x) + I{0.67,3.67} (x) + I{3.33} (x) + I{1,3} (x) +
125 125 125 125 125
12 15 16
I{1.33} (x) + I{1.67,2.33,2.67} (x) + I{2} (x)
125 125 125
Distribución de un Estadı́stico
La esperanza
P de X es:
E(X ) = X ∈X (S) x · fX (x) = 2.2
La varianza de X es:
X
var(X ) = (x − E(X )2 · fX (x)
x∈X (S)
2.96 var(X )
= 0.99 = =
3 n
σ2
2 ∼
X1 , . . . , Xn m.a. /E(X1 ) = µ ∧ var(X1 ) = σ ⇒ X → N µ,
n→∞ n
Bernoulli
Binomial
Poisson
Ejemplo 6 (TCL)
De acuerdo con la información que suministra una compañı́a de telefonı́a móvil en
Argentina, el pago mensual promedio de todos los abonados de la Ciudad de
Mendoza es de $1530 con una desviación tı́pica de $410. Se toma una muestra
de tamaño 36 de esa población ¿cuál es la probabilidad de que el pago promedio
sea inferior a 1500?
VAC
P(X < 1500) = P(X ≤ 1500) = FX̄ (1500)
≈ pnorm(1500, 1530, sqrt(410)) = 0.06922413
2 Población Poisson
n
X
X1 , . . . , Xn m.a. /X1 ∼ Pois(λ) ⇒ U = Xi / U ∼ Pois(nλ)
i=1
3 Población Normal
n
X
X1 , . . . , Xn m.a. /X1 ∼ N(µ, σ 2 ) ⇒ U = Xi / U ∼ N(nµ, nσ 2 )
i=1
σ2
2
X1 , . . . , Xn m.a. /X1 ∼ N(µ, σ ) ⇒ X ∼ N µ,
n
Observaciones
De lo anterior se desprende: X −µ
Z = √ ∼ N (0, 1)
σ/ n
X1 , . . . , Xn m.a. /X1 ∼ N(µ, σ 2 ) ⇒
σ2
Z = X − µ ∼ N 0,
n
S2
X1 , X2 , . . . , Xn m.a. / X1 ∼ N(µ, σ 2 ) ⇒ Q = (n − 1) ∼ χ2(n−1)
σ2
Donde χ2 es la distribución Chi-Cuadrada y (n − 1) es su parámetro
llamado “grados de libertad”.
Propiedad 1
Si bien no se demuestra, para analizar la distribución de una función de la
varianza S 2 de una muestra de una población normal, se deben considerar algunas
propiedades vinculadas a las distribuciones normales, tales como:
Si Z tiene una distribución Normal estándar, entonces Z 2 tiene una distribución
chi-cuadrado con un grado de libertad. En sı́mbolos,
Z ∼ N(0, 1) ⇒ Z 2 ∼ χ2 (1)
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 100 / 117
Distribuciones de Funciones de Muestras en una
Población Normal
Funciones Muestrales con Distribución t-Student
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 101 / 117
Distribuciones de Funciones de Muestras en una Población
Normal
Funciones Muestrales con Distribución t-Student
X −µ
X1 , X2 , . . . , Xn m.a. / X1 ∼ N(µ, σ 2 ) ⇒ T = √ ∼ t(n−1)
S/ n
Propiedad 2
Si bien, no se demuestra, dada una variable aleatoria normal estándar Z y Q una
variable aleatoria con distribución χ2 (k) y tales que Z y U son variables aleatorias
independientes. Entonces, T = √Z es una variable con distribución t-Student con k
U/k
grados de libertad.
Z
Z ∼ N(0, 1) ∧ Q ∼ χ2(k) ∧ Z , Q independientes ⇒ T = q ∼ t(k)
Q
k
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 102 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales Independientes
Funciones muestrales con distribución F de Fisher - Snedecor
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 103 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales Independientes
Funciones muestrales con distribución F de Fisher - Snedecor
SX2 /σX2
∧ X , Y ind. ⇒ F = ∼ F(n−1, m−1)
SY2 /σY2
Donde F es es la distribución “F de Snedecor” y n − 1 y m − 1 son sus parámetros
llamados “grados de libertad”
Propiedad 3
Si bien no se demuestra, el cociente de dos variables aleatorias chi-cuadrado
independientes divididas por sus grados de libertad es otra variable aleatoria con
distribución F de Fisher - Snedecor con los grados de libertad de las variables aleatorias
del numerador y denominador respectivamente.
U/n
U ∼ χ2(n) ∧ V ∼ χ2(m) ∧ U, V ind. ⇒ W = ∼ F(n,m)
V /m
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 104 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales Independientes
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 105 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales Independientes
Funciones de X − Y
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 106 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX y σY conocidos
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 107 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX y σY conocidos
Demostración
σ2
X1 , . . . , Xn m.a. / X1 ∼ N µX , σX2 ⇒ X ∼ N µX , X
n
σ2
Y1 , . . . , Ym m.a. / Y1 ∼ N µY , σY2 ⇒ Y ∼ N µY , Y
m
X , Y independientes ⇒ X = g (X1 , . . . , Xn ), Y = h(Y1 , . . . , Ym ) independientes
σ2 σ2
∴ X −Y ∼ N µX − µY , X + Y ⇒
n m
X − Y − (µX − µY )
Z = q
2 2
∼ N(0, 1)
σX σY
n
+ m
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 108 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX = σY desconocidos
(n − 1) SX2 + (m − 1) SY2
donde Sp2 =
n+m−2
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 109 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX = σY desconocidos
Demostración
X − Y − (µX − µY )
σX2 = σY2 = σ 2 ⇒ Z = q ∼ N(0, 1)
σ · n1 + m1
SX2 S2
QX = (n − 1) 2
∼ χ2(n−1) ∧ QY = (m − 1) Y2 ∼ χ2(m−1) ∧ QX , QY ind.
σ σ
(n − 1) SX2 + (m − 1) SY2
⇒ Q = QX + QY = ∼ χ2(n+m−2)
σ2
Z, Q ind
Z
∴ T = r ∼ χ2(n+m−2)
Prop 7 Q
n+m−2
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 110 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX = σY desconocidos
Demostración (continuación)
X − Y − (µX − µY ) X − Y − (µX − µY )
q q
Z σ · n1 + m1 1
n
+ m1
T = r = s = s
Q (n − 1) SX2 + (m − 1) SY2 (n − 1) SX2 + (m − 1) SY2
n+m−2 σ (n + m − 2)
2 (n + m − 2)
X − Y − (µX − µY )
q
1
+ m1
n X − Y − (µX − µY )
= = q ∼ χ2(n+m−2)
Sp S · 1+ 1p n m
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 111 / 117
Distribuciones de Funciones de Muestras en dos
Poblaciones Normales
2 2
Independientes
Funciones de X − Y con σX 6= σY desconocidos
donde 2
SX2 SY2
n + m
ν= (aproximación de Welch)
(SX2 /n)2 (SY2 /m)2
n−1 + m−1
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 112 / 117
Ejemplo 9
Los datos del Departamento de Agricultura indican que el consumo semestral de
manzanas de una mujer elegida aleatoriamente se distribuye según una normal de
media 19.9 libras y una desviación estándar de 3.4 libras; mientras que el
consumo semestral de manzanas de un hombre se distribuye normalmente con
una media de 20.7 libras y una desviación estándar de 3.2 libras.
Admitamos que se elige aleatoriamente a una mujer. ¿Qué proporción de las
mujeres tendrán un consumo de manzanas entre 19.4 y 20.3 libras? ¿Qué puede
comentar de este resultado?
Definimos las variables aleatorias
X : Consumo semestral de manzanas de la mujer (en libras)
X ∼ N(µX , σX2 ) donde µX = 19.9 y σX = 3.4
Y : Consumo semestral de manzanas del hombre (en libras)
Y ∼ N(µY , σY2 ) donde µY = 20.7 y σY = 3.2
P(19.4 < X < 20.3) = P(X < 20.3) − P(X ≤ 19.4) = P(X ≤ 20.3) − P(X ≤ 19.4)
= FX (20.3) − FX (19.4) = 0.1052835
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 113 / 117
Ejemplo 9 (continuación)
Los datos del Departamento de Agricultura indican que el consumo semestral de manzanas de
una mujer elegida aleatoriamente se distribuye según una normal de media 19.9 libras y una
desviación estándar de 3.4 libras; mientras que el consumo semestral de manzanas de un hombre
se distribuye normalmente con una media de 20.7 libras y una desviación estándar de 3.2 libras.
Supongamos que se eligen aleatoriamente dos muestras independientes de 30 mujeres y 35
hombres. ¿Cuál es la probabilidad que el consumo medio de manzanas de la mujer sea mayor
que el consumo medio de los hombres? ¿Qué puede comentar de este resultado?
Se seleccionan aleatoriamente las muestras
(X1 , X2 , · · · , Xn ) muestra aleatoria n = 30
(Y1 , Y2 , · · · , Ym ) muestra aleatoria m = 35
Recordando que
(X1 , X2 , · · · , Xn ) /Xi ∼ N(µX , σX2 ) ∧ (Y1 , Y2 , · · · , Ym ) /Yi ∼ N(µY , σY2 ) ∧ X , Y independientes
σ2 σ2
⇒ X − Y ∼ N µX − µY , nX + mY
P(X > Y ) = P(X − Y > 0) = 1 − P(X − Y ≤ 0) = 1 − FX −Y (0) = 1 − 0.8343853 = 0.1656147
En R: 1 − pnorm(0, mean = 19.9 − 20.7, sd = sqrt((3.42 )/30 + (3.22 )/35))
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 114 / 117
Ejemplo 9 (continuación)
El Departamento de Agricultura quisiera, para el caso de los hombres, que el consumo medio de
la muestra se desviara a lo más en 1.3 libras del verdadero consumo medio. ¿Con qué
probabilidad ocurre lo que el Departamento de Agricultura desea?
Recordando que
2
σY
(Y1 , Y2 , · · · , Ym ) m.a. /Yi ∼ N(µY , σY2 ) ⇒ Y ∼ N µY , m
En R:
pnorm(22, mean = 20.7, sd = 3.2/sqrt(35)) − pnorm(19.4, mean = 20.7, sd = 3.2/sqrt(35))
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 115 / 117
Ejemplo 9 (continuación)
Para el caso de las mujeres, ¿cuál es la probabilidad de que el desvı́o muestral en muestras de
tamaño 30 supere al desvı́o poblacional?
Recordando que
S2
(X1 , X2 , · · · , Xn ) m.a. /Xi ∼ N(µX , σX2 ) ⇒ Q = (n − 1) X2 ∼ χ2(n−1)
σX
! !
SX2 SX2
P SX2 > σX2 = P
P(SX > σX ) = >1 =P (n − 1) > (n − 1) = P(Q > n − 1)
σX2 σX2
= 1 − P(Q ≤ n − 1) = 1 − P(Q ≤ 29) = 1 − FQ (29) = 0.4650662
En R: 1 − pchisq(29, df = 29)
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 116 / 117
Ejemplo 9(continuación)
El departamento de agricultura desea conocer además cómo se comporta la variabilidad en el
consumo del producto en los dos géneros. Determine qué probabilidad hay de que la variabilidad
en el consumo semestral de manzanas de una mujer sea mayor a la de los hombres teniendo en
cuenta los tamaños de muestras considerados en este estudio. Recordando que
(X1 , X2 , · · · , Xn ) /Xi ∼ N(µX , σX2 ) ∧ (Y1 , Y2 , · · · , Ym ) /Yi ∼ N(µY , σY2 ) ∧ X , Y independientes
S 2 /σ 2
⇒ F = X2 X2 ∼ F(n−1, m−1)
SY /σY
! ! !
SX2 SX2 σY2 σY2 SX2 /σX2 σY2
P(SX2 > SY2 ) = P >1 =P > =P >
SY2 SY2 σX2 σX2 SY2 /σY2 σX2
! !
σY2 σY2 3.22
= P F > =1−P F ≤ =1−P F ≤
σX2 σX2 3.42
= 1 − P (F ≤ 0.8858) = 1 − FF (0.8858)
= 1 − 0.37313 = 0.6268696
Estadı́stica I (FCE UNCuyo - CP-LA) U5: Muestras Aleatorias 2023 117 / 117