República Bolivariana de Venezuela
Ministerio de Poder Popular
Para la Educación
Universidad Nacional Experimental Rafael Maria Baralt
Sección: 301721
Tema #4
Estadística 2
Profesor: Alumna:
Betulio Vílchez Maria Loaiza
CI: 28146733
San francisco 09/09/2020
Desarrollo
Estimulación
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a pesar de ser un
elemento muy claramente estadístico, está muy enraizado en nuestra cotidianidad. Dentro de ello,
además hacemos estimaciones dentro de un intervalo de posibilidades. Por ejemplo: “creo que
terminaré la tarea en unos 5-6 días”. Lo que hacemos en el terreno del análisis de datos es aplicar
matizaciones técnicas a este hábito. Vamos a dedicar este documento al concepto de estimación,
comenzando con la estimación puntual. Después nos ocuparemos de desarrollar un modelo de
estimación por intervalo donde identificaremos los elementos fundamentales, con su significado y
símbolo. Y, por último, habrá que desarrollar cómo se calculan esos elementos.
La estimación puntual
El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo
medio de ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del
resultado medio entre dos tratamientos médicos, proporción de gente que mejora con un
tratamiento médico…)
Para ello se utiliza la información de la muestra (x1, x2,…, xn) (x1, x2,…, xn), a través de
un estimador.
Algunos estimadores frecuentes son:
Media muestral, para estimar la media teórica de una variable XX.
¯x=x1+⋯+xnnx¯=x1+⋯+xnn
Proporción muestral, para estimar una proporción pp:
ˆp=x1+⋯+xnn, p^=x1+⋯+xnn, siendo x1,…, xnx1,…, xn una muestra aleatoria simple de la
variable X∈B (1, p) X∈B (1, p), es decir, son unos o ceros.
Varianza muestral: para estimar la varianza teórica de una población, se puede usar la varianza de
una muestra:
S2= (x1−¯x) 2+⋯+ (xn−¯x) 2n, S2= (x1−x¯) 2+⋯+ (xn−x¯) 2n,
Y también la llamada
Cuasi-varianza muestral:
S2n−1= (x1−¯x)2+⋯+ (xn−¯x) 2n−1, Sn−12= (x1−x¯)2+⋯+ (xn−x¯) 2n−1,
Que corresponde a la varianza de la muestra, pero dividiendo por n−1n−1, en lugar de dividir
por nn. En el capítulo de estadística descriptiva, ya comentamos que el R, por defecto, al calcular
la desviación típica de una muestra, mediante el comando sd, calcula directamente la cuasi-
varianza y luego obtiene la raíz cuadrada.
Propiedades de los estimadores
Estamos diciendo que un estimador es una aproximación de un parámetro teórico o desconocido
de una población. Para estimar la media de la altura de una población, podemos seleccionar una
muestra y calcular la media aritmética de la muestra. Ahora bien, también tendría sentido usar
como estimador el siguiente:
:min(x1,x2,…,xn)+max(x1,x2,…,xn)2min(x1,x2,…,xn)+max(x1,x2,…,xn)2
¿Cuál de los dos se aproxima más al verdadero valor desconocido? En
principio, no habría manera de saberlo, puesto que deberíamos conocer el valor
teórico (el desconocido). Por eso, interesa estudiar propiedades de los
estimadores, que nos permitan decidir entre usar unos u otros para los casos
concretos.
Estimadores insesgado
Una primera propiedad deseable para un estimador es que el centro de la distribución de los
valores que puede tomar coincida con el valor del parámetro que queremos aproximar.
A esta propiedad se le llama insesgadez. Así, un estimador insesgado es aquel cuya media coincide
con el valor del parámetro a estimar.
Veámoslo con un ejemplo para entenderlo mejor: supongamos que deseamos tener una
estimación de la estatura media de los hombres mayores de 18 en una población. Podríamos
ponernos en medio de la calle y seleccionar aleatoriamente una muestra de nn hombres, medir su
estatura (o preguntársela) y calcular después la media aritmética de los datos obtenidos. Esa sería
una estimación puntual; llamémosla ¯x1x¯1.
Por medio de R podemos hacer una simulación de este proceso. En vez de bajar a la calle, parar a
la gente y preguntarle lo que mide, simulamos cien datos correspondientes a 100100 estaturas de
varones mayores de 1818. En este caso, tenemos que “simular” que medimos a cien personas, de
una población de varones españoles mayores de 1818.
Estimación por intervalos
La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable
se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muéstrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de
que el estimador se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece
alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos un
intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada
intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de
confianza".
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal,
y resulta:
La distribución de las Medias muéstrales aproxima al modelo Normal:
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muéstrales es
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son los
valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden obtener
en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones informáticas
como Excel). Seguidamente generamos una muestra de la población y obtenemos su Media, que
es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el parámetro
poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la
distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que el
95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra dentro
del intervalo definido alrededor de cada uno de los valores de la Media muestral. El porcentaje de
veces que el valor de m se halla dentro de alguno de los intervalos de confianza es del 95%, y es
denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que él % de veces que m se halle dentro del
intervalo sea igual al 99%, la expresión anterior es:
(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral en las
tablas de la distribución Normal estandarizada o de funciones en aplicaciones informáticas como
Excel), y son los valores cuya función de probabilidad es igual a 0.995 y 0.005 respectivamente).
Intervalo de confianza para la media
Un intervalo de confianza para la media poblacional de una distribución normal con desviación
típica σ conocida, con un nivel de confianza 1 - α construido a partir de una muestra de tamaño n,
es:
Si σ es desconocida y n es grande n ≥ 0, el intervalo de confianza viene dado por:
Donde es la cuasi varianza muestral:
Error máximo admisible
El error máximo admisible en la estimación de la media poblacional utilizando el intervalo de
confianza para la media con un nivel de confianza 1 - α es:
El error será igual o menor que la mitad de la amplitud del intervalo, es decir, el radio del
intervalo.
Cuanto mayor sea n, menor será el error cometido.
Cuanto mayor sea 1-α, mayor será zα/2 y, por tanto, también el error.
Tamaño de la muestra
Despejando n de la fórmula anterior, podemos calcular el tamaño mínimo para que se cumplan
las condiciones.
Ejemplo 1:
Se ha tomado una muestra aleatoria de 100 individuos a los que se les ha preguntado la cantidad
de dinero que tienen en la cartera, obteniéndose una media muestral de 110 €. Se sabe que la
desviación típica de la población es de 20 €.
a) Obtener un intervalo de confianza, al 90%, para la cantidad de dinero en la cartera de la
población.
b) ¿Cuál es el error máximo cometido con la estimación anterior?
c) Si deseamos que el error cometido, con el mismo nivel de confianza, sea la décima parte del
apartado anterior, ¿cuál ha de ser el tamaño de la muestra?
Ejemplo 2:
En los paquetes de arroz de cierta marca pone que el peso que contienen es de 500 gramos. Una
asociación de consumidores toma una muestra de 100 paquetes para los que obtiene una media
de 485 g y una desviación típica de 10.
a) ¿Se puede aceptar con un nivel de significación igual a 0,05 que el fabricante está
empaquetando realmente una media de 500g?
b) Calcula el intervalo de confianza al nivel del 95 % para el pez de los paquetes de la marca en
cuestión.
a) Del enunciado podemos obtener los siguientes datos:
La desviación típica muestral es un dato, pero no conocemos la desviación típica
poblacional σ para ello calculamos la cuasi varianza muestral:
Luego el intervalo de confianza para los paquetes viene dado por:
Como la media poblacional, 500g, no pertenece al intervalo de confianza que hemos calculado, se
estima que las medias son diferentes. Luego no podemos aceptar que el fabricante esté
empaquetando una media de 500 g.
b) En este caso, nuestra media tiene el valor 500g, y el intervalo pedido será:
Intervalo de confianza para la diferencia de proporciones.
Ahora suponemos dos poblaciones en donde se considera la misma característica A.A. p1p1 es la
proporción de elementos con dicha característica en la primera población, y p2p2 es la proporción
en la segunda población. Se toma una muestra de tamaño n1n1 de la primera población y otra de
tamaño n2n2 en la segunda, y se calculan las respectivas proporciones
muéstrales ^p1p1^ y ^p2p2^. El intervalo de confianza para la diferencia p1−p2p1−p2 es
((^p1−^p2)±Zα/2√ ^p1(1−^p1)n1+^p2(1−^p2)n2 ).((p1^−p2^)±Zα/2p1^(1−p1^)n1+p2^(1−p2^)n2).
Para calcularlo con R, introducimos la siguiente función:
z.test.2 <- function(x1,n1,x2,n2,p=0,
conf.level=0.95,alternative="two.sided")
{
ts.z <- NULL
cint <- NULL
p.val <- NULL
phat <- NULL
p1 <- x1/n1
p2 <- x2/n2
q1 <- 1 - p1
q2 <- 1 - p2
phat <- p1 - p2
SE.phat <- sqrt( ((p1*q1)/n1) + ((p2*q2)/n2) )
ts.z <- (phat - p)/SE.phat
p.val <- pnorm(ts.z)
ts.z <- (phat - p )/SE.phat
if(ts.z<0) p.val <- 2*pnorm(ts.z)
else p.val<-2*(1-pnorm(ts.z))
if(alternative=="less") {
p.val <- pnorm(ts.z)
}
if(alternative=="greater") {
p.val <- 1 - pnorm(ts.z)
}
cint <- phat + c(
-1*((qnorm(((1 - conf.level)/2) +
conf.level))*SE.phat),
((qnorm(((1 - conf.level)/2) +
conf.level))*SE.phat) )
return(list(estimate=phat,ts.z=ts.z,
p.val=p.val,cint=cint))
}
Al igual que la función inmediatamente anterior, esta calcula el intervalo de confianza para la
diferencia de proporciones, y también realiza un test de hipótesis para contrastar si las
proporciones teóricas de las dos poblaciones pueden considerarse iguales.
Calculamos el intervalo usando la función anterior. Únicamente es necesario, para calcular el
intervalo de confianza, indicar el nivel de confianza que queremos (aunque, en esta ocasión,
vamos a utilizar 0.950.95, y tampoco haría falta escribirlo, puesto que es el que se usa por
defecto:
z.test.2(52,100,53,100, conf.level=0.95 )$cint
## [1] -0.1484 0.1284
Como vemos, la proporción de gente que reconoce correctamente a Bardem puede coincidir con
la proporción de gente que reconoce correctamente a J.D. Morgan (puesto que el intervalo de
confianza contiene al cero). O, lo que es lo mismo, la proporción de gente que se equivoca
(creyéndose que es la otra persona) pueden coincidir.