4.
4 Estimación puntual
Consiste en la estimación del valor del parámetro mediante un sólo
valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende
estimar la talla media de un determinado grupo de individuos, puede
extraerse una muestra y ofrecer como estimación puntual la talla media de
los individuos. Lo más importante de un estimador, es que sea un estimador
eficiente. Es decir, que sea insesgado (ausencia de sesgos) y estable en el
muestreo o eficiente (Varianza mínima) Estimación puntual. Sea X una
variable poblacional con distribución Fθ , siendo θ desconocido. El
problema de estimación puntual consiste en, seleccionada una muestra X1,
..., Xn, encontrar el estadístico T(X1, ..., Xn) que mejor estime el parámetro
θ. Una vez observada o realizada la muestra, con valores x1, ..., xn, se
obtiene la estimación puntual de θ, T(x1, ..., xn) = ˆ θ .
Vemos a continuación dos métodos para obtener la estimación puntual de
un parámetro: método de los momentos y método de máxima verosimilitud.
Método de los momentos: consiste en igualar momentos poblacionales a
momentos muestrales. Deberemos tener tantas igualdades como
parámetros a estimar. Momento poblacional de orden r αr = E(Xr) Momento
muestral de orden r ar = Xn i=1 Xr i n
Método de máxima verosimilitud: consiste en tomar como valor del
parámetro aquel que maximice la probabilidad de que ocurra la muestra
observada. Si X1, ..., Xn es una muestra seleccionada de una población
con distribución Fθ o densidad fθ(x), la probabilidad de que ocurra una
realización x1, ..., xn viene dada por: Lθ(x1, ..., xn) = Yn i=1 fθ(xi)
A Lθ(x1, ..., xn) se le llama función de verosimilitud.(credibilidad de la
muestra observada). Buscamos entonces el valor de θ que maximice la
función de verosimilitud, y al valor obtenido se le llama estimación por
máxima verosimilitud de θ. Nota: si la variable X es discreta, en lugar de
fθ(xi ) consideramos la función masa de probabilidad pθ(xi).
Ejemplo 7.1: Sea X → N(µ, σ), con µ desconocido. Seleccionada una m.a.s.
X1, ..., Xn, con realización x1, ..., xn, estimamos el parámetro µ por ambos
métodos. Según el método de los momentos: E(X) = Xn i=1 Xi n = − X, y al
ser µ = E(X) se obtiene que ˆ µ = − x. Por el método de máxima verosimilitud:
Lµ(x1, ..., xn) = Yn i=1 fµ(xi ) = = Yn i=1 1 √ 2πσ e −(xi−µ) 2 2σ
Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el
dado 100 veces en forma independiente, obteniéndose 21 ases. ¿Qué valor
́ utilizarse, en base a esa información, como estimación de la
podria
probabilidad de as? Parece razonable utilizar la frecuencia relativa de ases.
En este caso, si llamamos p a la probabilidad que queremos estimar, pˆ =
21 = 0.21 100
Método de momentos: La idea básica consiste en igualar ciertas
caracteriś ticas muestrales con las correspondientes caracteriś ticas
poblacionales. Recordemos la siguiente definición.
Definición: Sea X una v.a. con función de probabilidad puntual pX (x) en el
caso discreto o función de densidad fX (x) en el caso continuo. Se denomina
momento de orden k (k ∈ N) o momento poblacional de orden k a E(Xk), es
decir
4.5 Estimación por su intervalos
La estimación por intervalos consiste en establecer el intervalo de
valores donde es más probable se encuentre el parámetro. La obtención
del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener
las probabilidades de ocurrencia de los estadísticos muestrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos
establecer la probabilidad de que el estimador se halle dentro de los
intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por
ello el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo alrededor
de cada valor del estadístico muestral, el parámetro se sitúa dentro de
cada intervalo en un porcentaje conocido de ocasiones. Este intervalo
es denominado "intervalo de confianza".
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que
sigue la distribución Normal, y resulta:
La distribución de las Medias muéstrales aproxima al modelo Normal:
En consecuencia, el intervalo dentro del cual se halla el 95% de las
Medias muestrales es:
Nota: Los valores +-1.96 que multiplican la Desviación
Típica de la distribución muestral son los valores cuya
función de distribución es igual a 0.975 y 0.025
respectivamente y se pueden obtener en las tablas de la
distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel
Seguidamente generamos una muestra de la población y obtenemos su
Media, que es igual a 4.5. Si establecemos el intervalo alrededor de la
Media muestral, el parámetro poblacional (5.1) está incluido dentro de
sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de
B a A. Por esa razón, la distancia desde m a la Media muestral es la
misma que va de la Media muestral a m. En consecuencia, si hacemos
un muestreo con un número grande de muestras observamos que el
95% de las veces (aproximadamente) el valor de la Media de la
población (m) se encuentra dentro del intervalo definido alrededor de
cada uno de los valores de la Media muestral. El porcentaje de veces
que el valor de m se halla dentro de alguno de los intervalos de confianza
es del 95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces
que m se halle dentro del intervalo sea igual al 99%, la expresión anterior
Obtenemos el valor +-2.58 que multiplica la Desviación Típica
de la distribución muestral en las tablas de la distribución
Normal estandarizada o de funciones en aplicaciones
informáticas como Excel y son los valores cuya función de
probabilidad es igual a 0.995 y 0.005 respectivamente
es:
4.6 Errores de tipo I y de tipo II
En un estudio de investigación, el error de tipo I también denominado
error de tipo alfa (α) o falso positivo, es el error que se comete cuando
el investigador rechaza la hipótesis nula (H_0: el supuesto inicial) siendo
esta verdadera en la población. Es equivalente a encontrar un resultado
falso positivo, porque el investigador llega a la conclusión de que existe
una diferencia entre las hipótesis cuando en realidad no existe.
La hipótesis de la que se parte H_0 aquí es el supuesto de que la
situación experimental presentaría un «estado normal». Si no se
advierte este «estado normal», aunque en realidad existe, se trata de un
error estadístico tipo I. Algunos ejemplos para el error tipo I serían:
1. Se considera que el paciente está enfermo, a pesar de que en
realidad está sano; hipótesis nula: El paciente está sano.
2. Se declara culpable al acusado, a pesar de que en realidad es
inocente; hipótesis nula: El acusado es inocente.
3. No se permite el ingreso de una persona, a pesar de qué tiene
derecho a ingresar; hipótesis nula: La persona tiene derecho a
ingresar.
Representación de los
valores posibles de la
probabilidad de un error
tipo II (rojo) en el ejemplo
de un test de significancia
estadística para el
parámetro μ. El error tipo
II depende del parámetro
μ. Cuanto más cerca se
encuentre este del valor
supuesto bajo la hipótesis
nula, mayor es la
probabilidad de ocurrencia
del error tipo II. Debido a
que el verdadero valor de
μ es desconocido al hacer
la presunción de la
hipótesis alternativa, la
probabilidad del error tipo
II, en contraste con el error
tipo I (azul), no se puede
calcular.
El error de tipo II, también llamado error de tipo beta (β) (β es la
probabilidad de que exista este error) o falso negativo, se comete
cuando el investigador no rechaza la hipótesis nula siendo esta falsa en
la población. Es equivalente a la probabilidad de un resultado falso
negativo, ya que el investigador llega a la conclusión de que ha sido
incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta esté entre el 5 y el
20%.
Contrariamente al error tipo I, en la mayoría de los casos no es posible
calcular la probabilidad del error tipo II. La razón de esto se encuentra
en la manera en que se formulan las hipótesis en una prueba estadística.
Errores en el contraste
Una vez realizado el contraste de hipótesis, se habrá optado por una de
las dos hipótesis, la hipótesis nula o base H0 o la hipótesis alternativa
H1 y la decisión escogida coincidirá o no con la que en realidad es cierta.
Se pueden dar los cuatro casos:
4.7 Contrastes unilaterales y bilaterales
El contraste bilateral sitúa la región de rechazo en los dos extremos
(colas) de la distribución muestral. En cambio, el contraste unilateral
sitúa la región de rechazo en uno de los dos extremos (colas) de la
distribución muestral. El contraste bilateral (o de dos colas) se utiliza
cuando la Hipótesis Alternativa asigna al parámetro cualquier valor
diferente al establecido en la Hipótesis Nula.
Ejemplo de contraste bilateral:
La Hipótesis Alternativa establece que, caso de rechazar la Hipótesis
Nula, decidimos que la proporción de la población a que pertenece la
muestra no es 0.5
Ejemplo de contraste unilateral:
La Hipótesis Alternativa establece que, caso de rechazar la Hipótesis
Nula, decidimos que la proporción de la población a que pertenece la
muestra es inferior a 0.5
Contraste de hipó tesis sobre la media, conocida σ
Para contrastar hipó tesis sobre el valor de una media vamos a distinguir
dos casos: aquellos en los que se conoce la varianza poblacional y
aquellos en los que no se conoce. Aunque el primer caso es muy
infrecuente en la prá ctica, por razones didá cticas se suele exponer en
primer lugar. El procedimiento consiste, como ya hemos dicho en aplicar
el esquema habitual con los siguientes pasos:
1. Hipó tesis. Si se trata de un contraste bilateral, é stas será n de la
forma, H0: μ = μ0
H1: μ ≠ μ0
2. Supuestos.
- La població n se distribuye N(μ,σ) o la muestra es suficientemente
grande como para asumir la normalidad basá ndonos en el
Teorema Central del Límite.
- La media muestral se ha obtenido sobre una m.a.s. - Conocemos σ.
3. Estadístico de Contraste y su distribució n bajo H0 verdadera.
z=X−μ0 →N(0,1)
4. Regla de Decisió n, basada en el nivel de significació n (α)
adoptado. Rechazar si z ≥ 1-α/2z ó z ≤ α/2zNo rechazar si α/2z <
z < 1-α/2z
5. Cá lculo del Estadístico de Contraste (y eventualmente el Nivel
Crítico).
6. Adoptar la Decisió n y Concluir.
Ejemplo. Supongamos que queremos contrastar la hipó tesis de que la
media poblacional en una determinada variable, X, es igual a 100,
sabiendo que la varianza poblacional es igual a 64 y que X es normal.
Para ello extraemos una m.a.s. de 25 observaciones y calculamos su
media aritmé tica en X, que resulta ser igual a 105; establecemos un nivel
de significació n (α) de 0,05.
1. Hipó tesis.
H0: μ = 100 (Advié rtase que en el problema no se especifica nada
H1: μ ≠ 100 sobre la direcció n de la diferencia entre 100 y la media
poblacional real, en caso de ser falsa H0, por lo que se
realiza un contraste bilateral) σn
2. Supuestos.
- La població n se distribuye N(μ, 8)
- Se trata de una m.a.s. - Conocemos σ
3. Estadístico de Contraste. En las condiciones indicadas, z=X−μ0
→N(0,1)
4. Regla de decisió n.
Rechazar si z ≥ 1,96 ó z ≤ -1,96 σn
5. Cá lculo.
No rechazar si -1,96 < z < 1,96
z=X−μ0 =105−100=3,125 σ8
n 25
6. Decisió n y Conclusió n.
Como 3,125 > 1,96 rechazamos H0.
Concluimos que la evidencia aconseja rechazar, segú n la regla
de decisió n adoptada, la hipó tesis de que la media poblacional
sea igual a 100.
5.1 Control de calidad
La calidad de un producto, un proceso, o la prestació n de un servicio,
debe comprenderse previamente el papel de la calidad en el conjunto
de la organizació n que elabora ese producto o servicio.
Es la aplicació n de té cnicas estadísticas para determinar si el resultado
de un proceso concuerda con el diseñ o del producto o servicio
correspondiente.
Otro enfoque de la administració n de la calidad, el muestreo de
aceptació n, es la aplicació n de té cnicas estadísticas para determinar si
una cantidad de material determinada o un producto que ya ha sido
fabricado debe aceptarse o rechazarse, a partir de la inspecció n o
prueba de una muestra. Ademá s, pueden usarse grá ficas estadísticas y
diagramas con el objeto de juzgar la calidad de productos o servicios.
5.2 DIAGRAMAS DE DISPERSIÓ N
Los Diagramas de Dispersió n o Grá ficos de Correlació n permiten
estudiar la relació n entre 2 variables. Dadas 2 variables X e Y, se dice
que existe una correlació n entre ambas si cada vez que aumenta el valor
de X aumenta proporcionalmente el valor de Y (Correlació n positiva) o
si cada vez que aumenta el valor de X disminuye en igual proporció n el
valor de Y (Correlació n negativa).
En un grá fico de correlació n representamos cada par X, Y como un
punto donde se cortan las coordenadas de X e Y:
Correlación
Con los diagramas de dispersión podemos ver cómo se relacionan ambas
variables entre sí. Esto es lo que se conoce como correlación. Hay tres tipos
de correlación: positiva, negativa y nula (sin correlación).
1. Correlación positiva: ocurre cuando una variable aumenta y la otra
también. Por ejemplo, la altura de una persona y el tamaño de su pie;
mientras aumenta la altura, el pie también.
2. Correlación negativa: es cuando una variable aumenta y la otra
disminuye. El tiempo de estudio y el tiempo que pasas jugando
videojuegos, tienen una correlación negativa, ya que cuando tu tiempo
de estudio aumenta, no te queda tanto tiempo para jugar videojuegos.
3. Sin correlación: no hay una relación aparente entre las variables. Los
puntos en tus videojuegos y tu talla de zapato no parece tener ninguna
correlación; mientras una aumenta, la otra no tiene ningún efecto.
El diagrama de dispersión que analizamos tiene una fuerte correlación positiva:
a medida que las semanas aumentan, su pago también.
Línea de ajuste
Usamos la "línea de ajuste" para hacer predicciones basándonos en datos
pasados. Hay muchas y muy complicadas fórmulas para encontrar esta recta,
pero por ahora solo la dibujaremos a través de los puntos en la gráfica para
que se ajuste a la tendencia que nos marcan los datos. Cuando dibujes la
recta, asegúrate de que encaje con la mayor parte de los datos. Si hay un
punto que está muy por encima o muy por debajo con respecto al resto (los
atípicos) déjalo fuera de la recta.
Unidad 4
Estadística inferencial