REPÚBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DEL PODER POPULAR
PARA LA EDUCACIÓN UNIVERSITARIA,
CIENCIA Y TECNOLOGÍA
UNIVERSIDAD NACIONAL EXPERIMENTAL
“RAFAEL MARÍA BARALT”
PROGRAMA INGENIERÍA Y TECNOLOGÍA
PROYECTO INGENIERÍA DE: MANTENIMIENTO MEC
ESTADISTICA II: UNIDAD I y II
Realizado por:
JUAN JOSE SANCHEZ ANDRADE
C.I: 26319049
INDICE
Introducción
1. Muestreo aleatorio y su aplicación.
2. Concepto y ejemplo de los estadísticos:
3. Media muestral.
4. Mediana muestral.
5. Varianza muestral.
6. Desviación estándar muestral.
7. Concepto y ejemplo de:
Distribuciones muéstrales de medias
Teorema de límite central.
8. Distribución muestral de (n – 1) S² / G².
9. Distribución t.
10. Distribución f.
11. Concepto y ejemplo de:
Estimador insesgado.
Tipos de estimadores.
12. Utilidad de:
Estimaciones.
De la media.
De una proporción.
De la diferencia de dos proporciones.
De la variancia.
De la razón de dos variancias.
13. Concepto y ejemplo de:
Métodos bayesianos de estimación.
Conclusión
Referencias Bibliográficas.
Introducción
La disposición de información a nivel del total de las unidades de
análisis conocidas como población, requiere de una gran inversión de
recursos, generalmente limitados en el área de la investigación. La
necesidad de delimitar los grupos de estudio a través de la selección
de una muestra, conocida como el subconjunto del universo o una
parte representativa de la población, conformada a su vez por
unidades muestrales que son los elementos objetos de estudio, se
apoya del muestreo como herramienta de la investigación científica
que tiene como principal propósito determinar la parte de la población
que se debe estudiar.
Muestreo aleatorio
El muestreo aleatorio simple es un procedimiento de muestreo probabilístico
que da a cada elemento de la población objetivo y a cada posible muestra de
un tamaño determinado, la misma probabilidad de ser seleccionado.
El muestreo aleatorio simple no es tan utilizado en investigaciones del
consumidor, sobre todo porque es complicado obtener un marco de muestreo
donde extraer al azar y no querrás darle a todas las unidades de la muestra
una probabilidad igual de ser elegidas, ya que usualmente para hacer una
investigación de este tipo se requiere a usuarios de tiendas o consumidores
de ciertos productos o ciertas áreas específicas para ser las unidades de
muestreo.
No olvidemos que una parte muy importante del muestreo consiste en tener
el tamaño de la muestra correcta, para no tener un error de muestreo, el cual
debe ser el mínimo posible.
Estadisticos
Un estadístico es cualquier función real medible de la muestra de una
variable aleatoria. El concepto de estadístico es un concepto de estadística
avanzada. La definición es corta y sin duda abstracta y, ya en segunda
instancia, definir qué entendemos como muestra de una variable aleatoria.
Media
La distribución muestral de la Media depende de varios circunstancias como
la distribución de la población de la que se extrae las muestras:
1) La población se distribuye según el modelo Normal. La distribución de
Medias muestrales sigue el modelo Normal, con parámetros mu y sigma
donde sigma al cuadrado y n son la Varianza de la distribución poblacional y
el tamaño de la muestra respectivamente.
2) La población no sigue la distribución Normal. En este caso la distribución
de Medias muestrales se acerca al modelo Normal (con los mismos
parámetros que hemos visto al apartado a) cuanto mayor sea el tamaño de la
muestra.
Algunas características de la distribución muestral de la Media
1) La variación de la distribución muestral es menor cuanto mayor sea
n (tamaño de la muestra) siempre que la Varianza de la población sea la
misma.
Explicación: La fórmula de la Varianza de la distribución muestral de la Media
es:
cuanto mayor es el denominador (n), más pequeño es el valor del término a
la izquierda del "igual".
Ejemplo
A continuación se presenta las Varianzas y los Histogramas de tres
distribuciones muestrales de la Media (número de muestras=100) en que los
tamaños de las muestras son n=25, n= 100 y n=1000.
n=25
Varianza= 0.43
n=100
Varianza= 0.11
n= 1000
Varianza= 0.01
Los valores de la Varianza de la distribución de Medias muestrales son
inferiores y la dispersión observada en los Histogramas (ver en el eje
horizontal que la amplitud de la variable disminuye) cuanto mayor es n.
2) Cuando la distribución de Medias muestrales aproxima la distribución
Normal, podemos obtener probabilidades de las Medias muestrales.
Ejemplo
Si obtenemos una Media muestral igual a 6, y sabemos que la distribución
muestral es Normal(5,2) -el 5 es la media y el 2 la Desviación Típica de la
distribución muestral- la probabilidad de obtener puntuaciones iguales o
inferiores a 6 es
La probabilidad de obtener valores iguales o inferiores a 0.5 en una
distribución Normal es 0.69 (consultar tablas o funciones de probabilidad de
la distribución Normal).
Medianta muestral
La mediana es el valor que ocupa el lugar central de todos los datos cuando
éstos están ordenados de menor a mayor.
La mediana se representa por
La mediana se puede hallar solo para variables cuantitativas.
Ejemplo de cálculo simple de la mediana
1. Ordenamos los datos de menor a mayor.
2. Si la serie tiene un número impar de medidas la mediana es la puntuación
central de la misma
3Si la serie tiene un número par de puntuaciones la mediana es la media
entre las dos puntuaciones centrales.
Fórmula y cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega
hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre.
es el límite inferior de la clase donde se encuentra la mediana
es la semisuma de las frecuencias absolutas
es la frecuencia absoluta de la clase mediana
es la frecuencia acumulada anterior a la clase mediana
es la amplitud de la clase
La mediana es independiente de las amplitudes de los intervalos
Ejemplo de cálculo de la mediana para distribución estadística
Calcular la mediana de una distribución estadística que viene dada por la
siguiente tabla:
En primer lugar crearemos una nueva columna con los valores de la
frecuencia acumulada:
En la primera casilla colocamos la primera frecuencia absoluta. En la
segunda casilla sumamos el valor de la frecuencia acumulada anterior más la
frecuencia absoluta correspondiente y así sucesivamente hasta la última, que
tiene que se igual a
Buscamos el intervalo donde se encuentra la mediana, para ello dividimos
la por porque la mediana es el valor central
Buscamos en la columna de las frecuencias acumuladas el intervalo que
contiene a
Clase de la mediana:
Aplicaremos la fórmula para el cálculo de la mediana para datos agrupados,
extrayendo los siguientes datos:
Varianza muestral
La varianza es una medida de dispersión que representa la variabilidad de
una serie de datos respecto a su media. Formalmente se calcula como la
suma de los residuos al cuadrado divididos entre el total de observaciones.
Fórmula para calcular la varianza
La unidad de medida de la varianza será siempre la unidad de medida
correspondiente a los datos pero elevada al cuadrado. La varianza siempre
es mayor o igual que cero. Al elevarse los residuos al cuadrado es
matemáticamente imposible que la varianza salga negativa. Y de esa forma
no puede ser menor que cero.
Donde
X: variable sobre la que se pretenden calcular la varianza
xi: observación número i de la variable X. i puede tomará valores entre
1 y n.
n: número de observaciones.
x̄: Es la media de la variable X.
O lo que es lo mismo:
Ejemplo de cálculo de la varianza
Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas,
cada uno con un salario diferente:
Juan: 1.500 euros
Pepe: 1.200 euros
José: 1.700 euros
Miguel: 1.300 euros
Mateo: 1.800 euros
La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500
+ 1.200 + 1.700 + 1.300 + 1.800) /5) 1.500 euros.
Dado que la fórmula de la varianza en su forma desglosada se formula como
sigue:
Obtendremos que se debe calcular tal que:
El resultado es de 52.000 euros al cuadrado. Es importante recordar que
siempre que calculamos la varianza tenemos las unidades de medida al
cuadrado. Para pasarlo a euros, en este caso tendríamos que realizar
la desviación típica. El resultado aproximado sería de 228 euros. Esto
quiere decir que, en media, la diferencia entre los salarios de las distintas
personas será de 228 euros.
Desviación estándar muestral
La desviación estándar es la medida de dispersión más común, que indica
qué tan dispersos están los datos con respecto a la media. ... El símbolo σ
(sigma) se utiliza frecuentemente para representar la desviación estándar de
una población, mientras que s se utiliza para representar la desviación
estándar de una muestra.
Distribución maestral de medias
Cada muestra de tamaño n que podemos extraer de una población
proporciona una media. Si consideramos cada una de estas medias como
valores de una variable aleatoria podemos estudiar su distribución que
llamaremos distribución muestral de medias.
Si tenemos una población normal N(m,s) y extraemos de ella muestras de
tamaño n, la distribución muestral de medias sigue también una distribución
normal
Si la población no sigue una distribución normal pero n>30, aplicando el
llamado Teorema central del límite la distribución muestral de medias se
aproxima también a la normal anterior.
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe
(Teorema del límite central) que la fdp de la media muestral es también
normal con media m y varianza s2/n. Esto es exacto para poblaciones
normales y aproximado (buena aproximación con n>30) para poblaciones
cualesquiera. Es decir es el error típico, o error estándar de la media.
¿Cómo usamos esto en nuestro problema de estimación?
1º problema: No hay tablas para cualquier normal, sólo para la normal m=0
y s=1 (la llamada z); pero haciendo la transformación (llamada tipificación)
una normal de media m y desviación s se transforma en una z.
Llamando za al valor de una
variable normal tipificada
que deja a su derecha un
área bajo la curva de a, es
decir, que la probabilidad
que la variable sea mayor
que ese valor es a (estos
son los valores que ofrece la
tabla de la normal)
podremos construir
intervalos de la forma
para los que la probabilidad
es 1 - a.
Teniendo en cuenta la simetría de la normal y manipulando algebraícamente
que también se puede escribir
o, haciendo énfasis en que es el error estándar de la media,
Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un
intervalo de este tipo se le denomina intervalo de confianza con un nivel de
confianza del 100(1 - a)%, o nivel de significación de 100a%. El nivel de
confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se
le denomina estimación puntual y se dice que es un estimador de m.
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra
aleatoria de tamaño 20 en la que se calcula se puede decir
que m tiene una probabilidad de 0,95 de estar comprendida en el intervalo
que sería el intervalo de confianza al 95% para m
En general esto es poco útil, en los casos en que no se conoce m tampoco
suele conocerse s2; en el caso más realista de s2 desconocida los intervalos
de confianza se construyen con la t de Student (otra fdp continua para la que
hay tablas) en lugar de la z.
o, haciendo énfasis en que es el error estándar estimado de la media,
Este manera de construir los intervalos de confianza sólo es válido si la
variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin
mucho error.
El teorema central del límite
En el resultado anterior, veíamos que la suma de variables aleatorias
normales es otra variable aleatoria normal. Sin embargo, la normalidad de
una suma de variables no se limita solo a las variables normales. El teorema
central del límite es un resultado matemático que garantiza que, si sumamos
variables cualesquiera (no necesariamente normales), la variable suma
también seguirá una distribución normal (esto siempre que se cumplan
algunas condiciones básicas).
Así, cuando un dato o resultado es la suma de contribuciones
independientes, de igual magnitud y “con un tamaño típico”, este resultado
corresponderá a una distribución Gaussiana siempre que el número de
contribuciones (el número de sumandos) sea un número considerable (no
pequeño).
Con un tamaño típico se quiere garantizar que las contribuciones tienen que
“estar controladas”, esto es, las contribuciones extremas tienen que estar
controladas por una probabilidad muy pequeña (En jerga matemática las
contribuciones tiene que tener varianza finita).
Este teorema asegura, de manera esquemática, que, cuando sumamos un
número grande de variables, la variable resultante sigue una distribución
normal.
Distribución T
La distribución t de Student o distribución t es un modelo teórico utilizado
para aproximar el momento de primer orden de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño y se desconoce la
desviación típica.
En otras palabras, la distribución t es una distribución de probabilidad que
estima el valor de la media de una muestra pequeña extraída de una
población que sigue una distribución normal y de la cual no conocemos su
desviación típica.
Dada una variable aleatoria continua L, decimos que la frecuencia de sus
observaciones puede aproximarse satisfactoriamente a una distribución t con
g grados de libertad tal que:
La variable aleatoria L sigue una distribución t con g grados de
libertad.
Representación de la distribución t de Student
Función de densidad de una distribución t con 3 grados de libertad (df).
Función de densidad de la distribución t con 3 grados de libertad.
Como podemos ver, la representación de la distribución t se parece mucho a
la distribución normal salvo que la distribución normal tiene las colas más
anchas y es más apuntalada. En otras palabras, deberíamos añadir más
grados de libertad a la distribución t para que la distribución “crezca” y se
parezca más a la distribución normal.
Distribución f
La necesidad de disponer de métodos estadísticos para comparar las
varianzas de dos poblaciones es evidente a partir del análisis de una sola
población. Frecuentemente se desea comparar la precisión de un instrumento
de medición con la de otro, la estabilidad de un proceso de manufactura con
la de otro o hasta la forma en que varía el procedimiento para calificar de un
profesor universitario con la de otro.
Intuitivamente, podríamos comparar las varianzas de dos
poblaciones, s12 y s22, utilizando la razón de las varianzas muestrales S 21/S22.
Si S21/S22 es casi igual a 1, se tendrá poca evidencia para indicar
que s12 y s22 no son iguales. Por otra parte, un valor muy grande o muy
pequeño para S21/S22, proporcionará evidencia de una diferencia en las
varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias
ji-cuadrada independientes, cada una dividida entre sus respectivos grados
de libertad. Esto es,
donde χ21 y χ22 son variables aleatorias ji-cuadrada independientes con
grados de libertad n1 y n2 respectivamente.
La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia
la derecha. La distribución F es conocida como distribución de Fisher. Los
valores de F se encuentran tabulados para diferentes grados de significación
y la forma de manejar las tablas de F es similar a la que ya hemos visto para
otras distribuciones. La tabla de F la encontrarán en los materiales auxiliares.
Supóngase que se tiene interés en dos poblaciones normales
independientes, donde las varianzas de la población son desconocidas. Se
desea probar la igualdad de las dos varianzas. Ya vimos que para poder
comparar las medias de estas dos poblaciones se utiliza la distribución t de
Student, en la cual podemos tener varianzas iguales o diferentes en la
población (Caso de comparación de dos medias con varianza poblacional
desconocida). Nuestro estadístico de prueba es:
Estimador insesgado
Un estimador insesgado es aquel cuya esperanza matemática coincide
con el valor del parámetro que sea desea estimar. En caso de no
coincidir se dice que el estimador tiene sesgo.
La razón de buscar un estimador insesgado es que el parámetro que
deseamos estimar esté bien estimado. Es decir, si queremos estimar
la media de goles por partido de determinado jugador de fútbol, hemos
de utilizar una fórmula que nos proporcione un valor lo más
aproximado posible al valor real.
En caso de que la esperanza del estimador no coincida con el
verdadero valor del parámetro se dice que el estimador tiene un sesgo.
El sesgo se mide como la diferencia entre el valor de la esperanza del
estimador y el valor verdadero. Matemáticamente se puede notar
como sigue:
Estimador Insesgado
De la fórmula anterior queda clara la primera parte y la última. Es
decir, la esperanza del estimador es igual al verdadero valor del
parámetro. Si se cumple esta igualdad, entonces el estimador es
insesgado. La parte de en medio, matemáticamente más abstracta, se
explica en el siguiente párrafo.
La media de todas las estimaciones que puede realizar el estimador
para cada muestra diferente, es igual al parámetro. Por ejemplo, si
tenemos 30 muestras diferentes, lo normal es que en cada muestra el
estimador (aunque sea por poco) ofrezca valores diferentes. Si
realizamos la media de los 30 valores del estimador en las 30
muestras diferentes, entonces el estimador debe arrojar un valor igual
al verdadero valor del parámetro.
Tipos de estimadores
Existen tres tipos de estimación estadística:
a) La estimación puntual
Una estimación es puntual cuando se usa un solo valor extraído de la
muestra para estimar el parámetro desconocido de la población. Al valor
usado se le llama estimador.
b) Estimación por intervalo
Una estimación por intervalo de un parámetro θ es algún par de funciones de
la muestra que satisfacen L(x) ≤ U(x) para todo x ∈ X . El intervalo aleatorio
[L(X), U(X)] es llamado un estimador por intervalo.
c) Estimación bayesiana
El enfoque bayesiano se basa en la interpretación subjetiva de la
probabilidad, el cual considera a ésta como un grado de creencia con
respecto a la incertidumbre.
Un parámetro es visto como una variable aleatoria a la que, antes de la
evidencia muestral, se le asigna una distribución a priori de probabilidad, con
base en un cierto grado de creencia con respecto al comportamiento
aleatorio. Cuando se obtiene la evidencia muestral, la distribución a priori es
modificada y entonces surge una distribución a posteriori de probabilidad.
Utilidad de Estimación
Estimación (o estimar) es el proceso de encontrar una aproximación
sobre una medida, lo que se ha de valorar con algún propósito es
utilizable incluso si los datos de entrada pueden estar incompletos,
incierto, o inestables. En el ámbito de la estadística estimación implica
» usar el valor de una estadística derivada de una muestra para
estimar el valor de un parámetro correspondiente a población»; la
muestra establece que la información puede ser proyectada a través
de diversos factores, formal o informalmente, son procesos para
determinar una gama muy probablemente y descubrir la información
que falta. Cuando una estimación resulta ser incorrecta, se denomina
“overestimate” si la estimación superó el resultado real y una
subestimación si la estimación se quedó corto del resultado real.
Por ejemplo, al tratar de adivinar el número de caramelos contenidos en un
frasco si el cincuenta por ciento eran visibles y el volumen general de la jarra
sobre parecía ser veinte veces tan grande como el recipiente de volumen que
contiene los caramelos visibles, a continuación un proyecto simple mide que
había un millar de caramelos en el frasco; tal proyección, previsto para
recoger el único valor que se cree que es más cercano al valor real se llama
una estimación puntual.
Utilidad de la media
Es el cociente entre la utilidad total que proporciona un bien al consumidor y
el número de unidades consumidas del bien. Se la utiliza para calcular un
valor representativo de los valores que se están promediando.
Utilidad de una proporción
Las razones y proporciones tienen una gran aplicación en diversas
disciplinas; por ejemplo, en ingeniería se emplean las escalas para realizar
maquetas, en el área contable, para realizar movimientos financieros y, en la
vida diaria, para efectuar ciertas operaciones aritméticas.
Utilidad de la diferencia de dos proporciones
Cuando queremos comparar una respuesta que se mide como una
proporción entre dos o más niveles necesitamos pruebas que nos indiquen si
hay diferencias entre estas proporciones, es decir, si se distribuyen
homogéneamente entre los niveles de la variable o por el contrario, existen
diferencias. Por lo tanto, la hipótesis experimental es que las proporciones de
ocurrencia de determinado evento medido en muestras independientes son
diferentes. Por ejemplo, la comparación de medidas de respuesta tipo
curación, fracaso y/o evolución en distintos tratamientos corresponden a este
caso.
Utilidad de la razón de dos variancias
Cuando se desea hacer inferencias acerca de las varianzas de dos
poblaciones, es necesario colocarlas en forma de razón. Si las
varianzas son iguales, entonces el cociente es igual a 1, en caso de
que sean diferentes, su cociente también se alejará de 1. Como por lo
general no se conocen las varianzas de las poblaciones de interés,
cualquier comparación que se desee, tendrá que estar basada en las
varianzas muestrales y , las cuales deberán ser de muestras
independientes y extraídas de poblaciones normales.
Métodos bayesianos de estimación
La metodología bayesiana específica un modelo de probabilidad que contiene
algún tipo conocimiento previo acerca de un parámetro investigativo, de este
modo se acondiciona al modelo de probabilidad para realizar el ajuste de los
supuestos.
Un parámetro es visto como una variable aleatoria a la que, antes de la
evidencia muestral, se le asigna una distribución a priori de probabilidad, con
base en un cierto grado de creencia con respecto al comportamiento
aleatorio. Cuando se obtiene la evidencia muestral, la distribución a priori es
modificada y entonces surge una distribución a posteriori de probabilidad.
Conclusión
Existe una variedad de opciones útiles para la selección de muestras,
métodos probabilísticos y no probabilísticos que se deben escoger con base
en el tipo de investigación a realizar y los recursos con los que cuenta el
investigador. Toda persona que va a ejecutar un estudio debe asesorarse
para elegir adecuadamente el tipo de muestreo para dar sustento a los
resultados. Además, lo debe describir metodológicamente con detalle para
poder reproducirlo en futuras investigaciones; existen otras variante de
muestreo que escapan a la finalidad del presente resumen.
Bibliografia
[Link]
tic/14002996/helvia/aula/archivos/repositorio/250/295/html/estadistica/bayesia
[Link]
[Link]
Razones-De/[Link]
[Link]
orio/miller_2_2.pdf
[Link]
pdf