0% encontró este documento útil (0 votos)
341 vistas4 páginas

Test de Shapiro-Wilk y Medidas Estadísticas

El documento habla sobre la prueba de Shapiro-Wilk para contrastar la normalidad de un conjunto de datos. Explica que se usa para probar si una muestra proviene de una población normalmente distribuida. Describe cómo se calcula el estadístico W y los pasos para determinar si los datos son normales basado en el valor crítico. También presenta un ejemplo numérico para analizar.

Cargado por

charlyereales
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
341 vistas4 páginas

Test de Shapiro-Wilk y Medidas Estadísticas

El documento habla sobre la prueba de Shapiro-Wilk para contrastar la normalidad de un conjunto de datos. Explica que se usa para probar si una muestra proviene de una población normalmente distribuida. Describe cómo se calcula el estadístico W y los pasos para determinar si los datos son normales basado en el valor crítico. También presenta un ejemplo numérico para analizar.

Cargado por

charlyereales
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Prueba de shapiro-wilk

En estadística, el Test de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto


de datos. Se plantea como hipótesis nula que una muestra x1, ..., xn proviene de una población
normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1 Se
considera uno de los test más potentes para el contraste de normalidad.

Dada una muestra aleatoria simple de tamaño nn, (x1,x2,…,xn)(x1,x2,…,xn), se quiere saber
si procede de una población con distribución normal. Este problema es muy frecuente, ya
que son muchas las pruebas de inferencia estadística que exigen como condición
imprescindible que la población de procedencia de la muestra sea normal.

El contraste que se desarrolla en esta sección recibe el nombre de Shapiro-Wilks. El método


consiste en comenzar ordenando la muestra de menor a mayor, obteniendo el nuevo vector
muestral (x(1),x(2),…,x(n))(x(1),x(2),…,x(n)), siendo x(j)x(j) el jj-ésimo valor muestral tras
la ordenación; a continuación se calcula el estadístico de contraste

W=1ns2(∑j=1hain(xn−i+1−xi))2,W=1ns2(∑j=1hain(xn−i+1−xi))2,

siendo s2s2 la varianza muestral,

h={n2n−12, si n es par, si n es imparh={n2, si n es parn−12, si n es impar

y los coeficientes ainain suelen aparecer tabulados en los manuales. Obtenido el valor
de WW, su distribución permite calcular el valor crítico del test que permite tomar una
decisión sobre la normalidad de la muestra.

El programa devuelve el valor del estadístico WW, así como su probabilidad crítica, pcpc, la
cual da la clave para aceptar o rechazar la hipótesis nula de normalidad, que representamos
por H0H0. Si pc<0.05pc<0.05, se rechazará la hipótesis con un nivel de significación del 5%;
si pc<0.01pc<0.01, se rechazará con un nivel del 1%.

Se han medido los tiempos de ejecución de cierta tarea por parte de seis operarios, con los
siguientes resultados en horas: 6.55, 5.58, 4.33, 2.53, 5.49, 8.64. Se quiere saber si las
mediciones provienen de una población normal.

Medida de dispersion

Las medidas de dispersión muestran la variabilidad de una distribución, indicándolo por


medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de
la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre
ellos.
Las medidas de dispersión son números reales no negativos, su valor es igual a cero cuando
los datos son iguales y este se incrementa a medida que los datos se vuelven más diversos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la
media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma
de desviaciones positivas y negativas podrían cancelarse entre sí, así que se adoptan dos
clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor
absoluto (por ejemplo desviación media) y otra es tomando las desviaciones al cuadrado (por
ejemplo varianza).
Rango
Se define el rango de una variable estadística como la diferencia entre el mayor y el menor
valor de la variable. El rango indica la longitud del intervalo en el que se hallan todos los
datos de la distribución. El rango es una medida de dispersión importante, aunque
insuficiente para valorar convenientemente la variabilidad de los datos.
Desviación estándar
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos
están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor
será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de
una población, mientras que s se utiliza para representar la desviación estándar de una
muestra. La variación que es aleatoria o natural de un proceso se conoce comúnmente como
ruido.
La desviación estándar se puede utilizar para establecer un valor de referencia para estimar
la variación general de un proceso.
Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de datos
respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado
divididos entre el total de observaciones.
También se puede calcular como la desviación típica al cuadrado. Dicho sea de paso,
entendemos como residuo a la diferencia entre el valor de una variable en un momento y el
valor medio de toda la variable.

Medidas de forma

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra. En concreto, podemos estudiar las siguientes características de la
curva:
Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son
similares.

Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor
de los valores medios de la muestra.

EL SESGO: Mide las desviaciones de las MTC., Ya que el seesgo es el grado de asimetría o
falta de asimetría, de una distribucion, si el poligono de frecuencias visualizado de una
distribucion tiene una cola más larga a la derecha del máximo central que a la izquierda, se
dice que la distribucion esta sesgada a la derecha o que tiene sesgo positivo(asimetría
positiva) y si al contrario se dice que tiene sesgo (asimetría negativa) en la asimetria
encontramos si es:

a)asimetricamente + = cuado el sg es mayor a 0

b)normal= cuado el sg = 0

c)simetricamente - cuando el sg es menor a 0

Medidas de tendencia central


Al describir grupos de diferentes observaciones, con frecuencia es conveniente resumir la
información con un solo número. Este número que, para tal fin, suele situarse hacia el centro
de la distribución de datos se denomina medida o parámetro de tendencia central o de
centralización.
Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la
distribución, independientemente de que esté más o menos centrada, se habla de estas
medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre
estas medidas.
La mediana

La mediana es el valor que ocupa el lugar central entre todos los valores del conjunto de
datos, cuando estos están ordenados en forma creciente o decreciente.
La mediana se representa por Me.

La media
media o promedio es una medida de tendencia central. Resulta al efectuar una serie
determinada de operaciones con un conjunto de números y que, en determinadas
condiciones, puede representar por sí solo a todo el conjunto». Existen distintos tipos de
medias, tales como la media geométrica, la media ponderada y la media armónica, aunque en
el lenguaje común, tanto en estadística como en matemáticas la elemental de todas ellas es
el término que se refiere generalmente a la media aritmética.
Coeficiente de variación
En estadística, cuando se desea hacer referencia a la relación entre el tamaño de la media
y la variabilidad de la variable, se utiliza el coeficiente de variación.
Su fórmula expresa la desviación estándar como porcentaje de la media aritmética,
mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación
típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación
típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos
los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del
coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V.,
mayor homogeneidad en los valores de la variable, por lo que se recomienda que el C.V. no
sea mayor al 2%. Suele representarse por medio de las siglas C.V.
La probabilidad
es una medida de la certidumbre asociada a un suceso o evento futuro y suele expresarse
como un número entre 0 y 1 (o entre 0 % y 100 %).
Una forma tradicional de estimar algunas probabilidades sería obtener la frecuencia de un
acontecimiento determinado mediante la realización de experimentos aleatorios, de los que
se conocen todos los resultados posibles, bajo condiciones suficientemente estables. Un
suceso puede ser improbable (con probabilidad cercana a cero), probable (probabilidad
intermedia) o seguro (con probabilidad uno).
Espacio muestral
Por espacio muestral (también conocido como espacio de muestreo) se entiende el grupo de
todos los resultados específicos que se pueden obtener tras una experimentación de
carácter aleatorio. A cada uno de sus componentes se los define como puntos muestrales o,
simplemente, muestras.

También podría gustarte