UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
E.A.P. INGENIERIA CIVIL
CURSO : Estadística y Probabilidades
DOCENTE : José Werner Silva Cubas
INTEGRANTES :
Burga Arango, Jhordy Cristopher
Huamán Carrasco, Dahizé
Huamán Zeña, Freya Lucía del Milagro
Saucedo Vásquez, Cristian Moisés
Alfaro Castañeda Noelia
Huamán Cortez , Efrain Alejandro
MÉTODOS NO PARAMÉTRICOS
Las pruebas no paramétricas, también conocidas como pruebas de distribución libre, son las que se basan en determinadas
hipótesis, pero lo datos observados no tienen un organización normal. Generalmente, las pruebas no paramétricas contienen
resultados estadísticos que provienen de su ordenación, lo que las vuelve más fáciles de comprender.
Las ventajas de las pruebas no paramétricas son:
Pueden utilizarse en diferentes situaciones, ya que no deben de cumplir con parámetros estrictos.
Generalmente, sus métodos son más sencillos, lo que las hace más fácil de entender.
Se pueden aplicar en datos no numéricos.
Facilita la obtención de información particular más importante y adecuada para el proceso de investigación.
Las desventajas de las pruebas no paramétricas son:
No son pruebas sistemáticas.
La distribución varía, lo que complica seleccionar la elección correcta.
Los formatos de aplicación son diferentes y provoca confusión.
Es posible que se pierda información porque los datos recolectados se convierten en información cualitativa.
Es posible que se necesite tener fuentes y un respaldo con más peso.
Una variable: es una característica de un elemento de la población. Debido a que existen diferentes tipos de rasgos, también hay
distintas escalas para expresar las variables que se definen de forma breve a continuación.
Escala Nominal: En donde se mide los atributos y/o las cualidades del elemento, los cuales pueden ser numéricos o no
numéricos. Esta escala proporciona información muy general sobre los elementos y se trata de igualdad y desigualdad de los
elementos.
Escala Ordinal: Aquí se ordenen o se ranquean los diferentes niveles (seleccionadas de forma subjetiva en una escala) de los
atributos de los elementos los cuales de nuevo pueden ser numérico o no numérico. Esta escala contiene los rasgos de la escala
anterior y por ende nos proporciona mayor cantidad de información que la escala nominal. La ordenación tiene sentido en esta
escala. Estas dos escalas se utilizan en las investigaciones de tipo cualitativo.
Clasificación de las pruebas no paramétricas
Tabla 1. Resumen de las principales pruebas estadísticas no paramétricas
En las siguientes tablas se recogen las principales características de las pruebas no paramétricas nominales:
Tabla 2. Pruebas no paramétricas una sola muestra
Tabla 3. Pruebas no paramétricas para 2 muestras
Tabla 4. Pruebas no paramétricas para más de 2 muestras
Ejemplificación de pruebas no paramétricas
Tomaremos como ejemplo un estudio orientado a conocer la actitud del profesorado universitario hacia las TIC en la docencia, a
través de una escala tipo Likert, las hipótesis estadísticas correspondientes y la interpretación de los resultados obtenidos en SPSS.
a. Prueba de Chi-cuadrado (una muestra)
Objetivo: Conocer si hay relación entre el género y los años de experiencia docente.
Ho: el género es independiente de los años de experiencia.
H1: el género y los años de experiencia están relacionados.
Figura 1. Cuadro de diálogo de la prueba Chi-cuadrado
Resultados
Tabla 5. Output de la prueba Chi-cuadrado
No se rechaza la Ho, lo que significa que no hay relación entre el género y los años de experiencia docente (sig.0,361> 0,05).
PRUEBAS DE
BONDAD DE
AJUSTE
Concepto
● Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los
datos observados en una muestra aleatoria se ajustan con algún nivel de
significancia a determinada distribución de probabilidad (uniforme,
exponencial, normal, poisson, u otra cualquiera).
● La hipótesis nula Ho indica la distribución propuesta, mientras que la hipótesis
alternativa H1, nos indica que la variable en estudio tiene una distribución que
no se ajusta a la distribución propuesta.
Para realizar la prueba, se clasifican los datos observados en k clases o
categorías, y se contabiliza el número de observaciones en cada clase, para
posteriormente comparar la frecuencia observada en cada clase con la
frecuencia que se esperaría obtener en esa clase si la hipótesis nula es
correcta.
k = No. de clases, k>2
fo = Frecuencia observada en la clase i
fe = Frecuencia esperada en la clase i, si Ho es correcta.
Tabla
Las pruebas de bondad de ajuste comparan la frecuencia observada con la
frecuencia esperada en cada clase.
FRECUENCIAS
ESPERADAS IGUALES
En el contexto de las pruebas de bondad de ajuste, las frecuencias esperadas iguales
se refieren a la situación en la que se espera que cada categoría o valor en una
distribución teórica tenga la misma frecuencia esperada de ocurrencia en la
muestra de datos.
Por ejemplo, si se está realizando una prueba de chi-cuadrado para verificar si la
distribución de los resultados de un dado es uniforme, las frecuencias esperadas
iguales significarían que se esperaría que cada número del 1 al 6 tenga la misma
probabilidad teórica de aparecer en la muestra.
Por ende, cuando se habla de frecuencias esperadas iguales en una prueba de bondad
de ajuste, se refiere a que se espera que cada categoría o valor en la distribución
teórica tenga la misma probabilidad de ocurrencia en la muestra de datos.
EJEMPLO
El propietario de cadena de restaurantes, desea añadir filete a su menú. Antes de hacerlo,
decide contratar a una encuestadora, para que lleve a cabo una encuesta entre personas
adultas para saber cuál es su platillo favorito cuando comen fuera de casa. La encuestadora
seleccionó una muestra de 120 adultos y les pidió que indicaran Su comida favorita cuando
salen a cenar. Los resultados se reportan en la siguiente tabla.
Frecuencia
Frecuencia
Plato Fuerte esperada
observada, f0 ¿Se debe al azar esta diferencia entre
(fe)
los números de veces que cada platillo
pollo 32 30 es seleccionado, o se debe concluir que
pescado 24 30 los platillos tienen el mismo grado de
carne 35 30 popularidad?
pasta 29 30
total 120 120
FRECUENCIAS
ESPERADAS
DESIGUALES
las frecuencias esperadas desiguales se refieren a la situación en la que se
espera que cada categoría o valor en una distribución teórica tenga una
frecuencia esperada diferente de ocurrencia en la muestra de datos.
Por ejemplo, en una prueba de bondad de ajuste para comprobar si la
distribución de los resultados de un dado sigue una distribución específica, las
frecuencias esperadas podrían ser desiguales si se espera que algunos
números tengan una mayor probabilidad teórica de ocurrencia que otros.
Entonces, cuando se habla de frecuencias esperadas desiguales en una
prueba de bondad de ajuste, se refiere a que cada categoría o valor en la
distribución teórica tiene asignada una probabilidad diferente de
ocurrencia en la muestra de datos, en contraposición a la situación en la que
todas las categorías tienen la misma probabilidad (frecuencias esperadas
iguales).
EJEMPLO
La Asociación Nacional de Hospitales reporta la siguiente información respecto del número de
veces que los adultos mayores son admitidos en un hospital durante un periodo de un año.
40% no es admitido, 30% es admitido una vez, 20% Son admitidos dos veces y 10% restante
es admitido tres 0 más veces.
Una encuesta quo abarcó a 150 residentes do una comunidad con una población predominante
de adultos mayores activos, reveló que 55 residentes no ingresaron durante el año pasado, 50
fueron admitidos en un hospital una vez, 32 fueron admitidos dos veces, y el resto fueron
admitidos tres 0 más veces. ¿Es posible concluir que la encuesta en esta comunidad es
consistente con la información sugerida por la Asociación Nacional de Hospitales? utilice el nivel
de significancia 0.05.
Numero de
Numero de
Numero de esperado de
Porcentajes residentes
admisiones residentes
(fo)
(fe)
0 40 55 60
1 30 50 45
2 20 32 30
3 o más 10 13 15
total 100 150 150
L I M I TA C I O N E S D E L J I C U A D R A D O
La prueba de chi-cuadrado puede ser sensible al tamaño de la muestra. Con muestras
muy pequeñas, es posible que la prueba no tenga suficiente poder estadístico para
detectar diferencias significativas o para rechazar la hipótesis nula incluso cuando existan
diferencias reales en los datos.
En el contexto de la prueba de bondad de ajuste, la principal limitación es
que solo puede utilizarse para comparar datos observados con una
distribución de probabilidad específica. Si se desea comparar datos
observados con más de una distribución, se necesitarán pruebas adicionales.
La prueba de chi-cuadrado se aplica a datos categóricos y no es apropiada para
datos continuos. Para datos continuos, se deben utilizar otras pruebas estadísticas
como la prueba t de Student o la prueba de ANOVA.
Para contrastar su independencia se suele usar el estadígrafo
chi-cuadrado. Su cálculo se basa en calcular la diferencia entre
las observaciones para cada par de modalidades de las variables
y las que serian de esperar en caso de que se satisficiese la
Limitaciones de condición de independencia.
las pruebas Ji- -Se necesita que más del 20% de los valores esperados estén por
cuadrado de encima de 5 y que ninguna celda tenga valor esperado menor a
1.
Independencia -Si la tabla es de 2x2, todas las celdas deben tener valores
y Ji-cuadrado esperados por encima de 5.
de -En el caso de la tabla de 2x2 si existe una sola celda con valor
esperado menor que 5, esto representaría un 25% de las celdas
Homogeneidad con esa condición, por lo que se utilizaría la Prueba de las
Probabilidades exactas de Fisher en lugar de la Prueba X 2, ya
que en éste caso no es posible agrupar categorías.
Ejemplo
Se realiza un estudio para determinar las
plazas de trabajo necesarias en la empresa
pinto y se obtuvo los siguientes datos
Prueba de
hipótesis para la
proporción
poblacional
Métodos
• Para probar hipótesis sobre una, dos y más de dos
proporciones poblacionales se pueden utilizar distintos
métodos estadísticos, como el test de proporciones, la
prueba de chi-cuadrado y el análisis de varianza (ANOVA),
entre otros.
1. Prueba de hipótesis para una proporción: Para probar una
hipótesis sobre una proporción poblacional, se puede utilizar el
test de proporciones. La hipótesis nula generalmente afirmará
que la proporción poblacional es igual a un valor específico,
mientras que la hipótesis alternativa afirmará que la proporción
poblacional es diferente a ese valor. El test de proporciones se
basa en la distribución binomial y se utiliza para determinar si la
diferencia entre la proporción observada en la muestra y la
proporción hipotética en la población es estadísticamente
significativa.
2. Prueba de hipótesis para dos proporciones: Para probar
hipótesis sobre dos proporciones poblacionales, se puede
utilizar el test de proporciones para muestras
independientes o para muestras relacionadas. Este test
compara dos proporciones poblacionales y determina si la
diferencia entre ellas es estadísticamente significativa. La
hipótesis nula generalmente afirmará que no hay diferencia
entre las proporciones en las dos poblaciones, mientras
que la hipótesis alternativa afirmará que hay una diferencia
significativa.
3. Prueba de hipótesis para más de dos proporciones: Para
probar hipótesis sobre más de dos proporciones
poblacionales, se puede utilizar la prueba de chi-cuadrado
o el análisis de varianza (ANOVA). Estos métodos
estadísticos permiten comparar múltiples proporciones y
determinar si hay diferencias significativas entre ellas. La
prueba de chi-cuadrado se utiliza cuando se tienen más de
dos categorías y se quiere determinar si existe una relación
entre estas categorías y una variable categórica. Por otro
lado, el ANOVA se utiliza cuando se tienen más de dos
grupos y se quiere determinar si hay diferencias en la
variable de interés entre estos grupos
Ejemplo
Prueba de hipótesis de que la distribución es normal
Prueba de hipótesis:
Las pruebas de hipótesis, denominadas también pruebas de significación
tienen como objeto principal evaluar suposiciones o afirmaciones acerca
de los valores estadísticos de la población, denominados parámetros.
Cuando se hace indispensable tomar una decisión sobre la validez de la
representación en una población, con base en los resultados obtenidos a
través de una muestra, se dice que se toman decisiones estadísticas. Para
tomar una decisión, es necesario, ante todo, plantear posibilidades
acerca de la característica o características a estudiar en una población
determinada. La suposición puede ser cierta o falsa. Estas suposiciones
se llaman hipótesis estadísticas.
Para tomar decisiones estadísticas, se requieren de las dos hipótesis: la
hipótesis nula y la hipótesis alternativa referidas a un parámetro.
La prueba de una hipótesis estadística es un proceso que nos conduce a
tomar la decisión de aceptar o rechazar la hipótesis nula𝐻 0, en
contraposición de la hipótesis alternativa𝐻 𝑎 y en base a los resultados
de una muestra aleatoria seleccionada de la población en estudio.
PRUEBA DE NORMALIDAD
HIPOTESIS
H 0 : Los datos tienen una distribución normal.
H a : Los datos no tienen una distribución normal.
NIVEL DE SIGNIFICANCIA:
Confianza :95%
Significancia ( ): 5% 0.05
ESTADISTICO DE PRUEBA
Smirnov - Kolmogorov
DECISIÓN:
Comparar el valor del estadístico ( empírico), con el valor critico ( teórico) de la
tabla 5.3, con los siguientes criterios de decisión:
Si: < 0 El ajuste es bueno al nivel de significancia seleccionado
> 0 El ajuste no es bueno, siendo necesario probar con otra distribución
EJEMPLO:
Dado los ingresos quincenales en dólares de 45 personas
63 89 36 49 78
43 53 70 57 26
64 72 52 51 55
59 60 67 57 81
53 64 76 44 60
56 64 59 35
62 43 68 62
62 60 71 61
67 61 67 51
73 56 62 63
realizar la prueba Smirnov-Kolmogorov, para ver si se ajustan a una distribución normal.
SOLUCION
1. HIPOTESIS
H 0 : Los datos tienen una distribución normal.
H a : Los datos no tienen una distribución normal
2. NIVEL DE SIGNIFICANCIA
Significancia ( ): 5% v 0.05
Confianza :95%
3.ESTADISTICO DE PRUEBA
3.1. Cálculo de P(x):
Ordenando los datos en forma creciente y calculando la probabilidad empírica
P(x), usando la fórmula de Weibull:
m
P( x) , donde m = número de orden; n = número de datos
n 1
__
3.2. Cálculo de la X y S, de los datos no agrupados
__
X =59,6
S=12.057
3.3 Calculo de la variable estandarizada Z:
__
X X
Z
S
3.4. Cálculo de F(Z), usando la función de distribución normal acumulada.
3.5. Calculo del empírico = máx ( F ( Z ) P ( X ) )
= F ( Z ) P ( X ) =0.0889
3.6. Cálculo del teórico:
Para =0.05 se tiene:
teórico = 0.2027
4.DECICION:
Como:
empírico=0.0889 < teórico = 0.2027
Se concluye que los datos se ajustan a la distribución normal, con un nivel de
significación del 5% o una probabilidad del 95%.
ANÁLISIS DE TABLAS DE
CONTINGENCIA
EJEMPLO: al estudiar el estado físico de una persona, se
realizan preguntas como altura, peso, si realiza ejercicio,
etc.
Se realizan por la sencilla razón de que en ocasiones las
variables están interrelacionadas entre sí.
En el EJEMPLO, una persona alta es razonable suponer que
tiene mayor peso, dos variables comúnmente relacionadas.
RECORDEMOS
{
Como por ejemplo:
{
- Edad
Cuantitativas - Peso
- Altura
{
Tipos de
variables
Como por ejemplo:
- Color de pelo
Cualitativas
- Color de ojos
- Sexo
Vamos a ver las posibles relaciones entre dos
variables cualitativas.
Mediante la herramienta:
TABLA DE CONTINGENCIA
Tablas de contingencia:
Lectura e interpretación
KARL PEARSON
Las tablas de contingencia hemos dicho que
estudia relaciones entre dos variables cualitativas
EJEMPLO. Si queremos estudiar la relación entre el
color de ojos y el color del pelo.
La variable X: Color de ojos La variable Y: Color de pelo
x1: ojos claros y1: pelo claro
x2: ojos oscuros y2: pelo oscuro
¿Cómo construir una tabla de contingencia?
EJEMPLO. En un hospital psiquiátrico se hace un estudio en
el que participan 30 pacientes con dos tipos de problemas
neuronales (altos y bajos), queremos comparar un fármaco
nuevo con otro antiguo. ¿Cómo podemos representar esta
situación? ¿Cómo podemos ver si el tratamiento nuevo es
preferible al anterior?
Variable X: Tipo de tratamiento
x1: antiguo
x2: nuevo
Variable Y: Problemas neuronales
y1: altos
y2: bajos
Los pacientes dijeron el tipo de problema y que fármaco
tomaban
Sujeto1 (alto, antiguo), Sujeto2 (alto, antiguo),
Sujeto3 (bajo, antiguo), Sujeto4 (alto, nuevo),
Sujeto5 (alto, nuevo)…
Contamos cuantos hay del mismo tipo, es decir:
a = Problemas altos y tratamiento antiguo = 10
b = Problemas bajos y tratamiento antiguo = 4
c = Problemas altos y tratamiento nuevo = 5
d = Problemas bajos y tratamiento nuevo = 11
TABLA DE CONTINGENCIA
Tratamiento (X) Problemas neuronales (Y)
Altos (y1) Bajos (y2)
Antiguo (x1) a = 10 b=4
Nuevo (x2) c=5 d = 11
Estos 4 valores calculados llamaremos frecuencias
absolutas dobles (f), que nos dicen el número de sujetos
que hay, con valores específicos de las variables
Tratamiento (X) Problemas neuronales (Y)
Altos (y1) Bajos (y2)
Antiguo (x1) 10 (f11) 4 (f12)
Nuevo (x2) 5 (f21) 11 (f22)
EJEMPLO:
¿Cuántos sujetos hay con problemas neuronales “Bajos” y
el tratamiento “Nuevo”?
Seguimos la columna problemas neuronales “Bajos” y el
tratamiento “Nuevo”, y obtenemos:
f22 = 11
FRECUENCIAS RELATIVAS DOBLES
Obtenemos otra tabla como la anterior donde en cada celda
dividimos por el número de sujetos
En el EJEMPLO anterior recordemos que había 30
pacientes, por tanto la tabla queda:
Tratamiento (X) Problemas neuronales (Y)
Altos (y1) Bajos (y2)
Antiguo (x1) 10/30 = 0,333 4/30 = 0,133
Nuevo (x2) 5/30 = 0,167 11/30 = 0,367
¿Para que sirven las frecuencias relativas dobles?
Tratamiento Problemas neuronales
Altos Bajos
Antiguo 0,333 (h11) 0,133 (h12)
Nuevo 0,167 (h21) 0,367 (h22)
Si estos valores los multiplicamos por 100 nos da el
porcentaje de sujetos correspondiente a esa celda
EJEMPLO: ¿Qué porcentaje de sujetos hay con
problemas “Altos” y tratamiento “Nuevo”?
0,167 x 100 = 16,7% es el porcentaje
FRECUENCIAS MARGINALES Y
DISTRIBUCIÓN MARGINAL
En la tabla de las frecuencias absolutas dobles anterior,
añadimos una columna a la derecha y una fila debajo, que
llamaremos “TOTAL”, en ambos casos.
La columna del TOTAL llamaremos distribución marginal de X
Cada valor llamaremos frecuencia marginal de X
La fila del TOTAL llamaremos distribución marginal de Y
Cada valor llamaremos frecuencia marginal de Y
¿Cómo se obtiene?
Sumando la fila para la distribución marginal de X
Sumando la columna para la distribución marginal de Y
EJEMPLO
Tratamiento Problemas neuronales TOTAL
Altos Bajos
Antiguo 10 4 10+4 = 14
(f1.)
Nuevo 5 11 5+11= 16
(f2.)
TOTAL 10+5 = 15 4+11 = 15 30 (n)
(f.1) (f.2)
El valor n, se obtiene sumando cualquier distribución
marginal, representa el número total de sujetos, que como
recordamos son 30 pacientes.
FRECUENCIAS CONDICIONALES Y
DISTRIBUCIÓN CONDICIONAL
Vamos a conocer estos términos con nuestro ejemplo
Se trabaja con la tabla de frecuencias absolutas, es decir:
Tratamiento Problemas neuronales TOTAL
Altos Bajos
Antiguo 10 (f11) 4 (f12) 14 (f1.)
Nuevo 5 (f21) 11 (f22) 16 (f2.)
TOTAL 15 (f.1) 15 (f.2) 30 (n)
Podemos obtener la distribución de X condicionada
por y1 ó y2
Podemos obtener la distribución de Y condicionada
por x1 ó x2
Calculemos una distribución de Y condicionada por X, esto
implica calcular:
La frecuencia condicional de y1 condicionada por x2
La frecuencia condicional de y2 condicionada por x2
Los datos que nos interesan son:
Tratamiento Problemas neuronales (Y) TOTAL
Altos (y1) Bajos (y2)
Nuevo (x2) 5 11 16
Las frecuencias condicionales son:
Tratamiento Problemas neuronales (Y) TOTAL
Altos (y1) Bajos (y2)
Nuevo (x2) 5/16=0,3125 11/16=0,6875 1
(h(y1/x2)) (h(y2/x2))
La interpretación
Tratamiento Problemas neuronales (Y) TOTAL
Altos (y1) Bajos (y2)
Nuevo (x2) 5/16=0,3125 11/16=0,6875 1
(h(y1/x2)) (h(y2/x2))
- El 31,25% de los pacientes con el tratamiento
nuevo, tienen problemas neuronales altos
- El 68,75% de los pacientes con el tratamiento
nuevo, tienen problemas neuronales bajos
ALGUNAS
REPRESENTACIONES
GRÁFICAS
Diagrama de barras
adosadas
Gráfico tridimensional
Diagrama de barras
apilado
GRACIAS POR
LA ATENCIÓN