Cálculo de Matrices y Pruebas Estadísticas
Cálculo de Matrices y Pruebas Estadísticas
-Matriz inversa
Veremos una matriz de 3x3 como caso particular más común.
=
ℎ
Para calcular la inversa de una matriz los pasos a seguir son:
|| = + + ℎ − − − ℎ
1-Calcular el determinante de la matriz
ℎ + + ℎ + +
los resultados, y se resultado es el elemento ‘ij’ de la matriz multiplicación.
=
+ + ℎ + +
- 1 Hemos de CONTAR los elementos de la lista que nos den que sean mayores
-Qué significa la expresión
!"#
que el valor ‘mo’. Es decir, si indica xi>9, contaremos la cantidad de elementos
de la lista que sean mayores a 9.
- 1 Hemos de CONTAR la cantidad de elementos de la lista problema que sean
$
iguales a la premisa que indique el problema. Sirve para elementos no
numéricos.
Por ejemplo, si en el ejercicio nos indican que hay varios colores (azul, blanco,
rojo,…) y que debemos hacer una estadística para los de color rojo, debemos
contar sólo los elementos que incluyan este color.
1 ()*
,
6-Ahora se calcula el parámetro experimental según
%&' = − ( ~ / * − 0 − 1
( +)
)$
El valor de ‘s’ es el número de parámetros desconocidos, que normalmente es 0, porque los
datos son una variable conocida.
7-Para aceptar la hipótesis, la región de aceptación debe hallarse en el intervalo C(0,χ2). Ese
valor de χ2 lo conseguimos de las tablas estadísticas para n=(k-s-1) y α calculado a partir del
nivel de confianza ( que nos indique el problema (o si nos dan directamente el grado de
significación).
Las tablas de χ2 se tienen en función de ‘n’ y de α. Se busca el valor de χ2 para los
parámetros obtenidos antes y se ve el intervalo C. Si Texp está dentro de ese intervalo, se
acepta la hipótesis de ajuste, y si no, se rechaza.
La tabla quedaría, por ejemplo, como
Al 99% de confianza (α=0’01), k=5, n=4, χ2(4)=13’277 y Texp=12’629. Por lo que Ho sería
válida.
-Test de Kolmogorov
Válido para cualquier tamaño de muestra.
1-Como con la χ2 lo primero es ordenar los datos y ver las frecuencias en cada intervalo, y
las frecuencias acumuladas.
2-Se calculan las probabilidades individuales y las acumuladas (según lo que nos indique el
problema –puede ser tan simple como las frecuencias partidas por el número de datos-).
3-Calculamos la media aritmética de todas las observaciones
4-Hacemos la desviación estándar
∑5)$3) − 3̅ *
0 = 1
(−1
3) − 3̅
5-Tipificamos según
6) =
0
6-Con esos datos tipificados, o normalizados, vamos a las tablas de N(0,1) y obtenemos los
valores para cada valor de z≤zi tomando los valores de la tabla para una distribución normal.
Como es N(0,1), los valores de la probabilidad para ‘z’ positivos y negativos se calculan
complementando a 1. NO OLVIDAR QUE LA TABLA QUE TENEMOS ES PARA Z>, por
lo que si queremos obtener de esa tabla un valor para z<, hemos de usar el dato que da
directamente cambiado de signo.
Esos valores son los datos de la función de distribución estándar Φ.
Siendo s(x) la probabilidad acumulada. El valor que tomamos para s(x0) será 0.
xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
S(x) 3/15 5/15 6/15 10/15 11/15 12/15 14/15 15/15
Φ(x) 0’1029 0’2019 0’3372 0’512 0’679 0’8144 0’9072 0’9608
A(x) 0’0971 0’1314 0’0628 0’1547 0’0543 0’0144 0’0261 0’0392
B(x) 0’1029 0’0019 0’0039 0’112 0’0123 0’0811 0’1072 0’0275
Tenemos que Do=0’112, α=0’05 (del enunciado) y Dtabla=0’220.
Por lo tanto, aceptamos la normalidad de los datos al 95%.
-Grado de relación monótona
Previamente hemos de normalizar los datos.
Hemos de calcular el coeficiente de correlación de Spearman, que nos da la relación
0CCB
?@,B = ?CCB =
monótona creciente o decreciente de un grupo de datos, y que se define como
0C 0CB
srxry es la covarianza de los datos normalizados, srx la desviación típica de rx y sry la de ry.
1-En primer lugar se ordenan los valores de las variables de las que se quiere saber la
relación (x e y, especie y color, temperatura y altura,…), anotando tantas veces el valor como
veces aparezcan en la tabla de resultados (la frecuencia). Se añade una columna en la que se
indican las posiciones de los datos que tienen ese valor.
2-Luego se calcula la ‘posición media’ de cada valor, es decir, se hace la media de los
ordinales de la posición (la columna anterior) de los valores ordenados y se asigna ese
número a cada uno de los valores de la tabla. Esos valores son las nuevas variables ‘rx’ y ‘ry’.
3-Hacemos una nueva tabla de contingencia, en la que incluimos los datos en el orden del
enunciado del ejercicio para ambas variables, y los valores de rx y ry correspondientes a esos
valores.
4-Calculamos las medias de esos valores rx y ry.
5-Hallamos las desviaciones típicas srx y sry, según
1
"
0 = D 3)* () − 3̅ *
E
)$
1
, I
6-Obtenemos la covarianza
0B = ()F 3) 8F − 3̅ ∙ 8H
E
)$ F$
7-Calculamos el coeficiente de Spearman.
Puede ser monótono creciente, para rs,xy mayor que 0, o decreciente para valores menores de
0. Cuanto mayor sea el valor, más relación habrá.
0B
?B =
Hallamos el coeficiente de Pearson, muy similar al de Spearman.
0 0B
Aquí se usan las variables directamente, no retabuladas.
Esta tabla sirve para ver el grado en Pearson y en Spearman.
()∎ (∎F
X)F =
2-Se calculan las frecuencias esperadas, según la fórmula
E
3- Si las frecuencias absolutas son iguales a las esperadas EN TODOS LOS VALORES DE
LA TABLA, las variables x e y son independientes, con lo que no existe ningún grado de
asociación entre ellas. Si no son iguales, las variables x e y son dependientes, por lo que
existe asociación entre ellas.
4-Si ese es el caso, pasamos a calcular el coeficiente χ2.
()F *
, I
/ =
*
−E
X)F
)$ F$
(l=columnas y k=filas de la tabla de contingencia)
5-Calculamos ya el valor de V. Valores próximos a 0 indican muy poca o nula relación de
variables, mientras que valores próximos a 1 indican una muy fuerte relación.
[−\
cuadradas, como es el caso, por la expresión
Z =
EE − 1 EE − 1
] − % − %B
2 2
Siendo P el número de parejas concordantes, Q las parejas discordantes, Tx el número de
1 1
, I
[−\
9-Ya sabemos los datos a usar en la fórmula de Kendall.
Z =
EE − 1 EE − 1
] − % − %B
2 2
cde
Da una medida del desorden de los datos. Se define como
c = 2 1 −
cd + ce
cd = − ( f g ; ce = − ( f g ; cde = − ln f g
E E E E E E
)$ F$ )$ F$
Toma valores entre [0,1] y cuanto más próximo a 1 esté, menos entropía habrá.
Evidentemente se ha de confeccionar primero la correspondiente tabla de contingencia, con
los valores o clases pertinentes.
Sólo hay que realizar las operaciones. Es fácil.
Ji
estimado por el modelo ^Y, tomando valores entre [0,1]
h* = = ?BB *
JB j
Donde los valores de Vf y Vy son la suma de las desviaciones cuadráticas de los datos reales
k k
(Vy) y de los calculados (^y) según el modelo (Vf)
)$ )$
∑k
)$8) − 8
H*
Así,
h =
*
∑k n
l8
)$ m − H
8
j o
*
Luego, para calcularlo, hemos de obtener el modelo Y=a+bX, calcular el valor estimado para
cada valor de X según ese modelo y, una vez halladas las medias de los datos reales y de los
calculados, calcular los valores de Vf y Vy, y porteriormente el de R2.
Cuanto más próximo a 1 se encuentre el coeficiente de determinación, mejor será el ajuste
del modelo.
? ∙ (E
Se calcula según la expresión
9cp = +1+q
E
2r
k
Donde r es el número de variables regresoras y L es
q = ( s)*
E
)$
Siendo εi el valor de la diferencia entre los valores reales de la variable dependiente Y y los
calculados para ésta según el modelo propuesto.
Al comparar modelos, aquel que presente un valor inferior del parámetro BIC, será el que se
ajuste mejor a los datos proporcionados.
v# : x * = x#* z
Las hipótesis son
−9 t? u
v : x * ≠ x#*
v : x * = ≤x#* z
−{( t? ?ℎ u #
v : x * > x#*
v# : x * = ≥x#* z
−{( t? 6~ ? u
v : x * < x#*
( * 1
k
El estadístico es
−9 t? //*
*
, //*
*
La decisión se toma (Ho válido) si Texp se halla en el intervalo. SI no, se acepta H1.
*
1
5
El parámetro experimental es
Suma Suma=S2
Procedemos a calcular Texp.
A continuación, utilizando la tabla de Shapiro,
hallamos el valor del parámetro de contraste (Wα),
usando los valores de n y α definidos en el problema.
Si el parámetro Texp es mayor que el valor de Wα se
acepta la hipótesis Ho y se acepta la normalidad de la
distribución de datos.
-RESUMEN