0% encontró este documento útil (0 votos)
37 vistas11 páginas

Cálculo de Matrices y Pruebas Estadísticas

Este documento explica cómo calcular la inversa de una matriz y cómo multiplicar dos matrices. También describe cómo realizar una prueba chi cuadrado de normalidad para comprobar si una serie de datos se ajusta a una distribución específica y cómo llevar a cabo una prueba de Kolmogorov para evaluar si una distribución de datos es normal.

Cargado por

Alfonso
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
37 vistas11 páginas

Cálculo de Matrices y Pruebas Estadísticas

Este documento explica cómo calcular la inversa de una matriz y cómo multiplicar dos matrices. También describe cómo realizar una prueba chi cuadrado de normalidad para comprobar si una serie de datos se ajusta a una distribución específica y cómo llevar a cabo una prueba de Kolmogorov para evaluar si una distribución de datos es normal.

Cargado por

Alfonso
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Cómo se hace

-Matriz inversa

  
Veremos una matriz de 3x3 como caso particular más común.

 =  

Para calcular la inversa de una matriz los pasos a seguir son:

|| =  +  + ℎ −  −  −  ℎ
1-Calcular el determinante de la matriz

2-Calcular la matriz adjunta Adj(A). Cada elemento se sustituye por su menor


complementario. Éste se calcula hallando el determinante de la matriz 2x2 que resulta de
eliminar la fila y la columna a la que pertenece el elemento. El signo de ese valor (ya sea
positivo o negativo) se mantiene si la suma de los índices del elemento a calcular es par, y se

+ − ℎ − −  +ℎ −  


cambia si la suma de índices es impar.

 =  − − ℎ + −   −ℎ −  


+ −  − −  + − 

+ − ℎ − − ℎ + − 


3-Se hace la matriz traspuesta de la adjunta Adj(A)’. Se cambian las filas por columnas.

′ =  − −  + −   − − 


+ℎ −   −ℎ −   + − 

+ − ℎ − − ℎ + − 


4-Se divide la traspuesta por el valor del determinante. Ésa es la matriz inversa.
1
 =  − −  + −   − − 
 +  + ℎ −  −  −  ℎ
+ℎ −   −ℎ −   + − 

-Multiplicar una matriz A por una B


Usaremos, como ejemplo, una matriz A(2x3) y una B(3x2). El número de columnas de A ha
de ser igual que el de filas de B. Da una matriz con el número de filas de A y el número de
columnas de B.
Se multiplican los elementos de una fila ‘i’ de A por los de una columna ‘j’ de B, sumando

ℎ  +  +  ℎ +  + 
  
los resultados, y se resultado es el elemento ‘ij’ de la matriz multiplicación.

   = 
   +  +  ℎ +  + 
 

-  1 Hemos de CONTAR los elementos de la lista que nos den que sean mayores
-Qué significa la expresión

 !"#
que el valor ‘mo’. Es decir, si indica xi>9, contaremos la cantidad de elementos
de la lista que sean mayores a 9.
- 1 Hemos de CONTAR la cantidad de elementos de la lista problema que sean
 $
iguales a la premisa que indique el problema. Sirve para elementos no
numéricos.
Por ejemplo, si en el ejercicio nos indican que hay varios colores (azul, blanco,
rojo,…) y que debemos hacer una estadística para los de color rojo, debemos
contar sólo los elementos que incluyan este color.

-Tabla de contingencia para dos variables


Este es un ejemplo de una tabla de contingencia para dos variables típica.
Los yl son los valores (ya sean numéricos, ordinales, nominales…) que toma la variable Y, y
los xk los de la variable X. Las nkl son las frecuencias absolutas de los pares xk e yl, es decir,
las veces que aparece la pareja de datos (xk,yl) en la tabla de datos. El valor de ni• es la suma
de las frecuencias absolutas de la fila ‘i’, mientras que el valor de n•j es la suma de la
columna ‘j’. El valor N es la cantidad total de datos. Evidentemente, la suma de las ni• será
igual a N, al igual que la suma de las n•j también.

-Test Chi cuadrado de normalidad o ajuste a una distribución


Se haría este test para comprobar si una serie de datos se ajustan a una distribución (normal –
N(m,v)-, de Poisson –P(a)-, binomial(n,m) u otra).
Se basa en la ponderación de las diferencias entre las frecuencias observadas en la muestra
(ni) y las frecuencias esperadas de la distribución D0 (pi = P[X = xi] calculadas según las
condiciones límite y el tipo de distribución a estudiar).
Es válido para muestras con más de 30 datos, y se categoriza para obtener categorías en las
que el parámetro [Link] sea superior a 5, pudiendo hacer agrupaciones (refusión de categorías)
hasta obtener ese valor superior a 5.
1-En primer lugar, confeccionaremos una tabla en la que se muestren los valores ordenados
de los datos del problema (xi) y el número de veces que aparece cada valor (la frecuencia ni).
2-Según las condiciones del problema se calcularán las probabilidades para cada uno de los
tramos o xi que se hayan podido establecer y según la distribución a la que se ajusten los
datos (las fórmulas vienen en el formulario).
3-A continuación se calcularán las frecuencias esperadas, que es el resultado de multiplicar
la probabilidad calculada antes por el número total de datos N, es decir, nipi.
4-Ese valor es el que usaremos para determinar las categorías. Si es superior a 5, se incluye
en una categoría para él solo. Si no llega a 5, se añade a la siguiente, y si la suma es mayor,
se incluyen los dos en una categoría para ellos. Si sigue sin ser mayor, se sumaran tantos
valores como sean necesarios hasta llegar a 5 y la categoría será la suma de todos (se suman
los valores de las frecuencias ni y de los productos).
Si por debajo queda alguna frecuencia que no llega a 5 y la anterior categoría está completa,
se incluye en esa última aunque ya estuviera por encima de 5.
5-Una vez hecho esto, se cuenta el número de categorías, y ese número será el valor de la
variable ‘k’ de las fórmulas.

1 ()*
,
6-Ahora se calcula el parámetro experimental según

%&' =  − ( ~ / *  − 0 − 1
( +)
)$
El valor de ‘s’ es el número de parámetros desconocidos, que normalmente es 0, porque los
datos son una variable conocida.
7-Para aceptar la hipótesis, la región de aceptación debe hallarse en el intervalo C(0,χ2). Ese
valor de χ2 lo conseguimos de las tablas estadísticas para n=(k-s-1) y α calculado a partir del
nivel de confianza ( que nos indique el problema (o si nos dan directamente el grado de
significación).
Las tablas de χ2 se tienen en función de ‘n’ y de α. Se busca el valor de χ2 para los
parámetros obtenidos antes y se ve el intervalo C. Si Texp está dentro de ese intervalo, se
acepta la hipótesis de ajuste, y si no, se rechaza.
La tabla quedaría, por ejemplo, como

X ni pi Ei=nipi Categoría ncategoría pcategoría


0 13 0’13533528 5,4134112 I 13 0’13533528
1 8 0’27067056 10,8268224 II 8 0’27067056
2 8 0’27067056 10,8268224 III 8 0’27067056
3 7 0’18044704 7,2178816 IV 7 0’18044704
4 3 0’09022352 3,6089416
5 1 0’03608941 1,4435764 V 4 0’14287720
≥6 0 0’01656327 0

Al 99% de confianza (α=0’01), k=5, n=4, χ2(4)=13’277 y Texp=12’629. Por lo que Ho sería
válida.
-Test de Kolmogorov
Válido para cualquier tamaño de muestra.
1-Como con la χ2 lo primero es ordenar los datos y ver las frecuencias en cada intervalo, y
las frecuencias acumuladas.
2-Se calculan las probabilidades individuales y las acumuladas (según lo que nos indique el
problema –puede ser tan simple como las frecuencias partidas por el número de datos-).
3-Calculamos la media aritmética de todas las observaciones
4-Hacemos la desviación estándar
∑5)$3) − 3̅ *
0 = 1
(−1

3) − 3̅
5-Tipificamos según
6) =
0
6-Con esos datos tipificados, o normalizados, vamos a las tablas de N(0,1) y obtenemos los
valores para cada valor de z≤zi tomando los valores de la tabla para una distribución normal.
Como es N(0,1), los valores de la probabilidad para ‘z’ positivos y negativos se calculan
complementando a 1. NO OLVIDAR QUE LA TABLA QUE TENEMOS ES PARA Z>, por
lo que si queremos obtener de esa tabla un valor para z<, hemos de usar el dato que da
directamente cambiado de signo.
Esos valores son los datos de la función de distribución estándar Φ.

3 = |03)  − 73) | 8 93 = |03)  − 73) |


7-Calculamos dos nuevas columnas para las siguientes expresiones

Siendo s(x) la probabilidad acumulada. El valor que tomamos para s(x0) será 0.

:# = ;á3=|03)  − 73) |>


8- El valor estadístico de prueba es

9-Buscamos ahora en la tabla D (de Lilliefors) el valor para un valor de (1-α)=confianza (o


alfa directamente si nos dan la significación) y un tamaño de muestra de N.
10-Comparamos el valor obtenido de Do con el tabulado de Dtabla. Si el valor de Do es menor
que el de Dtabla, no rechazamos la hipótesis de que la distribución es normal en las
condiciones de confianza o significación que indique el problema.
Por ejemplo

xi 48 49 50 51 52 53 54 55
zi -1’266 -0’834 -0’402 0’030 0’463 0’895 1’327 1’759
S(x) 3/15 5/15 6/15 10/15 11/15 12/15 14/15 15/15
Φ(x) 0’1029 0’2019 0’3372 0’512 0’679 0’8144 0’9072 0’9608
A(x) 0’0971 0’1314 0’0628 0’1547 0’0543 0’0144 0’0261 0’0392
B(x) 0’1029 0’0019 0’0039 0’112 0’0123 0’0811 0’1072 0’0275
Tenemos que Do=0’112, α=0’05 (del enunciado) y Dtabla=0’220.
Por lo tanto, aceptamos la normalidad de los datos al 95%.
-Grado de relación monótona
Previamente hemos de normalizar los datos.
Hemos de calcular el coeficiente de correlación de Spearman, que nos da la relación

0CCB
?@,B = ?CCB =
monótona creciente o decreciente de un grupo de datos, y que se define como

0C 0CB
srxry es la covarianza de los datos normalizados, srx la desviación típica de rx y sry la de ry.
1-En primer lugar se ordenan los valores de las variables de las que se quiere saber la
relación (x e y, especie y color, temperatura y altura,…), anotando tantas veces el valor como
veces aparezcan en la tabla de resultados (la frecuencia). Se añade una columna en la que se
indican las posiciones de los datos que tienen ese valor.
2-Luego se calcula la ‘posición media’ de cada valor, es decir, se hace la media de los
ordinales de la posición (la columna anterior) de los valores ordenados y se asigna ese
número a cada uno de los valores de la tabla. Esos valores son las nuevas variables ‘rx’ y ‘ry’.
3-Hacemos una nueva tabla de contingencia, en la que incluimos los datos en el orden del
enunciado del ejercicio para ambas variables, y los valores de rx y ry correspondientes a esos
valores.
4-Calculamos las medias de esos valores rx y ry.
5-Hallamos las desviaciones típicas srx y sry, según

1
"

0 = D  3)* () − 3̅ *
E
)$

1
, I
6-Obtenemos la covarianza

0B =   ()F 3) 8F − 3̅ ∙ 8H
E
)$ F$
7-Calculamos el coeficiente de Spearman.
Puede ser monótono creciente, para rs,xy mayor que 0, o decreciente para valores menores de
0. Cuanto mayor sea el valor, más relación habrá.

-Grado de relación lineal

0B
?B =
Hallamos el coeficiente de Pearson, muy similar al de Spearman.

0 0B
Aquí se usan las variables directamente, no retabuladas.
Esta tabla sirve para ver el grado en Pearson y en Spearman.

-Grado de asociación (V de Cramer)


Nos lo dará el coeficiente V de Cramer
/*
J=1 siendo T = mínTk − 1, l − 1W
E∙%
1-Lo primero es establecer la tabla de contingencia completa entre las dos variables a
comparar. Se compone de las frecuencias absolutas y de las sumas de las filas y de las
columnas (lógicamente son para cada valor de cada variable). El problema nos indicará la
forma de agrupar (o no) los datos.

()∎ (∎F
X)F =
2-Se calculan las frecuencias esperadas, según la fórmula

E
3- Si las frecuencias absolutas son iguales a las esperadas EN TODOS LOS VALORES DE
LA TABLA, las variables x e y son independientes, con lo que no existe ningún grado de
asociación entre ellas. Si no son iguales, las variables x e y son dependientes, por lo que
existe asociación entre ellas.
4-Si ese es el caso, pasamos a calcular el coeficiente χ2.
()F *
, I

/ = 
*
−E
X)F
)$ F$
(l=columnas y k=filas de la tabla de contingencia)
5-Calculamos ya el valor de V. Valores próximos a 0 indican muy poca o nula relación de
variables, mientras que valores próximos a 1 indican una muy fuerte relación.

-Coeficiente de correlación de Kendall τ


Se usa para conocer la correlación entre variables ordinales. Viene definido, para tablas

[−\
cuadradas, como es el caso, por la expresión
Z =
EE − 1 EE − 1
] − %   − %B 
2 2
Siendo P el número de parejas concordantes, Q las parejas discordantes, Tx el número de

[ =  ()F  (_` ; \ =  ()F  (_`


empates en X, Ty el número de empates en Y y N el número de datos totales.

)F _!) B `!F )F _!) B `bF

1 1
, I

% =  ()∎ ()∎ − 1 ; %B =  (∎F (∎F − 1


2 2
)$ F$
Las expresiones para hallar P y Q son algo complejas, por lo que se calcularán mediante
tablas de contingencia debidamente renovadas. Es algo largo y pesado.
1-Lo primero es establecer la tabla de contingencia completa entre las dos variables a
comparar. Se compone de las frecuencias absolutas y de las sumas de las filas y de las
columnas (lógicamente son para cada valor de cada variable). El problema nos indicará la
forma de agrupar (o no) los datos.
Si lo hacemos con agrupación de datos se hará de forma que salgan tantas clases para una
variable como para la otra.
2-Luego se confecciona una tabla para cada variable, que incluye las siguientes columnas:
a-Clase. Las clases agrupadas de antes
b-Posición (p) de los datos que se incluyen en la clase correspondiente
c-Cantidad (t) de datos incluidos en la clase. Es la frecuencia ni• de la tabla normal
d-Suma (S) de las posiciones ‘p’ anotadas en la columna ‘b’
e-Rango. Se calcula dividiendo la suma entre la cantidad (S/t)
f-Se incluye el producto t(t-1)
3-Se anota la suma de la columna ‘f’ dividida por 2, valor que será el Tx si la tabla
corresponde a la variable X, o el Ty si es de la variable Y.
4-Construimos una nueva tabla en la que incluimos los valores, tal como nos los proporciona
el problema, de las variables X e Y, y los rangos asociados (S/t) a cada uno de ellos.
5- Ordenamos los pares de rangos en orden ascendente de la variable X y, a igual valor de X,
en ascendente de Y. Por ejemplo, esta tabla se obtiene para valores de X de 5, 5’4 y 8, y de Y
de 1’5, 6’33 y 6’4, combinados. Se ordenan colocando primero los valores de X=5, y dentro
de estos, con una valor de Y creciente (si hay varios iguales, se colocan seguidos).
Posición 1 2 3 4 5 6 7 8 9 10
Rango X 5 5 5 5 5’4 5’4 5’4 5’4 5’4 8
Rango Y 1’5 1’5 6’33 6’4 6’33 6’33 6’4 6’4 6’4 6’33
6- Veamos cómo encontrar los valores de las ‘parejas concordantes (P)’.
Para cada valor de la columna ‘Posición’ contamos el número de columnas que contienen
valores del rango X y rango Y mayores (AMBOS) a los valores que corresponden al
‘rangoX’ y ‘rangoY’ de esa columna de posición, y anotamos ese número como el número
de ‘parejas concordantes’.
Es decir, en la columna de posición 1, el valor de rangoX es 5 y el de rangoY es 1’5.
Contamos las posiciones que tengan un valor de ‘rangoX’ mayor a 5 y ‘rangoY’ mayor que
1’5. Resultan ser 6. En la columna de ‘parejas concordantes’ de la posición 6, sería
‘rangoX’>5’4 y ‘rangoY’>6’33. Sería 0.
7-Y, ahora, las ‘parejas no concordantes (Q)’.
Igual que antes, contamos las posiciones, pero ahora ha de ser el conteo tal que ‘rangoX’ sea
mayor que el de la posición a calcular, pero ‘rangoY’ será menor que el de la posición a
calcular.
Así, para la posición 1, ‘rangoX’ es 5 y ‘rangoY’ es 1’5. Buscamos las que tengan un
‘rangoX’ mayor que 5 y un ‘rangoY’ menor que 1’5. No los hay, por lo que las ‘parejas no
concordantes’ para esta posición son 0.
8-Sumamos los valores de las parejas concordantes, y será el valor de P, y el de las no
concordantes y será el valor de Q.
Posición 1 2 3 4 5 6 7 8 9 10 Suma
Rango X 5 5 5 5 5’4 5’4 5’4 5’4 5’4 8
Rango Y 1’5 1’5 6’33 6’4 6’33 6’33 6’4 6’4 6’4 6’33
[Link] 6 6 4 0 0 0 0 0 0 0 16=P
[Link] 0 0 0 2 0 0 0 0 0 0 2=Q

[−\
9-Ya sabemos los datos a usar en la fórmula de Kendall.
Z =
EE − 1 EE − 1
] − %   − %B 
2 2

-Coeficiente de incertidumbre (I) o entropía

cde
Da una medida del desorden de los datos. Se define como
c = 2 1 − 
cd + ce

()∎ ()∎ (∎F (∎F ()F ()F


, I , I
Con

cd = −  ( f g ; ce = −  ( f g ; cde = −   ln f g
E E E E E E
)$ F$ )$ F$
Toma valores entre [0,1] y cuanto más próximo a 1 esté, menos entropía habrá.
Evidentemente se ha de confeccionar primero la correspondiente tabla de contingencia, con
los valores o clases pertinentes.
Sólo hay que realizar las operaciones. Es fácil.

-Coeficiente de determinación en una regresión


En los modelos lineales (o transformados a lineales de los modelos parabólicos,
exponenciales, logarítmicos,…) se calcula según la siguiente expresión, en función de Vf y
Vy o del coeficiente de correlación lineal de Pearson entre el valor real de la variable Y y el

Ji
estimado por el modelo ^Y, tomando valores entre [0,1]

h* = = ?BB *
JB j

Donde los valores de Vf y Vy son la suma de las desviaciones cuadráticas de los datos reales

k k
(Vy) y de los calculados (^y) según el modelo (Vf)

JB = 8) − 8H* ; Ji = l8nm − 8Hjo


*

)$ )$

∑k
)$8) − 8
H*
Así,

h =
*
∑k n
l8
)$ m − H
8
j o
*
Luego, para calcularlo, hemos de obtener el modelo Y=a+bX, calcular el valor estimado para
cada valor de X según ese modelo y, una vez halladas las medias de los datos reales y de los
calculados, calcular los valores de Vf y Vy, y porteriormente el de R2.
Cuanto más próximo a 1 se encuentre el coeficiente de determinación, mejor será el ajuste
del modelo.

-Criterios de información de Akaike y Schwarz (BIC)


Se usa para comparar distintos modelos de regresión para establecer la mejor o menor
bondad de dicho a juste a un problema determinado.

? ∙ (E
Se calcula según la expresión
9cp = +1+q
E

2r
k
Donde r es el número de variables regresoras y L es

q = (   s)*
E
)$
Siendo εi el valor de la diferencia entre los valores reales de la variable dependiente Y y los
calculados para ésta según el modelo propuesto.
Al comparar modelos, aquel que presente un valor inferior del parámetro BIC, será el que se
ajuste mejor a los datos proporcionados.

-Test χ2 sobre una varianza


Este test es válido para cualquier tamaño muestral, si la muestra es normal.

v# : x * = x#* z
Las hipótesis son

−9 t? u
v : x * ≠ x#*
v : x * = ≤x#* z
−{( t?  ?ℎ u #
v : x * > x#*
v# : x * = ≥x#* z
−{( t?  6~ ? u
v : x * < x#*

(‚ * 1
k
El estadístico es

%&' = * ~ / * ( − 1; ‚ * =  3F* − 3̅ *


x# E
)$
Siendo S la varianza muestral y σ la varianza poblacional. ‘n’ es el tamaño de muestra.

−9 t? /ƒ/*
*
, /ƒ/*
*

La decisión se toma (Ho válido) si Texp se halla en el intervalo. SI no, se acepta H1.

−{( t?  ?ℎ 0, /ƒ* 


−{( t?  6~ ? /ƒ
*
, ∞
-Test de Shapiro-Wilk
Se usa para tamaños muestrales inferiores a 50. Pueden usarse datos numéricos, o
categorizados, por clases…

v# : ‡ ~ Eˆ, x *  E‰?; 


Las hipótesis son

v : ‡ ≉ Eˆ, x *  E‰ E‰?; 

*
1
5
El parámetro experimental es

%&' = *  ) l35)‹ − 3) o


‚
)$
El procedimiento a seguir será:
a-Se calcula la media de los valores de xi (será xmedia)
b-Construimos una tabla con las siguientes columnas:
1-Columna i. Se enumeran los valores de la variable estudiada. i=1,,2,3,…,n
2-Columna xi. Se ordenan los valores de la variable xi en forma ascendente
3-Columna x(n-i+1). Se ordenan los valores de xi en forma descendente
4-Columna [x(n-i+1)-xi]. Se obtiene la diferencia de la columna 3 menos la 2
5-Columna ai. En la tabla de Shapiro se
obtienen los valores de ai para los
valores de n (número de datos) y α
obtenidos del problema. Si no hay
datos suficientes, la columna se
completa con 0.
6-Columna [x(n-i+1)-xi]ai. Se anotan los resultados de multiplicar las columnas 5 y 6. Se
obtiene la suma de toda la columna
7-Columna (xi-xmedia)2. Se anota el resultado de esa operación. Se obtiene la suma de toda la
columna. Será el valor S2 de la fórmula de Texp.
i xi x(n-i+1) [x(n-i+1)-xi] ai [x(n-i+1)-xi]ai (xi-xmedia)2

Suma Suma=S2
Procedemos a calcular Texp.
A continuación, utilizando la tabla de Shapiro,
hallamos el valor del parámetro de contraste (Wα),
usando los valores de n y α definidos en el problema.
Si el parámetro Texp es mayor que el valor de Wα se
acepta la hipótesis Ho y se acepta la normalidad de la
distribución de datos.
-RESUMEN

También podría gustarte