0% encontró este documento útil (0 votos)
295 vistas24 páginas

Introducción al Álgebra Matricial

Este documento introduce conceptos básicos de álgebra lineal y matricial como vectores, matrices, operaciones entre ellas y sus propiedades. Define formas lineales y cuadráticas, y conceptos como matrices ortogonales, simétricas y definidas positivas que son fundamentales para el estudio de modelos estadísticos multivariados.
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
295 vistas24 páginas

Introducción al Álgebra Matricial

Este documento introduce conceptos básicos de álgebra lineal y matricial como vectores, matrices, operaciones entre ellas y sus propiedades. Define formas lineales y cuadráticas, y conceptos como matrices ortogonales, simétricas y definidas positivas que son fundamentales para el estudio de modelos estadísticos multivariados.
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Capı́tulo 1

Elementos de Álgebra
Matricial

1.1. Introducción
En esta sección se introducen la notación, definiciones y resultados básicos de
álgebra lineal y matricial, esenciales para el estudio de modelos estadı́sticos
multivariados y de regresión lineal. El material presentado a continuación puede
ser hallado en textos como Graybill (1983), Ravishanker y Dey (2002) y Magnus
y Neudecker (2007).

1.2. Vectores y matrices


Sea Rn el espacio Euclidiano n-dimensional, de este modo x ∈ Rn representa la
n-upla  
x1
x =  ...  ,
 

xn
de números reales. Note que x está orientado como un vector “columna”, y por
tanto la transpuesta de x es un vector fila,
x = (x1 , . . . , xn )T .

Una matriz A ∈ Rm×n es un arreglo de números reales


 
a11 a12 · · · a1n
 a21 a22 · · · a2n 
A= . ..  ,
 
..
 .. . . 
am1 am2 · · · amn

1
y escribimos A = (aij ). Los números reales aij son llamados elementos de A.

1.3. Definiciones básicas y propiedades


La suma de dos matrices del mismo orden es definida como
A + B = (aij ) + (bij ) = (aij + bij ),
el producto de una matriz por un escalar λ es
λA = Aλ = (λaij )
Resultado 1.3.1 (Propiedades de la suma matricial). Sean A, B y C matrices
del mismo orden y λ, µ escalares, entonces:

(a) A + B = B + A,
(b) (A + B) + C = A + (B + C),
(c) (λ + µ)A = λA + µA,
(d) λ(A + B) = λA + λB,
(e) λµA = (λµ)A.

Una matriz cuyos elementos son todos cero se denomina matriz nula y se denota
por 0. Tenemos que
A + (−1)A = 0.
Si A y B son matrices m × n y n × p, respectivamente, se define el producto de
A y B como
n
X
AB = C, donde, cij = aik bkj ,
k=1
para i = 1, . . . , m y j = 1, . . . , p.
Resultado 1.3.2 (Propiedades del producto de matrices). Sean A, B y C
matrices de órdenes apropiados, entonces:

(a) (AB)C = A(BC),


(b) A(B + C) = AB + AC,
(c) (A + B)C = AC + BC.

Note que la existencia de AB no implica la existencia de BA y cuando ambos


productos existen, en general no son iguales.
La transpuesta de una matriz A = (aij ) ∈ Rm×n es la matriz n × m, AT cuyo
elemento ij está dado por aji , esto es

AT = (aji ).

2
Resultado 1.3.3 (Propiedades de la transpuesta). Tenemos

(a) (AT )T = A,
(b) (A + B)T = AT + B T ,
(c) (AB)T = B T AT .

Definimos el producto interno entre dos vectores x, y ∈ Rn como


n
X
hx, yi = xT y = xi yi .
i=1

asociado al producto interno tenemos la norma Euclidiana (o largo) de un vector


x definida como
Xn 1/2
kxk = hx, xi1/2 = xi yi ,
i=1

finalmente, la distancia Euclidiana entre dos vectores a y b se define como

d(a, b) = ka − bk.

Resultado 1.3.4 (Propiedades del producto interno). Sean a, b y c vectores


n-dimensionales y λ un escalar, entonces

(a) ha, bi = hb, ai,


(b) ha, b + ci = ha, bi + ha, ci,
(c) λha, bi = hλa, bi = ha, λbi,

(d) ha, ai ≥ 0 con la desigualdad sólo si a = 0,


(e) ka ± bk2 = kak2 + kbk2 ± 2ha, bi,
(f) ka + bk ≤ kak + kbk.

Proposición 1.3.1 (Desigualdad de Cauchy-Schwarz). |hx, yi| ≤ kxk kyk,


∀x, y ∈ Rn con la igualdad sólo si x = λy, para algún λ ∈ R.

Demostración. Si x = λy, el resultado es inmediato. Sino, note que

0 < kx − λyk2 = kxk2 + λ2 kyk2 − 2λhx, yi, ∀λ ∈ R,

de este modo el discriminante del polinomio cuadrático debe satisfacer 4hx, yi2 −
4kxk2 kyk2 < 0.

3
El ángulo θ entre dos vectores no nulos x, y se define en términos de su producto
interno como
hx, yi xT y
cos θ = =√ p ,
kxk kyk xT x y T y
dos vectores se dicen ortogonales sólo si xT y = 0.
El producto externo entre dos vectores x ∈ Rm y y ∈ Rn es la matriz m × n
x ∧ y = xy T = (xi yj ).
Ejemplo 1.1. Sea 1n = (1, . . . , 1)T vector n-dimensional cuyos componentes son
todos 1. Note que, 1Tn 1n = n. Considere x = (x1 , . . . , xn )T , entonces
n
X n
X
xT x = x2i , 1T x = xi ,
i=1 i=1

de este modo, tenemos


n
X n
X
(xi − x)2 = x2i − nx2 = xT x − n( n1 1T x)2
i=1 i=1
1 T T
= xT x − n( n1 1T x)( n1 1T x) = xT x − x 11 x
n
1 
= xT I − Jn x
n
con J n = 1n 1Tn . En general sean 1m y 1n vectores de unos m y n dimensionales,
respectivamente. Entonces
J mn = 1m ∧ 1n = 1m 1Tn ∈ Rm×n .

Una matriz se dice cuadrada si tiene el mismo número de filas que de columnas,
una matriz cuadrada A es triangular inferior (superior) si aij = 0 para i < j (si
aij = 0 para i > j). Una matriz cuadrada A = (aij ) se dice simétrica si AT = A
y sesgo-simétrica si AT = −A. Para cualquier matriz cuadrada A = (aij ) se
define diag(A) como
 
a11 0 · · · 0
 0 a22 · · · 0 
diag(A) =  . . . ..  = diag(a11 , a22 , . . . , ann ).
 
.
 . . . . . . 
0 0 · · · ann

Si A = diag(A), decimos que A es matriz diagonal. Un tipo particular de matriz


diagonal es la identidad
 
1 0 ··· 0
0 1 0
I =  . . . .  = (δij ),
 
 .. .. . . .. 
0 0 ··· 1

4
donde δij = 1 si i = j y δij = 0 si i 6= j (δij se denomina delta de Kronecker ).
Tenemos que para A ∈ Rm×n

I m A = AI n = A.

Una matriz cuadrada se dice ortogonal si

AAT = AT A = I

y sus columnas son ortonormales. Note que, si

A = (a1 , . . . , an ) con aj ∈ Rn ,

entonces A tiene columnas ortonormales si


(
T 1, si i = j,
ai aj = i, j = 1, . . . , n.
0, si i 6= j,

Una matriz rectangular A ∈ Rm×n puede tener la propiedad AAT = I m


ó AT A = I n pero no ambas, en cuyo caso tal matriz se denomina semi-
ortogonal.
Una matriz A ∈ Rn×n , se dice idempotente si A2 = A. Decimos que A es
matriz de proyección si es simétrica e idempotente, esto es, AT = A y A2 = A.
Ejemplo 1.2 (Matriz de centrado). Sea
1
C=I− J n,
n

también conocida como matriz de centrado. Tenemos que C T = C, y


 1  1  1 1 1
C 2 = I − J n I − J n = I − J n − J n + 2 J 2n
n n n n n
pero J 2n = nJ n , luego C 2 = C es matriz idempotente y simétrica. También es
posible notar que n1 J n es matriz de proyección.
Cualquier matriz B satisfaciendo

B2 = A

se dice raı́z cuadrada de A y se denota como A1/2 tal matriz no necesita ser
única.

1.3.1. Formas lineales y cuadráticas


Sea a ∈ Rn , A ∈ Rn×n y B ∈ Rn×m . La expresión aT x se dice una forma lineal
en x y xT Ax una forma cuadrática, mientras que xT By es una forma bilineal.

5
Sin pérdida de generalidad se asumirá que la matriz asociada a la forma cuadrática
xT Ax es simétrica, note que siempre es posible

xT Ax = 21 xT (AT + A)x.

Decimos que una matriz simétrica A es definida positiva (negativa) si xT Ax > 0


(xT Ax < 0) para todo x 6= 0. Cuando xT Ax ≥ 0 (xT Ax ≤ 0) ∀x decimos que
A es semidefinida positiva (negativa).
Note que las matrices B T B y BB T son semidefinidas positivas y que A es
(semi)definida negativa sólo si −A es (semi)definida positiva.
Ejemplo 1.3. Considere B = A + λaaT donde A es matriz definida positiva,
λ > 0 y a es vector n-dimensional no nulo. Entonces, para todo x 6= 0,

xT Bx = xT Ax + λxT aaT x,

sea z =PaT x, entonces xT Bx = xT Ax + λz T z. Ahora, como xT Ax > 0 y


n
z T z = i=1 zi2 > 0 tenemos que la matriz B es definida positiva.
Resultado 1.3.5. Sea A ∈ Rm×n , B ∈ Rn×p y C ∈ Rn×p y x vector n-
dimensional. Entonces

(a) Ax = 0 ⇔ AT Ax = 0,

(b) AB = 0 ⇔ AT AB = 0,
(c) AT AB = AT AC ⇔ AB = AC.

Demostración. (a) Claramente Ax = 0 ⇔ AT Ax = 0. Por otro lado, si


AT Ax = 0, entonces xT AT Ax = (Ax)T Ax = 0 y de ahı́ que Ax = 0.
(b) sigue desde (a). Finalmente, (c) sigue desde (b) mediante substituir B − C
por B en (c).
Resultado 1.3.6. Sean A ∈ Rm×n y B, C matrices n × n con B simétrica.
Entonces

(a) Ax = 0, ∀x ∈ Rn sólo si A = 0,
(b) xT Bx = 0, ∀x ∈ Rn sólo si B = 0,

(c) xT Cx = 0, ∀x ∈ Rn sólo si C T = −C.

1.3.2. Rango de una matriz


P
Un conjunto de vectores x1 , . . . , xn se dice linealmente independiente si i αi xi =
0 implica que todos los αi = 0. Si x1 , . . . , xn no son linealmente independientes,
ellos se dicen linealmente dependientes.

6
Sea A ∈ Rm×n , el rango columna (fila) de A es el número de columnas (filas)
linealmente independientes. Denotamos el rango de A como

rg(A),

note que
rg(A) ≤ mı́n(m, n).

Si rg(A) = n decimos que A tiene rango columna completo. Si rg(A) = 0,


entonces A es la matriz nula. Por otro lado, si A = 0, entonces rg(A) = 0.
Resultado 1.3.7 (Propiedades del rango). Sea A ∈ Rm×n y B, C matrices de
órdenes apropiados, entonces

(a) rg(A) = rg(AT ) = rg(AT A) = rg(AAT ),


(b) rg(AB) ≤ mı́n{rg(A), rg(B)},
(c) rg(BAC) = rg(A) si B y C son matrices de rango completo,
(d) rg(A + B) ≤ rg(A) + rg(B),
(e) si A ∈ Rm×n y Ax = 0 para algún x 6= 0, entonces rg(A) ≤ n − 1.
Ejemplo 1.4. Considere B = aaT , con a 6= 0, note que

rg(B) = rg(aaT ) = rg(a),

como a es vector no nulo, tenemos que rg(aaT ) = 1.


El espacio columna de A ∈ Rm×n , denotado por M(A), es el conjunto de
vectores
M(A) = {y : y = Ax para algún x ∈ Rn }.
De este modo, M(A) es el espacio vectorial generado por las columnas de A.
La dimensión de este espacio es rg(A). Se tiene que

M(A) = M(AAT )

para cualquier matriz A.


El espacio nulo, N (A), de una matriz A ∈ Rm×n consiste de todos los vectores
n-dimensionales x, tal que Ax = 0, esto es,

N (A) = {x ∈ Rn tal que Ax = 0}.

Note que, el espacio nulo es el conjunto de todas las soluciones de el sistema


lineal homogéneo Ax = 0. N (A) es un subespacio de Rn y su dimensión se
denomina nulidad de A. Además N (A) = {M(A)}⊥ . Finalmente, considere la
siguiente proposición
Resultado 1.3.8. Para cualquier matriz A ∈ Rm×n , entonces n = dim(N (A))+
rg(A).

7
Ejemplo 1.5 (Matriz de centrado). Note que,
1 T
C1 = 1 − 11 1 = 1 − 1 = 0,
n
esto es 1 ∈ N (C) y por tanto rg(C) ≤ n − 1.

1.3.3. Matriz inversa


Sea A una matriz cuadrada de orden n × n. Decimos que A es no singular si
rg(A) = n, y que A es singular si rg(A) < n. De este modo, si A es no singular,
entonces existe una matriz no singular B tal que

AB = BA = I n .

La matriz B, denotada A−1 es única y se denomina inversa de A.


Resultado 1.3.9 (Propiedades de la inversa). Siempre que todas las matrices
inversas involucradas existan, tenemos que

(a) (A−1 )T = (AT )−1 ,


(b) (AB)−1 = B −1 A−1 ,
(c) (λA)−1 = λ1 A−1 ,

(d) P −1 = P T , si P es matriz ortogonal,


(e) si A > 0, entonces A−1 > 0,
(f) (A+BCD)−1 = A−1 −A−1 B(C −1 +DA−1 B)−1 DA−1 , donde A, B, C
y D son matrices m × m, m × n, n × n y n × m, respectivamente (Teorema
de Sherman-Morrison-Woodbury),
(g) si 1 ± v T A−1 u 6= 0, entonces

A−1 uv T A−1
(A ± uv T )−1 = A−1 ∓ ,
1 ± v T A−1 u
P∞ i i i
(h) (I + λA)−1 = I + i=1 (−1) λ A .

Ejemplo 1.6 (Matriz de correlación intra-clase). Considere la matriz de cor-


relación intra-clase R(τ ) ∈ Rn×n , la que también se denomina matriz de equicor-
relación, definida por
 
1 ρ ··· ρ
ρ 1 · · · ρ
R = φ  . . . .  = φ[(1 − ρ)I + ρ11T ], τ = (φ, ρ)T ,
 
 .. .. . . .. 
ρ ρ ··· 1

8
donde ρ ∈ (−1, 1) y φ > 0. De este modo, R−1 = φ−1 [(1 − ρ)I + ρ11T ]−1 y
usando la propiedad (f) con A = (1 − ρ)I, u = ρ1 y v = 1, tenemos que
1h 1 ρ 1 i
R−1 = I− 11 T
φ 1−ρ (1 − ρ)2 1 + nρ(1 − ρ)−1
1 h ρ i
= I− 11T
φ(1 − ρ) 1 + (n − 1)ρ

Ejemplo 1.7. Considere la matriz


 
cos θ − sin θ
A= ,
sin θ cos θ

note que A es matriz ortogonal, y por tanto A−1 = AT .

1.3.4. Determinante de una matriz


El determinante de una matriz corresponde a la función det : Rn×n → R,
denotada comúnmente como |A| = det(A) y definida como

X n
Y
|A| = (−1)σ(j1 ,...,jn ) aiji
i=1

donde la sumatoria es tomada sobre todas las permutaciones (j1 , . . . , jn ) del


conjunto de enteros (1, . . . , n), y σ(j1 , . . . , jn ) es el número de transposiciones
necesarias para cambiar (1, . . . , n) en (j1 , . . . , jn ) (una transposición consiste en
intercambiar dos números).
Una submatriz de A es un arreglo rectangular obtenido mediante eliminar filas
y columnas de A. Un menor es el determinante de una submatriz cuadrada de
A. El menor asociado al elemento aij es el determinante de la submatriz de
A obtenida por eliminar su i-ésima fila y j-ésima columna. El cofactor de aij ,
digamos cij es (−1)i+j veces el menor de aij . La matriz C = (cij ) se denomina
matriz cofactor de A. La transpuesta de C es llamada adjunta de A y se denota
A# . Tenemos que
n
X n
X
|A| = aij cij = ajk cjk , para i, k = 1, . . . , n.
j=1 j=1

Resultado 1.3.10 (Propiedades del determinante). Sea A ∈ Rn×n y λ un


escalar. Entonces

(a) |A| = |AT |,


(b) |AB| = |A| |B|,

(c) |λA| = λn |A|,

9
(d) |A−1 | = |A|−1 , si A es no singular,
Qn
(e) si A es matriz triangular, entonces |A| = i=1 aii ,
(f) el resultado en (e) también es válido para A = diag(A), note también que
|I n | = 1,
(g) si A ∈ Rm×n y B ∈ Rn×m , entonces |I m + AB| = |I n + BA|.
Ejemplo 1.8 (Determinante de una matriz ortogonal). Considere A matriz or-
togonal, esto es, AT A = AAT = I. Entonces

|AT A| = |AAT | = 1,

luego, |A|2 = 1 y por tanto, |A| = ±1.


Ejemplo 1.9 (Determinante de una matriz de correlación intra-clase). Tenemos
que
R = φ[(1 − ρ)I n + ρ11T ] = φ(1 − ρ)[I n + ρ(1 − ρ)−1 11T ],
de este modo,

|R| = φn (1 − ρ)n [1 + ρ(1 − ρ)−1 1T 1] = φn (1 − ρ)n−1 (1 − ρ + nρ)


= φn (1 − ρ)n−1 [1 + ρ(n − 1)]

1.3.5. La traza de una matriz


La traza de una matriz cuadrada A ∈ Rn×n , denotada por tr(A), es la suma de
sus elementos diagonales:
n
X
tr(A) = aii .
i=1

Resultado 1.3.11 (Propiedades de la traza). Siempre que las operaciones ma-


triciales estén definidas

(a) tr(A + B) = tr(A) + tr(B),


(b) tr(λA) = λ tr(A) si λ es un escalar,
(c) tr(AT ) = tr(A),
(d) tr(AB) = tr(BA) (propiedad cı́clica de la traza),
(e) tr(A) = 0 si A = 0.

Note en (d) que aunque ambas AB y BA son cuadradas, no necesitan ser del
mismo orden.
Ejemplo 1.10 (Matriz de centrado). Considere C = I − n1 J n , entonces
1 1
tr(C) = tr(I) − tr(11T ) = n − 1T 1 = n − 1.
n n

10
Ejemplo 1.11. Sea X ∈ Rn×p con rg(X) = p y considere H = X(X T X)−1 X T ,
luego

tr H = tr X(X T X)−1 X T = tr(X T X)−1 X T X = tr I p = p,

note además que tr(I − H) = n − p.


Ejemplo 1.12. Considere q = xT Ax, tenemos que

q = tr(xT Ax) = tr(AxxT )

También es posible notar que la normal vectorial (Euclidiana), satisface

kxk = (xT x)1/2 = (tr xxT )1/2 ,

de este modo, podemos definir una normal matricial (Euclidiana) como

kAk = (tr AT A)1/2 .

En efecto, se tiene que tr(AT A) ≥ 0 con la igualdad sólo si A = 0.

1.3.6. Valores y vectores propios


Si A y B son matrices reales del mismo orden, una matriz compleja Z puede
ser definida como
Z = A + iB,
donde i denota la unidad imaginaria que satisface i2 = −1. El conjugado com-
plejo de Z, denotado por Z H , se define como

Z H = AT − iB T .

Una matriz Z ∈ Cn×n se dice Hermitiana si Z H = Z (equivalente complejo


de una matriz simétrica) y unitaria si Z H Z = I (equivalente complejo de una
matriz ortogonal).
Sea A una matriz cuadrada n × n. Los valores propios de A son definidos como
las raı́ces de la ecuación caracterı́stica

|λI − A| = 0,

la ecuación anterior tiene n raı́ces, en general complejas y posiblemente con


algunas repeticiones (multiplicidad). Sea λ un valor propio de A, entonces existe
un vector v 6= 0 ∈ Cn tal que (λI − A)v = 0 , esto es,

Av = λv.

el vector v se denomina vector propio asociado al valor propio λ. Note que, si


v es un vector propio, también lo es αv, ∀α ∈ C, y en particular v/kvk es un
vector propio normalizado.

11
Resultado 1.3.12. Si A ∈ Cn×n es matriz Hermitiana, entonces todos sus
valores propios son reales
Resultado 1.3.13. Si A es matriz cuadrada n × n y G es matriz no singular
n × n, entonces A y G−1 AG tienen el mismo conjunto de valores propios (con
las mismas multiplicidades)

Demostración. Note que

|λI − G−1 AG| = |λG−1 G − G−1 AG| = |G−1 ||λI − A||G| = |λI − A|

Resultado 1.3.14. Una matriz singular tiene al menos un valor propio cero

Demostración. Si A es matriz singular, entonces Av = 0 para algún v 6= 0,


luego desde Av = λv, tenemos que λ = 0.
Resultado 1.3.15. Una matriz simétrica es definida positiva (semidefinida
positiva) sólo si todos sus valores propios son positivos (no-negativos).

Demostración. Si A es definida positiva y Av = λv, entonces v T Av = λv T v.


Ahora, como v T Av > 0 y v T v > 0 implica λ > 0. La conversa no será probada
aquı́.

Resultado 1.3.16. Una matriz idempotente sólo tiene valores propios 0 ó 1.


Todos los valores propios de una matriz unitaria tienen modulo 1

Demostración. Sea A matriz idempotente, esto es, A2 = A. De este modo, si


Av = λv, entonces
λv = Av = A2 v = λAv = λ2 v
y de ahı́ que λ = λ2 , esto implica que λ = 0 ó λ = 1.
Por otro lado, si A es unitaria, entonces aH A = I. De este modo, si Av = λv,
entonces
v H AH = λv H ,
luego
v H v = v H AH Av = λλv H v.
Como v H v 6= 0, obtenemos que λλ = 1 y de ahı́ que |λ| = 1.
Proposición 1.3.2 (Propiedades de la matrices idempotentes). Sea A matriz
n × n, entonces

(a) AT y I − A son idempotentes sólo si A es idempotente,


(b) si A es idempotente, entonces rg(A) = tr(A) = r. Si rg(A) = n, entonces
A = I.

12
Ejemplo 1.13 (Matriz de centrado). Sabemos que (ver ejemplo 1.2) la matriz de
centrado C es matriz de proyección, luego

rg(C) = tr(C) = tr(I − n1 J n ) = n − 1,

(compare con ejemplos 1.5 y 1.10).

Resultado 1.3.17. Si A ∈ Cn×n es matriz Hermitiana y v 1 , v 2 son vectores


propios asociados a λ1 y λ2 , respectivamente, donde λ1 6= λ2 . Entonces v 1 ⊥ v 2 .

El resultado anterior muestra que si todos los valores propios de una matriz
Hermitiana A son distintos, entonces existe una base ortonormal de vectores
propios tal que A es diagonalizable.

Proposición 1.3.3 (Descomposición de Schur). Sea A ∈ Cn×n . Entonces existe


una matriz unitaria U ∈ Cn×n y una matriz triangular M cuyos elementos
diagonales son los valores propios de A, tal que

U H AU = M .

Proposición 1.3.4 (Descomposición espectral). Sea A ∈ Cn×n matriz Hermi-


tiana. Entonces existe una matriz unitaria U ∈ Cn×n tal que

U H AU = Λ,

donde Λ = diag(λ) es matriz diagonal cuyos elementos diagonales son los valores
propios de A.

Para aplicaciones en Estadı́stica siempre haremos uso de la Proposición 1.3.4


considerando A matriz simétrica, en cuyo caso todos sus valores propios serán
reales y U será una matriz ortogonal. Para Q ∈ Rn×n matriz ortogonal, deno-
tamos el grupo de matrices ortogonales como

On = {Q ∈ Rn×n : QT Q = I}

Note que si A es matriz simétrica y definida positiva, entonces

A = U ΛU T = (U Λ1/2 )(U Λ1/2 )T = (U Λ1/2 U T )2

donde Λ = diag(λ) y Λ1/2 = diag(λ1/2 ). Por tanto,

A = MMT , con M = U Λ1/2 ,

ó bien,
A = B2, con B = U Λ1/2 U T ,
esto es, B es una matriz raı́z cuadrada de A.

13
Resultado 1.3.18. Sea A matriz simétrica n×n, con valores propios λ1 , . . . , λn .
Entonces
Pn
(a) tr(A) = i=1 λi ,
Qn
(b) |A| = i=1 λi .

Demostración. Usando que A = U ΛU T . Tenemos


n
X
tr(A) = tr(U ΛU T ) = tr(ΛU T U ) = tr(Λ) = λi
i=1

y
n
Y
|A| = |U ΛU T | = |U ||Λ||U T | = |Λ| = λi
i=1

Resultado 1.3.19. Si A es una matriz simétrica con r valores propios distintos


de cero, entonces rg(A) = r.

Demostración. Tenemos que U T AU = Λ y de ahı́ que

rg(A) = rg(U ΛU T ) = rg(Λ) = r

1.3.7. Matrices (semi)definidas positivas


Proposición 1.3.5. Sea A matriz definida positiva y B semidefinida positiva.
Entonces
|A + B| ≥ |A|,
con la igualdad sólo si B = 0.

Demostración. Tenemos U T AU = Λ, con Λ = diag(λ) y U T U = U U T = I.


Luego,

A + B = U ΛU T + B = U Λ1/2 (I + Λ−1/2 U T BU Λ−1/2 )Λ1/2 U T ,

de este modo

|A + B| = |U Λ1/2 ||I + Λ−1/2 U T BU Λ−1/2 ||Λ1/2 U T |


= |U Λ1/2 Λ1/2 U T ||I + Λ−1/2 U T BU Λ−1/2 |
= |A||I + Λ−1/2 U T BU Λ−1/2 |.

Si B = 0, tenemos |A + B| = |A|. Por otro lado, si B 6= 0. Entonces la matriz


I + Λ−1/2 U T BU Λ−1/2 tendrá al menos un valor propio no nulo y por tanto,
|I + Λ−1/2 U T BU Λ−1/2 | > 1, esto es |A + B| > |A|.

14
Para dos matrices simétricas A y B, escribimos A ≥ B si A−B es semidefinida
positiva. Análogamente, escribimos A > B si A − B es definida positiva.
Resultado 1.3.20. Sean A, B matrices definidas positivas n × n. Entonces
A > B sólo si B −1 > A−1 .
Proposición 1.3.6. Sean A y B matrices definidas positivas y A − B ≥ 0.
Entonces |A| ≥ |B| con la igualdad sólo si A = B.

Demostración. Sea C = A−B. Como B es definida positiva y C es semidefinida


positiva, tenemos por la Proposición 1.3.5 que |B + C| ≥ |B|, con la igualdad
sólo si C = 0.

1.3.8. Descomposiciones matriciales


Proposición 1.3.7 (Descomposición LDL). Si A ∈ Rn×n es matriz simétrica y
no singular, entonces existe L matriz triangular inferior y D = diag(d1 , . . . , dn ),
tal que
A = LDLT .
Proposición 1.3.8 (Descomposición Cholesky). Si A ∈ Rn×n es simétrica y
definida positiva, entonces existe una única matriz triangular inferior G ∈ Rn×n
(factor Cholesky) con elementos diagonales positivos, tal que
A = GGT .
Proposición 1.3.9 (Descomposición ortogonal-triangular). Sea A ∈ Rm×n ,
entonces existe Q ∈ Om y R ∈ Rm×n , tal que
A = QR,
donde  
R1
R=
0
con R1 ∈ Rn×n matriz triangular superior, aquı́ suponemos que m ≥ n. Si
rg(A) = r, entonces las primeras n columnas de Q forman una base ortonormal
para M(A).

Note que, si A = QR entonces


AT A = RT QT QR = RT R = RT1 R1 ,
y R1 corresponde al factor Cholesky de AT A.
Proposición 1.3.10 (Descomposición valor singular). Sea A ∈ Rm×n con
rg(A) = r, entonces existen matrices U ∈ Om , V ∈ On , tal que
 
Dr 0
A=U V T,
0 0
donde D r = diag(δ1 , . . . , δr ) con δi > 0 para i = 1, . . . , r, llamados valores
singulares de A.

15
1.3.9. Matrices particionadas
Sea A una matriz m × n. Considere la partición de A como sigue
 
A11 A12
A= , (1.1)
A21 A22
donde A11 ∈ Rm1 ×n1 , A12 ∈ Rm1 ×n2 , A21 ∈ Rm2 ×n1 , A22 ∈ Rm2 ×n2 , y m1 +
m2 = m, n1 + n2 = n.
Sea B ∈ Rm×n particionada de manera análoga a A, entonces
 
A11 + B 11 A12 + B 12
A+B = .
A21 + B 21 A22 + B 22

Ahora, considere C ∈ Rn×p particionada en submatrices C ij , para i, j = 1, 2


con dimensiones adecuadas, entonces
 
A11 C 11 + A12 C 21 A11 C 12 + A12 C 22
AC = .
A21 C 11 + A22 C 21 A21 C 12 + A22 C 22
La transpuesta de A está dada por
AT11 AT21
 
T
A = .
AT12 AT22
Si A12 y A21 son matrices nulas y si ambas A11 y A22 son matrices no singulares,
entonces la inversa de A es
 −1 
−1 A11 0
A = .
0 A−122

En general, si A es matriz no singular particionada como en (1.1) y D = A22 −


A21 A−1
11 A12 también es no singular, entonces
 −1
A11 + A−1 −1
A21 A−1 −A−1 −1

11 A12 D 11 A12 D
A−1 = 11
.
−D −1 A21 A−111 D −1

Por otro lado, si A es no singular y E = A11 − A12 A−1 22 A21 es no singular,


entonces
E −1 −E −1 A12 A−1
 
A−1 = 22
.
−A−1
22 A21 E
−1
A−1 −1
22 + A22 A21 E
−1
A12 A−1
22

Considere el determinante

A11 A12
= |A11 ||A22 | = A11 0 ,


0 A22 A21 A22
si A11 y A22 son matrices cuadradas.
Ahora, para una matriz particionada como en (1.1) con m1 = n1 y m2 = n2 ,
tenemos
|A| = |A11 ||A22 − A21 A−1 −1
11 A12 | = |A22 ||A11 − A12 A22 A21 |,

si A11 y A22 son matrices no singulares.

16
1.4. Inversa generalizada y sistemas de ecuaciones
lineales
En esta sección se generaliza el concepto de invertibilidad para matrices sin-
gulares ası́ como para matrices rectangulares. En particular, introducimos la
inversa Moore-Penrose (MP), generalización que permite resolver de forma ex-
plı́cita un sistema de ecuaciones lineales.

1.4.1. Inversa Moore-Penrose


Sea A ∈ Rm×n , la inversa Moore-Penrose, G ∈ Rn×m debe satisfacer las si-
guientes condiciones

AGA = A, (1.2)
GAG = G, (1.3)
T
(AG) = AG, (1.4)
T
(GA) = GA. (1.5)

La inversa MP de A se denota comunmente como A+ . Si G satisface sólo la


condición en (1.2) entonces decimos que G es una inversa generalizada y la
denotamos por A− .
Proposición 1.4.1 (Unicidad de la inversa MP). Para cada A, existe una única
A+ .
Resultado 1.4.1 (Propiedades de la inversa MP).

(a) A+ = A−1 para A matriz no singular,


(b) (A+ )+ = A,
(c) (AT )+ = (A+ )T ,
(d) A+ = A si A es simétrica e idempotente,
(e) AA+ y A+ A son idempotentes,
(f) rg(A) = rg(A+ ) = rg(AA+ ) = rg(A+ A),
(g) AT AA+ = A = A+ AAT ,
T T
(h) AT A+ A+ = A+ = A+ A+ AT ,
(i) A+ = (AT A)+ AT = AT (AAT )+ ,
(j) A+ = (AT A)−1 AT , si A tiene rango columna completo,
(k) A+ = AT (AAT )−1 , si A tiene fila columna completo.

17
1.4.2. Solución de sistemas de ecuaciones lineales
La solución general de un sistema de ecuaciones homegéneo Ax = 0 es

x = (I − A+ A)q,

con q un vector arbitrário. La solución de Ax = 0 es única sólo si A tiene rango


columna completo, esto es, AT A es no singular. El sistema homogéneo Ax = 0
siempre tiene al menos una solución, digamos x = 0.
El sistema no homogéneo
Ax = b,
tendrá al menos una solución si es consistente.
Proposición 1.4.2. Sea A ∈ Rm×n y b vector m×1. Entonces son equivalentes:

(a) la ecuación Ax = b tiene una solución para x,


(b) b ∈ M(A),

(c) rg(A : b) = rg(A),


(d) AA+ b = b.
Proposición 1.4.3. Una condición necesaria y suficiente para que la ecuación
Ax = b tenga una solución es que

AA+ b = b,

en cuyo caso la solución general está dada por

x = A+ b + (I − A+ A)q,

donde q es un vector arbitrário.

Si el sistema Ax = b es consistente, entonces tendrá solución única sólo si A


es de rango completo, en cuyo caso la solución está dada por x = A−1 b.
Proposición 1.4.4. Una condición necesaria y suficiente para que la ecuación
matricial AXB = C tenga una solución es que

AA+ CB + B = C,

en cuyo caso la solución general es

X = A+ CB + + Q − A+ AQBB + ,

donde Q es una matriz arbitrária de órdenes apropiados.

18
1.5. Diferenciación matricial
En esta sección haremos uso de la siguiente notación. φ, f y F representan
funciones escalar, vectorial y matricial, respectivamente mientras que ζ, x y X
argumentos escalar, vectorial y matricial, respectivamente.
Ejemplo 1.14. Considere

φ(ζ) = ζ 2 , φ(x) = aT x, φ(X) = tr(X T X),


f (ζ) = (ζ, ζ 2 )T , f (x) = Ax, f (X) = Xa,
2
F (ζ) = ζ I n , F (x) = xx , T
F (X) = X T .

Existen varias definiciones para la derivada de una función matricial F (X) con
relación a su argumento (matricial) X. En este curso nos enfocamos en el cálculo
diferencial propuesto por Magnus y Neudecker (1985).
Considere φ : S → R con S ⊂ Rn , se define la derivada de φ con relación a
x ∈ S como
∂φ(x)  ∂φ ∂φ T  ∂φ 
= ,..., = ∈ Rn
∂x ∂x1 ∂xn ∂xi
de este modo, introducimos la notación

∂φ(x)
Dφ(x) = ∈ R1×n .
∂xT

Ahora, si f : S → Rm , S ⊂ Rn . Entonces la matriz m × n,


 
Df1 (x)
..  ∂f (x)
Df (x) =  = ,

. ∂xT
Dfm (x)

es la derivada o matriz Jacobiana de f . La transpuesta de la matriz Jacobiana


Df (x) se denomina gradiente de f (x).

1.5.1. Aproximación de primer orden


Considere la fórmula de Taylor de primer orden,

φ(c + u) = φ(c) + uφ0 (c) + rc (u)

donde el resto
rc (u)
lı́m
= 0.
u u→0

es de orden más pequeño que u conforme u → 0. Note también que

φ(c + u) − φ(c)
lı́m = φ0 (c)
u→0 u

19
De este modo, se define
dφ(c; u) = uφ0 (c)
como el (primer) diferencial de φ en c con incremento u. Esto motiva la siguiente
definición.
Definición 1.5.1 (Diferencial de una función vectorial). Sea f : S → Rm ,
S ⊂ Rn , si existe una matriz A ∈ Rm×n , tal que

f (c + u) = f (c) + A(c)u + r c (u),

para todo u ∈ Rn con ||u|| < δ, y

r c (u)
lı́m = 0,
u→0 ||u||

entonces la función f se dice diferenciable en c. El vector m × 1

df (c; u) = A(c)u,

se denomina primer diferencial de f en c con incremento u.

Magnus y Neudecker (1985) mostraron la existencia y unicidad del diferencial


df (c; u) de una función f : S → Rm , S ⊂ Rn (c ∈ S), dado por

df (c; u) = A(c)u

también mostraron la regla de la cadena e invarianza de Cauchy para el difer-


encial y enunciaron su primer teorema de identificación.
Teorema 1.5.1 (Primer teorema de identificación). Sea f : S → Rm , S ⊂ Rn
función diferenciable, c ∈ S y u un vector n-dimensional. Entonces

df (c; u) = ( Df (c))u.

La matriz Df (c) ∈ Rm×n se denomina matriz Jacobiana. Tenemos también


que
∇f (c) = ( Df (c))T
es la matriz gradiente de f .

Sea f : S → Rm , S ⊂ Rn y fi : S → R el i-ésimo componente de f (i =


1, . . . , m). Sea ej un vector n-dimensional cuyo j-ésimo elemento es uno y los
restantes son cero, y considere

fi (c + tej ) − fi (c)
lı́m
t→0 t
si el lı́mite existe, se denomina la j-ésima derivada parcial de fi en c y es
denotada por Dj fi (c). Note que el elemento ij de Df (c) es Dj fi (c).

20
1.5.2. Funciones matriciales
Considere algunos ejemplos de funciones matriciales
 
cos(ζ) sin(ζ)
F (ζ) = , F (x) = xxT , F (X) = X T , X ∈ Rn×q .
− sin(ζ) cos(ζ)

Antes de considerar el diferencial de una función matricial F : S → Rm×p ,


S ⊂ Rn×q introducimos dos conceptos preliminares: la vectorización de una
matriz y el producto Kronecker.
Definición 1.5.2 (Operador de vectorización). Sea A ∈ Rn×q particionada
como
A = (a1 , . . . , aq ),
donde ak ∈ Rn es la k-ésima columna de A. Entonces
 
a1
 .. 
vec(A) =  .  .
aq
Definición 1.5.3 (Producto Kronecker). Sea A ∈ Rm×n y B ∈ Rp×q , entonces
el producto Kronecker entre A y B denotado por A ⊗ B es la matriz mp × nq
definida como  
a11 B . . . a1n B
A ⊗ B =  ... .. 

. 
am1 B . . . amn B
Resultado 1.5.1. Sean A, B, C y D matrices de órdenes apropiados y λ es-
calar. Entonces

(a) A ⊗ B ⊗ C = (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C),
(b) (A + B) ⊗ (C + D) = A ⊗ C + B ⊗ C + A ⊗ D + B ⊗ D,
(c) (A ⊗ B)(C ⊗ D) = AC ⊗ BD,
(d) λ ⊗ A = λA = A ⊗ λ,
(e) (A ⊗ B)T = AT ⊗ B T ,
(f) (A ⊗ B)−1 = A−1 ⊗ B −1 ,
(g) (A ⊗ B)− = A− ⊗ B − .
Resultado 1.5.2. Sean A ∈ Rn×n y B ∈ Rp×p . Entonces

(a) tr(A ⊗ B) = tr(A) tr(B),


(b) |A ⊗ B| = |A|p |B|n ,
(c) rg(A ⊗ B) = rg(A) rg(B).

21
Observe que, si a ∈ Rn y b ∈ Rp , entonces
abT = a ⊗ bT = bT ⊗ a,
por otro lado, tenemos que
vec(abT ) = vec(a ⊗ bT ) = vec(bT ⊗ a) = b ⊗ a.

Estos resultados sugieren una conexión entre el operador de vectorización, el


producto Kronecker y la traza. Considere el siguiente resultado
Resultado 1.5.3.
(a) Si A y B son ámbas matrices de orden m × n, entonces
tr AT B = vecT A vec B,

(b) Si A, B y C son de órdenes adecuados, entonces


vec ABC = (C T ⊗ A) vec B,

donde vecT A = (vec A)T .


Finalmente, tenemos el siguiente resultado
Resultado 1.5.4. Sean A, B, C y D matrices, tal que, el producto ABCD
está definido y es cuadrado, entonces
tr ABCD = vecT D T (C T ⊗ A) vec B = vecT D(A ⊗ C T ) vec B T .

En el ejemplo anterior, tenemos


vec F (ζ) = (cos(ζ), − sin(ζ), sin(ζ), cos(ζ))T ,
vec F (x) = vec(xxT ) = x ⊗ x,
vec F (X) = vec X T = (X ⊗ I q ) vec I q .

Sea F : S → Rm×p , S ⊂ Rn×q una función matricial, podemos notar que


vec F (X) = f (vec X)
esto permite obtener el diferencial de una función matricial considerando la
relación
vec dF (C; U ) = df (vec C; vec U )
en cuyo caso F tiene matriz Jacobiana
DF (C) = Df (vec C)

Las consideraciones anteriores motivan el primer teorema de indentificación para


funciones matriciales (Magnus y Neudecker, 1985)
Teorema 1.5.2 (Primer teorema de identificación para funciones matriciales).
Sea F : S → Rm×p , S ⊂ Rn×q función diferenciable, C ∈ S y U matriz n × q.
Entonces
vec dF (C; U ) = ( DF (C)) vec U .
con ( DF (C))T la matriz gradiente de F .

22
1.5.3. Matriz Hessiana
Considere φ : S → R con S ⊂ Rn , entonces se define la matriz Hessiana como
la matriz de segundas derivadas, dada por

∂ 2 φ(x) ∂  ∂φ(x) T
Hφ(x) = T
= = D( Dφ(x))T .
∂x∂x ∂xT ∂xT

Es posible definir el diferencial de funciones vectoriales y matriciales de manera


análoga a la delineada anteriormente. Sin embargo, en este curso nos enfocare-
mos solamente en el cálculo de diferenciales de funciones escalares. El segundo
diferencial de una función escalar está dado por

d2 φ = d( dφ).

Magnus y Neudecker (1985) enunciaron el siguiente teorema de identificación


para matrices Hessianas de funciones escalares
Teorema 1.5.3 (Segundo teorema de identificación). Sea φ : S → R, S ⊂ Rn
dos veces diferenciable, c ∈ S y u vector n-dimensional. Entonces

d2 φ(c; u) = uT ( Hφ(c))u.

donde Hφ(c) ∈ Rn×n es la matriz Hessiana de φ.

Algunas ventajas (prácticas) importantes del cálculo de diferenciales son:

Sea f (x) función vectorial m × 1 con argumento x, vector n-dimensional,


entonces

Df (x) ∈ Rm×n sin embargo, df (x) ∈ Rm

Para funciones matriciales, dF (X) tiene la misma dimensión que F sin


importar la dimensión de X.

1.5.4. Reglas fundamentales


A continuación se presentan algunas reglas fundamentales para el cálculo de
diferenciales
Considere u y v funciones escalares y α una constante, entonces:

dα = 0, d(αu) = α du, d(u + v) = du + dv,


( du)v − u( dv)
d(uv) = ( du)v + u( dv) d(u/v) = , (v 6= 0),
v2
duα = αuα−1 du, deu = eu du,
d log u = u−1 du, (u > 0) dαu = αu log α du, (α > 0),

23
aquı́ por ejemplo,
φ(x) = u(x) + v(x).
Análogamente para U , V funciones matriciales, α un escalar (constante) y
A ∈ Rm×n constante, tenemos
dA = 0, d(αU ) = α dU ,
d(U + V ) = dU + dV , d(U V ) = ( dU )V + U dV ,
d(U ⊗ V ) = dU ⊗ dV , d(U V ) = dU dV ,
T T
dU = ( dU ) , d vec U = vec dU , d tr U = tr dU .
Otros diferenciales de uso frecuente en Estadı́stica son:
d|F | = |F | tr F −1 dF , d log |F | = tr F −1 dF ,
dF −1 = −F −1 ( dF )F −1 .
Ejemplo 1.15 (Mı́nimos cuadrados). Considere el problema de optimización
mı́n φ(β), (1.6)
β

donde
φ(β) = ||Y − Aβ||2 .
El primer diferencial de φ con relación a β está dado por
dβ φ = −2(Y − Aβ)T dβ Aβ = −2(Y − Aβ)T A dβ
utilizando el primer teorema de identificación, obtenemos
∂φ(β)
= −2AT (Y − Aβ)
∂β
resolviendo la condición de primer orden ∂φ(β)/∂β = 0 o análogamente dβ φ(β) =
0, obtenemos
AT (Y − Aβ) = 0 esto es, AT Aβ = AT Y ,
si A tiene rango (columna) completo. Entonces el sistema de ecuaciones tiene
solución única, dada por
β = (AT A)−1 AT Y . (1.7)
En efecto, note que
d2β φ(β) = 2( dβ)T AT A dβ,
luego, usando el segundo teorema de identificación tenemos que la matriz Hes-
siana de φ(β), asume la forma
∂φ(β)
= 2AT A.
∂β∂β T
Que es una matriz definida positiva (para cualquier β). Y por tanto (1.7) es
un mı́nimo (global) para φ. Ésta solución se conoce como solución de mı́nimos
cuadrados para φ.

24

También podría gustarte