Introducción al Álgebra Matricial
Introducción al Álgebra Matricial
Elementos de Álgebra
Matricial
1.1. Introducción
En esta sección se introducen la notación, definiciones y resultados básicos de
álgebra lineal y matricial, esenciales para el estudio de modelos estadı́sticos
multivariados y de regresión lineal. El material presentado a continuación puede
ser hallado en textos como Graybill (1983), Ravishanker y Dey (2002) y Magnus
y Neudecker (2007).
xn
de números reales. Note que x está orientado como un vector “columna”, y por
tanto la transpuesta de x es un vector fila,
x = (x1 , . . . , xn )T .
1
y escribimos A = (aij ). Los números reales aij son llamados elementos de A.
(a) A + B = B + A,
(b) (A + B) + C = A + (B + C),
(c) (λ + µ)A = λA + µA,
(d) λ(A + B) = λA + λB,
(e) λµA = (λµ)A.
Una matriz cuyos elementos son todos cero se denomina matriz nula y se denota
por 0. Tenemos que
A + (−1)A = 0.
Si A y B son matrices m × n y n × p, respectivamente, se define el producto de
A y B como
n
X
AB = C, donde, cij = aik bkj ,
k=1
para i = 1, . . . , m y j = 1, . . . , p.
Resultado 1.3.2 (Propiedades del producto de matrices). Sean A, B y C
matrices de órdenes apropiados, entonces:
AT = (aji ).
2
Resultado 1.3.3 (Propiedades de la transpuesta). Tenemos
(a) (AT )T = A,
(b) (A + B)T = AT + B T ,
(c) (AB)T = B T AT .
d(a, b) = ka − bk.
de este modo el discriminante del polinomio cuadrático debe satisfacer 4hx, yi2 −
4kxk2 kyk2 < 0.
3
El ángulo θ entre dos vectores no nulos x, y se define en términos de su producto
interno como
hx, yi xT y
cos θ = =√ p ,
kxk kyk xT x y T y
dos vectores se dicen ortogonales sólo si xT y = 0.
El producto externo entre dos vectores x ∈ Rm y y ∈ Rn es la matriz m × n
x ∧ y = xy T = (xi yj ).
Ejemplo 1.1. Sea 1n = (1, . . . , 1)T vector n-dimensional cuyos componentes son
todos 1. Note que, 1Tn 1n = n. Considere x = (x1 , . . . , xn )T , entonces
n
X n
X
xT x = x2i , 1T x = xi ,
i=1 i=1
Una matriz se dice cuadrada si tiene el mismo número de filas que de columnas,
una matriz cuadrada A es triangular inferior (superior) si aij = 0 para i < j (si
aij = 0 para i > j). Una matriz cuadrada A = (aij ) se dice simétrica si AT = A
y sesgo-simétrica si AT = −A. Para cualquier matriz cuadrada A = (aij ) se
define diag(A) como
a11 0 · · · 0
0 a22 · · · 0
diag(A) = . . . .. = diag(a11 , a22 , . . . , ann ).
.
. . . . . .
0 0 · · · ann
4
donde δij = 1 si i = j y δij = 0 si i 6= j (δij se denomina delta de Kronecker ).
Tenemos que para A ∈ Rm×n
I m A = AI n = A.
AAT = AT A = I
A = (a1 , . . . , an ) con aj ∈ Rn ,
B2 = A
se dice raı́z cuadrada de A y se denota como A1/2 tal matriz no necesita ser
única.
5
Sin pérdida de generalidad se asumirá que la matriz asociada a la forma cuadrática
xT Ax es simétrica, note que siempre es posible
xT Ax = 21 xT (AT + A)x.
xT Bx = xT Ax + λxT aaT x,
(a) Ax = 0 ⇔ AT Ax = 0,
(b) AB = 0 ⇔ AT AB = 0,
(c) AT AB = AT AC ⇔ AB = AC.
(a) Ax = 0, ∀x ∈ Rn sólo si A = 0,
(b) xT Bx = 0, ∀x ∈ Rn sólo si B = 0,
6
Sea A ∈ Rm×n , el rango columna (fila) de A es el número de columnas (filas)
linealmente independientes. Denotamos el rango de A como
rg(A),
note que
rg(A) ≤ mı́n(m, n).
M(A) = M(AAT )
7
Ejemplo 1.5 (Matriz de centrado). Note que,
1 T
C1 = 1 − 11 1 = 1 − 1 = 0,
n
esto es 1 ∈ N (C) y por tanto rg(C) ≤ n − 1.
AB = BA = I n .
A−1 uv T A−1
(A ± uv T )−1 = A−1 ∓ ,
1 ± v T A−1 u
P∞ i i i
(h) (I + λA)−1 = I + i=1 (−1) λ A .
8
donde ρ ∈ (−1, 1) y φ > 0. De este modo, R−1 = φ−1 [(1 − ρ)I + ρ11T ]−1 y
usando la propiedad (f) con A = (1 − ρ)I, u = ρ1 y v = 1, tenemos que
1h 1 ρ 1 i
R−1 = I− 11 T
φ 1−ρ (1 − ρ)2 1 + nρ(1 − ρ)−1
1 h ρ i
= I− 11T
φ(1 − ρ) 1 + (n − 1)ρ
X n
Y
|A| = (−1)σ(j1 ,...,jn ) aiji
i=1
9
(d) |A−1 | = |A|−1 , si A es no singular,
Qn
(e) si A es matriz triangular, entonces |A| = i=1 aii ,
(f) el resultado en (e) también es válido para A = diag(A), note también que
|I n | = 1,
(g) si A ∈ Rm×n y B ∈ Rn×m , entonces |I m + AB| = |I n + BA|.
Ejemplo 1.8 (Determinante de una matriz ortogonal). Considere A matriz or-
togonal, esto es, AT A = AAT = I. Entonces
|AT A| = |AAT | = 1,
Note en (d) que aunque ambas AB y BA son cuadradas, no necesitan ser del
mismo orden.
Ejemplo 1.10 (Matriz de centrado). Considere C = I − n1 J n , entonces
1 1
tr(C) = tr(I) − tr(11T ) = n − 1T 1 = n − 1.
n n
10
Ejemplo 1.11. Sea X ∈ Rn×p con rg(X) = p y considere H = X(X T X)−1 X T ,
luego
Z H = AT − iB T .
|λI − A| = 0,
Av = λv.
11
Resultado 1.3.12. Si A ∈ Cn×n es matriz Hermitiana, entonces todos sus
valores propios son reales
Resultado 1.3.13. Si A es matriz cuadrada n × n y G es matriz no singular
n × n, entonces A y G−1 AG tienen el mismo conjunto de valores propios (con
las mismas multiplicidades)
|λI − G−1 AG| = |λG−1 G − G−1 AG| = |G−1 ||λI − A||G| = |λI − A|
Resultado 1.3.14. Una matriz singular tiene al menos un valor propio cero
12
Ejemplo 1.13 (Matriz de centrado). Sabemos que (ver ejemplo 1.2) la matriz de
centrado C es matriz de proyección, luego
El resultado anterior muestra que si todos los valores propios de una matriz
Hermitiana A son distintos, entonces existe una base ortonormal de vectores
propios tal que A es diagonalizable.
U H AU = M .
U H AU = Λ,
donde Λ = diag(λ) es matriz diagonal cuyos elementos diagonales son los valores
propios de A.
On = {Q ∈ Rn×n : QT Q = I}
ó bien,
A = B2, con B = U Λ1/2 U T ,
esto es, B es una matriz raı́z cuadrada de A.
13
Resultado 1.3.18. Sea A matriz simétrica n×n, con valores propios λ1 , . . . , λn .
Entonces
Pn
(a) tr(A) = i=1 λi ,
Qn
(b) |A| = i=1 λi .
y
n
Y
|A| = |U ΛU T | = |U ||Λ||U T | = |Λ| = λi
i=1
de este modo
14
Para dos matrices simétricas A y B, escribimos A ≥ B si A−B es semidefinida
positiva. Análogamente, escribimos A > B si A − B es definida positiva.
Resultado 1.3.20. Sean A, B matrices definidas positivas n × n. Entonces
A > B sólo si B −1 > A−1 .
Proposición 1.3.6. Sean A y B matrices definidas positivas y A − B ≥ 0.
Entonces |A| ≥ |B| con la igualdad sólo si A = B.
15
1.3.9. Matrices particionadas
Sea A una matriz m × n. Considere la partición de A como sigue
A11 A12
A= , (1.1)
A21 A22
donde A11 ∈ Rm1 ×n1 , A12 ∈ Rm1 ×n2 , A21 ∈ Rm2 ×n1 , A22 ∈ Rm2 ×n2 , y m1 +
m2 = m, n1 + n2 = n.
Sea B ∈ Rm×n particionada de manera análoga a A, entonces
A11 + B 11 A12 + B 12
A+B = .
A21 + B 21 A22 + B 22
Considere el determinante
A11 A12
= |A11 ||A22 | = A11 0 ,
0 A22 A21 A22
si A11 y A22 son matrices cuadradas.
Ahora, para una matriz particionada como en (1.1) con m1 = n1 y m2 = n2 ,
tenemos
|A| = |A11 ||A22 − A21 A−1 −1
11 A12 | = |A22 ||A11 − A12 A22 A21 |,
16
1.4. Inversa generalizada y sistemas de ecuaciones
lineales
En esta sección se generaliza el concepto de invertibilidad para matrices sin-
gulares ası́ como para matrices rectangulares. En particular, introducimos la
inversa Moore-Penrose (MP), generalización que permite resolver de forma ex-
plı́cita un sistema de ecuaciones lineales.
AGA = A, (1.2)
GAG = G, (1.3)
T
(AG) = AG, (1.4)
T
(GA) = GA. (1.5)
17
1.4.2. Solución de sistemas de ecuaciones lineales
La solución general de un sistema de ecuaciones homegéneo Ax = 0 es
x = (I − A+ A)q,
AA+ b = b,
x = A+ b + (I − A+ A)q,
AA+ CB + B = C,
X = A+ CB + + Q − A+ AQBB + ,
18
1.5. Diferenciación matricial
En esta sección haremos uso de la siguiente notación. φ, f y F representan
funciones escalar, vectorial y matricial, respectivamente mientras que ζ, x y X
argumentos escalar, vectorial y matricial, respectivamente.
Ejemplo 1.14. Considere
Existen varias definiciones para la derivada de una función matricial F (X) con
relación a su argumento (matricial) X. En este curso nos enfocamos en el cálculo
diferencial propuesto por Magnus y Neudecker (1985).
Considere φ : S → R con S ⊂ Rn , se define la derivada de φ con relación a
x ∈ S como
∂φ(x) ∂φ ∂φ T ∂φ
= ,..., = ∈ Rn
∂x ∂x1 ∂xn ∂xi
de este modo, introducimos la notación
∂φ(x)
Dφ(x) = ∈ R1×n .
∂xT
donde el resto
rc (u)
lı́m
= 0.
u u→0
φ(c + u) − φ(c)
lı́m = φ0 (c)
u→0 u
19
De este modo, se define
dφ(c; u) = uφ0 (c)
como el (primer) diferencial de φ en c con incremento u. Esto motiva la siguiente
definición.
Definición 1.5.1 (Diferencial de una función vectorial). Sea f : S → Rm ,
S ⊂ Rn , si existe una matriz A ∈ Rm×n , tal que
r c (u)
lı́m = 0,
u→0 ||u||
df (c; u) = A(c)u,
df (c; u) = A(c)u
df (c; u) = ( Df (c))u.
fi (c + tej ) − fi (c)
lı́m
t→0 t
si el lı́mite existe, se denomina la j-ésima derivada parcial de fi en c y es
denotada por Dj fi (c). Note que el elemento ij de Df (c) es Dj fi (c).
20
1.5.2. Funciones matriciales
Considere algunos ejemplos de funciones matriciales
cos(ζ) sin(ζ)
F (ζ) = , F (x) = xxT , F (X) = X T , X ∈ Rn×q .
− sin(ζ) cos(ζ)
(a) A ⊗ B ⊗ C = (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C),
(b) (A + B) ⊗ (C + D) = A ⊗ C + B ⊗ C + A ⊗ D + B ⊗ D,
(c) (A ⊗ B)(C ⊗ D) = AC ⊗ BD,
(d) λ ⊗ A = λA = A ⊗ λ,
(e) (A ⊗ B)T = AT ⊗ B T ,
(f) (A ⊗ B)−1 = A−1 ⊗ B −1 ,
(g) (A ⊗ B)− = A− ⊗ B − .
Resultado 1.5.2. Sean A ∈ Rn×n y B ∈ Rp×p . Entonces
21
Observe que, si a ∈ Rn y b ∈ Rp , entonces
abT = a ⊗ bT = bT ⊗ a,
por otro lado, tenemos que
vec(abT ) = vec(a ⊗ bT ) = vec(bT ⊗ a) = b ⊗ a.
22
1.5.3. Matriz Hessiana
Considere φ : S → R con S ⊂ Rn , entonces se define la matriz Hessiana como
la matriz de segundas derivadas, dada por
∂ 2 φ(x) ∂ ∂φ(x) T
Hφ(x) = T
= = D( Dφ(x))T .
∂x∂x ∂xT ∂xT
d2 φ = d( dφ).
d2 φ(c; u) = uT ( Hφ(c))u.
23
aquı́ por ejemplo,
φ(x) = u(x) + v(x).
Análogamente para U , V funciones matriciales, α un escalar (constante) y
A ∈ Rm×n constante, tenemos
dA = 0, d(αU ) = α dU ,
d(U + V ) = dU + dV , d(U V ) = ( dU )V + U dV ,
d(U ⊗ V ) = dU ⊗ dV , d(U V ) = dU dV ,
T T
dU = ( dU ) , d vec U = vec dU , d tr U = tr dU .
Otros diferenciales de uso frecuente en Estadı́stica son:
d|F | = |F | tr F −1 dF , d log |F | = tr F −1 dF ,
dF −1 = −F −1 ( dF )F −1 .
Ejemplo 1.15 (Mı́nimos cuadrados). Considere el problema de optimización
mı́n φ(β), (1.6)
β
donde
φ(β) = ||Y − Aβ||2 .
El primer diferencial de φ con relación a β está dado por
dβ φ = −2(Y − Aβ)T dβ Aβ = −2(Y − Aβ)T A dβ
utilizando el primer teorema de identificación, obtenemos
∂φ(β)
= −2AT (Y − Aβ)
∂β
resolviendo la condición de primer orden ∂φ(β)/∂β = 0 o análogamente dβ φ(β) =
0, obtenemos
AT (Y − Aβ) = 0 esto es, AT Aβ = AT Y ,
si A tiene rango (columna) completo. Entonces el sistema de ecuaciones tiene
solución única, dada por
β = (AT A)−1 AT Y . (1.7)
En efecto, note que
d2β φ(β) = 2( dβ)T AT A dβ,
luego, usando el segundo teorema de identificación tenemos que la matriz Hes-
siana de φ(β), asume la forma
∂φ(β)
= 2AT A.
∂β∂β T
Que es una matriz definida positiva (para cualquier β). Y por tanto (1.7) es
un mı́nimo (global) para φ. Ésta solución se conoce como solución de mı́nimos
cuadrados para φ.
24