Algebra Lineal Apunte
Algebra Lineal Apunte
Un monoide es un sistema algebraico {A, ∗} formado por un conjunto A y una operación binaria cerrada
∗ : A × A → A (también llamada ley de composición interna).
Ejemplos bien conocidos son {R, +} (el conj. de num. reales con la suma), {R, ·} (los reales con el prod.)
{R+ , ·} (los reales positivos con el producto). En cambio, {R− , ·}, donde R− denota los reales negativos, no
es un monoide pues la operación no es cerrada.
1
2) O(n): Grupo de matrices reales ortogonales de n × n (con la multiplicación matricial usual), donde
ortogonal significa que A−1 = At (matriz traspuesta), es decir, AAt = At A = I. En efecto,
i) Si A, B ∈ O(n), (AB)−1 = B −1 A−1 = B t At = (AB)t , por lo que AB ∈ O(n)
ii) El producto matricial es asociativo
1, i=j
iii) I ∈ A, ya que I −1 = I = I t . Aquı́ I denota la matriz identidad, de elementos Iij = δij = {0, i6=j .
−1 t −1 −1
iv) si A ∈ O(n) ⇒ A = A ∈ O(n) pues (A ) = (A ) = (A ) . t −1 −1 t
Notemos que si AAt = I ⇒ Det[AAt ] = Det[A]2 = Det[I] = 1, por lo que Det[A] = ±1.
Los grupos anteriores constan de un número infinito de elementos. Un grupo puede también constar de
un número finito de elementos (grupo finito). Por ejemplo, {{1, −1}, .} es un grupo con el producto usual,
y también lo es {{(10 01 ), (−1 0
0 −1 )}, ·} con el producto matricial usual.
Dado que el conjunto de operaciones geométricas (rotaciones, reflexiones, etc.) que dejan invariante un
cierto sistema fı́sico forma un grupo con respecto a la operación de composición, los grupos juegan un rol
fundamental en Fı́sica, especialmente en Mecánica Cuántica, caracterizando las simetrı́as y determinando
sus consecuencias.
Un cuerpo o campo {F, +, ∗} es un conjunto F munido de dos operaciones binarias +, ∗ que satisface:
1) {F, +} es grupo abeliano
2) {F0 , ∗} es grupo abeliano, donde F0 es el conjunto de elementos de F distintos de 0 (elem. neutro)
3) ∗ es distributiva con respecto a +.
La identidad respecto de ∗ se denomina 1 (unidad). Un cuerpo es pues un anillo conmutativo con unidad
donde ∀ a ∈ F0 ∃ a−1 ∈ F0 tal que a−1 ∗ a = a ∗ a−1 = 1.
Ejemplos: {R, +, ·}, {C, +, ·} son cuerpos. En cambio, {Z, +, ·} no es cuerpo pues la inversa de un en-
tero no es necesariamente entero.
Los cuerpos pueden constar también de un número finito de elementos. El menor es Z2 = {A = {0, 1}, +, ·},
donde + y · denotan la suma y producto módulo 2 (el resto de dividir la suma y mult. ordinarias por 2):
0 + 0 = 0, 0 + 1 = 1, 1 + 1 = 0, 0 · 0 = 0 · 1 = 0, 1 · 1 = 1.
En general, Zp = {(0, 1, . . . , p − 1), +, ·}, con + y · la suma y producto módulo p, es cuerpo para p primo.
Esto puede demostrarse a partir del “pequeño teorema de Fermt”: Si p es primo ⇒ap = a (mod p) ∀ a entero.
2
1. Espacios vectoriales
Partiendo del concepto intuitivo de vectores de R2 o R3 , extenderemos el concepto de vector a elementos
de un sistema algebraico abstracto, llamado espacio vectorial (o lineal), en el que se cumplen propiedades
análogas a las de R2 o R3 con respecto a la suma de vectores y a la multiplicación de un vector por un
número real. Remarquemos que estas dos operaciones son cerradas en R2 y en R3 .
Definición: Sea {K, +, ·} un cuerpo, y sea {V, ⊕} un grupo abeliano. Un espacio vectorial V sobre el
cuerpo K, denotado por V (K), es una estructura algebraica {K, +, ·, V, ⊕, ∗} donde ∗ : V × K → V denota
una multiplicación de elementos de K por elementos de V que da como resultado un elemento de V y que
satistface: ∀ α, β ∈ K y ∀ v, w ∈ V :
1) α ∗ (v ⊕ w) = (α ∗ v) ⊕ (α ∗ w)
2) (α + β) ∗ v = (α ∗ v) ⊕ (β ∗ v)
3) (α · β) ∗ v = α ∗ (β ∗ v)
4) 1 ∗ v = v
donde 1 denota la identidad del cuerpo K respecto del producto.
Los elementos de V se denominan vectores y los de K escalares.
En el caso de R2 , {V, ⊕} es el grupo {R2 , +}, con ⊕ = + la suma usual de vectores, y {K, +, ·} el cuerpo de
los reales {R, +, ·} con la suma y producto usual. La operación ∗ es el producto de un vector por un número
real.
La definición general extiende pues {R2 , +} a un grupo abeliano arbitrario {V, ⊕} y {R, +, ·} a un cuerpo
arbitrario {K, +, ·}. Si este es el cuerpo de los reales {R, +, ·}, el espacio vectorial se dice real, y si es el
cuerpo de los complejos {C, +, ·}, el espacio vectorial se dice complejo.
En los sucesivo, para aligerar la notación seguiremos la costumbre universal de denotar la operación ⊕
(suma de vectores) también con + y de omitir los sı́mbolos · y ∗, quedando la multiplicación de escalares y
de escalares por vectores automáticamente asumida. Las 4 condiciones anteriores se reescriben como:
1) α(v + w) = αv + αw
2) (α + β)v = αv + βv
3) (αβ)v = α(βv)
4) 1v = v
u = αv + βw
queda automáticamente definida y pertenece también a V , para todo par de elementos α y β del cuerpo y
v, w de V . Esta, podemos afirmar, es la caracterı́stica principal de un espacio vectorial. Es decir, es posbile
multiplicar un vector por un escalar, lo cual es siempre otro vector de V , y también es posible sumar dos
vectores cualesquiera, siendo la suma también un vector de V .
En general, si vi ∈ V , αi ∈ K, i = 1, . . . , n,
v = α1 v 1 + . . . + αn v n
Debe destacarse además que el producto de vectores (escalar, vectorial u otro) no juega absolutamente
ningún rol en la definición de espacio vectorial, y puede no estar definido en el mismo.
3
Demostremos ahora cuatro propiedades básicas válidas en cualquier espacio vectorial:
a) 0v = 0 ∀ v ∈ V
donde el primer 0 denota el 0 del cuerpo K (el elemento neutro respecto de la operación + para escalares)
y el segundo el cero de V (la identidad respecto de la operación + para vectores).
En efecto, 0v = (0+0)v = 0v +0v por (2). Sumando el inverso −(0v) (−(0v)+(0v) = 0) en ambos miembros
obtenemos 0 = (0v) + 0 = 0v, por lo que 0v = 0.
b) α0 = 0 ∀ α ∈ K
donde 0 denota el cero de V . Tenemos α0 = α(0 + 0) = α0 + α0, por 1). Sumando el inverso −(α0) en
ambos miembros se obtiene 0 = (α0) + 0 = α0, por lo que α0 = 0.
c) (−α)v = −1(αv) = −(αv) = α(−v)
Tenemos, por 3), (−α)v = (−1α)v = −1(αv).
Además, (−α)v + αv = (−α + α)v = 0v = 0 por 2) y a), por lo que (−α)v = −(αv) (opuesto de αv).
Finalmente, de b) y 1), 0 = α0 = α(v + (−v)) = αv + (α(−v)), por lo que α(−v) es también el opuesto de
αv y por lo tanto coincide con (−α)v (unicidad del opuesto!).
d) Si αv = 0 ⇒ α = 0 o v = 0.
En efecto, por b), 3) y 4), si α 6= 0 ⇒ 0 = α−1 0 = α−1 (αv) = (α−1 α)v = 1v = v por lo que v = 0. Por a),
también se cumple si α = 0.
4
3) En general, si D es un conjunto no vacı́o, puede definirse el espacio vectorial
K D = {f | f es funcion de D en K}
∀ x ∈ D, siendo el cero la función nula 0(x) = 0 ∀ x ∈ D. Se verifican fácilmente que se satisfacen todas las
condiciones de espacio vectorial. Por ejemplo,
[α(f + g)](x) = α[(f + g)(x)] = α(f (x) + g(x)) = αf (x) + αg(x) = (αf + αg)(x).
[(α + β)f ](x) = (α + β)f (x) = αf (x) + βf (x) = (αf + βf )(x)
(verificación de las restantes a cargo del lector si lo considera necesario).
2. Subespacios
Un subconjunto de vectores S ⊂ V es un subespacio de V si es también un espacio vectorial.
Como consecuencia, un subconjunto de vectores S ⊂ V no vacı́o es un subespacio si y sólo si S es cerrado
bajo las operaciones de suma de vectores y multiplicación por escalar. Debe cumplirse entonces
0) 0 ∈ S (asegura que no sea vacı́o)
1) Si v, w ∈ S ⇒ v + w ∈ S
2) Si v ∈ S y α ∈ K ⇒ αv ∈ S
Si se sabe que es no vacı́o bastan 1) y 2), pues si ∃v ∈ S, 0 = 0v ∈ S por 2).
Dem.: Es evidente que estas condiciones son necesarias. Para probar la suficiencia, podemos ver que por
1), la operación de suma es cerrada y asociativa en S, que por 0) o 2) 0 ∈ S y que ∀ v ∈ S ∃ el elemento
opuesto −v = −1v ∈ S por 2), de modo que {S, +} es grupo abeliano. Además, el producto de un vector
de S por un escalar es siempre otro vector de S, por 2), por lo que la combinación lineal αv + βw pertence
siempre a S. Las demás condiciones 1-4 se heredan de V , pues las operaciones son las mismas.
Cualquier espacio vectorial contiene siempre dos subespacios triviales: S = V y S = {0} (el vector nulo).
Ejemplos:
1) Si V = R2 , S = {(x, y) | ax + by = 0, a, b ∈ R, a 6= 0 o b 6= 0} es siempre un subespacio
de R2 , que representa geométricamente una recta que pasa el origen. En efecto, si (x, y), (x′ , y ′ ) ∈ S,
(x, y) + (x′ , y ′ ) = (x + x′ , y + y ′ ) ∈ S pues a(x + x′ ) + b(y + y ′ ) = (ax + by) + (ax′ + by ′ ) = 0 + 0 = 0, y
α(x, y) = (αx, αy) ∈ S pues aαx + bαy = α(ax + by) = 0.
Geométricamente, los subespacios no triviales de R2 son pues rectas que pasan por el origen.
2) Si V = R3 , se prueba en forma análoga que los subespacios no triviales son planos o rectas que pasan por
el origen, es decir, S = {(x, y, z) | ax + by + cz = 0, con (a, b, c) vector no nulo} (plano ⊥ a (a, b, c)) o
S = {(x, y, z) | ax + by + cz = 0, dx + ey + f z = 0, con (a, b, c), (d, e, f ) vectores no nulos y no paralelos}
(rectas).
Por ejemplo, S = {(x, y, z) | x + y + z = 0} es un subespacio de R3 que representa geométricamente un plano
(⊥ a (1, 1, 1)) que contiene al origen, S = {(x, y, z) | x+y +z = 0, x−y = 0} es un subespacio que representa
a una recta que pasa por el origen (k a (1, 1, −2)) pero C = {(x, y, z) | x + y + z = 1}, D = {(x, y, z) | x ≥ 0},
y E = {(x, y, z) | x2 + y = 0} NO son subespacios (probar!).
En general, si V = Kn , S = {(x1 , . . . , xn ) | ai1 x1 + . . . + ain xn = 0, i = 1, . . . , m, ain ∈ K} es siempre un
subespacio de V (que puede ser {0} si la única solución al sistema es xi = 0 para i = 1, . . . , n, o V si todos
los coeficientes aij son nulos). Corresponde en general a un hiperplano que pasa por el origen. Se prueba
de la misma manera anterior (hecho en clase y se deja como ejercicio).
5
3) Si V = Rn×n , son subespacios:
El conjunto de matrices diagonales (Aij = 0 si i 6= j)
El conjunto de matrices simétricas (Aij = Aji ∀ i, j)
El conjunto de matrices antisimétricas (Aij = −Aji ∀ i, j)
El
P conjunto de matrices donde los coeficientes satisfacen un conjunto de ecuaciones lineales homogéneas
i,j akij Aij = 0, k = 1, . . . , p, que incluye como casos particulares todos los anteriores.
f (x) = a0 + a1 x + . . . + an xn
con ai ∈ R, es un subespacio de V . Es claro que la suma es también un polinomio, que la función nula 0 es
un polinomio (de grado 0) y que el producto de un polinomio por un escalar es un polinomio.
En cambio, el conjunto de los polinomios de grado fijo n > 0 NO es un subespacio, ya que en particular 0
no pertenece al mismo (y la suma no es cerrada).
El conjunto de polinomios de grado ≤ n si es en cambio un subespacio.
También lo son, por ejemplo (probarlo como ejercicio):
i) el conjunto de funciones reales continuas
ii) el i) el conjunto de funciones reales derivables
iii) el de funciones que satisfacen f (a) = 0 para un cierto a ∈ R (o en general, m
P
i=1 αi f (ai ) = 0)
iv) el conjunto de funciones de perı́odo L (f (x + L) = f (x) ∀ x ∈ R).
v) el conjunto de funciones pares (f (x) = f (−x)) y el de funciones impares (f (x) = −f (−x)).
M = {α1 v1 + . . . + αm vm , αi ∈ K, i = 1, . . . , m}
es un subespacio de V denominado subespacio generado por M . Es fácil ver que es un subespacio, ya que
0) 0 = 0v1 + . . . 0vm ∈ M
1) (α1 v1 + . . . + αm vm ) + (α1′ v1 + . . . + αm
′ v ) = (α + α′ )v + . . . + (α + α′ )v ∈ M
m 1 1 1 m m m
2) β(α1 v1 + . . . + αm vm ) = (βα1 )v1 + . . . + (βαm )vm ∈ M
donde, para i = 1, . . . , m, αi , αi′ , β ∈ K .
Los vectores de M se denominan generadores de M .
En general, para un conjunto aribtrario M ⊂ V , podemos definir M como el conjunto de todas las combina-
ciones lineales finitas de vectores de M . En particular, si S es un subespacio ⇒ S = S, pues un subespacio
debe contener todas las combinaciones lineales de sus vectores.
Como consecuencia, M es el menor subespacio que contiene a M : Si S es un subespacio y M ⊂ S ⇒ M ⊂ S,
ya que S debe contener a toda combinación lineal de sus elementos.
Ejemplo: En V = R3 , si M = {(1, 0, 0), (1, 1, 0}} ⇒ M = {(x + y, y, 0)| x, y ∈ R} es el plano determinado
por los vectores de M .
Un espacio vectorial V se llama finitamente generado si existe un conjunto finito de vectores M tal
que M = V .
Por ejemplo, R2 puede ser generado por los vectores (1, 0) y (0, 1), ya que (x, y) = x(1, 0)+y(0, 1), y también
por los vectores (1, 1) y (0, 1), ya que (x, y) = x(1, 1) + (y − x)(0, 1). También puede ser generado por los
vectores (1, 0), (0, 1) y (1, 1), ya que (x, y) = (x − z)(1, 0) + (y − z)(0, 1) + z(1, 1), con z arbitrario.
El espacio RR de funciones reales f : R → R no puede ser en cambio generado por conjunto finito de vectores.
6
(Geométricamente la intersección de dos rectas distintas que pasan por el origen es (0, 0)).
Y en V = R3 , si S1 = {(x, y, z)|x+y +z = 0} y S2 = {(x, y, z)|x−y −z = 0} ⇒ S1 ∩S2 = {(0, y, z)|y +z = 0}
(Geométricamente la intersección de dos planos distintos que pasan por el origen es una recta).
S1 + S2 = {v = v1 + v2 , v1 ∈ S1 , v2 ∈ S2 }
v = v1 + v2
= v1′ + v2′
con vi , vi′ ∈ Si ⇒ 0 = (v1 −v1′ )+(v2 −v2′ ), por lo que (v1 −v1′ ) = −(v2 −v2′ ), lo que implica, como v2 −v2′ ∈ S2 ,
que v1 − v1′ ∈ también a S2 y por lo tanto a S1 ∩ S2 . Si S1 ∩ S2 = {0} ⇒ v1 − v1′ = 0 = v2 − v2′ , por lo que
v1 = v1′ , v2 = v2′ .
Análogamente, si todo vector v ∈ S1 + S2 puede escribirse de manera única como v1 + v2 y v ∈ S1 ∩ S2 ⇒
v = v + 0 = 0 + v, por lo que la única posibilidad es v = 0.
Demotraremos luego que dado un subespacio S1 ⊂ V , siempre existe un subespacio S2 ⊂ V tal que
V = S1 ⊕ S2 (se demostrará luego de introducir bases).
Ejemplos:
1) R2 = S1 ⊕ S2 , donde S1 = {(x, 0)|x ∈ R} y S2 = {(0, y), |y ∈ R}. En efecto, S1 ∩ S2 = {0} y ∀ v ∈ R2 se
cumple v = (x, y) = v1 + v2 , donde v1 = (x, 0) ∈ S1 , v2 = (0, y) ∈ S2 .
Notemos, sin embargo, que también R2 = S1 ⊕ S2′ , donde nuevamente S1 = {(x, 0)|x ∈ R} pero S2′ =
{(x, x)|x ∈ R}. En efecto, S1 ∩ S2′ = {0} y ∀ v ∈ V se cumple v = (x, y) = v1 + v2′ , donde v1 = (x − y, 0) ∈ S1
y v2 = (y, y) ∈ S2′ .
2) Rn×n = Rsn×n ⊕ Ran×n , donde Rsn×n , Ran×n denotan los subespacios de matrices simétricas y antisimétricas
respectivamente. En efecto, Rsn×n ∩ Ran×n = {0} (pues si A ∈ Rsn×n y A ∈ Ran×n ⇒ Aij = Aji = −Aji ∀i, j,
por lo que Aij = 0 ∀ i, j). Además, toda matriz A puede escribirse como
1 1
A = As + Aa , As = (A + At ) ∈ Rsn×n , Aa = (A − At ) ∈ Ran×n
2 2
donde At es la matriz traspuesta, de modo que Rsn×n ⊕ Ran×n = Rn×n .
3) RR = RR R R R
p ⊕ Ri , donde Rp , Ri denotan los subespacios de funciones pares e impares. En efecto, si
f (x) = f (−x) = −f (−x) ∀ x ⇒ f (x) = 0 ∀ x. Además, toda función puede escribirse como
1 1
f (x) = fp (x) + fi (x), fp (x) = (f (x) + f (−x)) ∈ RR R
p , fi (x) = (f (x) − f (−x)) ∈ Ri
2 2
Los desarrollos de Taylor alrededor del origen de fp y fi , si existen, contienen sólo potencias pares o impares
respect. Por ejemplo, si f (x) = ex , fp (x) = cosh(x), fi (x) = sinh(x).
7
Algebra Lineal: Aplicaciones a la Fı́sica, Curso 2012
3. Independencia lineal, bases y dimensión
Los vectores v1 , . . . , vn ∈ V son linealmente independientes (LI) si y sólo si (sii) la ecuación
α1 v 1 + . . . + αn v n = 0
implica α1 = α2 = . . . = αn = 0
De lo contrario, los vectores son linealmente dependientes (LD).
Para n = 1, esta definición implica que v1 es LI sii es un vector no nulo (Prop. básica d).
Si n > 1, los vectores son LD sii al menos uno de ellos puede escribirse como combinación lineal de los
restantes, es decir, si pertence al espacio generado por los restantes. En efecto, si son LD existe al menos
un αi , por ej., α1 , que es no nulo (α1 6= 0). En tal caso,
v1 = −(α2 v2 + . . . + αn vn )/α1
Análogamente, si v1 = α2 v2 + . . . + αn vn ⇒ v1 − α2 v2 − . . . − αn vn = 0, siendo α1 = 1 6= 0, por lo que son LD.
Para n = 2, esto implica que dos vectores no nulos son LI sii no son proporcionales (es decir sii ∄ α ∈ K t.q.
v2 = αv1 ). En V = R3 , tres vectores no nulos y no paralelos son LI sii ninguno de ellos pertenece al plano
generado por los otros dos.
Si uno de los vectores es nulo, los vectores v1 , . . . , vn son LD: Por ejemplo, si v1 = 0 ⇒ α1 v1 +0v2 +. . .+0vn = 0
para α1 6= 0, lo que implica que son LD.
En general, si el conjunto {v1 , . . . , vn } contiene un subconjunto de vectores LD entonces el conjunto total es
LD (Probar).
ya que nj=1 (S −1 )ji vj = nj=1 (S −1 )ji ( nk=1 Skj bk ) = nk=1 ( nj=1 Skj (S −1 )ji )bk = nk=1 δki bk = bi .
P P P P P P
Por lo tanto, de (1) es obvio que M ′ ⊂ M (pues nj=1 αj vj = ni=1 βi bi , con βi = nj=1 Sij αj ), y de (2) es
P P P
obvio que M ⊂ M ′ (pues ni=1 βi bi = nj=1 αj vj , con αj = ni=1 (S −1 )ji βi ), por lo que M = M ′ .
P P P
1
Ejemplo: Si {e1 , e2 , e3 } es un conj. LI en un cierto espacio, los vectores v1 =e1 , v2 = e1 + e2 y
1 1 1 1 −1 0
v3 = e1 + e2 + e3 son LI ya que Det[S] = 0 1 1 = 1 6= 0. Como S −1 = 0 1 −1 , la
0 0 1 0 0 1
transformación inversa está dada por e1 = v1 , e2 = v2 − v1 , e3 = v3 − v2 , como es fácil comprobar. Los
vectores {v1 , v2 , v3 } generan pues el mismo subespacio que {e1 , e2 , e3 }.
Bases
Sea V un espacio vectorial, que supondremos distinto del subespacio trivial S = {0}. Un conjunto finito
B = {b1 , . . . , bn } ⊂ V es una base de V si los vectores de B
1) Son LI
2) Generan V (B = V ).
Si V es generado por un conjunto finito de vectores M = {v1 . . . , vm } y V 6= {0} ⇒ existe una base
B = {b1 , . . . , bn } de V incluida en M .
Dem.: Sea B = {b1 , . . . , bn } un subconjunto de M tal que los vectores de B sean LI y el número n de
elementos de B sea máximo. Obviamente n ≥ 1, pues M = V y V 6= {0}, por lo que existe al menos un
vector no nulo en M . Si v ∈ M ⇒ v ∈ B, pues los vectores {v, b1 , . . . , bn } son necesariamente LD (pues son
n + 1) y por lo tanto, existe una combinación
0 = αv + α1 b1 + . . . + αn bn
con coeficientes no todos nulos. Si α = 0 ⇒ 0 = α1 b1 +. . .+αn bn , pero en tal caso αi = 0 ∀ i por por ser los bi
LI. Por consiguiente, α 6= 0 y v = −(α1 b1 +. . .+αn bn )/α ∈ B. Por lo tanto, M ⊂ B y entonces V = M = B.
Del teorema de la sección anterior se desprenden ahora las sig. propiedades fundamentales.
Si B = {b1 , . . . , bn } es una base de V , entonces:
Como consecuencia, todas las bases de un espacio V tienen el mismo número de elementos, n. A
ese número se lo denomina dimensión del espacio V : n = dimV . Representa el máximo número de vec-
tores LI. Un espacio en el que ∃ un No arbitrariam. grande de vectores LI se dice que tiene dimensión infinita.
Ejemplo: La dimensión de Rn es n, y la de Rm×n , m · n. La de RR es ∞.
La dimensión de Cn (C) es también n (una base es {e1 , . . . , en }, con ej = (0, . . . , 1(j) , . . . , 0), j = 1, . . . , n),
mientras que la dimensión de Cn (R) es 2n (una base es {e1 , . . . , en , ẽ1 , . . . ẽn }, con e˜j = (0, . . . , i(j) , . . . , 0)).
2
4. Coordenadas de un vector en una base y cambio de base
Si B = {b1 , . . . , bn } es una base de V , todo vector v ∈ V puede escribirse en forma única como combinación
lineal de elementos de B. Dem.: Si v ∈ V y
v = α 1 b1 + . . . + α n bn
= α1′ b1 + . . . + αn′ bn
entonces
0 = (α1 − α1′ )b1 + . . . + (αn − αn′ )bn
por lo que αi = αi′ para i = 1, . . . , n por ser los vectores LI.
Análogamente, si todo vector de V puede escribirse en forma única como comb. lineal de los bi , estos son
LI pues en particular, la única forma de escribir el vector nulo será 0 = 0b1 + . . . 0bn .
Los coeficientes α1 , . . . , αn que determinan el vector v son pues únicos y reciben el nombre de coordenadas
del vector v en la base dada.
Cambo de base
Consideremos en lo sucesivo bases ordenadas B = (b1 , . . . , bn ), con el objeto de asignar un orden determinado
a las componentes de un vector. Si B es una base de V , todo v ∈ B puede representarse como
n
X
v= αi bi , αi ∈ K
i=1
Consideremos ahora otra base B ′ = (b′1 , . . . , b′n ) de V . Por ser B base podemos también escribir
n
X
b′j = Sij bi , j = 1, . . . , n
i=1
donde los elementos Sij , i = 1, . . . , n (columna j de S) son las componentes de b′j en la base B. La matriz
S11 . . . S1n . . .
S = . . . . . . . . . = [b′1 ]B . . . [b′n ]B
Sn1 . . . Snn . . .
se denomina matriz de cambio de base y debe ser no singular (Det[S] 6= 0), por lo demostrado anteriormente.
Podemos ahora escribir v en la base B ′ como
n
X
v= αj′ b′j
j=1
donde αj′ son las componentes de v en la base B ′ . Escribiendo b′j en términos de los bi , obtenemos
n
X n
X n
X n
X
v= αj′ ( Sij bi ) = α i bi , αi = Sij αj′ , i = 1, . . . , n
j=1 i=1 i=1 j=1
o, en forma concisa,
[v]B = S [v]B ′
donde ′
α1 α1
[v]B ≡ . . . , [v]B ′ = . . .
αn αn′
3
denotan las matrices columna de componentes de v en las bases B y B ′ respectivamente. Podemos entonces
determinar [v]B ′ a partir de [v]B como
[v]B ′ = S −1 [v]B
donde S −1 es la matriz inversa de S. Remarquemos que la forma de construir S es notando que su columna
i es la matriz columna de componentes de b′i en la base B, es decir, [b′i ]B . Notemos también que la columna
i de S −1 es la matriz de componentes de bi en la base B ′ ([bi ]B ′ ).
Fialmente, notemos que si v1 , v2 ∈ V y α ∈ K, se tiene obviamente
[v1 + v2 ]B = [v1 ]B + [v2 ]B , [αv]B = α[v]B
Ejemplo 1: Sea B = (e1 , e2 ), con e1 = (1, 0), e2 = (0, 1) la base canónica en R2 . Consideremos ahora la
nueva base B ′ = (e′1 , e′2 ), donde
e′1 = (1, 0), e′2 = (1, 1)
o sea, e′1 = e1 , e′2 = e1 + e2 . En este caso,
1 1 −1 1 −1
S= , S =
0 1 0 1
Por lo tanto, si v = (x, y) = xe1 + ye2 , podemos escribir también v = x′ e′1 + y ′ e′2 con
′
x 1 −1 x x−y
= =
y′ 0 1 y y
Se verifica que x′ e′1 + y ′ e′2 = (x − y)e1 + y(e1 + e2 ) = x1 e1 + ye2 . Notemos además que las columnas de S −1
son las coordenadas de la base canónica en la nueva base: e1 = e′1 , e2 = −e′1 + e′2 .
Ej. sugerido: Hallar las coordendadas de v = (x, y) en la base formada por e′1 = (1, 0), e′2 = (1, ε), con ε 6= 0,
y analizar el lı́mite ε → 0.
Ejemplo 2: Rotación en el plano. Sean nuevamente e1 = (1, 0), e2 = (0, 1) los vectores de la base canónica
en R2 y sean e′1 = cos(θ)e1 + sin(θ)e2 , e′2 = − sin(θ)e1 + cos(θ)e2 . Estos vectores son los vectores e1 , e2
rotados un ángulo θ en sentido antihorario respecto del eje x (recordar dibujo hecho en clase). Tenemos
cos(θ) − sin(θ) −1 cos(θ) sin(θ)
S= , S = ,
sin(θ) cos(θ) − sin(θ) cos(θ)
(o sea, S −1 (θ) = S(−θ) = S(θ)t ). Por lo tanto, las componentes x′ , y ′ en la base rotada de un vector
v = (x, y) = xe1 + ye2 son
′
x cos(θ) sin(θ) x x cos(θ) + y sin(θ)
= =
y′ − sin(θ) cos(θ) y −x sin(θ) + y cos(θ)
de forma que v = x′ e′1 + y ′ e′2 . (Verificar que x′ e′1 + y ′ e′2 = xe1 + ye2 !).
Ejemplo 3: Ecuación de una elipse rotada un ángulo θ (antihorario) respecto del eje x. Respecto del
sistema rotado tenemos la ecuación
x′2 y ′2
+ 2 =1
a2 b
con a, b los semiejes de la elipse. Reemplazando x′ = x cos(θ) + y sin(θ), y ′ = −x sin(θ) + y cos(θ), obtenemos
cos2 θ sin2 θ 2
2 sin θ cos2 θ 1 1
x2 ( 2
+ 2
) + y ( 2
+ 2
) + xy sin(2θ)( 2 − 2 ) = 1
a b a b a b
Si a = b (circunferencia) la forma de la ecuación permanece invariante.
Ejemplo 4: Producto escalar usual en R2 expresado en base arbitraria: El producto escalar usual en la
base canónica puede expresarse como
v1 · v2 = x1 x2 + y1 y2 = [v1 ]te · [v2 ]e
donde xi , yi , i = 1, 2 son las componentes de v1 , v2 en la base canónica (vi = (xi , yi )) y t denota traspuesto.
Reemplazando [vi ]e = S[vi ]e′ , obtenemos, para una base arbitraria e′ ,
v1 · v2 = (S[v1 ]e′ )t (S[v2 ]e′ ) = [v1 ]te′ (S t S)[v2 ]e′
El producto escalar queda entonces determinado por la matriz simétrica S t S y tendrá en general términos
“cruzados” ∝ x1 y2 y x2 y1 además de “diagonales” proporcionales a x1 x2 y y1 y2 . En el caso de rotaciones,
S t = S −1 y por lo tanto la forma del producto escalar usual permanece invariante.
4
Algebra Lineal: Aplicaciones a la Fı́sica, Curso 2012
5. Transformaciones lineales
Una transformación lineal (TL) es una función F : V → V ′ entre dos espacios vectoriales V, V ′ sobre el
mismo cuerpo K que satisface
V) Si v = m
P Pm Pm
i=1 αi vi , con αi ∈ K y vi ∈ V ⇒ F (v) = F ( i=1 αi vi ) = i=1 αi F (vi )
Esto puede demostrarse fácilmente por inducción (para los que no lo ven obvio).
Esta propiedad implica que la imagen del subespacio C generado por un subconjunto de vectores C =
{v1 , . . . , vm } ⊂ V es el subespacio F (C) generado por la imagen F (C) = {F (v1 ), . . . , F (vm )} ⊂ V ′ :
F (C) = F (C)
1
Si v ∈ V ⇒ v = ni=1 αi ei y F (v) = ni=1 αi F (ei ).
P P
Nótese también que siP
v1 , . . . , vm son L.D. (linealmente dependientes) ⇒ los vectores F (v1 ), . . . , F (vm ) son
también L.D.: Si 0 = m
Pm Pm
α
i=1 i i v , con algún α i =
6 0 ⇒ 0 = F ( α v
i=1 i i ) = i=1 αi F (vi ).
Dem.: P
Sea {b1 , . . . , bm , bm+1 , . . . , bn } base de V tal que {b1 , . . . , bm } sea base de N (F ) (F (bi ) = 0 si i ≤ m).
Si v = ni=1 αi bi ∈ V ⇒
Xn X n
F (v) = αi F (bi ) = αi F (bi )
i=1 i=m+1
pertenece al espacio generado por F (bm+1 ) . . . , F (bn ). Además, F (bm+1 ), . . . , F (bn ) son L.I. pues si
n
X n
X
0= αi F (bi ) = F ( α i bi )
i=m+1 i=m+1
Pn Pn Pm
el vector i=m+1 αi bi ∈ N (F ) y por tanto, i=m+1 αi bi = i=1 αi bi . Pero por independencia lineal de los
bi , debe ser αi = 0 para i = 1, . . . , n, por lo que F (bm+1 ), . . . , F (bn ) son L.I.
La dimensión de la imagen es por lo tanto n−m, y se cumple entonces dimN (F )+dimI(F ) = m+(n−m) =
n = dimV . La dimensión de la imagen I(F ) se denomina rango de F y la dimensión del espacio nulo N (F )
nulidad de F .
Ejemplos simples:
1) F : V → V dada por F (v) = αv
Si α = 0, N (F ) = V , I(F ) = {0}. Si dim V = n, dim N (F )+dim I(F ) = n + 0 = n.
Si α 6= 0, N (F ) = {0}, I(F ) = V . Si dim V = n, dim N (F )+dim I(F ) = 0 + n = n.
2) F : R2 → R2 dada por F (x, y) = (x, 0). N (F ) = {(0, y)|y ∈ ℜ}, I(F ) = {(x, 0)|x ∈ ℜ}.
dim N (F f )+dim I(F )=1+1=2=dim V .
3) F : R2×2 → R2×2 dada por F (A) = At . N (F ) = {0 ≡ (00 00 ), I(F ) = R2 ; dim N (F )+dimI(F )=0+4=4
donde
α1′ α1
[F (v)]B ′ = . . . , [v]B = . . . ,
αm′ αn
2
son las coordenadas de F (v) en la base B ′ y de v en la base B, y
T11 . . . T1n . . .
[F ]B
B ′ = . . . . . . . . . = [F (b 1 )]B ′ . . . [F (bn )]B ′
Tm1 . . . Tmn . . .
Notemos que la función identidad I : V → V definida por I(v) = v queda representada por la matriz
identidad In : [I]B B
B = In . Por simplicidad, denotaremos a [F ]B también como [F ]B cuando quede claro que
estamos trabajando con operadores lineales representados en una misma base.
Ejemplo 1: Sea F : R2 → R2 dada por F (x, y) = (2x + y, 4y + 3x). En la base canónica B = (b1 , b2 ),
b1 = (1, 0), b2 = (0, 1), tenemos F (b1 ) = (2, 3) = 2b1 + 3b2 , F (b2 ) = (1, 4) = b1 + 4b2 , y la matriz que
representa a F en esta base es
B 2 1
[F ]B =
3 4
Ejemplo 2: Reflexión respecto del eje x en R2 . Si F (v) es el vector obtenido al reflejar v respecto del eje x,
tenemos (recordar dibujo) F (b1 ) = b1 , F (b2 ) = −b2 y por lo tanto
B 1 0
[F ]B =
0 −1
Ejemplo 5: Rotación de ángulo θ en R3 alrededor del eje z. Si F (v) es el vector obtenido al rotar v un
ángulo θ antihorario alrededor del eje z, tenemos, en la base canónica de R3 , B = ((1, 0, 0), (0, 1, 0), (0, 0, 1)),
F (b1 ) = cos(θ)b1 + sin(θ)b2 , F (b2 ) = − sin(θ)b1 + cos(θ)b2 y F (b3 ) = b3 . Por lo tanto
cos(θ) − sin(θ) 0
[F ]B
B =
sin(θ) cos(θ) 0
0 0 1
Notemos que estas representaciones implican F (x, y) = (x, −y) en (2), F (x, y) = (y, x) en (3), F (x, y) =
(x cos(θ) + y sin(θ), −x sin(θ) + y cos(θ)) en (4), F (x, y, z) = (x cos(θ) + y sin(θ), −x sin(θ) + y cos(θ), z) en
(5) y D(x.1 + yt + zt2 ) = y.1 + 2zt en (6).
3
5.2 Cambio de base
Consideremos primero el caso de endomorfismos F : V → V , y sean B = (b1 , . . . , bn ), B̃ = (b̃1 , . . . , b̃n ) dos
bases ordenadas de V . Tenemos [v]B = S[v]B̃ , [F (v)]B = S[F (v)]B̃ , siendo S la matriz de cambio de base
(su columna i es el vector de coordenadas [b̃i ]B ). Por lo tanto, ∀ v ∈ V ,
[F (v)]B̃
B̃
= S −1 [F ]B
BS
S −1 = [I]B
B̃
, S = [I]B̃
B
[F ]B̃
B̃
= [I]B
B̃
[F ]B B̃
B [I]B
Nótese también que la transformación lineal G : V → V definida por G[bi ] = b̃i , i = 1, . . . , n, puede
representarse en la base B por la matriz
[G]B B
B = [I]B̃ = S
Ejemplo 1: La matriz que representa a una reflexión F respecto de la recta de ec. y = x en R2 , obtenida
anteriormente, se relaciona con aquella que representa a la reflexión respecto del eje x mediante un cambio√de
base, y son por lo√tanto semejantes. Si B = (b1 , b2 ) es la base canónica, respecto de la base b̃1 = (b1 +b2 )/ 2,
b̃2 = (−b1 + b2 )/ 2 (vectores unitarios paralelos a las rectas de ec. y = x y y = −x) tenemos F (b̃1 ) = b̃1 ,
F (b̃2 ) = −b̃2 . Por lo tanto,
B̃ 1 0
[F ]B̃ =
0 −1
La base B̃ se relaciona con la base canónica mediante la matriz
B̃ 1 1 −1
S = [I]B = √
2 1 1
4
con S −1 = S t = [I]B
B̃
. Por lo tanto,
0 1
[F ]B
B = S[F ]B̃ S −1 =
B̃ 1 0
que es el resultado obtenido anteriormente. Nótese que la matriz no es diagonal en la base canónica, pero
si lo es en la base B̃.
Ejemplo 2: Construir la matriz que representa a una reflexión F respecto de una recta inclinada un ángulo
θ (antihorario) respecto del eje x, en R2 . Respecto de la base formada por b̃1 = cos(θ)b1 + sin(θ)b2 ,
b̃2 = − sin(θ)b1 + cos(θ)b2 , tenemos nuevamente y por definición de reflexión,
B̃ 1 0
[F ]B̃ =
0 −1
con S −1 = S t = [I]B
B̃
. Por lo tanto,
cos(2θ) sin(2θ)
[F ]B
B = S[f ]B̃ S −1 =
B̃ sin(2θ) − cos(2θ)
Nótese que existe una base (B̃) donde la transformación queda representada por una simple matriz diagonal.
Caso general: Llamemos B̃ = (b̃1 , . . . , b̃n ) una nueva base de V y B̃ ′ = (b̃′1 , . . . , b̃′m ) una nueva base
de V ′ , definidas por matrices de cambio de base S y S ′ respectivamente (S = [I]B̃ ′ B̃ ′
B , S = [I]B ′ ). Dado que
[v]B = S[v]B̃ y [F (v)]B ′ = S ′ [F (v)]B̃ ′ , tenemos
−1 ′
[F ]B̃
B̃ ′
= S′ [F ]B B B B̃
B ′ S = [I]B̃ ′ [F ]B ′ [I]B
5
5.3 Composición (Producto) de operadores lineales
Sea F : V → V ′ y G : V ′ → V ′′ dos transformaciones lineales. La composición o producto (GF ) : V → V ′′
se define por
(GF )(v) = (G ◦ F )(v) = G(F (v))
El producto de transformaciones lineales es una transformaciı́on lineal:
(GF )(v1 + v2 ) = G(F (v1 + v2 )) = G(F (v1 ) + F (v2 )) = G(F (v1 )) + G(F (v2 )) = (GF )(v1 ) + (GF )(v2 )
(GF )(αv) = G(F (αv)) = G(αF (v)) = αG(F (v)) = α(GF )(v)
Para espacios finitamente generados, la matriz [GF ]B ′′ ′′
B ′′ que representa a GF en las bases B, B de V y V ,
B ′ B ′ ′′ ′ ′
es el producto de las matrices [G]B ′′ y [F ]B ′ que representan a F y G en bases B , B y B, B , siendo B una
base de V ′ :
B′
[GF ]B B
B ′′ = [G]B ′′ [F ]B ′
′
Notemos que si las dimensiones de V , V ′ , V ′′ son n, m, p respect. ⇒ [GF ]B B
B ′′ es de p × n, [G]B ′′ es de p × m
B
y [F ]B ′ es de m × n.
Dem.:
′ B′ B′
[(GF )(v)]B ′′ = [G(F (v))]B ′′ = [G]B B B
B ′′ [F (v)]B ′ = [G]B ′′ ([F ]B ′ [v]B ) = ([G]B ′′ [F ]B ′ )[v]B
En particular, si V = V ′ = V ′′ , con B = B ′ = B ′′ ,
[(GF )]B B B
B = [G]B [F ]B
Ejemplo: Consideremos la composición en R2 de una rotación F de π/2 antihoraria seguida de una re-
flexión G respecto del eje x: Tenemos, en la base canónica B = ((1, 0), (0, 1)):
B B B 1 0 0 −1 0 −1
[GF ]B = [G]B [F ]B = = = −[H]B
B
0 −1 1 0 −1 0
con H la reflexión respecto de la recta de ec. y = x (−H es la reflexión respecto de la recta de ec. y = −x)
Por otro lado, la composición en sentido inverso, es decir una reflexión respecto del eje x seguida de una
rotación de π/2, da como resultado
B B B 0 −1 1 0 0 1
[F G]B = [F ]B [G]B = = = [H]BB
1 0 0 −1 1 0
Este sencillo ejemplo muestra que el producto de operadores lineales no es en general conmutativo.
[F, G] = F G − GF
[[F, G]]B B B B B
B = [F ]B [F ]B − [G]B [F ]B
6
(F + G)(αv) = F (αv) + G(αv) = αF (v) + αG(v) = α(F (v) + G(v)) = α(F + G)(v)
Es fácil verificar que la suma es conmutativa (F +G = G+F ) y asociativa ((F +G)+H = F +(G+H)). Existe
además un elementro neutro 0, que es la función nula definida por 0(v) = 0 ∀ v ∈ V , con F + 0 = 0 + F = F .
El elemento opuesto de F es entonces −F , definido por −F (v) = −(F (v)), que es también lineal. El con-
junto de las funciones lineales {F : V → V ′ , F lineal} es pues un grupo abeliano con la operación de suma.
(αF )(v1 + v2 ) = αF (v1 + v2 ) = α(F (v1 ) + F (v2 )) = αF (v1 ) + αF (v2 ) = (αF )(v1 ) + (αF )(v2 )
(αF )(βv) = αF (βv) = α(βF (v)) = (αβ)F (v) = (βα)F (v) = β(αF )(v)
Es fácil verificar además que α(βF ) = (αβ)F , (α + β)F = αF + βF , α(F + G) = αF + αG, 1F = F .
Notemos también que con respecto al producto (composición) de funciones, la suma verifica las propiedades
distributivas (G + H)F = GF + HF para F : V → V ′ , y G, H : V ′ → V ′′ y H(F + G) = HF + HG para
H : V ′ → V ′′ y F, G : V → V ′ . Además, por ser lineales, α(GF ) = (αG)F = G(αF ) para α ∈ K.
[F + G]B B B
B ′ = [F ]B ′ + [G]B ′
[αF ]B B ′
B ′ = α[F ] B
7
6. Monomorfismos, Epimorfismos e Isomorfismos
I) Un monomorfismo es una TL F : V → V ′ inyectiva (o sea, F (v1 ) 6= F (v2 ) si v1 6= v2 ).
F es un monomorfismo si y sólo si N (F ) = {0}.
Dem.: Si F es un monomorfismo y v 6= 0, F (v) 6= F (0) = 0 ⇒ N (F ) = {0}.
Si N (F ) = {0} ⇒ F (v1 ) − F (v2 ) = F (v1 − v2 ) 6= 0 si v1 − v2 6= 0, o sea, F (v1 ) 6= F (v2 ) si v1 6= v2 .
Como consecuencia, dim N (F ) = 0. Por lo tanto, si V es de dimensión finita, dim I(F ) = dim V .
Y como I(F )⊂V ′ , F puede ser un monomorfismo sólo si dim V ≤ dim V ′ .
Los monomorfismos conservan la independencia lineal: Si {v1 , . . . , vm } son vectores LI de V y F es un
monomorfismo ⇒ {F (v1 ), . . . , F (vm )} son vectores LI de V ′ . Dem.: Si
m
X m
X
0= αi F (vi ) = F ( αi v i )
i=1 i=1
entonces m
P Pm
i=1 αi vi ∈ N (F ). Como N (F ) = {0} ⇒ i=1 αi vi = 0, lo que implica αi = 0 para i = 1, . . . , m
por ser los vi LI. Por lo tanto, {F (v1 ), . . . , F (vm )} son LI
En particular, si B = (b1 , . . . , bn ) es una base de un espacio V finitamente generado y F : V → V ′ es un
monomorfismo, (F (b1 ), . . . , F (bn )) es una base de I(F ).
8
IV) Si F : V → V ′ es un isomorfismo ⇒ la transformación inversa F −1 : V ′ → V , definida por F −1 (v ′ ) = v,
con v el único vector ∈ V tal que F (v) = v ′ , es lineal y es un isomorfismo.
Dem.: Si F es isomorfismo, la inversa F −1 es obviamente una función bien definida.
Si F (v1 ) = v1′ , F (v2 ) = v2′ ⇒ F (v1 + v2 ) = F (v1 ) + F (v2 ) = v1′ + v2′ , lo que implica F −1 (v1′ + v2′ ) = v1 + v2 =
F −1 (v1′ ) + F f −1 (v2′ ).
Si F (v) = v ′ y α ∈ K ⇒ F (αv) = αF (v) = αv ′ , lo que implica F −1 (αv ′ ) = αv = αF −1 (v ′ ).
F −1 es por lo tanto una TL.
Además, F −1 es un monomorfismo, pues N (F −1 ) = {0} y es un epimorfismo pues si v ∈ V , v = F −1 (v ′ ),
con v ′ = F (v), por lo que I(F −1 ) = V .
Como consecuencia de la definición, F (F −1 (v ′ )) = v ′ ∀ v ′ ∈ V ′ y F −1 (F (v)) = v ∀ v ∈ V . Por lo tanto,
F F −1 = IV ′ , F −1 F = IV
Una TL F : V → V ′ entre espacios de dimensión finita es pues un isomorfismo si y sólo si está representada
por matrices [F ]B B
B ′ cuadradas no singulares (Det[F ]B ′ 6= 0).
Dem.: Si es isomorfismo, por lo visto anteriormente [F ]B B ′ es cuadrada e invertible y por lo tanto no singular.
Y si [F ]B ′ es cuadrada no singular, la única solución de [F ]B
B
B ′ [v]B = 0 es [v]B = 0, es decir, v = 0. Esto
implica que N (F ) = {0} y ⇒ F es monomorfismo y por lo tanto isomorfismo.
Si V = V ′ , F es un operador no singular sii [F ]B es una matriz no singular. En tal caso [F −1 ]B = [F ]−1B .
Recordemos que la inversa de una matriz no singular A (Det[A] 6= 0) puede obtenerse como
donde Det denota el determinante y C la matriz de cofactores traspuesta, siendo Mji la matriz de (n − 1) ×
(n − 1) obtenida al suprimir la fila j y columna i de A.
Por ejemplo, si A es de 2 × 2,
a b −1 1 d −b
A= ⇒ A =
c d ad − bc −c a
Ejemplo 1): Si V es un espacio vectorial sobre el cuerpo K con dim V = n y B = (b1 , . . . , bn ) es una base
ordenada de V , la función R : V → K n dada por
α1
R(v) = [v]B = . . .
αn
9
La dimensión de la imagen de F puede calcularse evaluando el rango de la matriz T = [F ]B B ′ de m × n
(es decir, el número de columnas (o filas) LI) en cualquier par de bases B, B ′ , ya que esto será equivalente
al número de vectores F (bi ) LI. Del mismo modo, la imagen I(F ) puede obtenerse a partir del espacio
columna de T (es decir, el espacio generado por las columnas de T ) y el núcleo N (F ) a partir del espacio
nulo de T (este último es el conjunto de vectores [v]B ∈ K n×1 que satisfacen T [v]B = 0, y que son por tanto
ortogonales a todas las filas de T ).
Como base de K m×n pueden elegirse las matrices E ij cuyo único elemento no nulo es el ij, definidas por
ij ij
Ekl = 1 si k = i y l = j y Ekl = 0 en caso contrario. Como base de Hom(V, V ′ ) pueden elegirse las
correspondientes transformaciones lineales F ij definidas por F ij (el ) = 0 si l 6= j y F ij (el ) = e′i si l = j, tal
que [F ij ]ee′ = E ij . Aquı́ e y e′ denotan las bases canónicas de K n y K m respectivamente.
Una demostración alternativa que permite hallar una base del e.f. y del e.c. de T es la siguiente: Apli-
cando un número finito de operaciones elementales por fila, se puede llevar T a la forma de escalonada de
10
Gauss-Jordan,
1 x ... 0 x ... 0 x ...
0 0 ... 1 x ... 0 x ...
′ ′−1
0 0 ... 0 0 ... 1 x ...
T =S T =
... ... ...
0 0 ... 0 0 ... 0 0 ...
... ... ...
donde x representa elementos no necesariamente nulos, y S ′−1 una matriz no singular que es el producto de
las operaciones elementales. T ′ posee k filas no nulas que son LI y por lo tanto la dimensión del e.f. de T ′
(idéntico al espacio fila de T , por ser las filas de T ′ combinaciones lineales de las de T ) es k. Una base del
e.f. de T son pues las k filas no nulas de T ′ .
k es también el número de columnas LI de T ′ , ya que las columnas con pivotes (primer elemento no nulo
de c/fila no nula) son LI y generan el e.c. de T ′ . Por lo tanto, la dimensión del e.c. de T ′ es también k.
Pero esta es entonces la dimensión del e.c. de T por ser S ′−1 no singular (véase b)).
Considerando a T como la representación de una TL F : V → V ′ en bases B, B ′ de V y V ′ tal que
T = [F ]B ′ ′−1 T = [F ]B corresponde a un cambio de base en V ′ , con S ′ = [I]B̃ ′ . Las
B ′ , la matriz T = S B̃ ′ B′
columnas con pivotes de T ′ , [F (bip )]B̃ ′ , forman una base del e.c. de T ′ , por lo que los correspondientes
vectores F (bip ) forman una base de I(F ). Las correspondientes columnas de T , [F (bip )]B ′ , forman entonces
una base del e.c. de T . Nótese que en general, e.c. (T ) 6= e.c. (T ′ ), aunque las dimensiones sean iguales.
El rango de esta matriz es 2, ya que posee dos filas (o columnas) LI, que coincide con dim I(D).
1 0
Además, el espacio columna de [D]e es { 0 , 2 } = {[e1 ]e , 2[e2 ]e }, de modo que I(D) será el sube-
0 0
spacio generado por e1 = 1 y e2 = t, es decir, P1 .
1
El espacio nulo de [D]e es { 0 } = {[e1 ]e }, y N (D) es por lo tanto el subespacio generado por e1 , es
0
decir, P0 .
Ejemplo 4) Sea F : R2 → R2 dada por F (x, y) = (2x + y, 3x − y). Mostrar que F es no singular y hallar
su inversa.
F es un isomorfismo pues I(F ) = {x(2, 3) + y(1, −1), x, y ∈ R} = R2 , ya que (2, 3) y (1, −1) son LI y por lo
tanto base de R2 . Puede llegarse al mismo resultando notando que N (F ) = {(0, 0)}. Y también, notando
que la matriz que representa a F en la base canónica e = ((1, 0), (0, 1)) es
2 1
[F ]e =
3 −1
11
Ejemplo 5) Sea F : R3 → R3 dada por F (x, y, z) = (x + y + z, 2x + z, 3x − y + z). Hallar N (F ) y I(F ).
En este caso conviene pasar directamente a la representación matricial. La matriz que representa a F en la
base canónica e = ((1, 0, 0), (0, 1, 0), (0, 0, 1)) es
1 1 1
[F ]e = 2 0 1
3 −1 1
F no es un isomorfismo pues [F ]e es una matriz singular (Det[[F ]e ] = 0) y por lo tanto no posee inversa. Las
columnas bi de [F ]ee están vinculadas por b3 = (b2 + b1 )/2 (y las filas ai de [F ]e por a3 = 2a2 − a1 ), siendo
b2 y b1 L.I.. El rango de [F ]e es por lo tanto 2. Esto implica que dim I(F ) = 2 y que dim N (F ) = 3 − 2 = 1.
Para hallar N (F ) se resuelve el sistema de ecuaciones que resulta de F (x, y, z) = (0, 0, 0), o sea, x+y +z = 0,
2x + z = 0, 3x − y + z = 0, que puede reescribirse en forma matricial como
1 1 1 x 0
2 0 1 y = 0
3 −1 1 z 0
es decir,[F ]e [v]e =0 (vector columna nulo). Puede verse fácilmente que [F ]e es equivalente por filas a la
2 0 1
matriz 0 2 1 . La solución al sistema homogéneo está entonces dada por x = −z/2, y = −z/2, con
0 0 0
z arbitrario, por lo que el espacio nulo de la matriz es el conjunto {(−1/2, −1/2, 1)t }.
El núcleo de F es pues el subespacio generado por el vector v0 = (−1/2, −1/2, 1)
Una base del espacio columna de [F ]e es, por ej., el conj. formado por las dos primeras columnas.
Por lo tanto, I(F ) es el espacio generado por v1 = (1, 2, 3) = f (e1 ), v2 = (1, 0, −1) = f (e2 ).
Podemos escribir entonces V = {e1 , e2 } ⊕ v0 (la barra sobre vectores indica el espacio generado por dichos
vectores), con v0 base del núcleo y (F (e1 ), F (e2 )) base de I(F ).
Ejemplo 6) Sea f : R2 → R2 , definida por F (1, 1) = (2, 1), F (1, −1) = (−1, 0). Hallar F (x, y).
Los datos alcanzan para definir F pues e′1 = (1, 1), e′2 = (1, −1) son LI y por lo tanto base de R2 (y toda
transformación lineal queda completamente determinada por los vectores que asigna a los elementos de una
base). Tenemos, a partir de los datos,
e′ 2 −1
[F ]e =
1 0
Además,
′ 1 1 1 1 1
[I]ee =S= , [I]ee′ =S −1
=
1 −1 2 1 −1
Por lo tanto,
′ ′ 2 −1 1 1 1 1 3
[F ]e = [F ]ee [I]ee′ = [F ]ee S −1 = /2 =
1 0 1 −1 2 1 1
que implica
F (x, y) = (x + 3y, x + y)/2
Puede llegarse al mismo resultado a partir de la relación e1 = (e′1 + e′2 )/2, e2 = (e′1 − e′2 )/2, con F f [e1 ] =
[F (e′1 )+F (e′2 )]/2 = (1, 1)/2, F [e2 ] = [F (e′1 )−F (e′2 )]/2 = (3, 1)/2 y por lo tanto F (x, y) = xF (e1 )+yF (e2 ) =
(x + 3y, x + y)/2. El método matricial es, no obstante, más directo y apto para ser aplicado a sistemas de
grandes dimensiones.
12
7- Inversas a Izquierda y Derecha
Sea F : V → V ′ una transformación lineal. G : V ′ → V lineal se denomina inversa a izquierda de F si
GF = IV
Teorema: Una transformación lineal posee inversa a izquierda si y sólo si es un monomorfismo, e in-
versa a derecha si y sólo si es un epimorfismo.
(Recordar esquema gráfico hecho en clase).
Dem.: a) Si F es un monomorfismo ⇒ ∀ v ′ ∈ I(F ) ∃ un y sólo un v ∈ V tal que F (v) = v ′ . Podemos escribir
en general V ′ = I(F ) ⊕ Q, donde Q es un suplemento de I(F ). Todo vector v ′ ∈ V ′ puede pues escribirse en
forma única como v ′ = v1′ + v2′ , donde v1′ = F (v1 ) ∈ I(F ) y v2′ ∈ Q. Definimos entonces G : V ′ → V como
G(v ′ ) = v1
De esta forma, G(v1′ ) = v1 y G(v2′ ) = 0 si v1′ ∈ I(F ) y v2′ ∈ Q. Es fácil comprobar que G es lineal (pues
G(v ′ + u′ ) = v1 + u1 = G(v ′ ) + G(u′ ) si v ′ = v1 + v2 y u′ = u1 + u2 , y G(αv ′ ) = αv1 = αG(v ′ )). Es además
un epimorfismo y satisface GF = IV .
Notemos que si I(F ) 6= V ′ , la inversa a izquierda no es única, pues podemos sumar a G cualquier función
lineal H : V ′ → V no nula que satisfaga H(v ′ ) = 0 si v ′ ∈ I(F ) (o sea, I(F ) ⊂ N (H)) tal que HF = 0 y
por lo tanto (G + H)F = GF .
Además, si F no es monomorfismo, ∃ v ∈ V , con v 6= 0, tal que F (v) = 0 y por lo tanto, (GF )(v) =
G(F (v)) = G(0) = 0 6= v, por lo que F no puede tener inversa a izquierda en tal caso.
b) Si G : V ′ → V es un epimorfismo, sea N (G) su espacio nulo y sea Q un suplemento tal que V ′ = N (G)⊕Q.
G restringido a Q (G : Q → V ) es un isomorfismo, ya que sigue siendo epimorfismo y además, si v ′ ∈ Q y
v ′ 6= 0, G(v ′ ) 6= 0. Definamos F : V → V ′ tal que F (v) es el único vector v ′ de Q que satisface G(v ′ ) = v
(I(F ) = Q). Es fácil ver que F es lineal, es monomorfismo y satisface GF = IV .
No obstante, la inversa a derecha no es única si N (G) 6= {0}, pues podemos sumar a F cualquier función
no nula H : V → V ′ con I(H) ⊂ N (G), tal que GH = 0.
Además, si G no es epimorfismo, ∃ v ∈ V tal que v no pertence a I(G) y por lo tanto (GF )(v) = G(F (v)) 6= v,
pues G(F (v)) ∈ I(G). No puede pues existir inversa a derecha en este caso.
Este teorema implica que una matriz A de m × n (m filas, n columnas) tiene inversa a izquierda B
(BA = In , con B de n × m) si y sólo si Rango (A) = n (y por lo tanto m ≥ n), en cuyo caso A representa
a un monomorfismo. Y una matrix B de m × n tiene inversa a derecha A (BA = Im , con A de n × m)
si y sólo si Rango (B) = m (y por lo tanto m ≤ n), en cuyo caso representa un epimorfismo.
Si una matriz posee inversa izquierda y a derecha entonces debe ser necesariamente cuadrada y representar
un isomorfismo, siendo pues no singular. En tal caso la inversa a izquierda y a derecha coinciden.
Si A ∈ Cm×n tiene rango n (lo que implica m ≥ n) sus columnas son LI. Es fácil mostrar que A ∈ Cm×n
tiene rango n si y sólo si la matriz A† A ∈ Cn×n es no singular (Det(A† A) 6= 0). Recordemos que
A† = (At )∗ , es decir, A†ij = A∗ji ∀ i, j.
Dem.: Si las columnas son independientes, la única solución de AX = 0 (con X ∈ Cn×1 ) es X = 0 (en
otras palabras, A representa a un monomorfismo y por lo tanto su espacio nulo es {0}). Si existe X tal que
A† AX = 0 entonces X † A† AX = (AX)† (AX) = |AX|2 = 0 y por lo tanto AX = 0 . Esto implica entonces
X = 0, por lo que A† A es no singular: Det(A† A) 6= 0.
1
Análogamente, Si A† A, es no singular, la única solución de A† AX = 0 es X = 0, por lo que la única
solución de AX = 0 es X = 0, indicando que las columnas de A son linealmente independientes, es decir,
que A tiene rango n.
Esto permite pues construir en forma inmediata una inversa a izquierda B ∀ A ∈ Cm×n con rango n:
ya que BA = Im (notar que A ∈ Cn×m ). Recordemos, no obstante, que si m 6= n, existen otras inversas a
izquierda y a derecha respectivamente, aunque las inversas (1) y (2) poseen ciertas propiedades especiales
que discutiremos más adelante. Por otro lado, si m = n ⇒ B = A−1 en (1) y A = B −1 en (2), como el
lector puede fácilmente comprobar.
DS = IP
ya que D(e1 ) = 0, D(e2 ) = 1 = e′1 , D(e3 ) = 2t = 2e′2 . D ası́ definido es claramente un epimorfismo,
pues I(D)R= P1 . Una inversa a derecha de D es la transformación S : P1 → P2 definida como la integral
t
S(p(t)) = 0 p(t′ )dt′ , con S(e′1 ) = t = e2 , S(e′2 ) = t2 /2 = e3 /2, representada por la matriz
0 0
′
[S]ee = 1 0
0 1/2
es decir,
DS = IP1
′ ′
Precisamente, si A = [S]ee ⇒ la ec. (1) nos da B = [D]ee′ . Y si B = [D]ee′ , la ec. (2) nos da A = [S]ee , como
el lector puede fácilmente verificar.
2
0 0 0
e ′ e
No obstante, notemos que [S]e [D]e′ = 0 1 0 6= I3 , por lo que SD 6= IP2 .
0 0 1
′
Notemos también que S : P1 → P2 definida por S ′ (e1 ) = t + a, S ′ (e2 ) = t2 /2 + b, y representada por
a b
′
[S ′ ]ee = 1 0
0 1/2
F (v) = v ′
v = vp + vn
donde vn ∈ N (F ) es un vector del espacio nulo de F , es decir, una solución de la ec. homogénea (F (vn ) = 0).
La solución general estará dada entonces por la suma de una solución particular vp de la ecuación no ho-
mogénea y de una solución vn de la ecuación homogénea.
Resulta claro entonces que si v ′ ∈ I(F ), la solución será única si y sólo si N (F ) = 0, o sea, si y sólo si F
es un monomorfismo. En tal caso, la única solución de F (v) = v ′ puede encontrarse como
v = G(v ′ )
donde G es una inversa a izquierda de F . En efecto, si F (v) = v ′ ⇒ G(F (v)) = (GF )(v) = IV (v) =
v = G(v ′ ). Puede utilizarse cualquier inversa a izquierda ya que difieren entre sı́ sólo para vectores que no
pertenecen a I(F ) (G2 (v ′ ) = G1 (v ′ ) si v ′ ∈ I(F )).
Por otro lado, si F : V → V ′ es un epimorfismo ⇒ la ecuación F (v) = v ′ tendrá siempre solución, pero
no será única a no ser que N (F ) = {0} (en cuyo caso F es isomorfismo). La solución general será
v = G(v ′ ) + vn
3
donde G es una inversa a derecha de F y vn un vector arbitrario de N (F ). En efecto, F (G(v ′ ) + vn ) =
F (G(v ′ )) + F (vn ) = (F G)(v ′ ) + 0 = IV ′ (v ′ ) = v ′ . Aquı́ G(v ′ ) representa la solución particular vp , la cual,
remarquemos, es una función lineal de v ′ . Puede utilizarse cualquier inversa a derecha pues estas difieren
sólo en un vector de vn (G2 (v ′ ) = G1 (v ′ ) + vn con vn ∈ N (F )).
Ejemplo 1): Para el caso de sistemas de m ecuaciones lineales con n incógnitas, dados por
AX = Y
con A de m × n, X de n × 1, Y de m × 1 y A y Y de elementos reales (que corresponde a la función
F : Rn×1 → Rm×1 dada por F (X) = AX) los resultados anteriores implican que:
1) El sistema posee solución si y sólo si Y pertenece al espacio columna de A.
En tal caso, la solución general será de la forma
X = Xp + Xn
donde Xp es una solución particular (AXp = Y ) y Xn una solución general del sistema homogéneo (AXn = 0,
con 0 el vector columna nulo).
2) La solución será única si y sólo si el espacio nulo de A es el vector columna nulo (Xn = 0), es de-
cir, si y sólo si Rango (A) = n (y por lo tanto, m ≥ n). En este caso F es un monomorfismo y la única
solución (en el caso que Y pertenezca al espacio columna de A) puede encontrarse como X = BY , con B
de n × m una inversa a izquierda de A (BA = In ).
3) Si la dimensión del espacio columna es m (en cuyo caso Rango (A) = m y por lo tanto, m ≤ n)
existirá solución para cualquier Y de m × 1. En este caso F es un epimorfismo y la solución general puede
escribirse como X = CY + Xn , con C de n × m una inversa a derecha de A (AC = Im ) y Xn solución del
sistema homogéneo AXn = 0.
4) Si m = n y Rango (A) = n ⇒ existe siempre una única solución dada por X = A−1 Y , con A−1 la
inversa de A. En este caso F representa un isomorfismo.
4
(AX = 0). Nótese que
1
0 4
1 1 0 1
1 − = 1 0
4 0 2 4 0 1
0 0
pero
1 1
0 4
1 0 2
1 −1 1 1 0 = 0 1 −1
4 4 0 2 2
0 0 0 0 0
5
9. Autovalores y Autovectores
Sea V un espacio vectorial sobre el cuerpo K y sea F : V → V un operador lineal. Un escalar λ ∈ K es un
autovalor de F si existe v ∈ V , con v 6= 0, tal que
F (v) = λv (v 6= 0)
9.2) El espacio propio VF (λ), con λ autovalor de F , es el núcleo del operador F − λI:
VF (λ) = N [F − λI]
donde I denota el operador identidad en V (I(v) = v ∀ v ∈ V ).
En efecto, si F (v) = λv ⇒ 0 = F (v) − λv = (F − λI)(v), y si (F − λI)(v) = 0 ⇒ F (v) = λv.
Por lo tanto λ ∈ K es autovalor de F si y sólo si
N [F − λI] 6= {0}
Det[F − λI] = 0
1
donde [F ]e ≡ [F ]ee es la matriz que representa a F en dicha base, In = [I]e es la matriz identidad de n × n
y |A| = DetA denota el determinante de la matriz A. Det[F − λI] es independiente de la base elegida e:
|[F ]e′ − λIn | = |S −1 [F ]e S − λIn | = |S −1 ([F ]e − λIn )S| = |S −1 ||[F ]e − λIn ||S| = |[F ]e − λIn |
ya que [I]e′ = [I]e = In y |S −1 | = 1/|S|. Los autovalores de F en un espacio de dimensión finita n se
obtienen entonces como las raı́ces pertenecientes al cuerpo K del polinomio
P (λ) = Det[F − λI]
denominado polinomio caracterı́stico, que es de grado n (pues [F − λI]e es de n × n). La ecuación P (λ) = 0
se denomina ecuación caracerı́stica y posee, por lo tanto, a lo sumo n raı́ces distintas, que en general pueden
ser complejas. Serán autovalores si pertenecen al cuerpo K. Si K = C ⇒ toda raı́z de P (λ) es autovalor.
Nótese que la demostración es igualmente válida si los λ1 , . . . , λk−1 no son todos distintos (pero sı́ dis-
tintos a λk ) siempre que los v1 , . . . , vk−1 sean LI
Por lo tanto, ningún elemento vk 6= 0 de V (λk ) puede ser generado por autovectores correspondientes a
autovalores distintos de λk .
9.6) Un operador F en un espacio V de dimensión finita se dice diagonalizable si existe una base for-
mada por autovectores de F .
En tal caso, denotando la base como e′ = (e′1 , . . . , e′n ), con F (e′i ) = λi e′i , i = 1, . . . , n, la matriz que representa
a F en dicha base es diagonal:
λ1 0 . . . 0
... 0 λ2 . . . 0
[F ]e′ = [F (e′1 )]e′ . . . [F (e′n )]e′ =
...
...
0 0 . . . λn
Recı́procamente, si [F ]e′ es diagonal ⇒ F (e′i ) = λi e′i y e′ es necesariamente una base de autovectores. Si F
es diagonalizable y e es una base arbitraria de V , tenemos
[F ]e′ = S −1 [F ]e S
2
′
con [F ]e′ diagonal y S = [I]ee la matriz de cambio de base, por lo que existe una matriz no singular S tal
que S −1 [F ]e S es diagonal. La columna i de S es el vector de componentes [e′i ]e del autovector e′i corresp. al
autovalor λi en la base original e. Esta es la forma de construir la matriz diagonalizante S.
9.7) Teorema: F es diagonalizable si y sólo si i) todos las raı́ces de P (λ) pertenecen al cuerpo y ii) la
dimensión del espacio propio VF (λi ) correspondiente a la raı́z λi es igual a la multiplicidad mi de dicha raı́z.
La dimensión del espacio propio di =dimVF (λi ) es el máximo número de autovectores LI que pueden obte-
nerse para un mismo autovalor λi , y se denomina también multiplicidad geométrica de λi .
Demostración: Supongamos F diagonalizable. En una base e′ en la que [F ]e′ es diagonal, tenemos
P (λ) = (λ1 − λ) . . . (λn − λ)
La multiplicidad mi de una raı́z λi será pues igual al número de veces que λi se repite en la diagonal. Pero
este número es igual al número de vectores de la base e′ que tienen a λi como autovalor, que es precisamente
la dimensión del espacio propio. Nótese también que di es el número de filas nulas de [F ]e′ − λi In .
Por otro lado, si la dimensión de cada espacio propio es igual a la multiplicidad mi de la raı́z λi , la suma
directa de todos los espacios propios correspondientes a autovalores distintos, VF (λ1 ) ⊕ . . . ⊕ VF (λk ) tendrá
dimensión d1 + . . . + dk = m1 + . . . + mk = n (ya que la suma de todas las multiplicidades es igual al grado
del polinomio), por lo que será igual al espacio V . Existe entonces una base formada por autovectores de F .
9.8) En general, la dimensión del espacio propio VF (λi ) puede ser igual o menor que la multiplicidad de la
raı́z λi : dim VF (λi ) ≤ mi .
En efecto, eligiendo una base e donde los primeros di =dimVF (λi ) elementos formen una base de VF (λi ),
las primeras di columnas de [F ]e tendrán elementos no nulos sólo en la diagonal y por lo tanto P (λ) =
Det[[F ]e − λIn ] = (λi − λ)di Q(λ), con Q(λ) un polinomio de grado n − di , por lo que mi será como mı́nimo
di (mi = di si Q(λi ) 6= 0 y mi > di si Q(λi ) = 0).
Si di < mi , F no es diagonalizable (aún tomando como cuerpo C).
Ejemplo 2: Sea F : R2 → R2 la reflexión respecto del eje x. Si e = (e1 , e2 ) es la base canónica, con
e1 = (1, 0), e2 = (0, 1), sabemos que F (e1 ) = e1 , F (e2 ) = −e2 . Por lo tanto e1 es autovector de F con
autovalor 1 y e2 autovector de F con autovalor −1. No pueden existir otros autovalores pues la dimensión
de V es 2. VF (1) es entonces el espacio generado por e1 , es decir, el conjunto de vectores (x, 0), con x ∈ R,
sobre los que F actúa como identidad, y VF (−1) el generado por e2 , es decir, el conjunto de vectores (0, y),
con y ∈ R, para los que la acción de F es la inversión de sentido.
Podemos obtener el mismo resultado a partir de la representación matricial
1 0
[F ]e =
0 −1
que ya es diagonal, por lo que los autovalores son 1 y −1: Tenemos P (λ) = |[F ]e − λI2 | = (1 − λ)(−1 − λ),
siendo entonces las raı́ces ±1.
3
Ejemplo 3: Sea F : R2 → R2 la reflexión respecto de la recta de ecuación y = x, dada por (recordar
ejemplo dado) F (x, y) = (y, x). Si e′ = (e′1 , e′2 ), con e′1 = (1, 1), e′2 = (−1, 1), tenemos F (e′1 ) = e′1 ,
F (e′2 ) = −e′2 , por lo que los autovalores son nuevamente 1 y −1, con VF (1) el espacio generado por e′1 y
VF (−1) el espacio generado por e′2 . Se obtiene entonces
0 1 1 0 −1 1 −1
[F ]e = , [F ]e′ = = S [F ]e S , S =
1 0 0 −1 1 1
El pol. caracterı́stico es P (λ) = |[F ]e − λI2 | = λ2 − 1 = (1 − λ)(−1 − λ) = |[F ]e′ − λI2 | y sus raı́ces ±1.
4
10. Autovalores y Autovectores de Matrices
Todas las definiciones y propiedades anteriores se aplican igualmente al cálculo de autovalores y autovectores
de matrices cuadradas, que pueden ser siempre consideradas como la representación de un cierto operador
lineal (en un espacio vectorial de dimensión n) en una cierta base. Consideraremos en lo sucesivo K = C.
Dada una matriz A de n × n, λ es autovalor de A sii
|A − λIn | = 0
AX = λX
(A − λIn )X = 0
10.1) Las matrices semejantes poseen el mismo polinomio caracterı́stico y por lo tanto los mismos autova-
lores. Recordemos que A es semejante o similar a B si A = S −1 BS, con S de n × n no singular.
En efecto PA (λ) = |A − λIn | = |S −1 BS − λIn | = |S −1 (B − λIn )S| = |B − λIn | = PB (λ)
10.2) A y At (t denota traspuesta) poseen el mismo polinomio caracterı́stico y por lo tanto los mismos
autovalores (pero no necesariamente los mismos autovectores). Como |B| = |B t | ∀ B de n × n,
10.3) Si A es real ⇒ P (λ) es real y por lo tanto sus raı́ces complejas aparecerán en pares conjugados:
Si λ es una raı́z compleja, 0 = [P (λ)]∗ = P (λ∗ ).
Además, si X es autovector de A con autovalor λ y A es real, entonces X ∗ es autovector de A con autovalor
λ∗ : Como AX = λX ⇒ (AX)∗ = AX ∗ = λ∗ X ∗ .
10.5) El determinante de una matriz es igual al producto de todos sus autovalores (reales y complejos,
y elevados a sus respectivas multiplicidades):
|A| = λ1 λ2 . . . λn
5
En efecto, si λ1 , . . . , λn son las raı́ces de P (λ), podemos escribir (utilizando la factorización en términos de
raı́ces y notando que el término de grado n es (−1)n λn )
10.6) La traza de una matriz es igual a la suma de todos sus autovalores (reales y complejos, y repeti-
dos tantas veces como indica su multiplicidad):
n
X n
X
TrA = aii = λi
i=1 i=1
A partir de la expresión (9.2) para P (λ), vemos que el término de grado n − 1 en λ es (−λ)n−1 (λ1 + . . . + λn ),
mientras que a partir de (9.1) vemos que el mismo es (−λ)n−1 (a11 + . . . + ann ). Como ambos son idénticos,
se obtiene el resultado deseado.
Esto implica que la traza de un operador F es la suma de todos sus autovalores.
La dimensión del espacio propio correspondiente al autovalor λi es la dimensión del espacio nulo de |A−λi In |:
6
Por lo tanto, λ = ±1. El autovector X1 correspondiente a λ1 = 1 se obtiene resolviendo el sistema homogéneo
(A − λ1 I2 )X1 = 0, es decir,
−1 1 x 0
=
1 −1 y 0
que conduce a x = y. Los autovectores son entonces de la forma x(11 ), con x 6= 0 y V (1) es el espacio
generado por (11 ). Este corresponde al espacio generado por e′1 en el ej. 3 anterior ([e′1 ]e = (11 )).
Notemos que la matriz anterior tiene rango 1, por lo que dimV (1) = 2 − 1 = 1.
El autovector correspondiente a λ2 = −1 se obtiene resolviendo el sistema (A − λ2 I2 )X2 = 0, es decir,
1 1 x 0
=
1 1 y 0
que conduce a x = −y. Los autovectores son entonces de la forma x(−1 1 ), con x 6= 0, y V (−1) es el espacio
1 1 )).
generado por (−1 ). Este corresponde al espacio generado por e2 en el ej. 3 anterior ([e′2 ]e = (−1
′
Ejemplo 2: Consideremos
1 1
A=
0 1
La ec. caracterı́stica es
1−λ 1
|A − λI2 | = = (1 − λ)2 = 0
0 1−λ
por lo que el único autovalor es λ = 1 con multiplicidad m = 2. No obstante, la matriz
0 1
A − 1I2 =
0 0
posee rango 1, por lo que dim V (1) = 2 − 1 = 1 < 2. Por lo tanto, esta matriz no es diagonalizable, ya que
no existe una base de autovectores de la misma. La ecuación
0 1 x 0
=
0 0 y 0
conduce a y = 0, por lo que los autovectores son de la forma x(10 ) y V (1) es el espacio generado por (10 ).
No existe otro autovector LI de (10 ). De todos modos, se cumple |A| = 1 = 1.1 y TrA = 2 = 1 + 1. Nótese
que A es no singular (|A| = 1 6= 0). La condición de no diagonalizable nada tiene que ver con la singularidad.
|B − λI2 | = (1 − λ)2 − ε = 0
√
posee siempre 2 raı́ces distintas: λ = 1 ± ε.
Esta conclusión es general: Si A no es diagonalizable podemos siempre encontrar una matriz B arbitraria-
mente próxima a A (es decir, cuyos elementos difieran de los de A en menos de ε, con ε > 0 arbitrario) tal
que B es diagonalizable.
7
1 1 1
Ejemplo 3: Sea A = 0 2 1 . Tenemos
0 0 1
1−λ 1 1
|A − λI3 | = 0 2−λ 1 = (1 − λ)(2 − λ)(1 − λ)
0 0 1−λ
posee rango 1, por lo que dim V (1) = dim N (A − 1I3 ) = 3 − 1 = 2, igual a la multiplicidad de λ1 . La matriz
es por lo tanto diagonalizable ya que necesariamente dim V (2) = 1. El sistema (A − 1I3 )X = 0 conduce a
y+ z =0, es decir,
y = −z, con z y x arbitrarios, por lo que los autovectores para λ1 = 1 son de la forma
x 1 0
−z = x 0 + z −1 . Para λ2 = 2,
z 0 1
−1 1 1
|A − 2I3 | = 0 0 1
0 0 −1
posee rango2. El
sistema (A − 2I3 )X = 0 conduce a x = y, con z = 0, por lo que los autovectores son de
1
la forma x 1 . Una matriz de autovectores es por lo tanto
0
1 0 1 1 −1 −1
S = 0 −1 1 , con S −1 = 0 0 −1
0 1 0 0 1 1
Se verifica entonces
1 0 0
A′ = S −1 AS = 0 1 0
0 0 2
Nótese que el orden de los autovalores en A′ corresponde al orden de los autovectores (columnas) en S.
8
y S −1 = S t . En esta base [P ]e no es diagonal, aunque sigue cumpliendo que [P ]2e = [P ]e . Se deja como ejer-
cicio verificar explı́citamente que los autovalores de la matriz [P ]e son 0 y 1, y que una base de autovectores
es precisamente e′ (aunque por su puesto no es la única), de modo que S es una matriz diagonalizante de
[P ]e , que verifica S −1 [P ]e S = [P ]e′ , con [P ]e′ diagonal.
a−d
a b a+d 2 b
Ejemplo 6: Autovalores de una matrix general de 2 × 2. Si A = = 2 I2 + ,
c d c − a−d
2
obtenemos fácilmente, a partir de |A − λI2 | = 0, que los autovalores son
r r
a+d a−d 2 1 Tr[A] 2
λ± = ± ( ) + bc = Tr[A] ± ( ) − Det[A]
2 2 2 2
donde Tr[A] = a + d es la traza de A y Det[A] = ad − bc su determinante. La última expresión puede
λ+ + λ− = Tr[A]
obtenerse directamente de resolver el sistema
λ+ λ− = Det[A]
Los dos autovalores quedan pues completamente determinados por la traza y el determinante.
Consideremos primero el caso en que los autovalores λi de A son todos distintos. Para λ = λi + δλi con δλi
una corrección de orden ε al autovalor λi , obtenemos entonces
Y
|B − (λi + δλi )I| = (δA′ii − δλi ) (λj − λi ) + O(ε2 )
j6=i
donde el primer término es el de mayor orden (O(ε)), y los restantes de orden O(ε2 ) o mayor. Por lo tanto,
la ec. |B − λI| = 0 conduce a
X
δλi = δA′ii + O(ε2 ), con δA′ii = (S −1 δAS)ii = ε −1
Sij Mjk Ski
j,k
P −1
es decir, los δλi son los términos diagonales de δA en la base en que A es diagonal. Como j Sij Sji = 1,
−1
si la columna i de S (el autovector Xi ) se multiplica por α, la fila de i de S se multiplica por 1/α, para
mantener la igualdad anterior. Por lo tanto, la corrección δA′ii es, como debe ser, independiente de la base
elegida del espacio propio, es decir de la elección del autovector Xi 6= 0 en el espacio propio.
En el caso general, si el espacio propio asociado a un autovalor λi tiene dimensión di (se dice entonces
que tiene degeneración di ), la corrección
Q a λi son los autovalores de δA en el espacio propio asociado a
λi , pues |A − λI| = |(δA′ )i − δλi Idi | λj 6=λi (λj − λi )mj + O(εdi +1 ), con δA′i la matriz δA′ restringida al
espacio propio asociado a λi y mj la multiplicidad (algebraica) del autovalor λj . Se deben pues obtener los
autovalores de δA′i (matriz de di × di ). El nivel degenerado λi se desdobla normalmente en varios niveles.
Se dice entonces que se rompe la degeneración.
Es importante que A sea diagonalizable. De lo contrario, el ej. 2 anterior muestra que en el caso no-
√
diagonalizable, la corrección puede ser por ej. de orden ε.
9
10.8 Evaluación de Potencias y Series de Matrices
La diagonalización es muy conveniente para evaluar potencias y series de matrices (de n × n) u operadores.
En primer lugar, si
A = SA′ S −1 (10.3)
(A semejante a A′ ) se cumple, para k natural,
Ak = SA′k S −1
ya que A2 = (SA′ S −1 )(SA′ S −1 ) = SA′2 S −1 y en general (por inducción) Ak = AAk−1 P= SA′ S −1 SA′k−1 S −1 =
∞
SA S . Análogamente, para funciones definidas por series de potencias f (u) = k=0 ak uk convergentes
′k −1
∀ u ∈ C,
X∞ X∞ ∞
X
f (A) = ak Ak = ak SA′k S −1 = S[ ak A′k ]S −1 = Sf (A′ )S −1
k=0 k=0 k=0
Notemos que f (A) está bien definido pues |(Ak )ij | ≤ (mn)k /n, donde m el mayor elemento de la matriz
(|Aij | ≤ m ∀ i, j) y n la dimensión. Esto implica que la serie matricial converge absolutamente si la serie
converge absolutamente ∀ u (|(f (A))ij | ≤ f (mn)/n). En particular,
∞
X (At)k
exp[At] = = S exp[A′ t]S −1
k!
k=0
Finalmente, si A es invertible (en cuyo caso A′ es también invertible, como el lector debe reconocer inmedia-
tamente) se cumple A−1 = SA′−1 S −1 y en general
A−k = SA′−k S −1
En particular,
eλ 1 t
0 ... 0
0 e 2tλ ... 0
exp[A′ t] =
...
0 0 λ
... e n t
Además, si A es invertible, sus autovalores son todos no nulos y es fácil ver que
−1
λ1 0 ... 0
0 λ−1 . . . 0
(A′ )−1 = 2
...
0 0 . . . λn −1
y por lo tanto
λ−k
1 0 ... 0
0 λ−k . . . 0
(A′ )−k = 2
...
0 −k
0 . . . λn
10
Por ejemplo, en el caso del ej. 1 anterior se obtiene
t
0 1 1 1 1 e 0 1 1 cosh(t) sinh(t)
exp[At] = exp[ t] = =
1 0 2 1 −1 0 e−t 1 −1 sinh(t) cosh(t)
y en el ej. 3 anterior,
1n 0 0 1 2n − 1 2n − 1
An = S 0 1n 0 S −1 = 0 2n 2n − 1
0 0 2n 0 0 1
et 0 0
t 2t
e e − et e2t − et
an+1 = an + an−1 , n ≥ 1
con a0 = 0, a1 = 1.
La expresión explı́cita de an puede obtenerse fácilmente planteando el problema en forma matricial. Re-
solveremos en realidad el problema para valores iniciales generales a0 , a1 . Tenemos, para n ≥ 1,
an+1 1 1 an
=
an 1 0 an−1
1 1
Por lo tanto, para n ≥ 1 y definiendo A = ,
1 0
an+1 n a1
=A
an a0
La evaluación de An puede efectuarse mediante su diagonalización. Los autovalores de A son los números
aureos √
1± 5
λ± =
2
λ
que satisfacen λ2 = λ + 1, con autovectores v± ∝ ( 1± ). Podemos entonces escribir A = SA′ S −1 con
λ λ λ 0
S = (1 + 1 − ) y A′ = (0 +λ− ). Por lo tanto, An = S(A′ )n S −1 y se obtiene finalmente (se dejan las cuentas para
el lector) √
an = [(λn+ − λn− )a1 − (λn+ λ− − λn− λ+ )a0 ]/ 5
√
En el caso usual de Fibonacci, a0 = 0, a1 = 1 y an = (λn+ − λn− )/ 5. Como λ+ = 1.618, λ− = −0.618, el
término dominante para n grande es el proporcional a λn+ .
Un tratamiento equivalente consiste en expresar el vector inicial (aa10 ) como combinación lineal de los
λ λ λ λ
autovectores de A: An (aa10 ) = An [c+ (1 + ) + c− (1 − )] = c+ λn+ (1 + ) + c− λn− (1 − ), de donde an = λn+ c+ + λn− c− .
c −1 (a1 ), se obtiene c = a − λ a , c = −a + λ a , obteniéndose el resultado anterior.
Como (c+ −) = S a0 + 1 − 0 − 1 + 0
El mismo método se puede aplicar para toda sucesión definida por una relación recursiva fija lineal:
11
10.9 Desacoplamiento de Sistemas de Ecuaciones Diferenciales Lineales
Como otra aplicación, consideremos por ejemplo el sistema de ecuaciones diferenciales ordinarias lineales de
primer orden
dX
= AX
dt
con X de n × 1 y A de n × n, con elementos constantes (o sea, independientes del tiempo). Suponiendo
A diagonalizable, tenemos A = SA′ S −1 , con A′ diagonal y S la matriz de autovectores. Por lo tanto
dX/dt = SA′ S −1 X, lo que implica
dX ′ /dt = A′ X ′ , X ′ = S −1 X,
Como A′ es diagonal, el sistema en las variables X ′ está desacoplado, y es de fácil resolución. Tenemos, para
las componentes x′i de X ′ , las ecuaciones desacopladas
donde λi son los autovalores de A, cuya solución es x′i = ci eλi t . Finalmente, se obtiene
n
X
X(t) = SX (t) =′
c i Vi eλ i t ,
i=1
donde Vi denota los autovectores de A (las columnas de S). Esto constituye la solución general del sistema
de primer orden, conteniendo n constantes arbitrarias ci que pueden determinarse a partir de las condiciones
iniciales xi (0).
El procedimiento usualmente utilizado en Fı́sica e Ingenierı́a para llegar a esta solución es plantear una
solución del tipo X(t) = V eλt con V constante. La ec. dX/dt = AX implica entonces λV = AV , por lo
que V debe ser autovector de A con autovalor λ. La solución general se obtiene luego como combinación
lineal arbitraria de estas soluciones particulares. Este procedimiento es en realidad correcto para encontrar
la solución general sólo en el caso de matrices A diagonalizables.
Nótese también que el mismo método puede utilizarse para resolver sistemas análogos de segundo orden
d2 X
= AX
dt2
√ √
Sólo es necesario reemplazar ci eλi t por c+
i e
λi t + c− e− λi t en la solución general anterior.
i
Ejemplo 1: Consideremos el sistema de tres ecuaciones diferenciales acopladas de primer orden,
o sea, dv/dt = Av, siendo A la matriz del ej. 3 anterior y v = (x, y, z)t . Por lo tanto, utilizando las matrices
S y S −1 de dicho ejemplo,
x 1 0 0 x
d −1
y =S 0 1 0 S
y
dt
z 0 0 2 z
y mult. a izq. por S −1 , se llega a
′ ′
x′
x 1 0 0 x x x−y−z
d ′
y = 0 1 0 y′ , con y ′ = S −1 y = −z
dt
z′ 0 0 2 z′ z ′ z y+z
12
que es equivalente al original. La solución del sistema desacoplado es muy fácil de obtener:
x′ = c1 et , y ′ = c2 et , z ′ = c3 e2t
Finalmente
c1 et + c3 e2t
′ ′
x + z′
x x 1 0 1
y = S y ′ = −y ′ + z ′ = c1 et 0 + c2 et −1 + c3 e2t 1 = −c2 et + c3 e2t
z z′ y′ 0 1 0 c 2 et
d2
x1 1 k1 + k2 −k2 x1
=−
dt2 x2 m −k2 k1 + k2 x2
√
Resuelto en clase. Detalles a cargo del lector. Sólo recordamos que las frecuencias propias ωi = λi (con λi
k1 +k2 −k2
(k1 + 2k2 )/m, ω2 = k1 /m, con V1 ∝ (1−1 ), V2 ∝ (11 ).
p p
los autovalores de la matriz (−k2 k1 +k2 )/m son ω1 =
11.1) Teorema: Si A de n × n es una matriz hermı́tica sus autovalores λi son todos reales y los autovectores
Xi correspondientes a autovalores distintos son ortogonales respecto del producto escalar usual para vectores
complejos: Si AXi = λi Xi , AXj = λj Xj ⇒ Xi† Xj = 0 si λi 6= λj , donde
x1j
Xi† Xj = (x∗1i . . . x∗ni ) . . . = x∗1i x1j + . . . x∗ni xnj
xnj
con
x1i
Xi† Xi = (x∗1i . . . x∗ni ) . . . = x∗1i x1i + . . . x∗ni xni = |x1i |2 + . . . + |xni |2 > 0
xni
Trasponiendo y conjugando la igualdad (11.1) se obtiene, notando que (AB)† = B † A† ,
Pero como A† = A, esto implica, comparando con (11.1), que λi Xi† Xi = λ∗i Xi† Xi , o sea,
13
Trasponiendo y conjugando la pimera de estas ecuaciones se obtiene Xi† A† Xj = λ∗i Xi† Xj , es decir, Xi† AXj =
λi Xi† Xj pues A† = A y λi = λ∗i (ya demostrado). Por lo tanto, λi Xi† Xj = λj Xi† Xj , o sea,
0 = (λi − λj )Xi† Xj
S † S = In
Matrices antihermı́ticas: Si A† = −A, se dice que A es antihermı́tica. En tal caso, B = −iA resulta
hermı́tica (pues B † = iA† = −iA = B), lo que implica, como A = iB, que A será también diagonalizable,
con autovectores ortogonales si corresponden a autovalores distintos, pero con autovalores imaginarios en
lugar de reales: Si BXi = λi Xi ⇒ AXi = (iλi )Xi .
Matrices reales simétricas: Para el caso particular de matrices reales, los resultados anteriores im-
plican que los autovalores de matrices reales simétricas (A† = At = A) son todos reales. Los autovec-
tores pueden pués elegirse reales, y por lo tanto, serán ortogonales respecto del producto escalar usual: Si
AXi = λi Xi y AXj = λj Xj ⇒
En tal caso, eligiendo autovectores normalizados (tales que Xit Xi = 1) la inversa de la matriz S =
(X1 , . . . , Xn ) será directamente la traspuesta:
Ejemplo 1: Sea
1 v
A=
v 1
A es una matriz real simétrica si v es real. Tenemos
|A − λI2 | = (1 − λ)2 − v 2
por lo que los autovalores son λ = 1 ± v, reales. Para λ1 = 1 + v, puede verse fácilmente que el autovector es
de la forma X1 = x1√ (11 ), mientras que para λ2 = 1 − v, es de la forma X2 = x2 (−11 ). Por lo tanto, podemos
elegir x1 = x2 = 1/ 2, para que X1 X1 = X2 X2 = 1. Se verifica además X1 X2 = 21 (1, 1)(−1
t t t
1 ) = 0. Por lo
tanto
1 1 −1 1 1 1
S=√ , S −1 = S t = √
2 1 1 2 −1 1
14
con
t 1+v 0
S AS =
0 1−v
Ejemplo 2: Sea
1 iv
A=
−iv 1
con v real. A es una matriz hermı́tica (A† = A). Tenemos
por lo que los autovalores son nuevamente λ = 1 ± v, reales. Para λ1 = 1 + v, puede verse fácilmente
que el autovector es de la forma X1 = x1 (i1 ), mientras que para λ2 = 1 − v, es de la forma X2 = x2 (−i
1 ).
√ † † †
Por lo tanto, podemos elegir x1 = x2 = 1/ 2, para que X1 X1 = X2 X2 = 1. Se verifica además X1 X2 =
1 −i
2 (−i, 1)( 1 ) = (−1 + 1)/2 = 0. Por lo tanto
1 i −i −1 † 1 −i 1
S=√ , S =S = √
2 1 1 2 i 1
con
† 1+v 0
S AS =
0 1−v
Ejemplo 3: Consideremos la ecuación
ax2 + 2bxy + cy 2 = d
con coeficientes y variables reales. Podemos escribirla en forma matricial como
t x t a b
X AX = d, X = (y ), X = (x, y), A =
b c
La matriz A es real y simétrica, siendo por lo tanto siempre diagonalizable. Existe entonces una matriz
ortogonal de autovectores S (S −1 = S t ), con Det S = 1, tal que S −1 AS = S t AS = A′ , con A′ diagonal:
λ 0
A′ = (0 +λ− ), siendo λ± los autovalores de A (las raı́ces de (a − λ)(b − λ) − b2 = 0). En tal caso, si X = SX ′ ,
tenemos
X t AX = X ′t S t ASX ′ = X ′t A′ X ′ = λ+ x′2 + λ− y ′2 = d
Si d > 0, vemos entonces que la gráfica de la ecuación en las variables x′ , y ′ será una elipse si λ± son ambos
mayores que 0, y una hipérbola si λ+ λ− < 0, con ejes principales x′ , y ′ en ambos casos. Como la trans-
formación corresponde a una rotación (eligiendo el orden de autovectores tal que DetS = +1), la ecuación
original corresponderá si |A| =
6 0 a una elipse o hipérbola con ejes principales rotados (como consecuencia
del término cruzado 2bxy). El ángulo de inclinación θ entre los ejes x′ y x puede obtenerse a partir de la
′ cos θ −sin θ
matriz S escribiéndola en la forma S = [I]ee = (sin θ cos θ ). Para más detalles ver ejemplo resuelto en clase
o en práctica.
donde Xνt = (xν , yν , zν ) y rν2 = Xνt Xν = x2ν + yν2 + zν2 . IO queda pues representado por una matriz real
simétrica. Frente a una rotación del sistema de coordenadas, Xν = SXν′ , con DetS = 1, S t S = I3 , se obtiene
t t t t
X X
IO = mν (X ′ ν S t SXν′ I3 − SXν′ X ′ ν S t ) = S[ mν (X ′ ν Xν′ I3 − Xν′ X ′ ν )]S t = SIO
′ t
S
ν ν
o sea, ′
IO = StI O S con
′
IO el tensor de inercia en el sistema rotado. Como IO es real simétrica, existirá
una matriz ortogonal de rotación S (matriz de autovectores normalizados y ordenados tal que S t S = I3 y
′ sea diagonal. Esta matriz determinará los 3 ejes principales de inercia, y los autovalores
|S| = 1) tal que IO
de IO serán los momentos principales de inercia. Si el vector velocidad angular Ω coincide con alguna de
estas direcciones, el vector momento angular (dado en general por LO = IO Ω) será proporcional a Ω.
15
Ejemplo 5: Sistema general de n resortes acoplados. El movimiento de tal conjunto esta descripto
por un sistema de ecuaciones de segundo orden del tipo (recordar discusión de clase)
n
mi d2 xi X
2
=− kij xj , i = 1, . . . , n
dt
j=1
donde xi es la posición de la partı́cula i (medida desde la posición de equilibrio), mi > 0 su masa y kij = kji .
Podemos reescribir tal sistema en forma matricial como
d2 X
M = −KX
dt2
donde M es una matriz diagonal de elementos mi (Mij = mi δij ), X = (x1 , . . . , xn )t y K la matriz de ele-
√ √
mentos kij . Definiendo la matriz diagonal M 1/2 de elementos mi ((M 1/2 )ij = mi δij ) podemos reescribir
2
tal sistema como M 1/2 M 1/2 ddtX
2 = −KX, y por lo tanto, multiplicando a izquierda por M
−1/2 = (M 1/2 )−1
d2 Y
= −K̃Y, donde K̃ = M −1/2 KM −1/2 , Y = M 1/2 X
dt2
√
(de forma que yi = mi xi ). La ventaja esta forma matricial es que la matriz K̃ es real simétrica (K̃ t = K̃)
y por lo tanto siempre diagonalizable. Existe entonces una matriz ortogonal S tal que S t K̃S = K̃ ′ , con K ′
diagonal, de elementos K̃ij ′ = λ δ , siendo λ los autovalores de K̃. Por lo tanto, escribiendo K̃ = S K̃ ′ S t ,
i ij i
el sistema original resulta equivalente a
d2 Y ′
= −K̃ ′ Y ′ , donde Y ′ = S t Y
dt2
Esto representa, dado que K̃ ′ es diagonal, un sistema de n resortes desacoplados:
d2 yi′
= −λi yi′ , i = 1, . . . , n
dt2
La solución
√ general de c/u de estas ecuaciones es, para λi 6= 0, yi′ (t) = Aeiωi t +Beiωi t = C cos(ω
Pni t+φ),√donde
ωi = λi son las frecuencias propias de vibración del sistema. Las variables yi = j=1 Sji mj xj ′
(o sea, yi′ = (S t Y )i ) se denominan modos normales de vibración. Notemos que las frecuencias propias
son las raı́ces de los autovalores de la matriz M −1/2 KM −1/2 , los cuales, en virtud dep la propiedad 12.1
siguiente, coinciden con los de la matriz M −1 K. Por lo tanto, p la conocida fórmula ω = k/m para la fre-
cuencia angular de un oscilador armónico se generaliza a ωi = (M −1 K)i , donde (M −1 K)i denota aquı́ el
iésimo autovalor de la matriz M −1 K. Puede demostrarse que si la matriz K es definida positiva (definición
que veremos luego y que corresponde a un sistema estable) entonces todos los autovalores de K̃ son positivos.
16
Por lo tanto, los autovalores λ serán reales, y pueden obtenerse de |Ã−λI| = 0, equivalente a |A−λB| = 0,
mientras que los autovectores X̃ correspondientes a autovalores distintos serán ortogonales: X̃i† X̃j = 0 si
λi 6= jλj . Esto implica que los autovectores X del problema original serán ortogonales para un producto
escalar modificado dependiente de B: X̃i† X̃j = Xi† BXj = 0 si λi 6= λj y X̃i = B 1/2 Xi . Veremos en las
próximas secciones la definición de producto escalar con más detalle. Al ser à diagonalizable y B 1/2 no
singular, tanto el conjunto {X̃1 , . . . , X̃n } como {X1 , . . . , Xn } formarán una base de Cn .
Más aun, dado que à es hermı́tica, existirá una matriz no singular de autovectores normalizados y
ortogonales S̃ = (X̃1 , . . . , X̃n ) tal que S̃ † S̃ = I y S̃ † ÃS = Ã′ con Ã′ diagonal: Ã′ij = λi δij . Esto implica que
S = B −1/2 S̃ = (X1 , . . . , Xn ) satisface simultáneamente
S † AS = A′ , S † BS = I
con A′ = Ã′ diagonal: A′ij = λi δij . Los autovalores generalizados λi pueden obtenerse directamente como las
raı́ces de |A − λB| = 0, mientras que los correspondientes autovectores Xi (columnas de S) de la ecuación
(A − λi B)Xi = 0. La existencia de tal S queda pues garantizada en el caso A† = A y B † = B, con B
definida positiva (λB
i > 0 ∀ i).
17
13. Subespacios Invariantes
Sea F : V → V un operador lineal y sea W ⊂ V un subespacio de V . W es un subespacio invariante bajo
la acción de F (se dice también invariante bajo F o por F ) si F (W ) ⊂ W , es decir, si ∀ v ∈ W , F (v) ∈ W .
Ejemplos triviales son W = V y W = {0}, que son subespacios invariantes para todo operador lineal
F : V → V (pues F (V ) ⊂ V y F (0) = 0).
También el núcleo N (F ) y la imagen I(F ) son siempre invariantes por F (F (N (F )) = {0} ⊂ N (F ), y si
v ∈ I(F ), F (v) ∈ I(F )).
Resulta asimismo trivial reconocer que si F = αI, con I el operador identidad ⇒ cualquier subespacio
W ⊂ V es invariante por F , ya que si v ∈ W , F (v) = αv ∈ W .
Como otro ejemplo común consideremos el proyector P sobre S1 en la dirección de S2 , con S1 ⊕ S2 = V .
Es obvio que S1 es invariante por P pues si v1 ∈ S1 ⇒ P (v1 ) = v1 ∈ S1 (P (S1 ) = S1 = I(P )). Más aún,
cualquier subespacio de S1 es también invariante por P .
En efecto, si (ei1 , . . . , eidi ) es una base de Si , F (eij ) ∈ Si , por lo que F (eij ) = dl=1
Pi
(Ai )lj eil para j = 1, . . . , di .
Análogamente, si existe una base en la que [F ]e tiene la forma de bloques anterior ⇒ V = S1 ⊕ S2 ⊕ . . . ⊕ Sk ,
con Si invariante por F para i = 1, . . . , k. Basta con considerar Si como el subespacio generado por los
vectores de la base correspondientes a cada bloque.
Q Los autovalores de F pueden pues obtenerse directamente diagonalizando cada bloque QkAi : Como detF =
i detAi (demostración dada en clase), el polinomio caracterı́stico resulta |F − λI| = i=1 |Ai − λIdi |, por
lo que sus racies serán las raı́ces de cada término, es decir, los autovalores de cada bloque Ai . Y los
autovectores correspondientes pertenecerán al subespacio invariante asociado a Ai (detalles dados en clase).
El conocimiento de subespacios invariantes posibilita pues grandes simplificaciones cuando se tiene que
diagonalizar matrices de grandes dimensiones.
18
14. Forma Canónica de Jordan
Surge ahora la pregunta sobre cuál es la forma más simple en que pueden escribirse los operadores (o
matrices) no diagonalizables. El siguiente teorema nos da la respuesta:
Teorema: Sea F : V → V un operador lineal en un espacio vectorial V P de dimensión finita n sobre C.
Entonces existe una base e = (e11 , e12 , . . . , e1d1 , . . . , ek1 , ek2 , . . . , ekdk ), con ki=1 di = n, en la que
F (ei1 ) = λi ei1
, i = 1, . . . , k
F (eij ) = λi eij + ei,j−1 , j = 2, . . . , di
o sea, F (e11 ) = λ1 e11 , F (e12 ) = λ1 e12 + e11 , . . . , F (e1d1 ) = λ1 e1d1 + e1,d1 −1 y similar para i ≥ 1. El caso
diagonalizable corresponde a di = 1 ∀ k, en cuyo caso k = n. Los parámetros λi no son necesariamente
distintos y son los autovalores de F , como demostraremos a continuación.
La matriz [F ]e ≡ [F ]ee en esta base toma entonces la forma de bloques
A1 0 . . . 0
0 A2 . . . 0
[F ]e = A =
...
0 0 . . . Ak
donde Ai son matrices de di × di de la forma
λi 1 0 . . . 0 0 1 0 ... 0
0 λi 1 . . . 0 0 0 1 ... 0
Ai = . . . = λi I d + J d ,
i i Jdi =
...
0 0 0 ... 1 0 0 0 ... 1
0 0 0 . . . λi 0 0 0 ... 0
con Idi la matriz identidad de di × di .
Cada subespacio Si = (ei1 , ei2 , . . . , eidi ) es claramente invariante por F , ya que F (eij ) ∈ S(λi ).
Es claro también que los escalares λi , i = 1, . . . , k, son los autovalores de F , pues
P (λ) = Det[F − λI] = |A1 − λId1 | . . . |Ak − λIdk | = (λ1 − λ)d1 . . . (λk − λ)dk
posee como únicas raı́ces a λ1 , . . . , λk .
Cada submatriz Ai posee un único autovalor λi de multiplicidad di (|Ai −λIdi | = (λi −λ)di ), pero el espa-
cio propio correspondiente es de dimensión 1: dim N [Ai − λi Idi ] = dim N [Jdi ] = 1 pues Rango(Jdi ) = di − 1.
Por lo tanto, la submatriz Ai no es diagonalizable si di > 1. Cada subespacio Si contiene entonces un único
subespacio propio de dimensión 1, que es el generado por ei1 , y el número total de autovectores LI de F es
k ≤ n (uno por cada Si ).
Notemos que (F − λi I)eij = ei,j−1 para j > 1, con (F − λi I)ei1 = 0, por lo que aplicando m veces el op.
(F − λi I) sobre eij resulta
m ei,j−m m < j
(F − λi I) eij =
0 m≥j
Los operadores no diagonalizables en espacios finitos se caracterizan pues por la existencia de vectores eij
no nulos tales que (F − λi I)j eij = 0 pero (F − λi I)eij 6= 0 si j > 1. Si F es diagonalizable tales vectores no
existen. Notemos que conociendo eidi , los restantes vectores eij pueden obtenerse como
eij = (F − λi I)di −j eidi = (F − λi I)ei,j+1 , j = 1, . . . , di − 1
La ecuación previa implica también que (F − λi I)di (eij ) = 0, j = 1, . . . , di . Por lo tanto, la matriz
Jdi = Ai − λi Idi es nilpotente:
(Jdi )di = 0
19
La evaluación de potencias del operador puede entonces realizarse sin mayor dificultad, ya que
m
A1 0 ... 0
0 A m ... 0
Am = 2
...
0 0 . . . Akm
p(m) (λi )
p(t) = p(λi )1 + p′ (λi )(t − λi ) + . . . + (t − λi )m
m!
se obtiene
p(di −1) (λi ) di−1
p(Ai ) = p(λi )Idi + p′ (λi )Jdi + . . . + J
(di − 1)! di
Además, la forma de Jordan es muy conveniente para la evaluación de exponenciales:
di −1
λi t di −1 t
exp[Ai t] = exp[λi Idi t + Jdi t] = exp[λi Idi t] exp[Jdi t] = e I di + Jdi t + . . . + Jdi
(di − 1)!
Por lo tanto, B(t) = exp[Ai t] será una matriz triangular con elementos Bkj = eλi t tj−k /(j − k)! si k ≤ j y
Bkj = 0 si k > j.
Para obtener la representación de Jordan se puede, una vez obtenidos los k autovalores λi y autovectores
ei1 , i = 1, . . . , k, resolver las ecuaciones inhomogéneas F (eij ) = λi eij + ei,j−1 j = 2, . . . , di , es decir,
trabajando en forma matricial en la base e,
que no poseen solución única. Otra forma más eficiente es partir de eidi , es decir, encontrar un vector Xidi
que satisfaga
(A − λi I)di Xidi = 0, (A − λi I)di −1 Xidi 6= 0
Los vectores restantes del bloque pueden obtenerse como
Ejemplo:
1 1 1
A= 0 2 1
0 0 2
Tenemos |A − λI3 | = (1 − λ)(2 − λ)2 , por lo que las raı́ces son λ1 = 1, con multiplicidad 1, y λ2 = 2, con
multiplicidad 2. Como
−1 1 1
A − 2I3 = 0 0 1
0 0 0
posee rango 2, N [A − 2I3 ] posee dimensión 1, por lo que A no es diagonalizable.
Para λ2 = 2 el sistema homogéneo (A − λI3 )X = 0 posee la solución general x = y, z = 0, de modo que el
autovector es de la forma x(1, 1, 0)t . Eligiendo X11 = (1, 1, 0)t , el vector X12 puede obtenerse resolviendo
−1 1 1 x 1
0 0 1 y = 1
0 0 0 z 0
20
que da como t
resultado z = 1, x = y. Podemos elegir entonces X12 = (0, 0, 1) . Finalmente, A − 1I3 =
0 1 1
0 1 1 , por lo que (A − I3 )X31 = 0 conduce a X31 = x(1, 0, 0)t . Obtenemos entonces
0 0 1
1 0 1 0 1 0
S = 1 0 0 , con S −1 = 0 0 1
0 1 0 1 −1 0
Resolución general de sistemas de ecuaciones lineales de primer orden. La solución del sistema
dX
= AX
dt
con A constante pero no diagonalizable, puede obtenerse a partir de la forma canónica de Jordan. Tenemos,
para X(0) = X0 y A = SA′ S −1 ,
k di m−1
X X X tj
X = exp[At]X0 = S exp[A′ t]C = eλ i t cim Vi,m−j
j!
i=1 m=1 j=0
donde Vi,m−j denota las columnas de S [S = (V11 , V12 , . . . , V1,d1 , . . . , Vk,1 , . . . , Vk,dk ), de forma que S exp[A′ t] =
2
(eλ1 t V11 , eλ1 t (V12 + tV11 ), eλ1 t (V13 + tV12 + t2! V11 ), . . .)] y C = S −1 X0 = (c11 , c12 , . . . , c1d1 , . . .)t un vector de
constantes determinadas por el vector inicial X0 = X(0). Por ejemplo,
p(F ) = a0 I + a1 F + . . . + am F m
donde hemos asociado F 0 = I y [F ]0e = In . Además, si escribimos p(λ) en términos de sus m raı́ces λi
p(λ) = am (λ − λ1 )(λ − λ2 ) . . . (λ − λm )
21
entonces
p(F ) = am (F − λ1 I)(F − λ2 I) . . . (F − λm I)
ya que las potencias F k de F conmutan todas entre si ∀ j ≥ 0.
Un polinomio p se dice que es anulador de F si p(F ) = 0 (o sea, si p(F ) es el operador nulo). Dado que
la dimension del espacio de operadores lineales H = {F : V → V, F lineal} en un espacio vectorial V de
2
dimensión finita n es n2 , es claro que el conjunto (I = F 0 , F, F 2 , . . . , F n ) es LD (pues son n + 1). y que
2
por lo tanto, existen siempre n2 + 1 constantes c0 , . . . , cn no todas nulas tales que c0 I + c1 F + . . . cn F n = 0.
Esto muestra en forma básica que siempre existe un polinomio anulador de F .
No obstante, el siguiente teorema (denominado teorema de Cayley-Hamilton) muestra que el mismo
polinomio caracterı́stico asociado a F , que es de grado n, es siempre un polinomio anulador de F .
p(λ) = |[F ]e − λIn | = |A1 − λId1 | . . . |Ak − λIdk | = (λ1 − λ)d1 . . . (λk − λ)dk
Por lo tanto,
p(Ai ) = (λ1 Idi − Ai )d1 . . . (λi Idi − Ai )di . . . (λk Idi − Ai )dk = 0
pues (λi Idi − Ai )di = 0. Esto implica [p(F )]e = 0 y entonces p(F ) = 0. Se cumple pues, para cualquier base
e′ , p([F ]e′ ) = [p(F )]e′ = [0]e′ = 0.
El teorema vale por consiguiente para matrices A generales de n × n. Si p(λ) = |A − λIn | es el poli-
nomio caracterı́stico asociado a A (de grado n) ⇒ p(A) = 0 (la matriz nula de n × n).
Para matrices A diagonalizables el resultado es evidente, ya que en tal caso A = SA′ S −1 , con A′ diagonal,
y por lo tanto p(A) = p(SA′ S −1 ) = Sp(A′ )S −1 , pero p(A′ ) tiene la forma 15.1 y es por lo tanto la matriz nula.
22
Escribiendo
p(F ) = cn F n + cn−1 F n−1 + . . . + c1 F + c0 I
en el caso del polinomio caracterı́stico tenemos cn = (−1)n 6= 0 y c0 = Det[F ]. Por lo tanto, como p(F ) = 0,
podemos escribir
F n = −(cn−1 F n−1 + . . . c1 F + c0 I)/cn
de modo que F n (y por lo tanto cualquier potencia F k , con k ≥ n natural) puede escribirse en términos de
los operadores F n−1 , . . . , F, I. Más aún, si F es invertible, c0 6= 0 y multiplicando la expresión anterior por
F −1 se obtiene
F −1 = −(cn F n−1 + cn−1 F n−2 + . . . c1 I)/c0
de modo que también F −1 (y por tanto cualquier potencia F −k , k > 0 natural) puede escribirse en términos
de F n−1 , . . . , F, I.
Cabe destacar que el polinomio caracterı́stico no es necesariamente el polinomio anulador de grado mı́nimo.
Sı́ lo es en el caso de autovalores todos distintos o, en general, en el caso de bloques de Jordan con autovalores
todos distintos. Q
Si F es diagonalizable, el polinomio anulador de grado mı́nimo es simplemente Pm (λ) = i (λ − λi ), donde
la productoria es sobre autovalores distintos.
En el caso general, el polinomio anulador de grado mı́nimo será Pm (λ) = i (λ − λi )di , donde la productoria
Q
es nuevamente sobre autovalores distintos y di es la dimensión del mayor bloque de Jordan asociado a λi .
Pm (λ) es pues de grado ≤ n.
Ejemplo 1: Sea
0 1
A=
1 0
El polinomio caracterı́stico es
−λ 1
p(λ) = |A − λI2 | = = λ2 − 1
1 −λ
Se cumple entonces
2 0 1 0 1 1 0 1 0 1 0 0 0
p(A) = A − I2 = − = − =
1 0 1 0 0 1 0 1 0 1 0 0
Esto muestra simplemente que A2 = I2 y que por lo tanto, Ak = I2 si k es par y Ak = A si k impar.
Ejemplo 2:
1 1 1
A= 0 2 1
0 0 2
El polinomio caracterı́stico es
p(λ) = |A − λI3 | = (1 − λ)(2 − λ)2 = −λ3 + 5λ2 − 8λ + 4
El teorema implica entonces que
−A3 + 5A2 − 8A + 4I3 = 0
donde A2 = A.A, A3 = A.A.A (producto matricial), como es fácil verificar. Por lo tanto, A3 = 5A2 −8A+4I3
y A−1 = (A2 − 5A + 8I)/4. Cualquier potencia Ak con k entero puede expresarse en términos de I3 , A y A2 .
23
16. Demostración
Daremos aquı́ un resumen de la demostración de la forma canónica de Jordan. En primer lugar, sabemos
que todo operador lineal F : V → V , con V de dimensión finita n, posee un polinomio anulador P (x), tal
que P (F ) = 0 (o sea, P (F )(v) = 0 ∀ v ∈ V ). Existirá entonces un polinomio anulador de grado mı́nimo
Pm (x) = a0 x + a1 x + . . . + am xm (polinomio minimal), tal que Pm (F ) = a0 F + a1 F + . . . + am F m = 0.
1) λ es raı́z de Pm (F ) si y sólo si λ es autovalor de F . Esto indica que las raı́ces del polinomio minimal y
el polinomio caracterı́stico son las mismas. Sólo la multiplicidad puede ser diferente.
Dem.: Si λ es autovalor de F ⇒ ∃ v 6= 0 tal que F (v) = λv, y en tal caso Pm (F )(v) = Pm (λ)v = 0, por lo
que Pm (λ) = 0, es decir, λ es raı́z de Pm (x).
Si λ es raı́z de Pm (x) ⇒ Pm (x) = Qm−1 (x)(x − λ). En tal caso Pm (F )(v) = Qm−1 (F )(F − λI)(v) = 0
∀ v ∈ V , por lo que necesariamente ∃ v 6= 0 tal que (F − λI)(v) = 0, es decir, λ es autovalor de F y v
autovector asociado (si tal vector no existiese tendrı́amos Qm−1 (F )(v) = 0 ∀ v ∈ V y el polinomio minimal
serı́a Qm−1 (F ), de grado m − 1 < m, en contradicción con la hipótesis).
2) Si Pm (x) = Q1 (x)Q2 (x), con Q1 (x) y Q2 (x) polinomios sin raı́ces comunes y Pm (F ) = Q1 (F )Q2 (F ) = 0
⇒ V = N (Q1 (F )) ⊕ N (Q2 (F )), donde N (Qi (F )) (i = 1, 2) denota el núcleo de Qi (F ). Los subespacios
N (Qi (F )) son además invariantes por F .
Dem.: Al no tener raı́ces comunes, existen polinomios A1 (x), A2 (x) t.q. 1 = A1 (x)Q1 (x) + A2 (x)Q2 (x), o
sea,
I = A1 (F )Q1 (F ) + A2 (F )Q2 (F )
Por lo tanto, ∀ v ∈ V , v = A1 (F )Q1 (F )(v) + A2 (F )Q2 (F )(v) = v1 + v2 , con vi = Ai (F )Qi (F ). Pero
v1 ∈ N (Q2 (F )) pues Q2 (F )A1 (F )Q1 (F )(v) = A1 (F )Q1 (F )Q2 (F )(v) = 0, y análogamente, v2 ∈ N (Q1 (F )).
Esto muestra que V = N (Q2 (F )) + N (Q1 (F )).
Además, si v ∈ N (Q1 (F )) y v ∈ N (Q2 (F )) ⇒ v = A1 (F )Q1 (F )(v) + Q2 (F )Q2 (F )(v) = 0. Esto muestra
que V = N (Q1 (F )) ⊕ N (Q2 (F )).
Finalmente, si v ∈ N (Q1 (F )) ⇒ v = A2 (F )Q2 (F )(v) y en tal caso Q1 (F )F (v) = A2 (F )Q1 (F )Q2 (F )F (v) =
0, por lo que F (v) ∈ N (Q1 (F )). Análogamente, si v ∈ N (Q2 (F )) ⇒ F (v) ∈ N (Q2 (F )), por lo que ambos
núcleos son invariantes por F .
3) Generalizando, si
Pm (x) = (x − λ1 )d1 . . . (x − λk )dk
con λi 6= λj si i 6= j (las raı́ces distintas de Pm (x)) y Pm (F ) = 0 ⇒ V = V1 ⊕ . . . ⊕ Vk , con Vi = N (F − λi I)di .
El espacio completo V puede pues subdividirse en k subespacios invariantes, núcleos de F̃idi , donde
F̃i = (F − λi I). Podemos pues construir una base de V formada por las bases de Vi .
4) Para construir una base de Vi , notemos que debe existir un vector v 6= 0 tal que F̃idi (v) = 0 pero
F̃idi −1 (v) 6= 0 (de lo contrario Pm (F ) no serı́a el polinomio minimal). En tal caso, los di vectores no nulos
aplicando F̃idi −1 al segundo miembro obtenemos cdi F̃idi −1 (v) = 0, por lo que cdi = 0. Luego, aplicando
sucesivamente F̃ij , con j = di − 1, . . . , 0, vemos que cj = 0 para j = 1, . . . , di . Notemos además que
F̃i (ei1 ) = F̃idi (v) = 0, o sea, (F − λi I)ei1 = 0, por lo que ei1 es autovector de F con autovalor λi . Tenemos
pues, en el subespacio Si generado por los di vectores Bi = (ei1 , . . . , eidi ),
0 1 0 ... 0 λi 1 0 . . . 0
0 0 1 ... 0 0 λi 1 . . . 0
[F̃i ]Bi =
... = Jd , es decir, [Fi ]B = [F̃i ]B + λI Id
i i i i =
...
0 0 ... 0 1 0 0 . . . λi 1
0 0 ... 0 0 0 0 . . . 0 λi
Se obtiene ası́ un bloque de Jordan de dimensión di (grado del término correspondiente (x − λi )di del
polinomio minimal).
24
Puede existir otro vector v ∈ N (F̃idi ) tal que F̃ di −1 (v) 6= 0 pero F̃idi (v) = 0 y que no pertenezca al espacio
generado por los vectores de Bi . Este vector generarı́a otro bloque de Jordan de la misma dimensión con el
mismo autovalor λi . En general, pueden surgir vectores v ∈ N (F̃idi ) que no pertenezcan a los subespacios
generados por el conjunto de vectores anteriores y que satisfagan F̃ir−1 (v) = 0 pero F̃ir (v) = 0, con r ≤ di ,
que generarán otros bloques de Jordan de dimensión r ≤ di con el mismo autovalor. La dimension total de
N (F − λi I)di será ası́ la multiplicidad mi ≥ di de λi en el polinomio caracterı́stico.
Si di = 1 los bloques son de dimensión 1 y los vectores correspondientes autovectores de F con autovalor
λi . Este es el caso donde F es diagonalizable en el subespacio asociado a λi , es decir, donde la dimensión de
N (F − λi I) coincide con la multiplicidad de λi como raı́z del polinomio caracterı́stico.
Por lo tanto, si F es diagonalizable, el polinomio minimal es Pm (x) = (x − λ1 ) . . . (x − λk ).
25
17. Formas lineales, bilineales y cuadráticas
17.1 Formas lineales
Estudiaremos ahora funciones escalares lineales de argumento vectorial. Sea V un espacio vectorial sobre
un cuerpo K. Una forma lineal es una función F : V → K que satisface las condiciones
F (αv) = αF (v) ∀v ∈ V, α ∈ K (1)
F (v1 + v2 ) = F (v1 ) + F (v2 ) ∀v1 , v2 ∈ V (2)
Una forma lineal puede ser considerada como un caso particular de transformación lineal si se considera el
cuerpo K como un espacio vectorial de dimensión 1 sobre el mismo K. Nótese que se satisface F (0) = 0.
Ejemplos (se dejan las comprobaciones para el lector):
1) Si K = R y V = R2 , F (x, y) = x + y es claramente una forma lineal, mientras que G(x, y) = x + y 2 y
H(x, y) = 1 + x no son formas lineales.
2) Si V = Rn×n , la traza de una matriz A ∈ V , Tr[A] = ni=1 Aii , es una forma lineal.
P
3) Si K = R y V = C[a,b] (espacio de funciones continuas f : [a, b] → R),
Z b
T (f ) = f (x)dx
a
es una forma lineal, y también lo es (para ρ ∈ C[a,b] )
Z b
Tρ (f ) = f (x)ρ(x)dx .
a
4) En el mismo espacio anterior, y para a < 0 < b, T (f ) = f (0) es también una forma lineal. Nótese sin
Rb
embargo que en este caso no existe ρ(x) continua tal que T (f ) = a f (x)ρ(x)dx.
5) Si V = Rn y w es un vector fijo de Rn ,
Fw (v) = w · v
(producto escalar usual) es una forma lineal. Por ej. el primer caso de 1), F (x, y) = x + y, puede ser escrito
como F (x, y) = (1, 1) · (x, y). Toda forma lineal en Rn puede ser escrita de esta manera en términos de un
único vector w ∈ V , como se verá a continuación.
Si dim V = n y F no es la forma lineal nula ⇒ dim I(F ) = 1, por lo que dim N (F ) = n − 1. Ejem-
plo: Hallar el núcleo de la forma lineal del ejemplo 2.
1
Si F : V → K y G : V → K son dos formas lineales sobre V , la combinación lineal αF + βG, definida
por (αF + βG)(v) = αF (v) + βG(v), es también una forma lineal ∀ α, β ∈ K, como es muy fácil comprobar.
El conjunto de todas las formas lineales F : V → K es pues un espacio vectorial denominado espacio dual
V ∗ . Si V es de dimensión finita ⇒
dim V ∗ = dimV
ya que existe un isomorfismo entre V ∗ y K n (definido por GB (F ) = [F ]B ∈ K n , con n = dim V ) y por lo
tanto entre V ∗ y V . Si B = (b1 , . . . , bn ) es una base ordenada ∗
P de V , la base asociada de V es la base dual
∗
B = {F1 , . . . , Fn }, donde Fi : V → K está definido por F ( i αi bi ) = αi , es decir,
Fi (bj ) = δij .
2
β1
donde [v]tB = (α1 , . . . , αn ), [w]B = . . . y
βn
A(b1 , b1 ) . . . A(b1 , bn )
[A]B = ...
A(bn , b1 ) . . . A(bn , bn )
es la matriz de n × n que representa a la forma bilineal A en dicha base [([A]B )ij = A(bi , bj )].
Por ej., si V = R2 , K = R y e es la base canónica, obtenemos, para los casos del ejemplo 1) y v = (x, y) =
xe1 + ye2 , w = (z, t) = ze1 + te2 ,
z 1 0
A(v, w) = xz + yt = (x, y)[A]e (t ), [A]e =
0 1
0 1
B(v, w) = xt − yz = (x, y)[B]e (zt ), [B]e =
−1 0
Por otro lado, la matriz [C]e = (13 24 ) determina la forma bilineal
1 2 z
C(v, w) = x y = xz + 2xt + 3yz + 4yt
3 4 t
Dada una forma bilineal A arbitraria, notemos que A(v, 0) = A(0, w) = 0 ∀ v, w ∈ V , como el lector
podrá fácilmente demostrar. Si además existe w 6= 0 tal que A(v, w) = 0 ∀ v ∈ V , la forma bilineal se dice
que es singular. En caso contrario se dice no singular.
En un espacio V de dimensión finita, A es singular si y sólo si la matriz que la representa en una base
cualquiera, [A]B , es singular.
Dem.: Si [A]B es singular, existe un vector columna [w]B no nulo tal que [A]B [w]B = 0 y por lo tanto,
A(v, w) = [v]tB [A]B [w]B = [v]tB 0 = 0 ∀ v ∈ V .
Por otro lado, si existe w 6= 0 tal que A(v, w) = 0 ∀v ∈ V , y B es una base cualquiera de V ⇒
[v]tB [A]B [w]B = 0 ∀ vector [v]tB ∈ K n×1 , lo que implica [A]B [w]B = 0. Como [w]B 6= 0, la matriz [A]B
es entonces singular.
En espacios de dimensión finita, si ∃ w / A(v, w) = 0 ∀ v ∈ V ⇒ ∃ u ∈ V / A(u, v) = 0 ∀ v ∈ V , pues si
[A]B es singular ⇒ [A]tB es también singular (|[A]tB | = |[A]B | = 0).
Notemos también que si A es no singular y A(v, w1 ) = A(v, w2 ) ∀ v ∈ V ⇒ w1 = w2 , ya que en tal caso
A(v, w1 − w2 ) = 0 ∀ v ∈ V y por lo tanto w1 − w2 = 0.
3
17.3 Cambio de base en formas bilineales
Consideremos una forma bilineal A. Frente a un cambio de base
n
X
b′i = Sji bj , i = 1, . . . , n
j=1
se tiene
n
X n
X n X
X n
A(b′i , b′k ) = A( Sji bj , Slk bl ) = Sji A(bj , bl )Slk = (S t [A]B S)ik
j=1 l=1 j=1 l=1
[A]B ′ = S t [A]B S
A(v, w) = [v]tB [A]B [w]B = (S[v]B ′ )t [A]B (S[w]B ′ ) = [v]tB ′ S t [A]B S[w]B ′ = [v]tB ′ [A]B ′ [w]B ′
Nótese la diferencia con la ley de transformación de matrices que representan operadores lineales F : V → V
en una base, para las que [F ]B ′ = S −1 [F ]B S. Notemos también que (| . . . | denota el determinante)
por lo que el signo del determinante no depende de la base (pues |S| 6= 0). Si A es singular, |[A]B | = 0 y
entonces |[A]B ′ | = 0 en cualquier base.
Otra consecuencia es que como S es no singular (|S| = 6 0), el rango de [A]B (dimensión del espacio fila o
columna de [A]B ) es también independiente de la base.
Podemos también corroborar que el carácter simétrico o antisimétrico es independiente de la base elegida:
Ejemplo: Para el caso del producto escalar usual en Rn , [A]e = In en la base canónica e y por lo tanto
[A]e′ = S t [A]e S = S t S en una base arbitraria e′ , tal como se adelantó en el apunte 4 sobre cambio de base.
Ejemplo: Para el caso del determinante en R2 , [A]e = (−1 0 1 ) en la base canónica y por lo tanto, en un base
0
′
e′ determinada por una matriz S = [I]ee = (ac db ) no singular (|S| 6= 0),
0 1 ab 0 1
[A]e′ = S t [A]e S = (ab dc )(−1 0 )(c d ) = (ad − bc)(−1 0 ) = |S|[A]e
[A]e′ es pues proporcional a [A]e . Este resultado es obvio pues [A]e′ debe ser antisimétrica y toda matriz
antisimétrica de 2 × 2 debe ser proporcional a [A]e = (−1 0 1 ).
0
Ejemplo: Si [A]B = (1 0 ) y b1 = (b1 + b2 ), b2 = b2 − b1 , S = (11 −1
0 1 ′ ′
1 ) y por lo tanto
t 2 0
[A]B ′ = S [A]B S =
0 −2
o sea,
A(v, w) = xt + yz = 2(x′ z ′ − y ′ t′ )
′ ′
lo que está de acuerdo con (xy ) = S(xy′ ) = (xx′ +y
−y
′ z −t ′ ′ ′
z z
′ ), (t ) = S(t′ ) = (z ′ +t′ )
4
18 Formas cuadráticas
Si A es una forma bilineal de V × V en K, la función à : V → K dada por
Ã(v) = A(v, v)
A(v, v) = As (v, v)
Asimismo, la parte simétrica de una forma bilineal queda completamente determinada por la forma cuadrática
respectiva, ya que
As (v + w, v + w) = As (v, v) + As (w, w) + 2As (v, w)
y por lo tanto
As (v, w) = [As (v + w, v + w) − As (v, v) − As (w, w)]/2
En un espacio vectorial V de dimensión finita n, podemos entonces escribir, para A simétrica,
|v|2 = x2 + y 2
con aij = Aij = aji los elementos de la matriz real simétrica A de n × n (At = A).
Ejemplo: Si V = C[a,b] y K = R,
Z b
2
||f || ≡ [f (x)]2 dx = A(f, f )
a
RbRb
es una forma cuadrática. También lo es C̃(f ) = a a K(x, x′ )f (x)f (x′ )dxdx′ .
5
es decir, A(b′i , b′j ) = a′i δij . Esto implica, partiendo de una base arbitraria B, que existe una matriz de cambio
de base S tal que ′
a1 0 . . . 0
0 a′2 . . . 0
[A]B ′ = S t [A]B S =
...
0 0 . . . an ′
o sea, ([A]B ′ )ij = a′i δij . En dicha base la forma bilineal toma entonces la forma diagonal o canónica
n
X
A(v, w) = a′i αi′ βi′
i=1
Pn ′ ′
Pn ′ ′
donde v = i=1 αi bi , w= i=1 βi bi , y la correspondiente forma cuadrática toma la forma canónica
n
2
X
Ã(v) = A(v, v) = a′i αi′
i=1
Antes de proceder a la demostración, cabe destacar que ni los coeficientes a′i , ni los vectores b′i , son únicos.
Por ejemplo, en la base B ′′ definida por b′′i = γi b′i , i = 1, . . . , n, tenemos A[b′′i , b′′j ] = γi2 a′i δij , y por lo tanto
A toma también la forma canónica, con a′i → a′′i = γi2 a′i .
Notemos también que si la forma bilineal no es simétrica, no es posible encontrar una base en la que [A]B ′
sea diagonal: Si existiese, [A]B ′ serı́a simétrica y por lo tanto [A]B ′′ = S t [A]B ′ S serı́a también simétrica en
cualquier base B ′′ (y la forma bilineal serı́a entonces simétrica).
No obstante, cabe destacar que diagonalizar [A]B no es el único procedimiento para llevar una forma
cuadrática a una forma diagonal. Esto puede también lograrse utilizando la conocida y simple técnica
de completar cuadrados, en la cual se basa la demostración del teorema para un cuerpo arbitrario K, que
damos a continuación. En tales casos, los coeficientes diagonales a′i no son necesariamente iguales a los
autovalores de A.
hemos entonces encontrado una base canónica para la forma bilineal, dada por
n
X
b′i = Sji bj i = 1, . . . , n
j=1
6
ya que en tal caso [v]B = S[v]B ′ y ([A]B ′ )ij = (S t [A]B S)ij = a′i δij . El problema se reduce pues al de
encontrar variables αi′ relacionadas linealmente con las αi por una transformación no singular, en las que la
forma cuadrática sea diagonal.
Procederemos ahora por inducción sobre la dimensión n de V . Para n = 1, toda forma cuadrática tiene
trivialmente la forma canónica en cualquier base: Si v ∈ V → v = αb1 y Ã(v) = a′1 α2 , con a′1 = A(b1 , b1 ).
Para n > 1, supongamos que hemos demostrado que toda forma cuadrática en un espacio de dimensión
n − 1 puede escribirse en la forma canónica. Entonces,
donde v = ni=1 αi bi , aij = A(bi , bj ) y g representa una forma cuadrática de dimensión n − 1. Si ann 6= 0
P
podemos escribir
n−1
X n−1
X
A(v, v) = ann (αn2 + 2αn αj anj /ann ) + g(α1 , . . . , αn−1 ) = ann (αn + αj anj /ann )2 + h(α1 , . . . , αn−1 )
j=1 j=1
Pn−1
donde h = g − ann ( j=1 αj anj /ann )2 . Por lo tanto
n−1
2
X
A(v, v) = ann αn′ + h(α1 , . . . , αn−1 ), αn′ = αn + αj anj /ann
j=1
Y como h representa una forma cuadrática de dimensión n − 1, podemos escribirla en forma canónica como
a′i αi′ 2 , donde αi′ son combinaciones lineales de los αj , j = 1, . . . , n − 1. Finalmente obtenemos la
Pn−1
h = i=1
forma canónica
n−1
′ ′ 2 2
X
A(v, v) = an αn + a′i αi′
i=1
que coresponde a
1 2
[A]e =
2 1
Si optamos por el método (muy simple) de completar cuadrados, tenemos
7
Por lo tanto
1 0
S = T −1 = (−2 1)
y la base en la que A toma la forma canónica queda entonces determinada por las columnas de S:
Se verifica entonces
[A]e′ = S t [A]e S = (01 −2 12 1 0 −3 0
1 )(2 1 )(−2 1 ) = ( 0 1 )
es decir, A(e′1 , e′1 ) = −3, A(e′2 , e′2 ) = 1, A(e′1 , e′2 ) = 0, como es posible corroborar directamente.
Podemos también optar por el método basado en la diagonalización de A. Tenemos |[A]e − λI2 | = (1 − λ)2 −
4 = 0, de donde λ = 1 ± 2, o sea, λ1 = 3, λ2 = −1.
Las componentes de los autovectores correspondientes normalizados son [e′′1 ]e = √12 (11 ), [e′′2 ]e = √12 (−1
1 ), o
√ √
sea, e′′1 = (e1 + e2 )/ 2, e′′2 = (−e1 + e2 )/ 2, y la correspondiente matriz de cambio de base es
1 1
S = √ (11 −1
1 ), S
−1
= S t = √ (1−111 )
2 2
Se verifica entonces
[A]e′′ = S t [A]e S = (30 −1
0
)
Es muy importante que los autovectores esten normalizados para que S −1 = S t . Finalmente, se obtiene,
′′ 2 2
A(v, v) = (x′′ , y ′′ )t [A]e′′ (xy′′ ) = 3x′′ − y ′′
√ √
donde (xy′′ ) = [v]e′′ = S −1 [v]e = S −1 (xy ) = √12 (x+y
′′ ′′ ′′
x−y ), o sea, x = (x + y)/ 2, y = (x − y)/ 2.
Notemos que tanto los coeficientes diagonales como las bases obtenidas con los dos procedimientos anteriores
son distintos. La diagonalización puede llevar más tiempo pero posee la ventaja que automáticamente pro-
porciona una base ortogonal en la que la forma cuadrática tiene la forma canónica, lo cual es muy importante
en diversas aplicaciones fı́sicas.
Notemos también que el número de coeficientes positivos y negativos en la forma canónica obtenidos en
ambos procedimientos es el mismo. Esta conclusión es general y se demostrará en el siguiente teorema, de
gran importancia.
k m p q
2 2
X X X X
A(v, v) = |ai |αi2 − |ai |αi2 = |a′i |αi′ − |a′i |αi′
i=1 i=k+1 i=1 i=p+1
8
Veremos ahora que si se supone k < p se llega a un absurdo. Si k < p, podemos elegir v ∈ V , v 6= 0, tal
que las primeras k componentes de v en la base e sean nulas (αi = 0 si i ≤ k), y tal que sus últimas n − p
componentes en la base e′ seanPp también nulas (αi′ = 0 si i > p). En efecto, esto conduce al sistema de k
ecuaciones homogéneas 0 = j=1 Sij αj′ para i = 1, . . . , k, con p > k incógnitas αj′ , j = 1, . . . , p, el cual
posee entonces infinitas soluciones (y por lo tanto, soluciones no nulas). Para tal vector, tendrı́amos
m p
2
X X
A(v, v) = − |ai |αi2 = |a′i |αi′
i=k+1 i=1
pero el segundo miembre es menor o igual a 0 y el tercero mayor que 0, lo que es imposible. Por lo tanto, no
puede ser k < p. De la misma manera se prueba que no puede ser p < k. Por lo tanto, la única posibilidad
es k = p, es decir, que el número de coeficientes positivos es el mismo.
De la misma forma (se dejan los detalles para el lector) se prueba que m−k = q −p (el número de coeficientes
negativos es el mismo).
Finalmente, los dos resultados anteriores implican n − m = n − q, es decir, que el número de coeficientes
nulos es el mismo.
El número k (número de coeficientes positivos de la forma canónica) se denomina ı́ndice de inercia po-
sitivo y m − k (número de coeficientes negativos) ı́ndice de inercia negativo.
El rango de una forma bilineal simétrica coincide con el rango de la matriz [A]e y es por lo tanto m (es
decir, el número de coeficientes no nulos).
Si A es no singular ⇒ m = n (el número de coeficientes nulos es 0).
A(v, v) = x2 + y 2 + 2xy
con x′ = (x + y), y ′ = y. Es decir, existe un coeficiente positivo (a1 = 1) y uno nulo (a2 = 0).
Si en cambio optamos por diagonalizar la matriz correspondiente ([A]e = (11 11 )), obtenemos |A − λI2 | =
(1 − λ)2 − 1 = 0 y por lo tanto λ = 1 ± 1, o sea, λ1 = 2, λ2 = 0. Obtenemos entonces un autovalor positivo
y uno nulo.
Completando cuadrados,
2 2 2
A(v, v) = (x + y + z)2 − (y + z)2 + y 2 + z 2 = (x + y + z)2 − 2yz = x′ + 2y ′ − 2z ′
A(v, v) > 0 ∀ v 6= 0
9
Es fácil ver que A es definida positiva si y sólo si los coeficientes diagonales ai de la forma
canónica son todos positivos: ai > 0 para i = 1, . . . , n (es decir, k = n). En efecto, en tal caso
n
X
A(v, v) = ai αi2 > 0 ∀ v 6= 0
i=1
donde ahora hemos escrito v = ni=1 αi bi , con B = (b1 , . . . , bn ) una base donde A toma la forma canónica
P
(A(bi , bj ) = ai δij ). Por otro lado, si A(v, v) > 0 ∀ v =
6 0, entonces ai = A(bi , bi ) > 0.
Para una forma cuadrática definida positiva, podemos siempre elegir una base en la que ai = 1 para
√
i = 1, . . . , n: En efecto, si A(bi , bj ) = ai δij
q, con ai > 0, podemos definir la base de elementos ei = bi / ai en
√
la que A(ei , ej ) = A(bi , bj )/ ai aj = (ai / a2i )δij = 1δij .
Notemos también que el determinante de la matriz que representa una forma cuadrática positiva es positivo
en cualquier base. En la base B en la que A toma la forma canónica,
|[A]B | = a1 a2 . . . an > 0
Además notemos que A sigue siendo positiva en cualquier subespacio de V (pues A(v, v) > 0 ∀ v 6= 0), por
lo que el determinante de cualquier menor de [A]B ′ (obtenido al suprimir un número dado de columnas y las
respectivas filas de [A]B ′ ) es también siempre positivo. Por ejemplo, si consideramos el subespacio generado
por los primeros m ≤ n elementos de la base B ′ , tendremos
|[A]m | > 0
Más aún, A es definida positiva si y sólo si todos los determinantes principales en una base
arbitraria B ′ de V son positivos, es decir, si |[A]m | > 0 para m = 1, . . . , n.
Dem.: Por inducción: Para n = 1 es obviamente válido. Asumiendo ahora que es válido para n − 1, entonces
existe una base canónica (e1 , . . . , en−1 ) del subespacio generado por los primeros n − 1 vectores de la base
original B ′ , en la que A(ei , ej ) = δij . Definiendo ahora
n−1
X
en = b′n − αi ei
i=1
con αi = A(ei , b′n ), obtenemos A(ei , en ) = A(ei , b′n ) − αi = 0 para i = 1, . . . , n − 1. Se obtiene ası́ una
base canónica e = (e1 , . . . , en−1 , en ) de V en la que A(ei , ej ) = δij A(ei , ei ), con A(ei , ei ) = 1 si i ≤ n − 1 y
entonces A(en , en ) = |[A]e | > 0 (pues [A]e = S tr [A]B ′ S y |[A]e | = |S|2 |[A]B ′ | > 0). La forma cuadrática es
pues definida positiva.
Aplicaciones:
1) Clasificación de puntos crı́ticos:
Consideremos un campo escalar G : Rn → R derivable a segundo orden orden en un entorno de un punto
∂G
crı́tico ~r0 donde ∂x i
|~r=~r0 = 0, i = 1, . . . , n. El polinomio de Taylor de segundo orden de ∆G(~r) = G(~r)−G(~r0 )
alrededor de ~r0 es una forma cuadrática en ∆~r = ~r − ~r0 = (∆x1 , . . . , ∆xn ):
n
1 X ∂2G 1
∆G = |~r=~r0 ∆xi ∆xj + R3 = (∆~r)H(∆~r)t + R3
2 ∂xi ∂xj 2
i,j=1
10
donde H es una matriz simétrica de n × n, denominada matriz Hessiana, de elementos
∂2G
Hij = |~r=~r0
∂xi ∂xj
y R3 es el resto (lim~r→~r0 R3 /|~r − ~r0 |2 = 0). Llevando la forma cuadrática anterior a una forma canónica (ya
sea completando cuadrados o diagonalizando la matriz H), obtenemos
n
1X ′
∆G = ai (∆x′i )2 + R3
2
i=1
a′i
Si > 0 para i = 1, . . . , n, ∆G > 0 para |∆~r| suf. pequeño y el punto crı́tico es un mı́nimo local o relativo.
a′i
Si < 0 para i = 1, . . . , n, ∆G < 0 para |∆~r| suf. pequeño y el punto crı́tico es un máximo local o relativo.
Y si existen a′i positivos y negativos, se trata de un punto silla (“saddle point”).
Finalmente, si algunos a′i son nulos y a′i ≥ 0 para i = 1, . . . , n (o a′i ≤ 0 para i = 1, . . . , n) el presente criterio
no decide y es necesario un desarrollo a orden más alto (que puede también no ser concluyente) o bien un
análisis alternativo.
Por lo tanto, podemos clasificar el punto crı́tico en forma inmediata conociendo los autovalores de la ma-
triz H (de n × n), o bien simplemente completando cuadrados y observando los signos de los coeficientes
diagonales ai . El último método es en general más sencillo (pues no requiere determinar raı́ces de ninguna
ecuación) pero el primero tiene la ventaja de determinar a la vez (mediante los autovectores de H) n di-
recciones ortogonales en las que la forma cuadrática tiene la forma canónica (y por lo tanto conocer las
direcciones ortogonales en las que ∆G es positivo (a′i > 0) o negativo (ai < 0)). (Ver práctica para más
detalles).
entonces
X ∂2G
f~r′′0 (0) = |~r=~r0 ∆xi ∆xj = (∆~r)H(∆~r)t
∂xi ∂xj
i,j
lo cual es una forma cuadrática en ∆~r definida por la matriz simétrica H. Si H es definida positiva ⇒ f~r0 (t)
es cóncava hacia arriba en t = 0 para cualquier dirección ∆~r, mientras que si es definida negativa, f~r0 (t)
será cóncava hacia abajo para cualquier dirección ∆~r. En el caso general, la concavidad dependerá de la
dirección de ∆~r.
2) Clasificación de curvas de nivel de formas cuadráticas. Consideremos la ecuación
n
X
xi aij xj = C
i,j=1
con los x′i relacionados linealmente con los xi . Si todos los a′i son positivos (y C > 0) la ecuación anterior
determina un elipsoide, mientras que si los a′i tienen signos distintos la ec. determina un hiperboloide. Si
la forma canónica se obtiene diagonalizando la matriz A, los autovectores pueden elegirse normalizados y
ortogonales, en cuyo caso las variables x′i serán las coordenadas a lo largo de ejes ortogonales en los que la
forma cuadrática toma la forma canónica (ejes principales). (véase práctica para más detalles).
Ejemplo: Consideremos
G(x, y) = x2 + y 2 + 2αxy
11
(0, 0) es un pto. crı́tico de G y la matriz H de derivadas segundas es H = 2(1α α1 ). Sus autovalores son
λ± = 2(1 ± α)
(obtenidos de la ec. |H − λI2 | = (2 − λ)2 − 4α2 = 0). Por lo tanto, Si |α| < 1 ambos autovalores son positivos
y (0, 0) es un mı́nimo de G (en este caso mı́nimo absoluto). En cambio, si |α| > 1, un autovalor es positivo
y el otro negativo (por ej., si α > 1, λ+ > 0, λ− < 0), por lo que (0, 0) es en este caso un punto silla.
√ Las
componentes de los√autovectores normalizados (y por su puesto ortogonales) de H son [v± ]e = (±1 1 )/ 2, por
1 −1
lo que S = (1 1 )/ 2 y podemos escribir
Cabe destacar, no obstante, que la misma conclusión puede obtenerse simplemente completando cuadrados,
lo cual conduce a
G(x, y) = (x + αy)2 + y 2 (1 − α2 )
Vemos pues que el coeficiente de y 2 es positivo si |α| < 1 y negativo si |α| > 1, mientras que el primero es
siempre positivo.
con Aij = Aji . Asumiendo que la matriz de coeficientes A ∈ Rn×n es invertible, podemos reescribir T como
donde X t = (x1 , . . . , xn ), Rt = (r1 , . . . , rn ) y YP= X + C, con C = A−1 R. Es decir, T (X) es una forma
cuadrática en Y = X + A−1 R (o sea, yi = xi + j A−1 t −1
ij rj ) más una constante R A R.
Si A es singular, podemos econtrar C tal que AC = R sólo si R ∈ EC(A) (espacio columna de A). En
tal caso T = Y t AY − C t R sigue siendo una forma cuadrática en Y = X + C, a menos de una constante
−C t R.
12
19. Espacios Euclı́deos
Un espacio vectorial V sobre el cuerpo de los reales R es Euclı́deo si está equipado con una operación
denominada producto escalar y denotada por (v, w), que asigna a todo par de vectores un escalar real que
satisface
(v, w) = (w, v) ∀ v, w ∈ V
(v, w1 + w2 ) = (v, w1 ) + (v, w2 ), ∀ v, w1 , w2 ∈ V
(αv, w) = α(v, w) ∀ v, w ∈ V, α ∈ R
(v, v) > 0 ∀v 6= 0, (0, 0) = 0
El producto escalar en un espacio euclı́deo es pues una forma bilineal simétrica de V × V sobre R tal que
la correspondiente forma cuadrática es definida positiva. Cualquier forma bilineal de este tipo es apta para
definir un producto escalar. Notemos que (0, v) = (v, 0) = 0 ∀ v ∈ V .
En un espacio de dimensión finita generado por una base B = (b1 , . . . , bn ), se obtiene, eligiendo para el
producto escalar una forma bilineal simétrica G asociada a una forma cuadrática definida positiva,
n
X
(v, w) = G(v, w) = [v]tB [G]B [w]B = αi gij βj , gij = ([G]B )ij = (bi , bj ) = gji
i,j=1
donde v = i αi bi , w = i βi bi y [v]tB = (α1 , . . . , αn ), [w]tB = (β1 , . . . , βn ). Recordemos que para este tipo
P P
de formas bilineales es siempre posible elegir una base B donde [G]B es diagonal, es decir, (bi , bj ) = gi δij ,
en cuyo caso el producto escalar toma la forma
n
X
(v, w) = αi g i β i , gi = (bi , bi ) > 0
i,j=1
√
Definiendo ahora ei = bi / gi , podemos obtener ası́ una base canónica e = (e1 , . . . , en ) en la que (ei , ej ) = δij
y por lo tanto [G]e = In (matriz identidad). El producto escalar en esta base adopta entonces la forma usual
n
X
(v, w) = [v]te [w]e = αi β i
i=1
A una base de este tipo la denominaremos base canónica o base ortonormal del espacio euclı́deo.
Ejemplo 1: Si V = Rn y v = (x1 , . . . , xn ), v ′ = (x′1 , . . . , x′n ), el producto escalar usual, dado por
n
X
′ ′
(v, v ) = v · v = xi x′i
i=1
satisface las 4 condiciones requeridas. Los vectores de la base canónica e1 = (1, 0, . . . , 0) . . . en = (0, . . . , 0, 1)
satisfacen (ei , ej ) = δij y forman pues una base ortonormal para este producto escalar.
Ejemplo 2: Si V es el espacio C[a,b] de funciones reales continuas f : [a, b] → R (de dimensión infinita),
podemos equiparlo con el producto escalar definido por
Z b
(f, g) = f (x)g(x)dx
a
que satisface también todas las condiciones requeridas (probar como ejercicio).
1
19.1 Norma de un vector
La norma (o longitud) de un vector v ∈ V se define como
p
||v|| = (v, v)
y satisface ||v|| ≥ 0 ∀ v ∈ V , con ||v|| = 0 si y sólo si v = 0. Por ejemplo, utilizando los productos escalares
anteriores, en V = Rn se obtiene v
u n
uX
||v|| = t x2i
i=1
y en V = Rm×n , sX
p
t
||A|| = Tr [A A] = A2ij
i,j
Todo vector en un espacio euclı́deo posee pues una norma, que es positiva si v 6= 0 y 0 si v = 0. Notemos
que ∀α ∈ R se cumple p p
||αv|| = (αv, αv) = α2 (v, v) = |α|||v||
de modo que la norma de αv es |α| veces la longitud de v.
Un vector de norma 1 se denomina vector unitario. Todo vector v no nulo puede ser normalizado, es decir,
convertido en vector unitario mediante la multiplicación por un escalar: Si ||αv|| = |α|||v|| = 1 ⇒ basta con
elegir α tal que |α| = 1/||v||, o sea, α = ±1/||v||. El vector normalizado con el mismo sentido de v es pues
vn = v/||v||
Un conjunto C de V se dice que es acotado si existe m ∈ R tal que ||v|| < m ∀ v ∈ C. El conjunto
{v, ||v|| ≤ 1} se l lama bola unidad, mientras que el conjunto {v, ||v|| = 1} esfera unidad. Estos conjuntos
no son subespacios (como el lector podrá fácilmente mostrar).
2
y en C[a,b] ,
s s
Z b Z b Z b
| f (x)g(x)dx| ≤ f 2 (x)dx g 2 (x)dx
a a a
lo que implica αi = 0 pues (vi , vi ) = ||vi ||2 > 0. Esto muestra que son LI. La prop. recı́proca no es,
obviamente, válida.
3
Por lo tanto, si dim V = n ⇒ cualquier conjunto de n vectores ortogonales no nulos forma una base de V .
Generalización del teorema de Pitágoras: Si v1 , v2 son ortogonales ((v1 , v2 ) = 0) ⇒
||v1 + v2 ||2 = (v1 + v2 , v1 + v2 ) = (v1 , v1 ) + (v2 , v2 ) + 2(v1 , v2 ) = ||v1 ||2 + ||v2 ||2
xi = (ei , v), i = 1, . . . , n
ya que (ei , v) = (ei , nj=1 xj ej ) = nj=1 xj (ei , ej ) = xi por ortonormalidad de los ei . Las coordenadas xi de v
P P
en la base canónica se obtienen pues simplemente efectuando el producto escalar (ei , v), no siendo necesario
resolver explı́citamente un sistema de ecuaciones lineales para su obtención. Además, por la generalización
del teorema de Pitágoras anterior,
Xn n
X
||v||2 = ||xi ei ||2 = x2i
i=1 i=1
Los ángulos que forma v con ei están determinados por
(ei , v)
cos(θi ) = = xi /||v||
||ei || ||v||
(ángulos directores) y satisfacen
n
X n
X
cos2 (θi ) = x2i /||v||2 = 1
i=1 i=1
4
Vemos que e′ será una base ortonormal ((e′j , e′k ) = δjk ) si y sólo si la matriz de cambio de base S satisface
S t S = In
o sea, S −1 = S t . Las matrices reales que satisfacen esta relación se denominan ortonormales (o a veces
ortogonales). Dado que (S t S)ij es el producto escalar de la columna i por la columna j de S, las columnas
de estas matr ices son ortonormales ((S t S)ij = δij ) formando entonces una base ortonormal de Rn . Como
la ec. anterior implica asimismo SS t = In , las filas de S son también ortonormales y forman asimismo una
base ortonormal de Rn (se prueba de la misma manera).
Notemos además que |S| ≡ DetS = ±1, pues |S t S| = |S|2 = 1.
Resumiendo, la base e′ será ortonormal sii la matriz de cambio de base S es una matriz ortonormal.
Para un vector arbitrario v = ni=1 xi ei = ni=1 x′i e′i , tenemos entonces
P P
n
X n
X
x′i = (e′i , v) = xj (e′i , ej ) = t
Sij xj
j=1 j=1
es decir,
[v]e′ = S t [v]e
lo que esta de acuerdo con la relación general [v]e′ = S −1 [v]e .
w2 = v2 − αw1
y exigimos que 0 = (w1 , w2 ) = (w1 , v2 ) − α(w1 , w1 ). Por lo tanto α = (w1 , v2 )/||w1 ||2 y
(w1 , v2 )
w2 = v2 − w1
||w1 ||2
Análogamente, definimos
w 3 = v 3 − α2 w 2 − α1 w 1
Las condiciones 0 = (w2 , w3 ) = (w2 , v3 ) − α2 ||w2 ||2 , 0 = (w1 , w3 ) = (w1 , v3 ) − α1 ||w1 ||2 (donde hemos
utilizado la ortogonalidad (w1 , w2 ) = (w2 , w1 ) = 0) implican αi = (wi , vi )/||wi ||2 para i = 1, 2, y por tanto
(w2 , v3 ) (w1 , v3 )
w3 = v3 − 2
w2 − w1
||w2 || ||w1 ||2
En general, definiendo para i = 2, . . . , m,
i−1
X
wi = vi − αj w j ,
j=1
(w ,v )
las i − 1 condiciones (wj , wi ) = 0 para j = 1, . . . , i − 1 implican αj = ||wjj ||i2 , teniendo en cuenta la
ortogonalidad (wj , wk ) = 0 si j < k < i.
Por lo tanto,
i−1
X (wj , vi )
w1 = v1 , wi = vi − wj , i = 2, . . . , m
||wj ||2
j=1
5
Los m vectores wi ası́ construidos son entonces mutuamente ortogonales por construcción ((wi , wj ) = 0 si
i 6= j) y no nulos, por lo que son LI, conformando entonces una base de S. Si m = n, se obtiene ası́ un
método para construir una base ortogonal del espacio completo V . Notemos que
i−1
X
2 2
||wi || = (wi , wi ) = (wi , vi ) = ||vi || − (wj , vi )2 /||ωj ||2
j=1
Para obtener un conjunto ortonormal, se puede normalizar al final del procedimiento (wi → wi′ = wi /||wi ||)
o en cada paso. En este último caso, el método se resume en
i−1
X i=1
X
w1′ = v1 /||v1 ||, wi′ = [vi − (wj′ , vi )wj′ ]/ [||vi ||2 − (wj′ , vi )2 ]1/2 , i = 2, . . . , m
j=1 j=1
Ejemplo: Sean v1 = (1, 1, 1), v2 = (1, 1, −1) vectores de R3 , no ortogonales ((v1 , v2 ) = 1, con (v1 , v1 ) =
(v2 , v2 ) = 3). Aplicando el método de Gram-Schmidt, se obtiene
1
w1 = (1, 1, 1), w2 = (1, 1, −1) − (1, 1, 1) = (2, 2, −4)/3
3
que son claramente ortogonales.
Para formar una base ortogonal de R3 que contenga a w1 y w2 , podemos considerar un vector cualquiera v3
tal que (w1 , w2 , v3 ) sean LI. Por ejemplo, v3 = (1, 0, 0). Se obtiene entonces el resultado esperado
2/3
w1 (t) = 1, w2 (t) = t, w3 = t2 − = t2 − 1/3
2
Si exigimos que wi (1) = 1 y extendemos P2 → P∞ se obtienen de esta manera los polinomios de Legendre:
P1 (t) = 1, P2 (t) = t, P3 (t) = (3t2 − 1)/2, etc.
Rb
De la misma manera, para productos escalares del tipo (p, q) = a p(t)q(t)ρ(t)dt, donde ρ(t) > 0 para
t ∈ (a, b), se obtienen otras familias de polinomios ortogonales.
6
El vector vw puede también interpretarse como el vector paralelo a w cuya distancia a v es mı́nima.
En efecto, si uw = αw,
d2 (v, uw ) = ||v − uw ||2 = ||v − vw + (vw − uw )||2 = ||v − vw ||2 + ||vw − uw ||2 + 2(v − vw , vw − uw )
Pw (v) = vw
y es un operador lineal que satisface Pw2 = Pw . En una base canónica de V , (w, v) = [w]te [v]e , ||w||2 = [w]te [w]e
y entonces
[w]te [v]e [w]e [w]te
[vw ]e = [w] e = [v]e
[w]te [w]e [w]te [w]e
La matriz [P ]e que representa a P en una base canónica ([vw ]e = [P ]e [v]e ) está entonces dada por
[w]e [w]te
[P ]e =
[w]te [w]e
El significado es muy claro: wi se construye a partir de vi quitándole a este último las proyecciones sobre
cada uno de los vectores anteriores wj , j < i. De esta forma wi sólo conserva la parte de vi ortogonal al
espacio generado por los wj .
La expansión de un vector en una base ortonormal puede entonces verse también como la suma de
proyecciones ortogonales: Tenemos, para v ∈ V y (e1 , . . . , en ) una base ortonormal,
n
X n
X
v= x i ei = Pei (v)
i=1 i=1
7
19.7 Subespacios ortogonales
El conjunto de vectores ortogonales a un cierto vector v es un subespacio de V : Si (v, w1 ) = 0, (v, w2 ) = 0
⇒ (v, w1 + w2 ) = (v, w1 ) + (v, w2 ) = 0 y (v, αw1 ) = α(v, w1 ) = 0. Además es no vacı́o pues (v, 0) = 0.
El conjunto de vectores ortogonales a todos los vectores de un cierto subespacio S ⊂ V es también un
subespacio (se prueba de la misma forma), denominado complemento ortogonal de S o S⊥ .
Mostraremos a continuación que V = S ⊕ S⊥ .
Demostración: Sea v ∈ V y vs un vector ∈ S. Mostraremos que es siempre posible escribir
v = vs + (v − vs )
o sea, αi = (wi , v)/||wi ||2 . En tal caso, (v − vs ) será también ortogonal a cualquier vector de S (pues estos
serán combinaciones lineales de los wi ), por lo que v − vw ∈ S⊥ . Además S ∩ S⊥ = {0}, pues si u ∈ S y
u ∈ S⊥ ⇒ (u, u) = 0 y por lo tanto u = 0. Queda probado entonces que V = S ⊕ S⊥ . Si V es de dimensión
n y S de dimensión m ⇒ dim S⊥ = n − m.
El vector vs ası́ construido es la proyección ortogonal de v sobre el subespacio S, y puede escribirse como
m
X
vs = Pwi (v) = PS (v)
i=1
(wi ,v)
donde Pwi (v) = w
||wi ||2 i
es el proyector sobre wi y
m
X
PS = Pwi
i=1
el proyector otrogonal sobre S. En esta expresión los wi deben formar una base ortogonal de S.
||v−us ||2 = ||v−vs +(vs −us )||2 = ||v−vs ||2 +||vs −us ||2 +2(v−vs , vs −us ) = ||v−vs ||2 +||vs −us ||2 ≥ ||v−vs ||2
Al disponer de una métrica, en un espacio euclı́deo podemos pues no sólo determinar si un vector v pertence
al subespacio S generado por un conjunto de vectores {w1 , . . . , wm }, sino también determinar que tan lejos
está v de este subespacio, a través de la distancia dmin (v, S).
El método de Gram-Schmidt puede entonces expresarse en forma aún más concisa como
donde P{w1 ,...,wi−1 } = Pw1 + . . . + Pwi−1 es el proyector ortogonal sobre el subespacio generado por los i − 1
vectores anteriores.
8
Se cumple por lo tanto dim EF (A)+dim N (A) = n.
Ejemplo 3: a) Proyectar el vector v = (1, 2, 3) sobre el plano generado por los vectores ortogonales
w1 = (1, 0, 1) y w2 = (0, 1, 0).
Tenemos (v, w1 ) = 4, (v, w2 ) = 2, y
4 2
vs = PS (v) = Pw1 (v) + Pw2 (v) = (1, 0, 1) + (0, 1, 0) = (2, 2, 2)
2 1
b) Hallar la distancia mı́nima de v a S. √
Tenemos v − vs = (−1, 0, 1) y √ dmin√= ||v − vs || = 2. Además, el ángulo entre v y S puede obtenerse a
partir de cos θ = ||vs ||/||v|| = 2 3/ 14.
c) Hallar la matriz que representa el proyector ortogonal sobre S en la base canónica de R3 .
1/2 0 1/2
1
[PS ]e = [Pw1 ]e + [Pw2 ]e = [w1 ]e [w1 ]te + [w2 ]e [w2 ]te = 0 1 0
2
1/2 0 1/2
Se verifica [vs ]e = [PS ]e [v]e .
de donde
α = (Rt R)−1 Rt [v]e
Por lo tanto, [vs ]e = Rα estará dado por
Notar que [PS ]2e = [PS ]e , y que la expresión anterior no se puede simplificar, pues R no es cuadrada.
Discutiremos luego las propiedades de la matriz Rt R.
Ejemplo: Proyectar el vector v = (1, 2, 3) sobre el plano generado por los vectores w1 = (1, 1, 1) y w2 =
(2, 1, 2). Utilizando el método anterior, tenemos en este caso
1 2
R= 1 1
1 2
9
9 −5
con Rt R = (35 59 ), R−1 = (−5 3 )/2 y
1/2 0 1/2
[PS ]e = R(Rt R)−1 Rt = 0 1 0
1/2 0 1/2
que coincide con el resultado del último ejercicio. La razón es que el espacio generado por (1, 1, 1) y
(2, 1, 2) coincide con el generado por los vectores ortogonales (1, 0, 1) y (0, 1, 0) ((1, 1, 1) = (1, 0, 1) + (0, 1, 0),
(2, 1, 2) = 2(1, 0, 1) + (0, 1, 0)). Una forma general de obtener el resultado anterior es precisamente ver si los
proyectores sobre el espacio generado son idénticos.
AX = b
X = (At A)−1 At b
donde (At A)−1 At es una inversa a izquierda de A. Esta solución se obtiene al multiplicar ambos miembros
de AX = B por (At A)−1 At , y es válida cuando b pertenece al espacio columna de A (EC(A)), es decir,
cuando el sistema es compatible.
Cabe destacar, no obstante, que la expresión anterior para X tiene sentido aún si el sistema no tiene
solución: En tal caso
AX = A(At A)−1 At b
es la proyección ortogonal de b sobre el espacio generado por las columnas de A, es decir, AX = PEC(A) (b),
de modo que AX es elqvector de EC(A) más cercano a b. En otras palabras, es el X que minimiza la
Pm 2
distancia ||AX − b|| = i=1 (AX − b)i .
1 x1 . . . x1n−1
c0 y1
... ... = ...
1 xm . . . xmn−1 cn−1 ym
Este sistema es en general incompatible si m ≥ n. No obstante, el objetivo es buscar la solución que minimiza
la distancia ||p(X) − Y || o equivalentemente ||p(X) − Y ||2 , donde Y = (y1 , . . . , ym )t , X = (x1 , . . . , xm )t y
p(X) = AC, con A la matriz de m × n de elementos Aij = xij−1 y C el vector columna de coeficientes
ci . Tal solución estará dada entonces por C = (At A)−1 At Y , tal que AC = A(At A)−1 At Y es la proyección
ortogonal de Y sobre EC(A).
G = Rt R
10
Pn Pn
1) El producto escalar (w, u) de combinaciones lineales w = i=1 αi vi , u = i=1 βi vi , con [w]e = Rα,
[u]e = Rβ, y α = (α1 , . . . , αm )t , β = (β1 , . . . , βm )t , puede expresarse como
(w, u) = [v]te [u]e = (Rα)t (Rβ) = αt Rt Rβ = αt Gβ
2) La matriz G es no singular sii los vectores vi son LI:
Si G es singular, existe un vector columna no nulo β de m×1 tal que Gβ = 0 y por lo tanto, si u = ni=1 βi vi ,
P
(u, u) = β t Gβ = β t 0 = 0
por lo que necesariamente u = 0. Por lo tanto, existe una combinación lineal nula u con coeficientes no
todos nulos. Esto implica que los vi son LD.
existe una combinación lineal nula u = ni=1 βi vi = 0, con los βi no todos nulos, entonces
P
Análogamente, Psi
0 = (vj , u) = ni=1 Gji βi para cualquier j por lo que Gβ = 0 y por lo tanto G es necesariamente singular.
Un método sencillo de determinar si los m vectores vi son LI es pues evaluar el determinante |G| = |Rt R|:
{v1 , . . . , vm } es LI sii |G| =
6 0.
Para m = n, R es de n × n y |G| = |R|2 , por lo que se reobtiene la condición conocida |R| 6= 0 para n
vectores enP Rn .
3) Si wi = nj=1 Sji vj , i = 1, . . . , m, entonces G′ij ≡ (wi , wj ) = k,l Ski Slj Gkl , o sea,
P
G′ = S t GS
con |G′ | = |S|2 |G|. En particular, si los vi son LI, podemos ortogonalizarlos con el método de Gram-Schmidt,
generando vectoresQ ortogonales wi . La correspondiente matriz S cumple, por construcción, |S| = 1 y por lo
tanto |G| = |G′ | = m 2
i=1 ||wi || .
Este último producto representa el cuadrado del volumen m dimensional del paralelepı́pedo formado por los
vectores w1 , . . . , wm , y por lo tanto, por v1 , . . . , vm . El volumen generado por estos m vectores es pues
p
V olv1 ,...,vm = |G|
Si m = n, |G| = |Rt R| = |R|2 , y V olv1 ,...,vm = |Det(R)|.
4) La matriz G es diagonalizable, por ser real y simétrica, y los autovalores de G son positivos o nulos. Los
autovectores asociados a autovalores no nulos corresponden a vectores ortogonales, y los correspondientes a
autovalores nulos a combinaciones lineales nulas P de los vectores vi .
En efecto, si Gα = λα α, con α 6= 0, para w = m i=1 αi vi se obtiene
0 ≤ (w, w) = αt Gα = λα αt α
Como αt α > 0 entonces λα ≥ 0. Si λα > 0 ⇒ w es no nulo, mientras que si λα = 0 ⇒ w = P 0, siendo pues
una combinación lineal nula de los vi . Además, si Gβ = λβ β, con β 6= 0, tenemos, para u = mi=1 βi vi ,
(w, u) = αt Gβ = λβ αt β = 0 si λα 6= λβ
por ser α, β autovectores de una matriz simétrica. La diagonalización de G proporciona pues un método
directo de extraer un conjunto ortogonal de k vectores LI de los m vectores wi , que son los determinados
por los autovectores asociados a los autovalores no nulos.
El número k de autovalores no nulos de G es precisamente el rango de G y determina entonces la dimensión
del subespacio generado por los m vectores vi : k = r(G) = dim{v1 , . . . , vm }.
Ejemplo: Consideremos los vectores v1 = (1, 1, 1, 1), v2 = (1, 1, −1, 1), v3 = (0, 0, 1, 0) de R4 . Tenemos
1 1 0
1 4 2 1
1 0 , G = Rt R = 2 4 −1
R= 1 −1 1
1 −1 1
1 1 0
Como |G| = 0 los vectores son LD. Además, los autovalores de G son λ = 6, 3, 0, con autovectores (1, 1, 0),
(1, −1, 1), (−1, 1, 2).
Por lo tanto, los vectores w1′ = v1 + v2 = (2, 2, 0, 2), w2 = v1 − v2 + v3 = (0, 0, 3, 0), son ortogonales y
w3′ = −w1 + w2 + 2w3 = (0, 0, 0, 0) es la combinación lineal nula.
Pueden obtenerse resultados similares utilizando Gram-Schmidt. El determinante del primer menor de O,
16 − 4 = 12, representa el cuadrado del área del paralelogramo determinado por w1 y w2 .
11
19.10 Operadores adjuntos y autoadjuntos en espacios euclı́deos
Sea F : V → V un operador lineal en un espacio euclı́deo V . El operador adjunto F † se define por
por lo que la matriz [F † ]e ≡ [F † ]ee que representa a F † en dicha base es la traspuesta de la matriz que
representa a F :
[F † ]e = [F ]te
Esto también muestra que (F † )† = F (pues [(F † )† ]e = ([F ]te )t = [F ]e ) y que si G : V → V es otro operador
lineal, (F G)† = G† F † (pues [(F G)† ]e = [F G]te = [G]te [F ]te ). Estas dos últimas propiedades pueden también
demostrarse a partir de la definción de operador adjunto (se deja como ejercicio).
Notemos que (F (v), w) = (v, F † (w)).
Operador autoadjunto: Si F † = F el operador se dice autoadjunto. En este caso debe cumplirse
[F ]te = [F ]e
por lo que F será autoadjunto si y sólo si es representado por una matriz simétirca en una base canónica.
Notemos que en una base arbitraria B, no necesariamente ortogonal, con (bi , bj ) = gij = gji , tendrı́amos
(v, F (w)) = [v]B G[F ]B [w]B , (F † (v), w) = [v]tB [F † ]tB G[w]B y por lo tanto, [F † ]tB G = G[F ]B , por lo que
[F † ]B = G−1 [F ]tB G
y m respectivamente, esto implica [F † ]ẽe = ([F ]eẽ )tr en bases ortonormales e y ẽ de V y W . De esta forma,
Fij = (ẽi , F (ej )) = (F † (ẽi ), ej ) = (ej , F † (ẽi )) = Fji† .
[F ]e′ = S t [F ]e S
es diagonal
12
19.11 Isometrı́as
Las isometrı́as son operadores U : V → V que conservan el producto escalar. Ejemplos comunes en V = Rn
son rotaciones y reflexiones. Si U es una isometrı́a,
(U (v), U (w)) = (v, w) ∀ v, w ∈ V
Por lo tanto, si e es una base canónica, (U (v), U (w)) = [v]te [U ]te [U ]e [w]e = [v]te [w]e ∀ v, w ∈ V , por lo que
[U ]te [U ]e = In
con In la matriz identidad, es decir, [U ]−1 t t
e = [U ]e . Esto implica a su vez [U ]e [U ]e = In . Las matrı́ces [U ]e
que representan a una isometrı́a en una base canónica e son pues matrices ortonormales, y tanto las filas
como las columnas de [U ]e serán por lo tanto ortonormales, como se vió anteriormente: Si Uij = ([U ]e )ij ,
n
X n
X
Uji Ujk = δik , Uij Ukj = δik
j=1 j=1
En términos de operadores adjuntos, (U (v), U (w)) = (v, U † U (w)), por lo que U será una isometrı́a si y sólo
si
U −1 = U †
Demostraremos luego que toda isometrı́a puede ser descompuesta en rotaciones y/o reflexiones.
Las isometrı́as transforman basesPortogonales en bases ortogonales. En efecto, al conservar todos los pro-
ductos escalares, si e′i = U (ei ) = nj=1 Uji ej , entonces
(e′i , e′j ) = (U (ei ), U (ej )) = (ei , ej ) = δij
La recı́proca es obviamente también válida: Cualquier par de bases canónicas e, e′ de V estarán relacionadas
por una isometrı́a e′i = U (ei ). Cualquier matriz de cambio de base S que represente una isometrı́a debe
pues satisfacer S t S = In , como se vió anteriormente.
Ejemplo: Si
cos α − sin α 0
[U ]e = sin α cos α 0
0 0 −1
entonces U es una isometrı́a ya que [U ]te [U ]e = I3 . Tanto las filas como las columnas de [U ]e son ortonormales
(ortogonales y de longitud 1). Esta matriz representa una rotación de ángulo α antihoraria en el plano xy,
compuesta con una reflexión respecto a este plano:
cos α − sin α 0 1 0 0
[U ]e = sin α cos α 0 0 1 0
0 0 1 0 0 −1
Isomorfismo Euclı́deo
Dados dos espacios euclı́deos V, V ′ de la misma dimensión, podemos siempre elegir bases canónicas e =
(e1 , . . . , en ) en V y e′ = (e′1 , . . . , e′n ) en V ′ tal que tales que (ei , ej ) = δij , (e′i , e′j ) = δij . Definiendo un
isomorfismo Q : V → V ′ tal que Q(ei ) = e′i , i = 1, . . . , n, se tiene
(e′i , e′j ) = (Q(ei ), Q(ej )) = (ei , ej ) = δij
Por lo tanto, si v ′ = ni=1 αi e′i , w′ = ni=1 βi e′i ⇒ v ′ = Q(v), w′ = Q(w), con v = ni=1 αi ei , w = ni=1 βi ei
P P P P
y
Xn
(v ′ , w′ ) = (Q(v), Q(w)) = (v, w) = αi β i
i=1
′
Un isomorfismo Q : V → V de este tipo (que conserva todos los productos escalares) se lo denomina isomor-
fismo euclı́deo. La existencia de Q muestra que todas las propiedades geométricas de Rn pueden extenderse
directamente a cualquier espacio euclı́deo V ′ de dimensión n.
13
20 Descomposición en valores singulares (DVS)
Consideremos una matriz real A de m × n. Podemos formar la matriz de n × n
At A
la cual es simétrica ((At A)t = At A) y tiene la mismas propiedades que la matriz de Gram. Por lo tanto,
tiene un conjunto de n autovectores vi ∈ Rn×1 ortonormales asociados a autovalores λi positivos o nulos:
A = U A′ V t
Esta representación de A se denomina descomposición en valores singulares (del inglés singular value decom-
position) y los elementos σi de A′ los valores singulares de A, que son las raı́ces de los autovalores no nulos
de At A (necesariamente positivos). Vemos ası́ que rango(A) =rango(A′ ) = k, por lo que k ≤ Min[m, n].
Además, por construcción, los primeros k vectores uj , j = 1, . . . , k forman una base del espacio columna
de A y los últimos n − k vectores vk+1 , . . . , vn una base del espacio nulo de A (el subespacio ortogonal al
espacio fila de A).
Notemos también que si A = U A′ V t , con A′ “diagonal” de m × n con elementos positivos o nulos y U ,
V matrices ortonormales, entonces necesariamente los elementos diagonales no nulos de A′ son los valores
singulares, pues
At A = V A′t U t U A′ V t = V (A′t A′ )V t
con A′t A′ diagonal de n × n. Esto implica V t At AV = A′t A′ , lo que muestra que V es necesariamente una
matriz ortonormal de autovectores de At A y A′t A′ la correspondiente matriz diagonal de autovalores.
Desde el punto de vista operacional, A puede considerarse como la representación [F ]eẽ de una transfor-
mación lineal F : V → W entre espacios euclı́deos V y W de dimensión n y m respectivamente, en bases
canónicas e = (e1 , . . . , en ) y ẽ = (e1 , . . . , em ) de V y W , siendo At A la matriz de Gram del conjunto de
imágenes {F (e1 ), . . . , F (en )}: (At A)ij = (F (ei ), F (ej )).
La descomposición anterior muestra que es siempre posible encontrar bases ortonormales e′ y ẽ′ de V
y W en la que F tiene una representación “diagonal”, con elementos diagonales reales positivos o nulos, es
decir
′
[F ]eẽ′ = U t [F ]eẽ V = A′
14
′ ′
con V = [I]ee , U = [I]ẽẽ y F (e′i ) = σi ẽ′i , i = 1, . . . , k, con F (e′i ) = 0 si i > k. Los primeros k vectores
de ẽ′ forman pues una base ortonormal de Im(F ) = F (V ), y los últimos n − k vectores de e′ una base
ortonormal de N (F ). Notemos que los valores singulares son independientes de las bases canónicas elegidas:
Si B = Rt AS, con Rt R = Im , S t S = In ⇒ B t B = S t At RRt AS = S t At AS, y los autovalores de B t B son
entonces idénticos a los de At A.
Otro comentario importante es que si A = U A′ V t ⇒
At = V A′t U t
que es necesariamente la descomposición singular de At . Esto muestra que los valores singulares son también
las raı́ces de los autovalores no nulos de AAt (matriz real simétrica de m × m) y U una matriz ortonormal
de autovectores de AAt . Para la obtención de los valores singulares se puede pues diagonalizar la menor de
las matrices At A y AAt .
Se ve también que si A es de n × n y no singular,
A−1 = V A′−1 U t
lo que muestra que los valores singulares de A−1 son los inversos de los valores singulares de A (y que si A
es no singular estos son necesariamente no nulos). Notemos que para A de n × n, |A| = |U ||A′ ||V t | = ±|A′ |,
donde |U | = ±1, |V | = ±1, por lo que |Det[A]| = Det[A′ ].
Si A representa un monomorfismo → rango(A) = n, por lo que k = n ≤ m. En tal caso, conociendo la
descomposición singular de A, una inversa a izquierda à (de n × m) puede obtenerse como
à = V Ã′ U t
con Ã′ una matriz “diagonal” de n × m de elementos σ̃i = 1/σi , i = 1, . . . , n, ya que se verifica Ã′ A′ = In y
por tanto ÃA = V Ã′ A′ V t = In . Esto muestra asimismo que los valores singulares de à son los inversos de
los de A. En forma análoga, si A representa un epimorfismo, rango(A) = m, por lo que k = m ≤ n y una
inversa a derecha de A estará dada por à = V Ã′ U t , pues en este caso A′ Ã′ = Im y Aà = U A′ Ã′ U t = Im .
Una última observación general muy importante es que la descomposición singular de A permite expandir
a esta como
Xk
A= σi ui vit
i=1
lo que constituye la generalización de la expansión de una matriz simétrica A de n × n en teŕminos de
autovalores y autovectores ortonormales (ver siguiente comentario). En el caso de matrices de grandes
dimensiones, un método general de compresión de información (utilizado en la compresión de imágenes
digitales) consiste precisamente en conservar de la expansión anterior los términos con σi mayor a cierto
valor inferior umbral.
En el caso especial de que A sea de n × n y simétrica (At = A) ⇒ At A = A2 , por lo que λi = (λA 2
i ) , con
A
λi los autovalores de A. Se obtiene entonces
σi = |λA
i |, i = 1, . . . , k
es decir, los valores singulares son los valores absolutos de los autovalores no nulos de A. La matriz V puede
entonces elegirse como la matriz de autovectores de A y U como la matriz U = (s1 v1 , . . . , sn vn ), con si el
signo de λi . En este caso la expansión anterior se reduce a
n
X
A= λi vi vit
i=1
con vi vit la representación matricial del proyector ortogonal sobre el espacio generado por vi .
Ejemplo : Consideremos
1 0
A= 1 1
0 1
Tenemos
t 2 1
AA=
1 2
15
√
Los autovalores de A√t A son entonces λ√ ± = 2 ± 1 por lo que los valores √ singulares son σ 1 = 3, σ2 =√1. Se
obtiene v1 = (1, 1)t / 2, v2 = (−1, 1)t / 2, y u1 = Av1 /σ1 = (1, 2, 1)t / 6, u√2 = Av2 /σ2 = (−1, 0, 1)/ 2. u3
puede elegirse, utilizando GS a partir de u1 , u2 y (1, 0, 0), como (1, −1, 1)/ 3. Se obtiene entonces
√ √ √ √
1/√6 −1/ 2 1/ √3 3 0
√
1 1
A= 2/√6 0√ −1/√ 3 0 1 / 2
−1 1
1/ 6 1/ 2 1/ 3 0 0
Algunas aplicaciones
20.1 Norma inducida de una matriz
Primeramente, consideremos una forma cuadrática real B̃(v) = X t BX, con B de n × n real simétrica y
X = (x1 , . . . , xn )t = [v]e de n × 1. Diagonalizando B, tenemos S t BS = B ′ , con B ′ diagonal (Bij
′ =λ δ ) y
i ij
S = (X1 , . . . , Xn ) una matriz ortonormal de autovectores (S t S = In ). Por lo tanto, definiendo X ′ = S t X =
(x′1 , . . . , x′n ), tal que X = SX ′ , se obtiene
n
2
X
B̃(v) = X t BX = X ′t S t BSX ′ = X ′t B ′ X ′ = λi x ′ i
i=1
X t BX
λ1 ≤ ≤ λn
X tX
con el valor máximo λn alcanzado si X = Xn , con BXn = λn Xn y el mı́nimo λ1 si X = X1 , con BX1 = λ1 X1 .
Hemos pues demostrado que el valor máximo (mı́nimo) que toma la forma cuadrática X t BX en la esfera
unidad (X t X = 1) es el máximo (mı́nimo) autovalor de B.
El cociente Q(v) se denomina en contextos fı́sicos cociente de Rayleigh y proporciona un método varia-
cional para la determinación del autovalor máximo y mı́nimo de una matriz simétrica B:
Consideremos ahora una transformación F : Rn → Rm , representada en las bases canónicas por una
matriz A de m × n. Tenemos, para un vector no nulo v ∈ Rn tal que [v]e = X,
2 ||AX||2 2
σm ≤ ≤ σM
||X||2
16
El resultado anterior implica entonces
||A|| = σM
es decir, la norma es el mayor valor singular de√A. Este p
resultado se denomina en realidad norma 2 de la
matriz, pues está derivado de la norma ||X|| ≡ X t X = x21 + . . . + x2n .
Una consecuencia inmediata pero importante de esta norma es que se cumple
lo que indica que la imagen en la base ẽ′ es la superficie de un elipsoide de dimensión k = n con ejes
principales en la dirección de los ẽ′i y radios de longitud σi . Si k < n ⇒ al menos uno de los radios es nulo
y la superficie del elipsoide degenera en el interior y borde de un elipsoide de dimensión k < n (en este caso
k ′2 2
P
i=1 y i /σi ≤ 1). En resumen, los valores singulares determinan los radios del elipsoide obtenido como
imagen por F de la esfera unidad.
AX = Y
donde en la última expresión hemos utilizado la desigualdad ||Y || = ||AX|| ≤ ||A|| ||X||. El número de
condición de una matriz se define entonces como
||δX|| ||δY ||
≤ nc (A)
||X|| ||Y ||
En virtud del resultado previo, se tiene, utilizando la norma 2, ||A|| = σM , ||A−1 || = 1/σm , con σM y σm el
máximo y mı́nimo valor singular, y por lo tanto
nc (A) = σM /σm ≥ 1
17
El número de condición es entonces adimensional y queda determinado por el cociente entre los valores
singulares extremos. Para matrices reales simétricas, σM = |λM |, σm = |λm |, con λM y λm los autovalores
de mayor y menor valor absoluto respectivamente. Nótese que si la matriz A es singular, σm = 0 y en tal
caso nc (A) = ∞. Números de condición grandes indican matrices “cuasi singulares” (o mal condicionadas),
para las que no se puede asegurar estabilidad en la solución del sistema asociado.
Es importante destacar que la estabilidad frente a variaciones en la matriz A queda también determinada
por el mismo número de condición. Si AX = Y y (A + δA)(X + δX) = Y , entonces, a primer orden en δX
y δA, se obtiene (δA)X + AδX = 0 y
δX = −A−1 (δA)X
Por lo tanto
||δX|| = ||A−1 (δA)X|| ≤ ||A−1 || ||δA|| ||X||
de donde
||δX|| ||δA||
≤ ||A−1 || ||δA|| = nc (A)
||X|| ||A||
Ejemplo: Si
0 1
A=
ε 0
entonces
ε2 0
At A =
0 1
por lo que los valores singulares son |ε| y 1 y el número de condición es
nc (A) = 1/|ε|
20.4 Pseudoinversa Pk
Sea A ∈ Rm×n con A = U A′ V t = t
i=1 σi ui vi su DVS. La pseudoinversa de A (denominada también
pseudoinversa de Moore-Penrose) es una matriz à ∈ Rn×m definida como
k
′ tr
X 1
à = V à U = vi uti
σi
i=1
con Ã′ una matriz de n × m de elementos diagonales 1/σi (A′ij = δij /σi si i ≤ k y 0 en caso contrario). Dado
que uti uj = δij , vit vj = δij , se verifica que AÃ = ki=1 ui uti es el proyector ortogonal sobre el espacio
P
columna de la matriz, mientras que ÃA = ki=1 vi vit es el proyector ortogonal sobre el espacio fila (es
P
decir, sobre el espacio columna de At ). Se verifica entonces
ÃAÃ = Ã , AÃA = A
Es facil ver que si rango(A)= n ⇒ Ã = (At A)−1 At , coincidiendo con una inversa a izquierda de A, mientras
que si rango(A)= m ⇒ Ã = At (AAt )−1 , coincidiendo con una inversa a derecha de A. Si rango(A)= n = m
⇒ Ã = A−1 es la inversa de A.
Consideremos ahora el sistema de ecuaciones lineales de m × n
AX = b
18
donde X ∈ Rn×1 y b ∈ Rm×1 . Si el sistema es compatible, b = AÃb (pues b ∈ EC(A)) y entonces una
solución particular del sistema es
X = Ãb
pues AX = AÃb = b. Si no existe solución (b ∈/EC(A)) entonces X = Ãb es el vector que minimiza la
diferencia ||AX − b||, pues AÃb es la proyección ortogonal de b sobre EC(A).
En el caso compatible, la solución general del sistema AX = b puede expresarse como
con v un vector arbitrario de Rn . El segundo término es un vector general del núcleo de A, pues In − ÃA
es el proyector ortogonal sobre Nu(A) (A(I − ÃA) = (A − A) = 0), y representa una solución general del
sistema homogéneo AX = 0. El primer término Ãb es una solución particular de AX = b, y es la solución
particular de norma mı́nima, pues es ortogonal a (I − ÃA)w ∀ w (ya que pertence al espacio fila de A).
En el caso general no necesariamente compatible, X = Ãb es el vector de norma mı́nima que minimiza
||AX − b||.
[G]e = (00 01 )
′
en el caso semieuclı́deo, tal que (v, w)G = yy ′ , (v, v)G = y 2 si [v]e = (xy ), [w]e = (xy′ ), y
[G]e = (10 −1
0
)
en el pseudoeuclı́deo, tal que (v, w)G = xx′ − yy ′ , (v, v)G = x2 − y 2 . En estos casos (v, v)G puede ser 0 aun
si v 6= 0, y en el caso pseudoeuclı́deo puede ser también negativo.
′
Se demostró en clase que las transformaciones reales (xy ) = S(xy′ ) que preservan estas formas bilineales (tales
que [G]e′ = S t [G]e S = [G]e ) corresponden en el caso semieuclı́deo a
S = (a0 db )
1 v/c
en el caso pseudoeuclı́deo, con tanh(z) = v/c, s = s′ = 1, tal que cosh z = √ , sinh z = √ .
1−v 2 /c2 1−v 2 /c2
Para v/c → 0, las transformaciones de Lorentz en las variables (x, t) se reducen a las de Galileo:
c sinh z x′ ′
(xt ) = (cosh
1
z
)(t′ ) → (10 1v )(xt′ )
c sinh z cosh z v/c→0
Recordemos que para n = 2, las transformaciones que dejan invariante el producto escalar euclı́deo son de
la forma
cos θ −s′ sin θ
S = (ss sin θ s′ cos θ )
con s = ±1, s′ = ±1, que representan rotaciones (si |S| = ss′ = 1) o reflexiones (ss′ = −1).
19
22 Formas bilineales complejas
Sea V un espacio vectorial sobre el cuerpo de los complejos C. Una función A : V × V → C se dice que es
una forma bilineal hermı́tica si
donde el sı́mbolo † denota traspuesto conjugado ([v]†e ≡ ([v]te )∗ ) y [A]e es la matriz de n × n de elementos
Q(v) = A(v, v)
Una diferencia importante con las formas bilineales reales es que ahora la forma cuadrática determina
completamente la forma bilineal (y no solamente la parte simétrica, como en el caso real). En efecto,
podemos expandir Q(v + w) = A(v + w, v + w) y Q(v + iw) = A(v + iw, v + iw) como
1
Q(v + iw) = Q(v) + Q(w) + i[A(v, w) − A(w, v)]
de donde
por lo que
[A]e′ = S † [A]e S
donde † denota por su puesto la operación de traspuesto+conjugado.
Notemos que Det([A]e′ ) = |Det(S)|2 Det([A]e ), por lo que la fase del determinante es la misma en cualquier
base. Obtenemos entonces
A(v, w) = [v]†e [A]e [w]e = [v]†e′ [A]e′ [w]e′
22.3 Base canónica: Si A es herm. simétrica, existe una base e′ (base canónica) donde [A]′e es diago-
nal:
λ1 0 . . . 0
0 λ2 . . . 0
[A]e′ = S † [A]e S =
...
0 0 . . . λn
En esta base, si v = i=1 αi′ e′i , w = ni=1 βi′ e′i , tenemos
Pn P
n
∗
X
A(v, w) = λi αi′ βi′
i=1
La demostración de la existencia de esta base puede efectuarse en forma similar al caso real, completando
ahora módulos cuadrados, y se deja comos ejercicio. Sug.: Llamando aij = ([A]e )ij (con aji = a∗ij ) y
asumiendo ann 6= 0, escribir la parte que contiene αn y αn∗ en A(v, v) como
n−1 n−1 n−1
∗
X X X
ann αn∗ αn + (anj αn∗ αj + a∗nj αj∗ αn ) = ann αn′ αn′ − ( a∗nj αj∗ )( anj αj )/ann
j=1 j=1 j=1
2
1 Pn−1
con αn′ = αn + ann j=1 anj αj , y proceder luego por inducción. Si ann = 0 se comienza con una variable αi
tal que aii 6= 0, y si aii = 0 ∀i se efectúa un cambio de variables simple para que aii sea no nulo para algún
i (por ej., si aij = a∗ji 6= 0, aij αi∗ αj + aji αj∗ αi = 2|aij |2 (|αi′ |2 − |αj′ |2 ), con αi = aij (αi′ + αj ), αj′ = αi − αj .
El cambio αi′ = nj=1 Rij αj define una base e′i = nj=1 Sji ej , con S = R−1 , en la que [A]e′ = S † [A]S es
P P
diagonal.
Otra forma de demostrar la existencia es directamente diagonalizando la matriz [A]e , que es en este caso
hermı́tica y por lo tanto diagonalizable en una base ortonormal, tal que S −1 = S † y S † [A]e S es diagonal.
No obstante esto supone haber demostrado antes que tales matrices son diagonalizables, lo que nosotros
realizaremos luego.
La base canónica no es única. Una base canónica puede obtenerse, al igual que en el caso real, comple-
tando módulos cuadrados o bien diagonalizando la matriz [A]e .
Ejemplo: Hallar una base canónica para el ejemplo previo. Completando módulos cuadrados, obtenemos
Q(v) = (α1∗ + (1 − i)α2∗ )(α1 + (1 + i)α2 ) + |α2 |2 [2 − (1 + i)(1 − i)] = |α1′ |2 + 0|α2′ |2
α′
donde α1′ = α1 + (1 + i)α2 , α2′ = α2 , o sea (α1′ ) = (10 1+i α1
1 )(α2 ). La matriz de cambio de base es entonces
2
−1
1 1+i 1 −1 − i
S= =
0 1 0 1
y se verifica
† 1 0
[A] = S [A]e S =
e′
0 0
Alternativamente, diagonalizando la matriz [A]e se obtienen los autovalores y autovectores
con S −1 = S † (pues los autovectores en S están normalizados). Se obtiene ası́ la reprentación diagonal
† 3 0
[A]e′ = S [A]e S =
0 0
Vemos que el número de coeficientes diagonales positivos y nulos en las dos formas diagonales obtenidas es
el mismo. Esta propiedad es general y constituye el
22.4 Teorema de Inercia para formas cuadráticas hermı́ticas: Si QA es una forma cuadrática
herm. simétrica, el número de términos diagonales positivos, negativos, y nulos en una representación diag-
onal arbitraria es siempre el mismo. Se demuestra igual que en el caso real (Demostrar como ejercicio).
Es importante notar que el teorema de inercia no vale para formas cuadráticas comunes extendidas a los
complejos: Si Q(v) = α12 + α22 , la transformación α1′ = iα1 , α2′ = α2 la lleva a −α′ 21 + α′ 22 . Tal forma
cuadrática no proviene de una forma bilineal hermı́tica, ya que no cumple Q(αv) = |α|2 Q(v).
3
caso podemos considerarla como la representación en la base canónica de V = Cn de una forma cuadrática
definida positiva. Notemos que necesariamente A debe ser hermı́tica (A† = A), para que X † AX sea real.
Una matriz hermı́tica A es pues definida positiva si y sólo si todos sus autovalores son positivos.
Notemos que si QA (v) es una forma cuadrática definida positiva ⇒ existe una base canónica e′′ donde
A(e′′i , e′′j ) = δij , es decir,
[A]e′′ = In
(matriz identidad). En efecto, existirá una base canónica, obtenida completando módulos cuadrados o
diagonalizando, en la que A(e′i , e′j ) = ([A]e′ )ij = λi δij , con λi > 0 ∀ i. En la nueva base definida por
√
e′′i = e′i / λi tendremos A(e′′i , e′′j ) = A(e′i , e′j )/ λi λj = λi δij / λi λj = δij para i, j = 1, . . . , n.
p p
′′
Esto implica que existe una matriz S = [I]ee no singular tal que
[A]e′′ = S † [A]e S = In
A = R† R
Una desigualdad simular es válida para sumas sobre columnas, ya que los autovalores de A son idénticos a
los de At .
En el caso de matrices hermı́ticas, tanto los elementos diagonales como los autovalores son todos reales.
La cota anterior implica entonces la siguiente
P condición suficiente (aunque no necesaria) de positividad de
una matriz hermı́tica A: Si aii > 0 ∀ i y j6=i |aij | < aii ∀ i, los autovalores serán todos positivos y por
ende A será definida positiva.
4
23 Espacios Unitarios (Espacios de Hilbert)
Un espacio vectorial V sobre C se denomina unitario o espacio de Hilbert si está equipado con una operación
V × V → C, denominada producto interno o producto escalar, y denotada por (v, w), que satisface
(v, w) = (w, v)∗ , (v, αw) = α(v, w), (v, w1 + w2 ) = (v, w1 ) + (v, w2 )
(v, v) > 0 ∀ v 6= 0
Es decir, el producto interno no es otra cosa que una forma bilineal hermı́ticamente simétrica y definida
positiva. En el caso de dimensión
P infinita, un espacio de Hilbert debe ser además completo: Si {un } es una
sucesión de vectores tal que ∞ n=0 ||un || es convergente entonces limn→∞ un debe pertenecer al espacio.
En en el caso de dimensión finita, en una base arbitraria e tendremos, denotando con [A]e la matriz de
elementos aij = (ei , ej ) = a∗ji ,
n
X
†
(v, w) = [v]e [A]e [w]e = αi∗ aij βj
i,j=1
Pn Pn
donde v = i=1 αi ei , w = i=1 βi ei
Y si e denota ahora la base canónica en la que (ei , ej ) = δij , obtenemos la forma corriente
n
X
(v, w) = [v]†e [w]e = αi∗ βi
i=1
Esta base es una base ortonormal para el producto escalar ((ei , ej ) = δij ). En esta base,
n
X
(v, v) = [v]†e [v]e = |αi |2
i=1
|Aij |2 > 0 ∀ A 6= 0.
P
con (A, A) = i,j
En los espacios unitarios son válidas propiedades similares a las de espacios euclı́deos. En particular:
5
donde la igualdad vale si y sólo si {v, w} son LD.
Demostración: Si v = 0 o w = 0 la igualdad se cumple trivialmente: 0 = (v, w) = ||v|| ||w||.
Idem si v y w son LD: En tal caso w = αv (o v = αw) y por lo tanto |(v, w)| = |α(v, v)| = |α| ||v||2 = ||v|| ||w||.
Si v 6= 0 y w 6= 0, denotemos con vn = v/||v||, wn = w/||wn || los vectores normalizados (||vn || = ||wn || = 1),
tal que (v, w) = (vn , wn )||v|| ||w||. Se obtiene, para s un número complejo arbitrario de módulo 1 (|s| = 1),
0 ≤ (vn −swn , vn −swn ) = ||vn ||2 +|s|2 ||wn ||2 −s(vn , wn )−s∗ (wn , vn ) = 2−2Re[s(vn , wn )] = 2(1−Re[s(vn , wn )])
√
Recordemos ahora que todo número complejo z puede escribirse como z = |z|eiφ , con |z| = zz ∗ (módulo)
y φ reales. Por lo tanto, si z = (vn , wn ) = |(vn , wn )|eiφ , eligiendo s = e−iφ se obtiene
0 ≤ 1 − |(vn , wn )|
de donde |(vn , wn )| ≤ 1. Por lo tanto, |(w, v)| = |(v, w)| ≤ ||v|| ||w||, q.e.d.
Además, si |(w, v)| = 1 ⇒ |(wn , vn )| = 1 y (vn − swn , vn − swn ) = 0, por lo que vn − swn = 0, es decir,
v = sw||vn ||/||wn ||, lo que implica que v, w son L.D.
Las desigualdades triangulares permanecen válidas en espacios unitarios, por la vigencia de la desigualdad
anterior: |||v|| − ||w||| ≤ ||v + w|| ≤ ||v|| + ||w||.
No obstante, no se pueden definir ahora ángulos entre vectores pues (v, w)/(||v|| ||w||), si bien tiene módulo
menor que 1, es en general complejo.
Ejemplo: Dados v = (1 + i, i), w = (i, 1 + i) ∈ C2 , tenemos
p p √ √
(v, w) = (1 − i)i + (−i)(1 + i) = 2 ≤ ||v|| ||w|| = |1 + i|2 + 1 1 + |1 + i|2 = 3 3 = 3
donde
(wj , vi )
Pwj (vi ) = wj
||wj ||2
es la proyección ortogonal de vi sobre wj . Notemos que en el caso complejo es necesario ser cuidadoso con
el orden en el producto escalar, ya que (wj , vi ) 6= (vi , wj ) = (wj , vi )∗ . Es fácil verificar que de esta forma,
(wi , wj ) = 0 si i 6= j, siendo los wi no nulos si los vectores originales son L.I.
Dada una base arbitraria de V , es pues siempre posible por este método construir una base ortogonal de V ,
que puede convertirse en ortonormal normalizando los vectores resultantes.
Notemos que el cuadrado de la norma de los wi está dado, para i > 1, por
i−1
X |(wj , vi )|2
||wi ||2 = (wi , wi ) = (vi , wi ) = ||vi ||2 − ≤ ||vi ||2
||wj ||2
j=1
Notemos también que la matriz que representa al proyector sobre wi en la base canónica es
6
Ejemplo 1 : Consideremos los vectores v1 = (1 + i, i, 0), v2 = (i, 1 + i, 1). Tenemos
(w1 , v2 ) 2
w1 = v1 = (1 + i, i, 0), w2 = v2 − 2
w1 = (i, 1 + i, 1) − (1 + i, i, 0) = (−2 + i, 3 + i, 3)/3
||w1 || 3
que verifican (w1 , w2 ) = 0.
REjemplo 2: Las funciones fk (x) = eikx , con k entero, son ortogonales con el producto interno (f, g) =
π ∗
−π f (x)g(x)dx:
(
Z π
′
Z π
′ 2π k = k′
(fk′ , fk ) = e−ik x eikx dx = eix(k−k ) dx = e ix(k−k ′)
π ′
−π −π i(k−k′ ) |−π = 0 k 6= k
Ejemplo 3 (Transformada de Fourier discreta): Sea V = Cn y sea e = (e1 , . . . , en ) una base canónica
((ei , ej ) = δij ). Los n vectores
n
1 X i2πkj/n
ẽk = √ e ej
n
j=1
forman también una base ortonormal: (ẽk , ẽl ) = δkl .
En efecto, utilizando que (ei , ej ) = δij obtenemos, para k, l = 1, . . . , n,
n
(
1 X i2πj(l−k)/n 1 k=l
(ẽk , ẽl ) = e = 1 1−ei2π(l−k)
n √
n 1−ei2π(l−k)/n
= 0 k 6 l
=
j=1
Ejemplo 4: Obtener una base ortonormal de C2×2 (con escalares complejos) para el producto escalar (A, B) =
Tr A† B, partiendo de v1 = I2 = (10 01 ).
Consideremos las matrices v1 = I2 , v2 = (10 00 ), v3 = 12 (01 10 ), v4 = (00 10 ), que forman una base no ortogonal de
C2×2 . Obtenemos, w1 = v1 = I2 ,
w2 = v2 − 12 (w1 , v2 )w1 = v2 − 12 w1 = 21 (10 −1
0 ), w3 = v3 − 21 (w1 , v3 )w1 − 2(w2 , v3 )w2 = v3 = 12 (01 10 ) ,
w4 = v4 − 12 (w1 , v4 )w1 − 2(w2 , v3 )w2 − 2(w3 , v4 )w3 = v4 − w3 = 12 (−1
0 1)
0
Las matrices de Pauli se definen precisamente como
σ0 = I2 = (10 01 ), σx = 2w3 = (01 10 ), σy = −2iw4 = (i0 −i 1 0
0 ), σz = 2w2 = (0−1 )
7
23.3 Proyectores ortogonales y matriz de Gram
Dado un subespacio S ⊂ V , es posible construir el complemento ortogonal S⊥ = {v ∈ V |(w, v) = 0 ∀ w ∈ S},
cumpliéndose que V = S ⊕ S⊥ y por lo tanto, dim S+ dim S⊥ = n
Si v ∈ V , podemos escribir
v = vs + (v − vs )
con vs ∈ S y v − vs ∈ S⊥ . Si (w1 , . . . , wm ) es una base ortogonal de S, escribiendo vs = m
P
i=1 αi wi , la
2
condición (wi , v − vs ) = 0 para i = 1, . . . , m implica αi = (wi , v)/||wi || y por lo tanto
m
X m
X
vs = Pwi (v) = PS (v) , PS = Pwi
i=1 i=1
Ejemplo: Proyectar el vector v = (1, i, 1 + i) ∈ C3 sobre el espacio generado por los vectores v1 = (1 + i, i, 0),
v2 = (i, 1 + i, 1). Aplicando la representación general, tenemos
1+i i
R= i 1+i
0 1
4 −2
con R† R = (32 24 ), (R† R)−1 = (−2 3 )/8 y
7 1 − i −2 + i
[PS ]e = R(R† R)−1 R† = 1 + i 6 3 + i /8
−2 − i 3 − i 3
Podemos arribar a este mismo resultado considerando también la base ortogonal de S obtenida previamente
al ortogonalizar v1 y v2 por Gram-Schmidt, dada por w1 = v1 , w2 = (−2 + i, 3 + i, 3)/3:
[w1 ]e [w1 ]†e [w2 ]e [w2 ]†e
[PS ]e = [Pw1 ]e + [Pw2 ]e =+
||w1 ||2 ||w2 ||2
1+i −2 + i 7 1 − i −2 + i
1 1
= i (1 − i, −i, 0) + 3 + i (−2 − i, 3 − i, 3) = 1 + i 6 3 + i /8
3 24
0 3 −2 − i 3 − i 3
Se obtiene finalmente
5
[PS (v)]e = [PS ]e [v]e = 3 + 11i /8
2 + 5i
√
La distancia mı́nima al plano es ||v − vs || = 3/ 8.
8
23.4 Operadores adjuntos y autoadjuntos en espacios unitarios
Sea F : V → V un operador lineal. El operador adjunto F † se define por la relación
∀ v, w ∈ V . Considerando una base canónica e de V ((ei , ej ) = δij ), y teniendo en cuenta que [F (v)]e =
[F ]e [v]e , y (v, w) = [v]†e [w]e , se obtiene (v, F (w)) = [v]†e [F ]e [w]e , (F † (v), w) = [v]†e [F † ]†e [w]e y por lo tanto
[F † ]e = [F ]†e
La matriz que representa al operador adjunto de F en una base canónica es pues la traspuesta conjugada
de la que representa a F en dicha base. Notemos que:
1) si G = αF , con α ∈ C ⇒ G† = α∗ F † (pues (α∗ F † (v), w) = α(F † (v), w) = α(v, F (w)) = (v, αF (w)))
2) (F † )† = F (pues ((F † )† (v), w) = (v, F † (w)) = (F (v), w) ∀ v, w)
†
3) (F G) = G F † † (pues (v, F G(w)) = (F † (v), G(w)) = (G† F † (v), w)).
Un operador F es autoadjunto si F † = F . En tal caso la matriz que lo representa en una base canónica
es hermı́tica:
[F ]†e = [F ]e
Una propiedad importante de operadores adjuntos es que si S es un subespacio invariante por F ⇒
S⊥ es invariante por F † .
Demostración: si F (v) ∈ S ∀ v ∈ S, y w ∈ S⊥ ⇒ (w, F (v)) = 0 ∀ w ∈ S⊥ y v ∈ S. Por lo tanto,
[F † ]B = A−1 [F ]†B A
La matriz que representa el operador adjunto F † en una base arbitraria es pues semejante (pero no nece-
sariamente igual) a [F ]†B .
∀ v, w ∈ V . Como (U (v), U (w)) = (U † U (v), w) ⇒ U † U = I (identidad), por lo que en una base canónica
tenemos
[U ]†e [U ]e = In
y por lo tanto [U ]e [U ]†e = In . Las matrices que representan a un operador unitario en una base canónica se
†
denominan unitarias y satisfacen [U ]−1 e = [U ]e , lo que implica filas y columnas ortonormales:
n
X n
X
∗ ∗
Sji Sjk = δik Sij Skj = δik
j=1 j=1
donde aquı́ Sij = ([U ]e )ij . El determinante de un operador unitario tiene módulo 1:
por lo que
|Det[U ]| = 1
9
Podemos entonces escribir Det[U ] = eiφ , con φ real.
Debe remarcarseP que los operadores unitarios transforman bases ortonormales en bases ortonormales: si
e′i = U (ei ) = m
j=1 Sji ej , i = 1, . . . , n ⇒
Análogamente, cualquier par de bases ortonormales e, e′ de V están relacionadas por una transformación
unitaria,Pes decir, por una matriz de cambio de base S que satisface S † S = SS † = In , como es fácil verificar:
Si e′i = j Sji ej y (e′i , e′j ) = (ei , ej ) = δij entonces
†
X X X
(e′i , e′j ) = (Ski ei , Slj el ) = ∗
Ski Slj (ek , el) = Sik Skj = (S † S)ij = δij
k,l k,l k
(v ′ , F (v)) = λ(v ′ , v) = (F (v ′ ), v) = λ′ (v ′ , v)
por lo que
(v ′ , v)(λ − λ′ ) = 0
lo que implica
(v ′ , v) = 0 si λ 6= λ′
2) Si F : V → V es un operador lineal autoadjunto en un espacio V de dimensión finita, existe siempre una
base ortonormal de V formada por autovectores de F : ∃ e′ = (e′1 , . . . , e′n ), tal que
Es decir, F es siempre diagonalizable y además lo es en una base ortonormal, la cual estará relacionada con
la base canónica original por una transformación unitaria U :
λ1 0 . . . 0
0 λ2 . . . 0
[F ]e′ = S † [F ]e S = , S † S = SS † = I
...
0 0 . . . λn
10
En general, supongamos que e′1 es un autovector normalizado de F (F (e′1 ) = λ1 e′1 , ((e′1 , e′1 ) = 1) y sea S1 el
subespacio de V generado por e′1 . En tal caso S1 es invariante por F y por lo tanto, el complemento ortog-
onal S1 ⊥ , de dimensión n − 1, será también invariante por F † = F . F restringido a S1 ⊥ es obviamente
también autoadjunto. Por lo tanto, por hipótesis inductiva, existe una base ortonormal de S1⊥ en la que F
es diagonal. F resulta ası́ diagonal en la base ortonormal de V formada por e′1 y la base anterior de S1 ⊥ . F
será entonces diagonalizable ∀ n en una base ortonormal.
3) Si F y G son dos operadores autoadjuntos y [F, G] = 0 (o sea, F G = GF ) ⇒ existe una base ortonor-
mal común e′ en la que ambos operadores son simultáneamente diagonales:
Demostración: Como F es autoadjunto, existe una base ortonormal donde F es diagonal. Como [G, F ] = 0
⇒ si F (e′i ) = λFi e′i , F G(e′i ) = GF (e′i ) = λFi G(e′i ), por lo que G(e′i ) ∈ VF (λFi ) (espacio propio). VF (λFi ) es
pues también invariante por G. Pero G restringido a VF (λFi ) es asimismo autoadjunto, por lo que es siempre
posible elegir una base ortonormal de VF (λFi ) en la que G será también diagonal, con autovalores λG i . Los
F
elementos de dicha base serán, por pertenecer a VF (λi ), también autovectores de F . Repitiendo esto para
todos los autovalores, vemos que existirá una base ortonormal de V en la que tanto F y G serán diagonales.
[A, A† ] = 0
A + A† A − A†
A = Ar + iAi , Ar = , Ai =
2 2i
válida para cualquier operador A, donde Ar y Ai son claramente operadores autoadjuntos: (Ar )† = Ar ,
(Ai )† = Ai . Esta descomposición del operador es similar a la de un número complejo z = x + iy en parte
real x e imaginaria iy (caso particular n = 1).
Si A es normal ⇒
1
[Ar , Ai ] = [A + A† , A − A† ] = 0
4i
y por lo tanto, existe una base ortonormal común e′ donde Ar y Ai son simultáneamente diagonales. Los
autovalores de A serán entonces de la forma
λj = λrj + iλij
con λrj y λij reales y autovalores de Ar y Ai respect., por lo que λj será en general complejo.
Si A es autoadjunto (A† = A) ⇒ Ai = 0 y por lo tanto λij = 0. Los autovalores de A son entonces todos
reales, como ya habı́amos demostrado.
Si A es antiautoadjunto (A† = −A) ⇒ Ar = 0 y por lo tanto λrj = 0. Los autovalores de A son entonces
11
todos imaginarios puros.
Finalmente, si A es unitario, [A]†e′ [A]e′ = In , lo que implica λj λ∗j = |λj |2 = 1, es decir |λj | = 1. Esto implica
Por lo tanto
[AA† − A† A]e′ = [A]e′ [A† ]e′ − [A† ]e′ [A]e′ = 0
lo que implica AA† − A† A = 0. A es entonces normal.
En resumen, el teorema implica que en un espacio unitario, un operador tiene representación diagonal
en una base ortonormal si y sólo si es un operador normal. En términos matriciales, si A es una matriz
de n × n, entonces existe una matriz unitaria S tal que A′ = S † AS es diagonal si y sólo si A es normal
([A† , A] = 0). Esto comprende en particular las matrices hermı́ticas (A† = A), antihermı́ticas (A† = −A) y
unitarias (A† = A−1 ). Destaquemos también que todo v ∈ V puede expandirse en la base e′ de autovectores
de un operador normal A,
Xn n
X
v= αi e′i = Pe′i (v)
i=1 i=1
donde αi = (e′i , v) y Pe′i (v) = (e′i , v)e′i = αi′ e′i . Por lo tanto
n
X n
X n
X
A(v) = A(αi e′i ) = αi λi e′i = λi Pe′i (v)
i=1 i=1 i=1
U = exp[iF ]
con F autoadjunto: Como los autovalores de U son de la forma eiφj , podemos definir F como el operador
autoadjunto que es también diagonal en la base ortonormal e′ en que U es diagonal y que tiene autovalores
reales φj . En tal caso, [U ]e′ = exp[i[F ]e′ ] = [exp[iF ]]e′ , lo que implica [U ]e = [exp(iF )]e en cualquier base.
Esto conduce a U = exp[iF ].
Ejercicio: Utilizando la representación diagonal, mostrar que si F : V → V es autoadjunto, entonces ∀
v ∈ V , con v 6= 0, se tiene
(v, F (v))
λm ≤ ≤ λM
(v, v)
donde λm y λM denotan resp. el menor y mayor autovalor de F .
12
En efecto, si S ≡ [U ]e es una matriz real que representa una isometrı́a U en una base ortonormal de un
espacio euclideo (S t = S −1 ), considerada en un espacio complejo representa una transformación unitaria
(S † = S −1 ). Dado que S es real, los autovalores vendrán de a pares conjugados con autovectores conjugados:
SX = λX, SX ∗ = λ∗ X ∗
SXr = λr Xr − λi Xi , SXi = λr Xi + λi Xr
de donde Xrt Xr = Xit Xi y Xit Xr = 0. Por lo tanto, vemos que en el subespacio generado por X ∗ , X,
existe una base real y ortonormal con el producto escalar euclideo, formada por (Xi , Xr ), en la que el bloque
correspondiente de [U ]e′ tiene la forma
′ cos φ − sin φ
Sφ =
sin φ cos φ
que representa una rotación de ángulo φ (Det[Sφ′ ] = 1). Y en el espacio euclideo completo, vemos entonces
que existe una base ortonormal e′ donde S ′ ≡ [U ]e′ tiene la forma
′
S φ1 0 ... 0 0
0 S ′ φ2 . . . 0 0
′
S = 0
0 ... 0 0
0 0 . . . ±1 0
0 0 . . . 0 ±1
donde Sφ′ i son bloques de la forma anterior que representan rotaciones en subespacios de dimensión 2, y
los elementos ±1 representan los posibles autovalores reales. U representa pues rotaciones (Det[S ′ ] = 1) o
rotaciones compuestas con reflexiones (Det[S ′ ] = −1). Por ej., en R3 , las posibilidades son un bloque Aφ
seguido de +1 (rotación) o −1 (rotación compuesta con reflexión).
En un espacio unitario y en una base ortonormal e, los elementos de matriz Tji = ([F ]e )ji pueden entonces
obtenerse, por ortonormalidad de los ei , como
De esta forma,
n
X
v= αi ei , αi = (ei , v)
i=1
y
n
X
F = Tji Eji , Tji = (ej , F (ei ))
i,j=1
13
Notación de Mecánica cuántica:
donde |ii ≡ ei y hi| ≡ f i (vector asociado del espacio dual). Por lo tanto
X
F = Fij |iihj|, Fij = hi|F |ji
i,j
A = U A′ V †
F = W M = M̃ W
A = U A′ V †
√
= (U V † )(V A′ V † ) = W M, W = U V † , M = V A′ V † = A† A
√
= (U A′ U † )(U V † ) = M̃ W, M̃ = U A′ U † = AA†
14
26 Desigualdad de Cauchy Schwarz y relaciones de incerteza
hψ|[F, G]|ψi = hψ|[F̃ , G̃]|ψi = hψ|F̃ G̃|ψi − hψ|G̃F̃ |ψi = 2i Im[h|ψ|F̃ G̃|ψi]
donde Im denota la parte imaginaria, ya que hψ|G̃F̃ |ψi = hψ|(G̃F̃ )† |ψi∗ = hψ|F̃ G̃|ψi∗ . Por lo tanto
1
2 |hψ|[F, G]|ψi| ≤ |hψ|F̃ G̃|ψi| ≤ (∆F )(∆G)
es decir,
(∆F )(∆G) ≥ 12 |h[F, G]iψ |
Esta es la denominada relación de incerteza entre dos operadores: Si el conmutador es no nulo entonces el
producto de sus “incertezas” (∆F )(∆G) en un estado |ψi no puede ser menor que el módulo del valor medio
del conmutador en dicho estado.
ComoR ejemplo fundamental, consideremos el espacio L2 de funciones ψ(x) de R → C de norma finita
∞
(||ψ||2 = −∞ |ψ(x)|2 dx < ∞) y que tienden a 0 para x → ±∞, tal que el producto escalar
Z ∞
(ψ, φ) = ψ ∗ (x)φ(x)dx
−∞
∂
esté bien definido. Los operatores X y P = −i~∂x R= −i~ ∂x , donde ~ = h/(2π), con ~ la constante de
∞ ∗
Planck, son autoadjuntos en este espacio: (ψ, Xφ) = −∞ ψ (x)xφ(x)dx = (Xψ, φ), y
Z ∞ Z ∞ Z ∞
∗ ′ ∞ ∗′
(ψ, P φ) = −i~ ψ (x)φ (x)dx = −i~[ ψ ∗ (x)φ(x) −∞ − ψ (x)φ(x)dx] = [−i~ψ ′ (x)]∗φ(x)dx = (P (ψ), φ)
−∞ −∞ −∞
Dado que [X, P ]ψ(x) = −i~(xψ ′ (x)−(xψ(x))′ ) = i~ψ(x) ∀ ψ, es decir, [X, P ] = i~I, obtenemos |h[X, P ]iψ | =
~ ∀ ψ y el resultado anterior implica entonces
~
(∆P )(∆X) ≥
2
El operador P representa en Mecánica Cuántica el operador impulso de una partı́cula (en una dimensión).
Por lo tanto, en cualquier estado cuántico el producto de las desviaciones estándar de X y P es no nulo y
mayor que ~/2.
15
27 Tensores (Resumen)
27. 1 Notación tensorial
P
Mediante la convención de Einstein para sumas, el cambio de base e′i = nj=1 Sji ej , con S = [I]ee una matriz
′
de n × n no singular, se escribe
e′i = Sij ej
P
donde Sij ej ≡ nj=1 Sij ej y n es la dimensión del espacio. El ı́ndice superior en S denota fila y el inferior
columna. En forma matricial, la relación anterior equivale pues a
(e′1 , . . . , e′n ) = (e1 , . . . , en )S
Pn −1 j Pn i
Por otro lado, la transformación x′i = j=1 Sij x de las componentes de un vector v = i=1 x ei =
Pn ′i ′
i=1 x ei , se escribe en la forma
x′i = Rji xj , R = S −1
Pn
donde Rji xj ≡ i j
j=1 Rj x . En forma matricial, la relación previa equivale pues a
′1 1
x x
... = R ...
x′n xn
lo que está también de acuerdo con el supraı́ndice como ı́ndice de fila. Notemos que
Rji Skj = Sji Rkj = δki
que es la expresión tensorial de la relación matricial RS = SR = I. El vector v se escribe entonces como
v = xi ei = x′i e′i
Como verificación, reemplazando x′i = Rji xj , e′i = Sik ek , se tiene x′i e′i = Rji Sik xj ek = δjk xj ek = xj ej .
En general, n componentes ai que se transforman como
a′i = Sij aj
se denominan covariantes, mientras que n componentes bi que se transforman como
b′i = Rji bj
con Rji Skj = δki (o sea, R = S −1 ) se denominan contravariantes. En tal caso, el producto
b′i a′i = bi ai
(donde la suma sobre i está implı́cita) permanece invariante frente a cambios de base.
Notemos finalmente que las relaciones inversas están dadas por
ai = Rij a′j , bi = Sji b′j
Transformación de las derivadas parciales:
Dado el cambio de variables lineal x′i = Rji xj y su relación inversa xj = Sij x′i , con S = R−1 , y R, S
independientes de las coordenadas, tenemos
∂xj ∂x′i
Sij = , R i
j =
∂x′i ∂xj
En virtud de la regla de la cadena, se obtiene entonces
n
X ∂xj ∂
∂
=
∂x′i ∂x′i ∂xj
j=1
1
27.2 Transformación de vectores del dual
Dada una base e = (e1 , . . . , en ) de V , los elementos de la base dual f = (f 1 , . . . , f n ) del espacio dual V ∗ (el
conjunto de formas lineales de V en K) quedan definidos por
(f i , ej ) = δji
f ′i = Rji f j
de forma que
(f ′i , e′j ) = Rki Sjl (f k , el ) = Rki Sjl δlk = Rli Sjl = δji
donde e′j = Sji ei . Un elemento arbitrario h ∈ V ∗ puede entonces ser escrito como
h = ai f i = a′i f ′i
donde
a′i = Sij aj
Notemos que si v = xi ei , h = ai f i ,
ai = (h, ei ), xi = (f i , v)
Finalmente, mencionemos que si (e1 , . . . , en ), (f ′1 , . . . , f ′n ) son bases arbitrarias de V y V ∗ respect., con
Rji = (f ′i , ej )
una matriz no singular, la base dual de V asociada a la base f ′ de V ∗ está dada por
e′i = Sij ej
con S = R−1 , ya que (f ′k , e′i ) = (f ′k , ej )Sij = Rjk Sij = δik . Análogamente, la base dual de V ∗ asociada a la
base e de V está formada por
f i = Sji f ′j
1 1
e′1 = (e1 − 3e2 ), e′2 = (e1 + 2e1 )
5 5
verificándose que f ′1 (e′1 ) = f ′2 (e′2 ) = 1, f ′1 (e′2 ) = f ′2 (e′1 ) = 0.
gij = (ei , ej )
2
Podemos escribir lo anterior también en la forma
||v||2 = xi xi , xi ≡ gij xj
que corresponde a un tensor de rango (2, 0) (dos veces covariante), como se verá en breve.
Las componentes xi se transforman pues en forma covariante:
En espacios euclideos V de dimensión finita, podemos identificar con cada elemento h del dual V ∗ uno y
sólo un vector wh ∈ V tal que
(h, v) = (wh , v)
∀ v ∈ V , donde el segundo paréntesis denota producto escalar: Si h = ai f i y wh = ai ei , con (f i , ej ) = δji ,
g ik gkj = δji
En lo sucesivo denotaremos a wh directamente como h. Por consiguiente, podemos escribir los elementos
de la base dual como combinación lineal de los ei . En notación tensorial,
f i = g ik ek
con
(f i , ej ) = g ik (ek , ej ) = g ik gkj = δji
Notemos también que
(f i , f j ) = g jk (f i , ek ) = g ji
por lo que g ji es el tensor métrico en la base dual. Un vector v puede pues escribirse en las formas
v = x i ei = x i f i
(v, w) = xi gij y j = xi yi = xi y i = xi g ij yj
27.4 Tensores
Un tensor general de p ı́ndices covariantes y q indices contravariantes (que denotaremos aquı́ como tensor (qp ))
j ...j
en un espacio de dimensión n, es un conjunto de np+q números Ti11...ipq dependientes de una base ordenada
B = (e1 , . . . , en ) de un espacio vectorial V , que se transforman frente a cambios de base e′i = Sij ej en la
forma
′j1′ ,...jq′ i j′ j ′ j ...j
Ti′ ...i ′ = Sii′1 . . . Si′p Rj11 . . . Rjqq Ti11...ipq
1 p 1 p
con R = S −1 . Por ejemplo, para un tensor (11 ), Tk′l = Rjl Ski Tij , que involucra una suma sobre i y j.
Una posible realización de un tensor (qp ) es una forma multilineal T : V p × (V ∗ )q → K de p vectores de
V y q vectores del espacio dual V ∗ (una función es multilineal si es lineal en cada uno de sus argumentos:
3
T (α1 v1 + α1′ v1′ , v2 , . . . , vp , w1 , . . . , wq ) = α1 T (v1 , v2 , . . . , vp , w1 , . . . , wq ) + α1′ T (v1′ , v2 , . . . , vp , w1 , . . . , wq ), y
similar para los restantes argumentos). En tal caso, si vi = xji ej y wi = aij f j ,
i
T (v1 , . . . , vp , w1 , . . . , wq ) = xi11 . . . xpp a1j1 . . . aqjq T (ei1 , . . . , eip , f j1 , . . . , f jq )
Si los f i son los vectores de la base dual ((f i , ej ) = δji ), los elementos
j ...j
Ti11...ipq ≡ T (ei1 , . . . , eip , f j1 , . . . , f jq )
se transforman como un tensor (qp ) frente a cambios de base: Si e′i = Sij ej , entonces f ′i = Rji f j y
′j ′ ...j ′ i j′ j′
= T (e′i′ , . . . , e′i′p , f ′j1 , . . . , f ′jq ) = T (Sii′1 ei1 , . . . , Si′p eip , Rj11 f j1 , . . . , Rjqq f jq )
1 q ′ ′
Ti′ ...i ′
1 p 1 1 p
i j′ j ′ j ...j
= Sii′1 . . . Si′p Rj11 . . . Rjqq Ti11...ipq
1 p
j ...j
Otra posibilidad es considerar a Ti11...ipq como las coordenadas de un vector T perteneciente al producto
tensorial de espacios V
| ⊗ .{z . . ⊗ V }∗ en una base B = {ej1 ⊗ . . . ⊗ ejq ⊗ f i1 ⊗ . . . ⊗ f ip }, donde
. . ⊗ V} ⊗ |V ∗ ⊗ .{z
q veces p veces
nuevamente (f i , ej ) = δji :
j ...j
T = Ti11...ipq ej1 ⊗ . . . ⊗ ejq ⊗ f i1 ⊗ . . . ⊗ f ip
Si ei = Rij e′j y f i = Sji f ′ j (tal que e′i = Sij ej , f ′ i = Rji f j , con R = S −1 ), tenemos
j ...j j′ j′ i i′ i′p
T = Ti11...ipq Rj11 . . . Rjqq Sii′1 . . . Si′p e′j ′ ⊗ . . . ⊗ e′jq′ ⊗ f ′ 1 ⊗ . . . ⊗ f ′
1 p 1
′
j ...j ′ ′
′ i1 i′p
= T ′ i′1...i′q e′j ′ ⊗ ... ⊗ e′jq′ ⊗f ⊗ . . . ⊗ f′
1 p 1
por lo que
j ′ ...j ′ i j′ j′ j ...j
T ′ i′1...i′q = Sii′1 . . . Si′p Rj11 . . . Rjqq Ti11...ipq
1 p 1 p
T′ = T
T ′i = Rji T j
Ti′ = Sij Tj
En forma matricial, esto corresponde a Tij = (RT S)ji , es decir, T ′ = RT S, con R = S −1 . Un ejemplo
son pues las matrices que representan operadores lineales F : V → V . Estos pueden expresarse como
F = Fij ej f i , de forma que F (ek ) = Fij ej (f i , ek ) = Fkj ej , siendo Fij = [F (ei )]j = ([F ]ee )ji la matriz que
lo representa en la base e. Recordemos que esta matriz se transforma precisamente como F ′ = RF S con
R = S −1 , o sea, Fi′j = Rlj Sik Fkl .
4
Un tensor (02 ) se transforma como
Tij′ = Sik Sjl Tkl
En forma matricial, esto equivale a Tij = (S t T S)ij , es decir, T ′ = S t T S. Un ejemplo son pues las matrices
que representan formas cuadráticas (funciones de V × V → K), de elementos Aij = A(ei , ej ), las que se
transforman como A′ = S t AS, es decir, A′ij = Sik Akl Sjl . En forma análoga se ve el caso de un tensor (20 )
(funciones de V ∗ × V ∗ en K).
27.5 Producto Tensorial de Espacios Vectoriales. Recordemos aquı́ que el producto tensorial
V ⊗ W de dos espacios vectoriales V , W sobre el mismo cuerpo K, de dimensiones n y m respectivamente,
es el espacio generado por los productos {ei ⊗ ẽj }, i = 1, . . . , n, j = 1, . . . , m, donde {e1 , . . . , en } es una base
de V y {ẽ1 , . . . , ẽm } una base de W . Se verifica, ∀ v ∈ V , w ∈ W y α ∈ K,
α(v ⊗ w) = (αv) ⊗ w = v ⊗ (αw)
(v1 + v2 ) ⊗ w = v1 ⊗ w + v2 ⊗ w, v ⊗ (w1 + w2 ) = v ⊗ w2 + v ⊗ w2
0⊗w =v⊗0=0
Si u ∈ V ⊗ W ⇒
n X
X m
u= cij ei ⊗ ẽj , cij ∈ K
i=1 j=1
Destaquemos que esto incluye vectores producto u = v ⊗ w, con v ∈ V y w ∈ W , como ası́ también vectores
que son combinaciones lineales de productos pero que no pueden ser escritos como un único producto. La
dimensión de V × W es n × m (y no n + m, como sucede con V × W ).
En mecánica cuántica, el espacio de estados de un sistema compuesto por dos subistemas distinguibles es
justamente el producto tensorial de los espacios de estados de cada subsistema, siendo estos últimos espacios
de Hilbert (K = C). Para ei ⊗ ẽj se emplea la notación |ii ⊗ |j̃i o directamente |ii|j̃i o |ij̃i.
Los estados producto |ui = |vi ⊗ |wi se denominan estados separables, mientras que los estados que no
pueden ser escritos como producto se denominan correlacionados o entrelazados.
27.6 Producto y Suma de tensores
′ ′
Sea T un tensor (qp ) y U un tensor (qp′ ) sobre el mismo espacio. Su producto es un tensor (p+p q+q ′ ) dado por
j1 ...j ′ j ...j jq+1 ...j ′
(T U )i1 ...i q+q′ = Ti11...ipq Uip+1 ...i q+q′
p+p p+p
5
27.8 Contracción de tensores
La contracción de un tensor (pq ), con p ≥ 1, q ≥ 1, queda definida por una suma de la forma
j ...k...j
Ti11......k...iq p
(donde la suma es sobre el ı́ndice repetido k), la cual se transforma como un tensor (p−1 i k i
q−1 ), pues Sk Rj = δj .
Por ejemplo, si
Uij = Tik
kj
entonces ′ ′ ′ ′ ′ ′ ′
Ui′j′ = Ti′k′ k′j = Sii′ Skl ′ Rkk Rjj Tilkj = Sii′ δkl Rjj Tilkj = Sii′ Rjj Tik
kj
= Sii′ Rjj Uij
′
′
donde hemos utilizado Skl ′ Rkk = δkl . Vemos pues que se transforma como un tensor (11 ).
ij
Ası́, dado un tensor Tkl (tensor (22 )) son posibles las 4 contracciones
kj jk kj jk
Tki , Tik , Tik , Tki
que originan 4 tensores (11 ) (en general distintos). Por otro lado, las dos posibles contracciones dobles que
dan lugar a un escalar (tensor (00 )) son
kj jk
Tkj , Tkj
Por ejemplo, dado el tensor Tij , la única contracción posible es el escalar Tii . Este representa la traza de
la matriz T :
Tr T = Tii
Esta es, como hemos visto, invariante frente a cambios de base.
Dado el tensor producto Tiljk = Fij Gkl , el escalar Tjk
jk
= Fjj Gkk representa, matricialmente, el producto
jk
de trazas: (TrF )(TrG) = Fii Gkk , mientras que el escalar Tkj = Fkj Gkj representa la traza del producto:
Tr(F G) = Fkj Gkj .
jk
Además, la contracción Tki = Fkj Gki es un tensor (11 ), que representa el producto matricial F G.
Un tensor es simétrico respecto a dos ı́ndices del mismo tipo si T... ...i...j... = T ...j...i... , y es antisimétrico si
...
...i...j...
T... ...j...i...
= −T... (Definición similar respecto de ı́ndices inferiores). Esta propiedad es independiente de
ij ji
la base: Por ejemplo, si Tkl = Tkl ,
′ ′ ′ ′ ′ ′
Tk′i′ lj′ = Rii Rjj Skk′ Sjj′ Tkl
ij
= Rii Rjj Skk′ Sjj′ Tkl
ji
= Tk′j′ l′i
′ ′
donde λ = F1,2,...,n y ǫi1 ,...,in es el sı́mbolo completamente antisimétrico que satisface ǫ1,2,...,n = 1 (sı́mbolo
de Levi-Civita). Por lo tanto,
donde
i
Det[X] = xi11 . . . xnp ǫi1 ...in
6
es el determinante de la matriz de elementos xij (la cual es una función multilineal completamente anti-
simétrica de las columnas de la matriz, que vale 1 para la matriz identidad). Por ejemplo, para n = 2,
Det[X] = xi1 xj2 ǫij = x11 x22 ǫ12 + x21 x12 ǫ21 = x11 x22 − x21 x12 , mientras que para n = 3,
Det[X] = xi1 xj2 xk3 ǫijk = x11 x22 x33 ǫ123 + x11 x32 x23 ǫ132 + x21 x32 x13 ǫ231 + x21 x12 x33 ǫ213 + x31 x12 x23 ǫ312 + x31 x22 x13 ǫ321
= x11 x22 x33 − x11 x32 x23 + x21 x32 x13 − x21 x12 x33 + x31 x12 x23 − x31 x22 x13 .
Notemos también que xi1 xj2 ǫij = x11 x22 − x21 x12 = x11 x22 − x12 x21 = x1i x2j ǫij , donde ǫij = ǫij , y en general,
1 j1
Det[X] = xj11 . . . xjnn ǫj1 ...jn = n! xi1 . . . xjinn ǫj1 ...jn ǫi1 ...in = x1i1 . . . xnin ǫi1 ...in ,
donde ǫi1 ...in = ǫi1 ...in .
Observemos que frente a un cambio de base general, Fi1 ,...,in = F (ei1 , . . . , ein ) transforma como
Fi′′ ...i′n = Sii′1 . . . Sii′n Fi1 ...in = λSii′1 . . . Sii′n ǫi1 ...in = λDet(S)ǫi′1 ...i′n = Det(S)Fi′1 ,...,i′p
1 1 n 1 n
Subida y bajada de ı́ndices y tensores cartesianos. En un espacio euclideo, es posible bajar o subir
ı́ndices de un tensor mediante el tensor métricogij = (ei , ej ), y su inversa g ij = (f i , f j ), que son tensores
simétricos de tipo (02 ) y (20 ) respectivamente:
j ,...,j ′ ′
Ti11...,ip q = T (ei1 , . . . , eip , f j1 , . . . , f jq ) = T (ei1 , . . . , eip , g j1 j1 ej1′ , . . . , g jq jq ejq′ )
′ ′ ′ ′
= g j1 j1 . . . g jq jq T (ei1 , . . . , eip , ej1 , . . . , ejq ) = g j1 j1 . . . g jq jq Ti1 ...,ip ,j1′ ,...,jq′
Por ejemplo, si Tij es un tensor (11 ), T ji = g ki Tkj es un tensor (20 ) y Tji = gjk Tik es un tensor (02 ). Ten-
sores cartesianos: En un espacio euclideo V , si nos restringimos a transformaciones isométricas entre bases
ortonormales, entonces gij = (ei , ej ) = δij , g ij = δ ij y f i = g ij ej = ei . En tal caso no se puede distinguir
ij
entre ı́ndices covariantes y contravariantes y se tiene T i = Ti , Tji = T ij = Tij , Tkl = Tijkl , etc.
Notemos precisamente que para transformaciones P i i entre bases ortonormales (isometrı́as) R = S −1 = S t ,
i j ′j j i j
es decir, Rj = Si . En tal caso, T = Ri T = i Sj T , verificándose que T se transforma igual que Tj .
se dice que T es un pseudotensor cartesiano de rango p. Se comporta como un tensor de rango p frente
a cambios de base que satisfacen Det[S] = +1 (rotaciones) pero exhibe un cambio de signo adicional si
Det[S] = −1 (reflexiones).
Por ejemplo, frente a isométrı́as, el tensor completamente antisimétrico Fi1 ,...in = F (e1 , . . . , en ) es
′
un pseudoescalar, mientras que (a × b)k = ai bj ǫijk es un pseudovector (a′i b′j ǫi′ j ′ k = Rii Rjj ai aj ǫi′ j ′ k =
′ ′ ′
′
Rii Rjj Rlk Skl ai aj ǫi′ j ′ k′ = Det(R)Skl ai aj ǫijl = Det(S)Skl (a × b)l ).
′ ′
∂x′i
dx′i = Rji dxj , Rji = = ∂j x′i
∂xj
La matriz inversa es
∂xi
Sji = = ∂j′ xi
∂x′j
y satisface
Sji Rkj = Rji Skj = δki
Tanto S como R dependen ahora de las coordenadas. Podemos considerar en c/punto la base definida por
e′i = Sij ej
siendo aquı́ e = (e1 , . . . , en ) una base de V independiente de las coordenadas, y e′ = (e′1 , . . . , e′n ) dependiente
de las coordenadas.
7
Si e es la base canónica, el tensor métrico original es gij = (ei , ej ) = δij mientras que en la nueva base,
′ = (e′ , e′ ) = S k S l g = S k S l δ , es decir, g ′ = S T S en notación matricial. Se obtiene entonces
gij i j i j kl i j kl
j ,...,j
T = Ti11,...,ipq (x1 , . . . , xn )ej1 ⊗ . . . ⊗ ejq ⊗ f i1 ⊗ f ip
con
j ′ ,...,j ′ i j′ j′ j ,...,j
T ′ i′1,...,i′q (x′1 , . . . , x′n ) = Sii′1 . . . Si′p Rj11 . . . Rjqq Ti11,...,ipq (x1 , . . . , xn )
1 p 1 p
El segundo término da cuenta de la dependencia de la base de las coordenadas. Dado que e′i = Sik ek , se
tiene ∂j′ e′i = (∂j′ Sil )el = (∂j′ Sil )Rlk e′k y por lo tanto
donde Γkij = (∂j′ Sil )Rlk = −Sil ∂j′ Rlk son los sı́mbolos de Christoffel, que dan cuenta de la variación de los
elementos de la base. Como Sji = ∂j′ xi ⇒ Γkij = Γkji , pues ∂j′ Sil = ∂j′ ∂i′ xl = ∂i′ ∂j′ xl = ∂i′ Sjl .
Se obtiene entonces
∂j′ v = [(∂j′ v ′k ) + v ′i Γkij ]e′k
La expresión
v ′k;j ≡ v ′k,j + v ′i Γkij
donde v ′k,j ≡ ∂j′ v ′k , se denomina derivada covariante de las componentes contravariantes, y satisface las
reglas correctas de transformación. Tenemos pues
En el caso de que la base sea independiente de las coordenadas, Γkij = 0 y la derivada covariante se reduce
a la usual (v i;j = v i,j ).
Por ejemplo, la divergencia de un campo vectorial v = v i ei = v ′i e′i puede entonces expresarse en la forma
(demostrar como ejercicio)
∂i v i = v i,i = v ′i;i = (∂i′ v ′i ) + v ′i Γjij
Para componentes covariantes, tenemos v = vi f i = vi′ f ′i , con f ′i = Rki f k , y f k independiente de las
coordenadas. Por lo tanto,
∂j′ v = (∂j′ vi′ )f ′i + v ′i (∂j′ f ′i )
Pero ∂j′ f ′i = (∂j′ Rli )f l = Skl (∂j′ Rli )f ′k = −Γikj por lo que
8
La derivada covariante de componentes covariantes debe pues definirse como
′
vk;j ′
= vk,j − vi′ Γikj
para que
∂j′ v = vk;j
′
f ′k
En forma análoga se definen las derivadas covariantes de tensores arbitrarios de rango (pq )
Dado que gik′ = S l S m g , tenemos, para g ′ ′ ′ l m
i k lm lm independiente de las coordenadas, ∂j gik = (∂j Si )Sk glm +
l ′ m ′ l r s m ′ m r s l r ′ r ′
Si (∂j Sk )glm = (∂j Si )Rl Sr Sk gsm + (∂j Sk )Rm Sr Si gls = Γij grk + Γkj gir , por lo que
′ l
′
gik;j ′
= gik,j − glk Γij − gil′ Γlkj = 0
x = r cos θ , y = r sin θ
En este caso, los únicos sı́mbolos de Christoffel no nulos son Γθrθ = Γθθr = 1/r, Γrθθ = −r.
La divergencia de un campo vectorial
v = v x ex + v y ey = v r er + v θ eθ
es entonces
∂x v x + ∂y v y = ∂r v r + ∂θ v θ + v r Γθrθ = ∂r v r + ∂θ v θ + v r /r
El gradiente de un campo escalar φ puede escribirse en la forma (∂ i φ)ei = (∂ ′i φ)e′i , donde ∂ ′i = g ′ij ∂j′ .
Por lo tanto,
∂φ ∂φ ∂φ 1 ∂φ
ex + ey = er + 2 eθ
∂x ∂y ∂r r ∂θ
Finalmente, el Laplaciano de un campo escalar φ (la divergencia del gradiente de φ) puede expresarse
como
∂2φ 1 ∂ 2 φ 1 ∂φ
∂i ∂ i φ = ∂i′ ∂ ′i φ + Γiji ∂ ′j φ = + +
∂r2 r2 ∂θ2 r ∂r