Syllabus SMATB101
Syllabus SMATB101
Alexandre MAUROY
Département de Mathématique
Université de Namur
3 Sous-espaces vectoriels 24
3.1 Sous-espaces vectoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Définition d’un sous-espace vectoriel . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.2 Dimension d’un sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1.3 Somme directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Noyau et image d’une application linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Définitions du noyau et de l’image d’une application linéaire . . . . . . . . . . . 30
1
3.2.2 Propriétés du noyau et de l’image d’une application linéaire . . . . . . . . . . . 30
3.2.3 Propriétés du noyau et de l’image d’une transformation linéaire . . . . . . . . . 32
4 Matrices 34
4.1 Applications linéaires et matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.1 Construction d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2 Matrice colonne associée à un vecteur . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.3 Image et rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.4 Opérations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.5 Matrices et changements de bases . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1.6 Matrices des transformations linéaires . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Définition et propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.2 Transpositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.3 Parité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Déterminants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.2 Mineurs et cofacteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Calcul des déterminants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.4 Déterminant d’un produit de matrices . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Matrice inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5 Matrices spéciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.6 Similitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7 Résolution de systèmes d’équations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Structure propre 62
5.1 Valeurs propres et vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.1 Définition et invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.2 Polynôme caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.3 Multiplicité algébrique et multiplicité géométrique . . . . . . . . . . . . . . . . 67
5.2 Décomposition spectrale et forme canonique de Jordan . . . . . . . . . . . . . . . . . . 70
5.2.1 Définition et construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2 Interprétation géométrique de la forme de Jordan . . . . . . . . . . . . . . . . . 74
5.2.3 Calcul des vecteurs propres généralisés . . . . . . . . . . . . . . . . . . . . . . 75
5.3 Dominance diagonale et valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2
6.2.2 Produit scalaire complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.2.3 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3 Orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3.1 Relations de Bessel, Parseval et Cauchy-Schwarz . . . . . . . . . . . . . . . . . 86
6.3.2 Orthonormalisation de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . . 87
6.3.3 Structure propre et orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7 Normes matricielles 90
7.1 Normes matricielles compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.2 Quelques normes matricielles usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.3 La trace d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.4 Propriétés élémentaires des normes matricielles . . . . . . . . . . . . . . . . . . . . . . 97
3
Avant-propos
Ces notes ont été rédigées par le Pr. Anne Lemaı̂tre, qui a aimablement accepté de les mettre à ma
disposition. Je l’en remercie chaleureusement.
Le manuscrit a été révisé. Il est amené à l’être encore dans le courant des prochaines années. Tout
commentaire ou signalement d’erreurs de typographie sera grandement apprécié.
4
Chapitre 1
1.1.1 Groupe
Considérons un ensemble E non vide, et munissons-le d’une loi de composition #, interne et partout
définie (IPD). Par là, nous entendons que la loi de composition # est une fonction du produit cartésien
E × E dans E qui, à chaque couple d’éléments de E, fait correspondre un élément de E. Observons que
la loi # est une loi quelconque.
∀ x, y ∈ E : x#y ∈ E
Exemples
— E = N et # = + : IPD (idem si # = ·)
— E = N et # = − : pas IPD
— E = Z et # = + : IPD (idem si # = − ou # = ·)
— E = Q et # = + : IPD (idem si # = − ou # = ·)
— E = Q et # = / : pas IPD (impossible de diviser par 0)
— E = R et # = + : IPD (idem si # = − ou # = ·)
— E = C et # = + : IPD (idem si # = − ou # = ·)
5
1. ∀ x, y, z ∈ E : (x#y)#z = x#(y#z),
2. ∃ e ∈ E, ∀ x ∈ E : e#x = x#e = x,
3. ∀ x ∈ E, ∃ y ∈ E : x#y = e = y#x.
Les propriétés caractéristiques 1), 2) et 3) portent aussi des noms : si une loi # satisfait 1), on dira
qu’elle est associative . Si l’ensemble E contient un élément e satisfaisant 2), on dira que l’élément e est
un neutre pour la loi # . On dit alors que e est le zéro du groupe. Finalement, si les éléments de E satisfont
la propriété 3), on dira qu’ils sont symétrisables. Ces propriétés sont fondamentales en algèbre et seront
utilisées à de nombreuses reprises.
Nous nous intéressons aussi à une notion un peu plus restrictive qui est celle de groupe commutatif.
Cette notion de commutativité signifie simplement que l’ordre dans lequel on écrit les opérations pour
la loi # n’a pas d’importance. Nous verrons que ce n’est pas nécessairement le cas de toutes les lois
algébriques que nous étudierons.
Exemples
1.1.2 Anneau
Si nous adjoignons à l’ensemble E une seconde loi interne partout définie, nous pouvons imposer
certaines relations entre les deux lois de composition. Les deux lois sont notées + et · et nous considérons
le triplet {E, +, ·}.
6
Cette propriété s’appelle la distributivité de · par rapport à + .
Un anneau est donc composé d’un groupe commutatif assorti d’une seconde loi interne associative et
distributive par rapport à la loi du groupe. Nous dirons de plus qu’un anneau est unitaire si la seconde loi
admet un neutre.
Le neutre n est alors appelé unité de l’anneau. L’ensemble des nombres rationnels muni des lois
d’addition et de multiplication habituelles est un anneau. On peut, par contre, vérifier à titre d’exercice
que l’ensemble des nombres entiers naturels, muni des mêmes lois, n’est pas un anneau.
1.1.3 Corps
Si nous considérons un anneau unitaire, nous voyons qu’il reste une propriété que nous pouvons
imposer à la seconde loi (·) : la symétrisabilité. Si nous l’imposons, nous obtenons ce qu’on appelle un
corps.
L’ensemble des nombres réels R muni des lois d’addition et de multiplication habituelles est un corps.
Par contre, l’anneau unitaire formé de l’ensemble des entiers muni des mêmes lois n’en n’est pas un.
Comme plus haut, nous pouvons définir un corps commutatif en exigeant que la seconde loi (·) soit
commutative.
Exemples
7
1.1.4 Espace vectoriel
Pour définir un espace vectoriel, nous avons besoin de deux ensembles et d’un certain nombre de lois
de composition. D’abord, nous choisissons un corps commutatif K (ou, plus exactement, {K, +, ·}) dans
lequel nous puiserons des nombres appelés scalaires. Nous avons aussi besoin d’un ensemble E d’objets
que l’on appelle vecteurs 1 . Cet ensemble de vecteurs sera doté de deux lois de composition. La première,
notée provisoirement #, est une loi interne : elle correspondra à l’addition de vecteurs. La seconde, notée
• , associe à un scalaire et à un vecteur un nouveau vecteur. Il ne s’agit donc plus d’une loi interne, mais
bien d’une loi définie sur le produit cartésien K × E et à valeurs dans E.
Nous pouvons maintenant définir rigoureusement un espace vectoriel. Considérons un ensemble de
vecteurs E muni de deux lois de composition # et • définies comme décrit plus haut. Considérons aussi
un corps commutatif {K, +, ·}.
On dit, plus brièvement, que E est un espace vectoriel sur K. On appelle souvent la propriété 3)
associativité mixte et les propriétés 5) et 6) double distributivité.
On s’apercevra aussi que, dans beaucoup de cas, les distinctions de notation entre + et # et entre ·
et • seront oubliées. On notera souvent l’addition vectorielle +. La multiplication par un scalaire • est
souvent remplacée par un point (·) ou est simplement omise.
1.1.5 Exemples
Nous donnerons maintenant quelques exemples d’espaces vectoriels couramment utilisés en mathé-
matique.
1. Considérons (K, +, .), un champ de scalaires (par exemple les réels, ou les nombres complexes,
ou les rationnels). Si nous interprétons les lois # et + comme représentant l’addition ordinaire
dans K et si nous interprétons · et • comme la multiplication dans K, K est un espace vectoriel sur
lui-même. Autrement dit, K est un espace vectoriel sur K.
2. Définissons Kn comme l’ensemble des n-uplets de scalaires de K. Si
x = (x1 , x2 , . . . , xn )
1. Par souci de distinction avec les scalaires, les vecteurs d’un espace vectoriel seront toujours notés en gras.
8
et
y = (y1 , y2 , . . . , yn )
sont des éléments de Kn , nous définissons alors
x + y = (x1 + y1 , x2 + y2 , . . . , xn + yn ),
1.2.1 Définition
Définition 1.8 Une application linéaire f d’un espace vectoriel E dans un espace vectoriel F , construits
sur le même champ de scalaires K, est une application qui, à chaque vecteur x de E fait correspondre un
vecteur de F noté f (x), et qui vérifie :
Cette définition n’a un sens que si les espaces vectoriels E et F sont construits sur le même champ
de scalaires K. La linéarité implique que le neutre de E, 0E a toujours pour image (si l’application est
linéaire) le neutre de F , 0F .
Un cas particulier est l’application linéaire nulle :
Définition 1.9 L’application linéaire nulle, de E dans F , notée 0, est définie par :
0:E→F :x 0F
ce qui signifie
∀ x ∈ E : 0(x) = 0F .
9
Exemples
Si une application f est injective, cela signifie que tout vecteur de F ne peut être l’image par f que d’un
vecteur de E tout au plus. Notez qu’il pourrait aussi n’être l’image d’aucun vecteur de E.
Si une application f est surjective, tout vecteur de F est l’image par f d’au moins un vecteur de E. Notez
qu’il pourrait être l’image de plusieurs vecteurs de E.
Finalement, nous pouvons combiner les propriétés d’injectivité et de surjectivité, ce qui correspond à
la bijectivité.
Définition 1.12 Une application linéaire f de E dans F est bijective si elle est injective et surjective.
Si une application f est bijective, tout vecteur de F est l’image par f d’un et un seul vecteur de E, ni plus
ni moins. Autrement dit, chaque vecteur de E peut être associé à un vecteur unique de F , et inversement.
Dans ce cas, comme nous le verrons plus loin, il est possible de définir l’application réciproque f −1 de f .
Définition 1.13 L’application s, de E vers F , appelée somme des applications linéaires f et g et notée
f + g, est définie par la relation
10
Remarquons que le dernier + dans la définition est la loi interne de l’espace vectoriel F . L’application
linéaire 0 que nous avons définie en (1.9) sera le neutre de la loi +. Nous pouvons aussi multiplier une
application linéaire par un scalaire.
Définition 1.14 L’application h, de E vers F , appelée produit de l’application linéaire f par le scalaire
α ∈ K et notée α f , est définie par la relation
Le dernier produit dans la définition est la loi externe de l’espace vectoriel F , construit sur le champ K.
On montre facilement que l’ensemble des applications linéaires de E vers F muni de cette loi interne
et de cette loi externe est un espace vectoriel sur K. On pourrait aussi multiplier ou composer des appli-
cations linéaires les unes avec les autres ; cependant ce ne sera possible que si l’espace vectoriel d’arrivée
de la première est l’espace vectoriel de définition de la suivante. Par exemple, considérons une application
linéaire f définie de E vers F , et une seconde application linéaire g de F vers G,
f g
E −→ F −→ G
où les espaces E, F et G sont trois espaces vectoriels construits sur le même champ de scalaires K.
On peut alors définir le produit p = gf mais le produit f g n’a aucun sens.
Définition 1.15 L’application p, appelée produit (ou composée) des applications linéaires g et f , est définie
par la relation
∀ x ∈ E : p(x) = (gf )(x) = g(f (x)).
Rappelons que f est définie de E vers F , g de F vers G et par conséquent, par sa définition, p = gf est
définie de E vers G. La composée de deux applications n’est pas une loi interne et n’est définie que dans
certains cas de compatibilité. Elle permet de composer deux objets d’ensembles différents pour former un
troisième objet appartenant à un troisième ensemble.
Définition 1.16 Une application linéaire f d’un espace vectoriel E dans lui-même est appelée une
transformation linéaire.
11
Une transformation linéaire particulière est la transformation identique ou l’identité :
I:E→E:x x
ce qui signifie
∀ x ∈ E : I(x) = x.
Définition 1.18 La transformation f g, appelée produit (ou composée) des transformations linéaires f et
g, est définie par la relation
∀ x ∈ E : (f g)(x) = f (g(x)).
En général, même s’il est toujours bien défini dans le cadre des transformations linéaires, on constate
que le produit s = f g n’est pas identique au produit r = gf . La multiplication des transformations
linéaires n’est donc pas commutative.
Néanmoins, la plupart des autres propriétés algébriques de la multiplication des nombres se trans-
mettent au produit des transformations. On vérifiera, par exemple, que
f (g + h) = f g + f h,
(f + g)h = f h + gh,
f (gh) = (f g)h.
et
f I = f = I f,
ce qui signifie que le produit est distributif par rapport à l’addition des transformations, que le produit est
associatif et que l’identité est le neutre. Nous obtenons une structure d’anneau unitaire pour l’ensemble
des transformations linéaires sur E (sans aucun sens pour les applications).
De l’associativité, nous déduisons les puissances entières positives d’une transformation linéaire qui
se définissent de manière naturelle : on dira que le produit de la transformation f m fois par elle-même
est f m . Les relations que nous venons de voir impliquent alors les règles habituelles d’exponentiation :
f n f m = f n+m,
12
et
(f m )n = f mn .
∀ x ∈ E : f −1 (f (x)) = x = f (f −1 (x))
∀ y ∈ E : f ⇐ (y) = x ⇔ y = f (x).
Lorsque nous parlons de f ⇐ , nous faisons référence à une définition de fonction ; quand nous parlons
de f −1 , nous faisons référence au symétrique de la fonction f pour la loi produit de transformations
linéaires.
Seules les transformations linéaires bijectives admettent une réciproque, qui est aussi linéaire.
Théorème 1.1 La réciproque d’une bijection linéaire est une bijection linéaire.
Preuve.
Soit f une bijection linéaire. Considérons l’expression f −1 (αy1 + βy2 ) où α et β sont des scalaires
quelconques. Si f (x1 ) = y1 et f (x2 ) = y2 , alors la linéarité de f implique que
de sorte que
f −1 (αy1 + βy2 ) = αx1 + βx2 = αf −1 (y1 ) + βf −1 (y2 )
13
Théorème 1.2 1. Si f et g sont deux transformations linéaires sur E inversibles, alors f g est
inversible et
(f g)−1 = g−1 f −1 .
(f −1 )−1 = f.
14
Chapitre 2
Supposons que nous avons une collection de nombres indexés par des indices appartenant à un en-
semble fini d’indices I. Supposons que ces nombres soient notés ai . Nous noterons la somme de tous ces
nombres, pour tous les i dans l’ensemble I
X
ai .
i∈I
Si les indices i sont des nombres entiers, c’est-à-dire si I est un sous-ensemble de l’ensemble des entiers
non négatifs N, on peut aussi spécifier l’ensemble des entiers pour lesquels la sommation est effectuée par
ses bornes. Par exemple, si l’on désire sommer les ai pour tous les i allant de 1 à m, le résultat de cette
sommation s’écrira
Xm
ai .
i=1
Remarquons encore que, si l’ensemble des indices considéré est vide, la somme est définie comme ayant
la valeur nulle.
Il est bien clair qu’on utilise cette notation non seulement avec des nombres mais aussi avec tous les
objets mathématiques pour lesquels la somme est définie : vecteurs, matrices, fonctions, etc.
Nous noterons aussi {ai }m m
i=1 ou {ai }i=1 l’ensemble des scalaires ou vecteurs, respectivement, qui
sont indexés par des indices i compris entre 1 et m.
15
Définition 2.1 Les vecteurs {xi }m
i=1 sont linéairement dépendants si et seulement si il existe un ensemble
m
de m scalaires {αi }i=1 non tous nuls tels que
m
X
αi xi = 0.
i=1
Cela signifie qu’on peut exprimer un vecteur de l’ensemble {xi }m i=1 en fonction des autres. Le fait
qu’un ensemble de vecteurs ne satisfait pas la propriété est également intéressant. Dans ce cas, on dit
que les vecteurs {xi }m
i=1 sont linéairement indépendants. Plus précisément, nous utiliserons la définition
suivante :
m
X
αi xi = 0
i=1
∀ α ∈ K : α 0E = 0E ,
2. Si x et y sont deux vecteurs quelconques de C (considéré comme espace vectoriel sur lui-même),
ils sont linéairement dépendants. En effet, si x = y = 0, c’est évident. Sinon, nous avons l’équation
yx + (−x)y = 0
e1 = (1, 0) (2.1)
et
e2 = (0, 1). (2.2)
16
A l’aide de cette définition, nous pouvons exprimer de manière plus rigoureuse la caractérisation de
dépendance linéaire que nous avons mentionnée plus haut.
Théorème 2.1 Les vecteurs non nuls {xi }ni=1 sont linéairement dépendants si et seulement si il
k−1
existe un k entre 2 et n tel que xk soit combinaison linéaire des vecteurs {xi }i=1 (c’est-à-dire xk
est combinaison linéaire des précédents).
Preuve.
( ⇒) Supposons que les vecteurs {xi }ni=1 soient linéairement dépendants et soit k le premier entier entre
2 et n tel que les vecteurs {xi }ki=1 soient linéairement dépendants. Alors
k
X
αi xi = 0
i=1
pour certains coefficients α1 , . . . , αk non tous nuls. De plus, nous savons que αk 6= 0, sinon les k − 1 pre-
miers vecteurs seraient linéairement dépendants, ce qui est impossible par définition de k. Par conséquent,
k−1
X αi
xk = − xi
αk
i=1
xk = α1 x1 + · · · + αk−1 xk−1
Cette dernière égalité implique bien que les vecteurs {xi }ni=1 sont linéairement dépendants.
Ce concept de combinaison linéaire nous permet alors de définir celui de base d’un espace vectoriel.
Définition 2.5 Une base d’un espace vectoriel E non réduit à l’origine est un ensemble X de vecteurs
linéairement indépendants et générateurs de E.
17
La définition qui suit complète la précédente :
Définition 2.6 Un espace vectoriel non réduit à l’origine est de dimension finie si et seulement si il admet
une base X composée d’un nombre fini de vecteurs.
Dans le cadre de ce cours, nous nous restreindrons à l’examen des espaces vectoriels de dimension
finie.
Les vecteurs e1 = (1, 0) et e2 = (0, 1) forment une base de R2 . En effet, pour tout vecteur v ∈ R2 , il
existe des scalaires α1 et α2 tels que
v = α1 e1 + α2 e2 .
Plus généralement, on peut vérifier que l’ensemble de vecteurs {ei }ni=1 défini par les relations
(
def 1 si i = j,
[ei ]j = δij = , (2.3)
0 si i 6= j
pour i et j entre 1 et n, est une base de Kn . Le symbole δij défini à l’équation (2.3) est le symbole de
Kronecker . Cette base est la base canonique de Kn construit comme espace vectoriel sur le champ K.
Exemples
Les vecteurs (1, 0, 0), (0, 1, 0) et (0, 0, 1) forment la base canonique de l’espace R3 . Les vecteurs
(1, 0) et (0, 1) forment la base canonique de l’espace R2 .
Une autre manière de définir la base canonique dans Kn est de dire que c’est la base dans laquelle
chaque n-uplet a pour composantes les scalaires qui le définissent. C’est pourquoi ces scalaires sont sou-
vent appelés composantes alors qu’on devrait dire, pour être complet, composantes dans la base cano-
nique. En effet, dans une base quelconque X = {xi }ni=1 de Kn , on peut à nouveau écrire
n
X
v= α′i xi
i=1
18
En d’autres mots, tout ensemble de vecteurs linéairement indépendants peut être complété pour former
une base.
Preuve.
Remarquons d’abord que si les vecteurs {yi }mi=1 sont linéairement indépendants, ils sont tous non nuls.
Comme E est un vectoriel de dimension finie, il est possible de trouver une base finie X = {xi }ni=1 .
Considérons maintenant l’ensemble
S = {y1 , y2 , . . . , ym , x1 , x2 , . . . , xn }
dans cet ordre. Appliquons lui le théorème 2.1 plusieurs fois de suite, en observant d’abord que l’en-
semble S est un ensemble de vecteurs linéairement dépendants. En effet, les vecteurs yi sont combinai-
sons linéaires des xi , car ceux-ci forment une base. On déduit donc de cette proposition qu’il existe un
vecteur z dans S qui est une combinaison linéaire des précédents. Puisque nous avons supposé les vecteurs
yi linéairement indépendants, le vecteur z est donc égal à l’un des vecteurs xi . Soit
z = xj
Comme les vecteurs xi forment une base de E et que xj est combinaison linéaire des éléments de S ′ , on
voit que tous les vecteurs de E sont bien combinaisons linéaires des vecteurs de S ′ . Si les vecteurs de S ′
sont linéairement indépendants, nous avons terminé, car il suffit de choisir les {yi }m+p
i=m+1 identiques aux
′
xi qui restent dans S (avec, par conséquent, p = n−1). S’ils sont linéairement dépendants, nous pouvons
recommencer la procédure et ôter un xi de plus de l’ensemble S ′ , jusqu’à obtenir un ensemble de vecteurs
linéairement indépendants. Ce dernier ensemble est bien une base qui contient tous les {yi }m i=1 . On peut
m+p
alors choisir, comme plus haut, les {yi }i=m+1 identiques aux xi qui restent dans cet ensemble.
Nous prouvons maintenant que le nombre de vecteurs dans une base de E est indépendant de la base
choisie.
Théorème 2.3 Le nombre de vecteurs d’une base quelconque d’un espace vectoriel de dimension
finie est identique à celui de toute autre base du même espace.
Preuve.
La preuve de cette proposition est fort semblable à celle de la proposition précédente. Soient
X = {xi }ni=1
et
Y = {yi }m
i=1
19
deux ensembles finis de vecteurs, et supposons que tout vecteur de E soit combinaison linéaire des vec-
teurs de X et que les vecteurs de Y soient linéairement indépendants. Nous considérons alors
S1 = {y1 , x1 , . . . , xn .}
On voit immédiatement que tout vecteur de E est combinaison linéaire des vecteurs de S1 , car les xi ont
cette propriété. On voit aussi, comme plus haut, que les vecteurs de S1 sont linéairement dépendants. On
applique alors la proposition 2.1 et on obtient, comme dans la preuve de la proposition précédente, un
nouvel ensemble
S1′ = {y1 , x1 , . . . , xj−1 , xj+1 , . . . , xn }.
Tout vecteur de E est alors une combinaison linéaire de vecteurs de S1′ . On construit alors
et on sait alors que S2 est un ensemble de vecteurs linéairement dépendants dont chaque vecteur de E
est combinaison linéaire. S2 a donc les mêmes propriétés que S1 et l’on peut donc lui appliquer le même
raisonnement, lui retirer l’un des xi et lui rajouter un yi . Si n < m, on peut continuer ainsi de suite
jusqu’à enlever tous les vecteurs xi et obtenir ainsi
Sn′ = {y1 , . . . , yn }
qui est toujours un ensemble générateur. Cela implique alors que yn+1 est combinaison linéaire des vec-
teurs y1 , . . . , yn , ce qui est impossible et on conclut que n ≥ m. Finalement, on peut recommencer le
même raisonnement depuis le début en intervertissant les rôles de X et Y pour obtenir dans ce cas m ≥ n.
Finalement, on obtient donc m = n et la proposition est démontrée.
Nous prouvons aussi une propriété presque évidente des bases :
Théorème 2.4 Soit X une base d’un espace vectoriel de dimension finie E non réduit à l’origine.
Alors tout vecteur de E s’exprime de manière unique en fonction de la base.
Preuve.
Soit {xi }m
i=1 la base X considérée. Soit aussi z un vecteur quelconque de E et supposons que z puisse
s’exprimer de deux manières comme combinaison linéaire de la base, c’est à dire
m
X m
X
z= αi xi = βi xi . (2.4)
i=1 i=1
20
et, comme les vecteurs xi de la base sont linéairement indépendants, ceci implique
αi = βi (i = 1, . . . , m).
Les deux combinaisons linéaires de (2.4) sont donc identiques et la proposition est démontrée.
Définition 2.7 La dimension d’un espace vectoriel de dimension finie est le nombre de vecteurs dans une
base quelconque de cet espace.
Cette définition est maintenant possible, puisque nous venons de voir que toutes les bases d’un espace
vectoriel de dimension finie ont le même nombre d’éléments. Remarquons aussi que l’espace vectoriel
réduit à l’origine ne possède pas de base (aucun vecteur n’est linéairement indépendant) et sera de dimen-
sion nulle (aucun vecteur dans la base).
Nous noterons la dimension d’un espace vectoriel E par dim(E). On peut aussi déduire immédiatement
que Rn (construit comme espace vectoriel sur R) et Cn (construit comme espace vectoriel sur C) sont des
vectoriels de dimension n.
Nous énonçons finalement deux propositions faciles, dont les preuves sont laissées en exercice.
Théorème 2.6 Un ensemble de n vecteurs d’un espace vectoriel E de dimension n forment une
base si et seulement si ils sont linéairement indépendants.
Définition 2.8 Deux espaces vectoriels E et F (sur le même corps K) sont isomorphes (E ≡ F ) si et
seulement s’il existe un isomorphisme f entre E et F , ou, en d’autres termes, s’il existe une bijection
linéaire f de E dans F .
21
Si E = F , on appelle l’isomorphisme un automorphisme (d’espaces vectoriels). La première propriété
intéressante est énoncée dans le théorème suivant :
Théorème 2.7 Deux espaces vectoriels de dimension finie, construits sur le même champ de sca-
laires, ont la même dimension s’ils sont isomorphes.
Preuve.
Cette proposition est assez évidente. A tout vecteur d’une base du premier correspond un et un seul vecteur
du second. A toute base du premier correspond donc un et un seul ensemble de n vecteurs du second, où n
est la dimension du premier. Il suffit de vérifier que cet ensemble forme une base du second espace. Pour
cela, choisissons un vecteur y de cet espace et soit f la bijection entre les deux espaces. A y correspond
donc un et un seul vecteur du premier espace x. On obtient alors
n n
!
X X
y = f (x) = f αi xi = αi f (xi ),
i=1 i=1
et les vecteurs f (xi ) engendrent bien le second espace tout entier. Supposons maintenant que
n
X
αi f (xi ) = 0.
i=1
Alors
n
!
X
f αi xi =0
i=1
et donc aussi
n
X
αi xi = 0.
i=1
Comme les xi forment une base du premier espace, ils sont linéairement indépendants et on en déduit que
tous les coefficients αi sont nuls. Par conséquent, les vecteurs f (xi ) sont aussi linéairement indépendants
et forment donc une base. Elle comporte évidemment n vecteurs et donc le second espace est bien de
dimension n.
Nous montrons maintenant une propriété fondamentale des espaces vectoriels de dimension finie.
Théorème 2.8 Tout espace vectoriel E de dimension n défini sur le corps K est isomorphe à Kn
c’est-à-dire E ≡ Kn .
Preuve.
Pour prouver cette proposition, il nous suffit de construire un isomorphisme entre E et Kn . Pour cela,
22
considérons {xi }ni=1 une base quelconque de E. Chaque vecteur v de E peut donc s’écrire comme une
combinaison linéaire unique des vecteurs de cette base, soit
n
X
v= αi xi .
i=1
(α1 , α2 , . . . , αn ).
Cette correspondance est bien entendu une bijection à cause de l’unicité de la représentation de v en
fonction de la base. Reste à vérifier qu’elle préserve les relations linéaires. Pour cela, considérons
n
X
w= βi xi .
i=1
Théorème 2.9 Deux espaces vectoriels de dimension finie, construits sur le même champ de sca-
laires, sont isomorphes s’ils ont la même dimension.
Preuve.
Chacun de ces espaces est isomorphe à Kn ; par combinaison d’isomorphismes, ils sont donc isomorphes
entre eux.
Dans le cadre de ce cours, l’espace Kn sera toujours Rn ou Cn .
23
Chapitre 3
Sous-espaces vectoriels
Définition 3.1 Un sous-ensemble M non vide d’un espace vectoriel E (associé au champ K) est un
sous-espace vectoriel si et seulement si il est lui-même un espace vectoriel sur le champ K :
∀ x, y ∈ M, ∀ α, β ∈ K : αx + βy ∈ M.
Nous dirons donc qu’un sous-ensemble est un sous-espace s’il contient toutes les combinaisons linéaires
de ses éléments, ou s’il contient toutes ses combinaisons linéaires.
Remarquons que la définition implique que, si x est dans M , alors
x−x=0
Exemples
24
— M = {(x, x, x) : ∀ x ∈ R} est un sous-espace vectoriel de E.
— M = {(x, x, 0) : ∀ x ∈ R} est un sous-espace vectoriel de E.
— M = {(0, x, 0) : ∀ x ∈ R+ } n’est pas un sous-espace vectoriel de E.
— M = {(x, y, 1) : ∀ x, y ∈ R} n’est pas un sous-espace vectoriel de E.
Théorème 3.1 L’intersection de tout ensemble de sous-espaces vectoriels est un sous-espace vecto-
riel.
Preuve.
Notons l’ensemble des sous-espaces vectoriels que nous considérons par {Mi }i∈I et leur intersection par
M . Comme tous les Mi contiennent l’origine, M la contient aussi et n’est donc pas vide. De plus, si x et
y sont dans M (c.à.d. dans tous les Mi ), alors αx + βy se trouve aussi dans tous les Mi et donc dans M ,
pour tous les scalaires α et β.
Afin d’illustrer ce théorème, nous supposons que S est un ensemble quelconque de vecteurs dans E
(pas nécessairement un sous-espace). Il existe certainement des sous-espaces qui contiennent S (E tout
entier par exemple). Choisissons M l’intersection de tous les sous-espaces qui contiennent S. M est bien
alors un sous-espace en vertu du théorème que nous venons de démontrer. On appelle ce sous-espace
le sous-espace engendré par S et on le note span(S). Il est évident que span(S) est le plus petit des
sous-espaces contenant S.
Ceci nous permet de prouver le théorème suivant :
Théorème 3.2 Soit S = {x1 , . . . , xm }. Alors le sous-espace span(S) est constitué de l’ensemble
des combinaisons linéaires des vecteurs de S.
Preuve.
Il est évident qu’une combinaison linéaire de combinaisons linéaires de vecteurs de S est elle-même une
combinaison linéaire de vecteurs de S. En effet,
m m m X m m m
!
X X X X X
αi βij xj = αi βij xj = αi βij xj .
i=1 j=1 i=1 j=1 j=1 i=1
Donc, l’ensemble des combinaisons linéaires des vecteurs de S est un sous-espace qui contient S. Il
contient donc aussi span(S), par définition de ce dernier. Or span(S) est un sous-espace qui contient S.
Il contient donc aussi l’ensemble de toutes les combinaisons linéaires des vecteurs de S. On déduit de ces
deux arguments que span(S) est identique à cet ensemble et le théorème est démontré.
25
Le théorème suivant est à démontrer à titre d’exercice :
M = {x + y | x ∈ H et y ∈ G}.
H +G
Théorème 3.4 Tout sous-espace M d’un espace vectoriel E de dimension n > 0, admet une base
(sauf M réduit au vecteur nul) et est de dimension plus petite ou égale à n.
Preuve.
La preuve découle directement de la définition de sous-espace vectoriel.
Nous montrons ensuite que toute base d’un sous-espace vectoriel peut être complétée pour former une
base de l’espace tout entier.
{x1 , . . . , xm , xm+1 , . . . , xn }
Preuve.
La preuve de ce théorème résulte directement de celle du théorème précédent. En effet, après avoir
construit une base de M , on peut continuer le procédé et choisir des vecteurs xm+1 , . . . qui se trouvent
dans E et pas dans M .
26
Nous terminons ces questions de dimension avec le théorème suivant.
Preuve.
Posons
m = dim(M ) et n = dim(N ),
et considérons d’abord M ∩ N . Il s’agit bien d’un sous-espace par le théorème 3.1. Ce sous-espace admet
donc une base, soit {xi }pi=1 . En vertu du théorème 3.5 et parce que M ∩ N est un sous-espace de M et
de N , on peut alors construire les bases
x1 , . . . , xp , y1 , . . . , ym−p (3.1)
et
x1 , . . . , xp , z1 , . . . , zn−p (3.2)
où les vecteurs donnés en (3.1) forment une base de M et ceux donnés en (3.2) une base de N . Construi-
sons maintenant
X = {x1 , . . . , xp , y1 , . . . , ym−p , z1 , . . . , zn−p }.
Nous désirons vérifier que X est une base de M + N . Pour cela, il nous faut voir que les vecteurs de X
sont linéairement indépendants et que tout vecteur de M + N est une combinaison linéaire de ceux-ci.
Choisissons v, un vecteur quelconque de M + N . Alors
v = vm + vn
p m−p p n−p
! !
X X X X
= αi xi + βi yi + γi xi + δi zi
i=1 i=1 i=1 i=1
(3.3)
p
X m−p
X n−p
X
= (αi + γi )xi + βi yi + δi zi ,
i=1 i=1 i=1
où vm et vn sont donnés par le théorème 3.3. L’équation (3.3) montre alors que v est combinaison linéaire
des vecteurs de X. Reste à prouver leur indépendance linéaire. Pour cela, considérons la combinaison
linéaire
Xp m−p
X n−p
X
0= αi xi + βi yi + γi zi (3.4)
i=1 i=1 i=1
où les coefficients αi , βi et γi sont différents de ceux utilisés plus haut. On peut écrire (3.4) sous la forme
p
X m−p
X n−p
X
αi xi + βi yi = (−γi )zi .
i=1 i=1 i=1
27
Comme combinaison linéaire des xi et des yi , le membre de gauche de cette équation se trouve dans M .
Comme combinaison linéaire des zi , le membre de droite appartient à N . Ce vecteur appartient donc à
M ∩ N et peut donc être écrit de manière unique en fonction de la base de ce sous-espace (les xi ), en
vertu du théorème 2.4. Ce qui implique que
βi = 0 (i = 1 . . . , m − p). (3.5)
γi = 0 (i = 1, . . . , n − p). (3.6)
Donc
p
X
0= αi xi
i=1
car les vecteurs xi sont linéairement indépendants. Les équations (3.7), (3.5) et (3.6) impliquent alors
l’indépendance linéaire des vecteurs de X. Cet ensemble est donc bien une base de M + N . La thèse
résulte alors de l’égalité
m + n = (p + (m − p) + (n − p)) + p.
Définition 3.2 La somme de deux sous-espaces M et N de E est dite directe (ou les deux sous-espaces
sont en somme directe) si M ∩ N = {0}. Dans ce cas, on note leur somme par M ⊕ N .
28
On dit alors que l’espace vectoriel E est la somme directe de ses sous-espaces M et N , et que les
sous-espaces M et N sont complémentaires dans E.
On voit aussi, à l’aide des théorèmes 2.4 et 3.3, que tout vecteur v de M ⊕ N peut s’écrire comme
v = vm + vn , (3.8)
E = M ⊕ N.
Preuve.
Soit {xi }m
i=1 une base quelconque de M . Nous pouvons alors, en vertu du théorème 2.2, trouver un
ensemble de vecteurs {yi }ni=1 de E tels que l’union de ces deux ensembles soit une base de E. Définissons
alors
N = span ({yi }ni=1 ) .
On voit immédiatement que les yi sont linéairement indépendants, sinon on n’aurait pas une base de E.
Il est aussi clair que
E = M + N.
Enfin, supposons que z soit dans M ∩ N . Il se trouve donc dans M et peut, par conséquent, s’écrire
m
X
z= αi xi . (3.9)
i=1
Comme l’ensemble des xi et des yi forment une base, ces vecteurs sont linéairement indépendants et, par
suite,
αi = 0 (i = 1, . . . , m) et βi = 0 (i = 1, . . . , n),
29
Par exemple, si l’on considère R2 et son sous-espace M = span(e1 ), avec e1 = (1, 0) on voit
que tout N = span(v) conviendra comme complémentaire de M , à condition de choisir v linéairement
indépendant avec e1 . Il y a donc une infinité de sous-espaces N possibles.
Définition 3.4 Le noyau de l’application linéaire f : E → F , noté Ker(f ), est le sous-espace vectoriel
de E
Ker(f ) = {x ∈ E | f (x) = 0}.
Définition 3.5 L’image de l’application linéaire f : E → F , noté Im(f ), est le sous-espace vectoriel de
F
Im(f ) = {x ∈ F | ∃ y ∈ E , x = f (y)}.
On vérifiera en exercice que le noyau est bien un sous-espace vectoriel de E et l’image un sous-espace
vectoriel de F .
Preuve.
1. Supposons que f soit injective et prenons un vecteur x dans Ker(f ). Nous avons donc : f (x) =
0 = f (0) et par injectivité x = 0. Tout vecteur x du noyau est donc nul ; celui-ci est donc bien
réduit à l’origine.
Réciproquement, prenons deux vecteurs x, y de E tels que f (x) = f (y). Par linéarité nous
écrivons : f (x − y) = f (x) − f (y) = 0, ce qui signifie que x − y appartient au noyau de
f , réduit à l’origine. Donc x − y = 0 ou encore x = y et f est injective.
2. Si f est surjective, tout vecteur de F est image d’au moins un vecteur de E par f , l’image de f est
donc bien F tout entier et réciproquement.
30
Théorème 3.9 Soit f une application linéaire de E dans F et soit V un sous-espace complémentaire
au noyau Ker(f ) (c’est-à-dire Ker(f ) ⊕ V = E). Alors V et Im(f ) sont isomorphes.
Preuve.
Notons f ◦ l’application linéaire définie sur V ⊆ E et à valeurs dans Im(f ) ⊆ F qui à tout x de V fait
correspondre
f ◦ (x) = f (x).
(Cette application est parfois appelée f restreinte à V et corestreinte à Im(f ).) Nous avons alors que f ◦
est surjective. En effet, par définition de l’image, pour tout y ∈ Im(f ), il existe x ∈ E tel que f (x) = y.
De plus, x peut être décomposé en x = v + w, avec v ∈ V et w ∈ Ker(f ), et il vient donc que
f ◦ (v) = f (v) = f (x − w) = y.
Montrons ensuite l’injectivité de f ◦ . Soient deux vecteurs x, y ∈ V tels que
f ◦ (x) = f ◦ (y).
Alors,
f ◦ (x − y) = 0
et, par conséquent, x − y se trouve à la fois dans V et Ker(f ). C’est donc l’origine. On en déduit alors
que x = y. On voit alors que f ◦ est bijective et linéaire et la définition 2.8 nous montre que f ◦ est un
isomorphisme de V dans Im(f ).
Le résultat précédent permet d’obtenir une relation entre la dimension du noyau de f et la dimension
de son image, que l’on appelle le rang.
Définition 3.6 Le rang d’une application linéaire f de E dans F est la dimension de son image. Il est
noté rg(f ), c’est-à-dire
rg(f ) = dim(Im(f )).
Preuve.
On utilise le théorème précédent et le théorème 2.7, ainsi que la définition du rang.
31
On déduit également :
Théorème 3.11
rg(f ) ≤ min(dim(E), dim(F )) (3.11)
Preuve.
On a évidemment que
rg(f ) = dim[Im(f )] ≤ dim(F ),
Alors le noyau de f est de dimension strictement positive. En particulier, il existe un vecteur y non
nul tel que f (y) = 0.
Preuve.
32
Théorème 3.13 Soit f : E → E une transformation linéaire sur un espace E de dimension finie.
Alors f est injective si et seulement si elle est surjective.
Preuve.
Supposons l’injectivité, et donc par le théorème 3.8, le noyau de f est réduit à l’origine, et est donc de
dimension nulle ; en utilisant le théorème 3.10, on en déduit que la dimension de l’image vaut la dimension
de E, et à nouveau par 3.8, f est surjective.
Si f est surjective, la dimension de l’image vaut donc celle de E, le noyau est alors de dimension
nulle, et f est alors injective.
Cette propriété montre donc que, pour une transformation linéaire, les propriétés d’injectivité et de
surjectivité s’impliquent mutuellement et sont donc équivalentes.
Il en résulte immédiatement les corollaires suivants :
Théorème 3.14 Soit f : E → E une transformation linéaire sur un espace E de dimension finie.
• f est inversible si et seulement si f (x) = 0 ⇒ x = 0.
• f est inversible si et seulement si tout vecteur y de E peut s’écrire sous la forme y = f (x).
Théorème 3.15 Soit f : E → E une transformation linéaire sur un espace E de dimension finie.
Alors f est inversible si et seulement si
rg(f ) = dim(E).
33
Chapitre 4
Matrices
X = {xj }nj=1
La matrice de f par rapport aux bases X et Y sera notée A ou [f ]YX et elle est représentée sous la
forme d’un tableau rectangulaire de m (dimension de F ) lignes et n (dimension de E) colonnes :
a11 a12 a13 · · · a1n
a21 a22 a23 · · · a2n
A= . .. .. .. .
.. . . .
am1 am2 am3 · · · amn
34
Les scalaires ai1 , ai2 , . . ., ain forment une ligne de la matrice et a1i , a2i , . . ., ami forment une colonne.
Les scalaires a11 , a22 , . . ., arr , avec r = min(m, n), forment la diagonale de la matrice. Nous noterons
parfois aussi
aij = [A]ij = [f ]ij
quand nous voudrons référer particulièrement à l’élément ij (ième ligne, j ème colonne) de la matrice A
associée à la transformation linéaire f .
Théorème 4.1 Si f est une application linéaire de E dans F , alors toute matrice qui lui est associée
(par le choix de bases particulières dans ces deux espaces) est de dimension dim(F ) par dim(E),
c’est-à-dire qu’elle a dim(F ) lignes et dim(E) colonnes.
Il est important de noter que la j ème colonne de la matrice A est formée des composantes de l’image,
exprimée dans la base Y , du j ème vecteur de la base X par l’application linéaire f . Remarquons aussi que
nous n’avons pas défini une matrice, mais bien une matrice associée à une application linéaire par rapport
à deux bases bien particulières. On peut dire que la matrice A est la représentation de l’application linéaire
f dans les bases X et Y . Dans le cas d’une transformation linéaire, la matrice associée sera toujours carrée
car m = n. On dira qu’elle est d’ordre n, ou de dimensions n × n.
Voyons maintenant que cette représentation est unique, si l’on fixe les bases X et Y .
Théorème 4.2 Soit E un espace vectoriel de dimension n > 0, F un espace vectoriel de dimension
m > 0 ; soient X une base de E et Y une base de F . Alors, à toute application linéaire correspond
une et une seule matrice, et réciproquement.
Preuve.
Si l’on se donne une application linéaire f de E dans F , nous avons vu comment on lui associe une
matrice A par rapport aux bases X et Y . L’unicité résulte de l’unicité de la représentation de l’image par
f des vecteurs de la base X dans la base Y .
Si l’on se donne maintenant une matrice {aij }, on peut alors construire une application linéaire f dont
elle est la représentation par rapport aux bases X et Y en utilisant les relations
n
X
v= vj xj
j=1
et
Xn n
X n
X m
X
f (v) = f vj xj =
vj f (xj ) = vj aij yi
j=1 j=1 j=1 i=1
35
qui donne l’image (unique) dans F par rapport à la base Y de tout vecteur v de E exprimé par rapport à
la base X.
Exemple
Choisissons deux bases possibles (Y et Y ′ ) dans R2 : Y = {y1 , y2 } = {(1, 0), (0, 1)} ou Y ′ =
{y1′ , y2′ } = {( 12 , 21 ), ( 12 , − 12 )} et calculons les images des trois vecteurs dans les bases Y et Y ′ :
On peut maintenant changer la base de départ : soit X ′ = {x′1 , x′2 , x′3 } = {(1, 1, 0), (0, 1, −1), (−1, 0, 1)}.
Calculons les images des trois vecteurs de X ′ :
36
4.1.2 Matrice colonne associée à un vecteur
Nous allons maintenant montrer que la représentation matricielle de l’application linéaire f permet
d’obtenir la représentation d’un vecteur quelconque f (v) dans une base.
Définition 4.2 Soit E un espace vectoriel de dimension n et soit X = {xi }ni=1 une base quelconque de
E. Tout vecteur de l’espace vectoriel E peut être décomposé dans la base X et les scalaires associés à
cette décomposition sont uniques. On associe alors, à tout vecteur v∈ E, une matrice colonne composée
des scalaires de sa décomposition et on la notera [v]X ou simplement v :
v1
n
v2
X
X
∀v ∈ E : v = vi xi et sa matrice associée est : [v] =v= ..
.
i=1
vn
37
représentent les composantes de f (v) dans la base Y . Sous forme matricielle, on écrit
Théorème 4.3 Soit une application linéaire f : E → F et soit une base {xj }nj=1 de E. Alors
Im(f ) = span{u1 , · · · , un } ⊆ F
Preuve.
Tout vecteur de E, combinaison linéaire des vecteurs de base xj , est envoyé par f sur une combinaison
linéaire des vecteurs uj car
Xn n
X n
X Xm Xn
f αj xj = αj f (xj ) = αj aij yi = αj uj .
j=1 j=1 j=1 i=1 j=1
Im(A) = {v ∈ Rm | | ∃ u ∈ Rn , Au = v}
38
et, de manière équivalente au résultat précédent, est générée par les colonnes uj de A :
Im(A) = span{u1 , · · · , un } ⊆ Rm .
Ker(A) = {u ∈ Rn | Au = 0}.
[0]ij = 0.
Preuve.
La preuve de cette proposition est laissée en exercice.
Nous pouvons dire que la matrice associée à f + g admet comme éléments les sommes des éléments
de la matrice associée à f et de celle associée à g, et que la matrice associée à αf admet comme éléments
les produits des éléments de la matrice associée à f par α. Ce théorème nous permet d’associer des lois
d’addition et de multiplication par un scalaire à l’ensemble des matrices rectangulaires.
1. une loi d’addition
[A + B]ij = [A]ij + [B]ij ,
∀ α ∈ K [αA]ij = α[A]ij ,
39
3. un élément neutre pour l’addition
[0]ij = 0.
Cela permet de conclure que l’ensemble des matrices rectangulaires à m lignes et n colonnes à
éléments dans le champ de scalaires K est un espace vectoriel sur K. On notera cet espace Km×n pour
rappeler que les éléments de la matrice sont des scalaires de K et que la matrice est un tableau rectangu-
laire de m (la dimension de F ) lignes et n (la dimension de E) colonnes.
La somme de deux matrices n’est définie que pour deux matrices de mêmes dimensions. Ceci résulte
du fait qu’on ne peut définir la somme de deux applications linéaires que quand les deux espaces E et F
sont identiques pour les deux applications à sommer.
La propriété ci-dessus ne s’applique pas au cas du produit. En effet, nous avons constaté au chapitre
1 que le produit de deux applications linéaires n’est pas toujours possible. Rappelons que si f est une
application linéaire de E vers F et g une application linéaire de F vers G, nous pouvons construire gf ,
qui est l’application linéaire de E dans G par la relation
En termes de matrices, la matrice associée à f (par rapport à une base X de E et une base Y de F )
aura dim(F ) lignes et dim(E) colonnes ; celle de g (par rapport à la base Y de F et une base Z de G) aura
dim(G) lignes et dim(F ) colonnes. Le produit gf sera alors associé à une matrice qui comptera dim(G)
lignes et dim(E) colonnes. On en déduit la règle suivante :
Théorème 4.5 Le produit AB de deux matrices rectangulaires A et B est défini comme la matrice
associée au produit des applications linéaires représentées par A et B (par rapport aux mêmes bases)
et aura donc un sens si et seulement si le nombre de lignes de B est égal au nombre de colonnes de
A. La matrice produit aura le même nombre de lignes que A et le même nombre de colonnes que B.
40
Nous pouvons aussi écrire :
En comparant les deux développements dans la base Z (la décomposition étant unique), on obtient :
m
X m=dimF
X
cki = bkj aji = [g]kj [f ]ji , k = 1, . . . , p = dim G, i = 1, . . . , n = dim E.
j=1 j=1
Finalement, nous pouvons définir deux nouvelles opérations sur les matrices.
• L’adjointe (ou transposée conjuguée) de A est la matrice de dimension m × n, notée A∗ , dont les
coefficients sont donnés par
[A∗ ]ij = [A]ji
La matrice transposée A est donc obtenue en échangeant les lignes et les colonnes de A. Par ailleurs, si A
est une matrice réelle, on a A∗ = AT .
On notera la propriété suivante.
Théorème 4.6 Soient A et B deux matrices dont le produit AB est bien défini. Alors,
(AB)T = BT AT et (AB)∗ = B∗ A∗ .
41
4.1.5 Matrices et changements de bases
Nous envisageons maintenant plusieurs bases dans un même espace vectoriel. Commençons par ca-
ractériser un changement de base dans un espace vectoriel E. Considérons deux bases X et Z de cet
espace vectoriel de dimension n :
Nous pouvons décomposer un vecteur quelconque de E dans la base X ; en particulier nous exprimons
les vecteurs de la base Z dans la base X par des scalaires qkj :
n
X
zj = qkj xk , ∀ j = 1, . . . , n
k=1
Les scalaires qkj décrivent le changement de base et permettent de calculer les scalaires de la décomposition
d’un vecteur v dans la base X à partir de ceux de la décomposition dans la base Z.
n
X n
X n
X X n
n X n
X
∀ v ∈ E, v= αj zj = αj qkj xk = αj qkj xk = βk xk
j=1 j=1 k=1 k=1 j=1 k=1
Nous constatons que la matrice de changement de bases est la matrice de la transformation linéaire
identité où l’espace vectoriel E est associé à la base Z au départ et à la base X à l’arrivée.
Q = (qkj ) = [I]X
Z.
La matrice Q nous permet d’exprimer les vecteurs de la base Z dans la base X ; de façon équivalente,
nous pouvons construire le changement de bases inverse, qui consiste à exprimer les vecteurs de la base
X dans la base Z. La matrice S associée est définie par :
n
X
S = (sil ) = [I]Z
X avec xl = sil zi .
i=1
Revenons maintenant aux applications linéaires et appliquons un changement de bases dans l’espace
vectoriel de départ E et dans celui d’arrivée F . Soit E un espace vectoriel de dimension n et soient
Y = {zi }m m
i=1 et W = {wi }i=1
42
deux bases quelconques de F . Soit aussi f une application linéaire de E dans F . Si on associe la base X
à E et la base Y à F , on obtient les scalaires aij par les relations
m
X
f (xj ) = aij yi (j = 1, ..., n). (4.2)
i=1
Théorème 4.7 Soit f une application linéaire de E dans F ; soient X et Z deux bases de E et Y
et W deux bases de F , soient A et B les matrices associées à l’application linéaire f par rapport
aux bases X et Y , et par rapport aux bases Z et W , respectivement. Alors, si Q est la matrice du
changement de bases dans E et R la matrice de changement de bases dans F , la relation qui lie A et
B est donnée par
B = [f ]W W Y X
Z = [I]Y [f ]X [I]Z = R A Q.
Preuve.
Par définition des matrices A, B, Q et R, on a
m
a
X
A = [f ]YX ⇒ f (xk ) = aik yi , ∀ k = 1, . . . , n,
i=1
m
b
X
B = [f ]W
Z ⇒ f (zj ) = blj wl , ∀ j = 1, . . . , n,
l=1
n
c
X
Q= [I]X
Z ⇒ zj = qkj xk , ∀ j = 1, . . . , n
k=1
m
d
X
R = [id]W
Y ⇒ yi = rli wl , ∀ i = 1, . . . , m.
l=1
43
Développons maintenant la seconde de ces relations :
n n
!
c
X X
f (zj ) = f qkj xk = qkj f (xk ) par linéarité de f
k=1 k=1
n m n m m
a d
X X X X X
= qkj aik yi = qkj aik rli wl
k=1 i=1 k=1 i=1 l=1
Xn X m X m m X
X m
n X
= qkj aik rli wl = qkj aik rli wl
k=1 i=1 l=1 l=1 k=1 i=1
ou encore
m
X
[B]lj = [R]li [AQ]ij ∀ l = 1, . . . , m, ∀ j = 1, . . . , n.
i=1
Définition 4.4 Soient A et B deux matrices rectangulaires de dimensions m × n. On dit que A et B sont
semblables si et seulement si elles sont liées l’une à l’autre par la relation
B = [f ]W W X
Z = [I]Y A [I]Z = R A Q.
Cette relation signifie que A et B représentent la même application linéaire, mais par rapport à des
bases différentes et s’appelle relation de similitude. On peut vérifier que cette relation est bien une relation
d’équivalence sur l’ensemble des matrices de mêmes dimensions (réflexive, symétrique et transitive).
44
Elle s’exprime de la façon suivante :
n
X
C = AB ⇔ [C]ij = [AB]ij = [A]ik [B]kj .
k=1
Cette loi est interne et partout définie, associative et elle admet un neutre, la matrice identité I, définie par
[I]ij = δij .
Le symétrique n’existe pas pour toute matrice carrée ; il existe pour les matrices associées aux trans-
formations linéaires bijectives.
Définition 4.5 Le symétrique de la matrice carrée A, lorsqu’il existe, est appelé l’inverse de A et noté
A−1 . Cette matrice carrée vérifie
A−1 A = I = AA−1 .
Remarquons que nous n’avons pas défini spécifiquement les éléments de la matrice A−1 quand elle
existe. Cette description est possible et nous y reviendrons à la fin du chapitre.
4.2 Permutations
4.2.1 Définition et propriétés élémentaires
Nous considérons, dans cette section, une collection d’objets quelconques, rangés dans un ordre
prédéterminé, et nous nous intéresserons aux différentes manières de les arranger dans un ordre différent.
Pour plus de facilité, nous numéroterons ces objets de 1 à k.
Définition 4.6 Une permutation des nombres entiers entre 1 et n est une bijection de l’ensemble {1, . . . , n}
dans lui-même.
Nous pouvons donc dire qu’une permutation des entiers de 1 à n revient à considérer ces entiers dans
un ordre nouveau. Nous noterons les permutations par p(·) : la permutation p(·) (ou p) fait correspondre à
l’entier i un entier p(i). On note donc, en vertu de la définition, que p(i) = p(j) implique que i = j. On
remarque aussi que
{1, . . . , n} = {p(1), . . . , p(n)}.
45
Exemple
Si n = 5, cet ensemble d’entiers est donc {1, 2, 3, 4, 5}. La permutation correspondante p est alors
définie par
i 1 2 3 4 5
p(i) 2 5 1 4 3
Dans cet exemple, on voit que p(i) ne doit pas nécessairement être différent de i : on a p(4) = 4.
Nous allons maintenant examiner le nombre de permutations différentes des entiers entre 1 et n.
Il est aussi facile de combiner des permutations en les appliquant successivement. C’est ainsi que l’on
définit les produits de permutations.
Définition 4.7 Soient p1 (·) et p2 (·) deux permutations des entiers de 1 à n. Alors la permutation définie
par
(p1 p2 )(i) = p1 (p2 (i)) (i = 1, ..., n),
Il est évident que p1 p2 est bien une permutation. Il est important de remarquer que, en général,
p1 p2 6= p2 p1 ,
c’est-à-dire que le produit des permutations n’est pas commutatif. Si le produit n’est pas commutatif, il
est au moins associatif. En effet, si p1 , p2 et p3 sont trois permutations, il est facile de vérifier que
car chacun de ces termes est égal à p1 (p2 (p3 (i))). Cette propriété nous permet alors de définir les puis-
sances d’une permutation de la manière habituelle : la puissance j de la permutation p, soit pj , est le
produit de p par elle-même, pris j fois. La plus simple des permutations est la permutation identique,
c’est-à-dire la permutation pour laquelle
ep = pe = p
46
pour toute autre permutation p. Finalement, nous noterons qu’à toute permutation p correspond une per-
mutation notée p−1 et appelée inverse de p telle que
p−1 p = pp−1 = e.
En effet, il suffit de choisir p−1 de la façon suivante : si p(i) = j, alors on impose que p−1 (j) = i. On
vérifiera alors que l’équation ci-dessus est bien vraie.
On peut rassembler ces propriétés sur l’ensemble des permutations des entiers de 1 à n, dans le
théorème suivant.
Théorème 4.10 Soit Sn l’ensemble des permutations des entiers de 1 à n. Alors, (Sn , ·), c’est-à-dire
cet ensemble muni de la loi produit que nous venons de définir, est un groupe non commutatif, appelé
groupe symétrique d’ordre n.
4.2.2 Transpositions
Construisons maintenant une permutation simple, que nous noterons t. Nous choisissons pour cela
deux entiers i et j entre 1 et n, et définissons
t(i) = j,
t(j) = i,
t(k) = k ∀ k, k 6= i, k 6= j.
Cette permutation particulière est appelée une transposition. On voit aisément que si t est une transposi-
tion, alors t2 = e.
Nous citons un résultat sans démonstration :
La représentation d’une permutation comme un produit de transpositions n’est pas unique. On peut
aussi constater que le nombre de transpositions requis pour représenter une permutation n’est pas non
plus unique. Nous pouvons néanmoins signaler une propriété d’unicité à propos de ces représentations :
le nombre de transpositions peut varier, mais a toujours la même parité.
4.2.3 Parité
Nous pouvons alors définir sans ambiguı̈té la notion de parité.
47
Définition 4.8 Une permutation p est dite paire si et seulement si toute représentation de p comme produit
de transpositions contient un nombre pair de facteurs. Inversement, p est une permutation impaire si et
seulement si toute représentation de p comme produit de transpositions contient un nombre impair de
facteurs.
Remarquons qu’il en résulte que la parité d’une permutation est indépendante de sa représentation et
ne dépend que de la permutation elle-même.
Exemple
Illustrons ces concepts, pour n = 3. Voici les 6 (= 3 !) permutations de l’ensemble {1, 2, 3} et leurs
signatures :
i 1 2 3 sgn
p1 (i) 1 2 3 1
p2 (i) 1 3 2 -1
p3 (i) 2 3 1 1
p4 (i) 2 1 3 -1
p5 (i) 3 2 1 -1
p6 (i) 3 1 2 1
4.3 Déterminants
4.3.1 Définition
Considérons une matrice particulière associée à une transformation linéaire de Kn . Le déterminant est
un scalaire (un élément de K) associé à cette matrice.
48
Définition 4.10 Soit A une matrice carrée d’ordre n. Son déterminant est donné par l’expression
X X n
Y
det(A) = sgn(p) a1,p(1) · a2,p(2) · · · an,p(n) = sgn(p) ai,p(i) , (4.4)
p ∈Sn p ∈Sn i=1
où Sn est, comme plus haut, l’ensemble des permutations des entiers entre 1 et n, et sgn(p) est la
signature de p.
En se référant à cette représentation, on parlera (abusivement) des colonnes, lignes ou éléments d’un
déterminant. Il s’agit, bien entendu, des colonnes, lignes ou éléments de la matrice dont on calcule le
déterminant.
On remarquera aussi que chacun des produits intervenant dans la somme (4.4) contient, comme fac-
teur, un et un seul élément d’une colonne donnée et un et un seul élément d’une ligne donnée. La somme
est donc effectuée sur toutes les façons de choisir n éléments dans la matrice, appartenant à des lignes et
colonnes différentes.
Exemples
Voici un premier exemple de calcul de déterminant pour une matrice 2 × 2, en utilisant les deux
permutations possibles (p1 et p2 ) des entiers 1 et 2. En effet, l’ensemble des permutations de {1, 2} est
réduit à deux éléments : la permutation identique et la transposition de 1 et 2. Le premier terme ci-dessous
correspond à la permutation identique p1 (paire) et le second à la transposition p2 (impaire).
Et voici un second exemple pour une matrice 3 × 3, en utilisant les six permutations possibles (p1 à
p6 listées en 4.2.3) des entiers 1, 2 et 3 (on reconnait ici la règle de Sarrus) :
49
det(A) = sgn(p1 ) a1 p1 (1) a2 p1 (2) a3 p1 (3) + sgn(p2 ) a1 p2 (1) a2 p2 (2) a3 p2 (3)
+ sgn(p3 ) a1 p3 (1) a2 p3 (2) a3 p3 (3) + sgn(p4 ) a1 p4 (1) a2 p4 (2) a3 p4 (3)
+ sgn(p5 ) a1 p5 (1) a2 p5 (2) a3 p5 (3) + sgn(p6 ) a1 p6 (1) a2 p6 (2) a3 p6 (3)
= a11 a22 a33 − a11 a23 a32 + a12 a23 a31
− a12 a21 a33 − a13 a22 a31 + a13 a21 a32
= a11 a22 a33 + a12 a23 a31 + a13 a21 a32
− (a11 a23 a32 + a12 a21 a33 + a13 a22 a31 )
Théorème 4.13 Un déterminant change de signe lorsqu’on intervertit deux de ses colonnes.
Preuve.
Considérons donc le déterminant de la matrice où l’on a interverti les colonnes p et q. On peut considérer,
dans (4.4), que l’on a changé la permutation fondamentale en lui appliquant une transposition des positions
p et q. Cette transposition est impaire (comme toutes les transpositions) et donc les permutations paires
deviennent impaires et vice-versa. Tous les produits intervenant dans la somme (4.4) changent donc de
signe, ce qui revient à inverser le signe du déterminant lui-même.
det(A) = det(AT ).
Preuve.
Considérons un terme quelconque de la somme (4.4). Il est de la forme
Si l’on permute l’ordre des facteurs multiplicatifs de ce produit en utilisant la permutation p−1 , on obtient
alors un produit de la forme
sgn(p) ap−1 (1),1 ap−1 (2),2 . . . ap−1 (n),n .
Le théorème 4.12 implique alors que
sgn(p) a1,p(1) a2,p(2) . . . an,p(n) = sgn(p−1 ) ap−1 (1),1 ap−1 (2),2 . . . ap−1 (n),n ,
et cela de manière analogue pour tous les termes de la somme (4.4). On observe aussi que, puisque chaque
permutation a un inverse, sommer sur l’ensemble des permutations est identique à sommer sur l’ensemble
50
de leurs inverses. Par conséquent, on peut, dans cette somme, remplacer tous les aij par les aji sans
changer la valeur de la somme.
On déduit de cette propriété que toute proposition concernant les colonnes d’un déterminant est aussi
vraie pour les lignes.
Preuve.
Il suffit d’intervertir ces deux colonnes. Cette interversion change le signe du déterminant. D’autre part,
comme les deux colonnes sont identiques, le déterminant n’a pas changé : il est donc nul.
Théorème 4.16 Un déterminant est linéaire par rapport à chacune de ses colonnes.
Preuve.
Cette propriété se démontre immédiatement en constatant que chacun des termes de la somme (4.4) est
linéaire par rapport au seul élément de la i-ème colonne qu’il contient comme facteur. Il est clair qu’il faut
considérer que les autres facteurs (provenant d’autres colonnes) comme constants.
Le déterminant est donc une application linéaire sur chacune de ses colonnes ; comme c’est un sca-
laire, nous pouvons particulariser cette définition, en disant que le déterminant est une forme linéaire sur
chacune de ses colonnes. Une forme linéaire est donc une application linéaire particulière, à valeurs dans
K (espace vectoriel de dimension 1, construit sur lui-même).
Cette propriété est très importante. Elle s’appelle multilinéarité du déterminant. Ce nom provient du
fait que le déterminant est linéaire en chacune de ses colonnes.
Notons-en une conséquence évidente :
Théorème 4.17 Si un déterminant admet une colonne nulle, alors il est nul.
Théorème 4.18 Si les colonnes d’un déterminant sont linéairement dépendantes, alors le détermi-
nant est nul.
51
Preuve.
Pour des raisons de facilité, notons provisoirement le déterminant que nous considérons comme
où le symbole a•,i représente la ième colonne de la matrice dont on calcule le déterminant. Alors, si
X
a•,i = γj a•,j ,
j6=i
et tous les déterminants dans la somme du membre de droite sont nuls car ils contiennent deux colonnes
identiques.
Pour terminer ce paragraphe consacré aux propriétés élémentaires des déterminants, nous prouverons
enfin le théorème suivant :
Théorème 4.19 Soit A une matrice carrée d’ordre n. Si l’on ajoute à une colonne de A une com-
binaison linéaire quelconque de ses autres colonnes, le déterminant de la nouvelle matrice ainsi
construite est égal au déterminant de A.
Preuve.
Utilisons les notations définies dans la preuve du théorème précédent et considérons
X
det a•,1 , . . . , a•,i + βj a•,j , . . . , a•,n
j6=i
X
= det(a•,1 , . . . , a•,i , . . . , a•,n ) + βj det(a•,1 , . . . , a•,j , . . . , a•,n ) = det(A)
j6=i
car, comme dans la preuve du théorème précédent, tous les déterminants qui interviennent dans la somme
sont nuls vu qu’ils ont deux colonnes identiques.
Définition 4.11 Considérons une matrice carrée A et supprimons de cette matrice la ligne i et la colonne
j (à l’intersection desquelles se trouve l’élément aij ). Le déterminant de la matrice de dimension n − 1
ainsi construit est appelé le mineur associé à l’élément aij de la matrice A.
52
On notera ce mineur par mij .
Définition 4.12 Dans un matrice carrée A, le cofacteur cij associé à l’élément aij est le scalaire
(−1)i+j mij ,
Nous démontrerons ensuite une relation importante, qui permettra de calculer les valeurs numériques
des déterminants.
Théorème 4.20 (Théorème de Binet-Cauchy) Soit A une matrice carrée d’ordre n. Alors
n
X
aij ckj = δik det(A) (i = 1, . . . , n),
j=1
n
X
aij cik = δjk det(A) (j = 1, . . . , n).
i=1
Preuve.
Il est clair que la preuve de la première relation (sur les lignes) suffit, puisque toutes les propositions
concernant les lignes d’un déterminant sont aussi vraies pour ses colonnes.
Considérons premièrement le cas où k = i. On peut réécrire l’expression du déterminant (4.4) en mettant
en évidence les éléments aij . On obtient
n
X X
det(A) = aij sgn(p) a1,p(1) · a2,p(2) · · · ai−1,p(i−1) · ai+1,p(i+1) · · · an,p(n)
j=1 p ∈Sn
p(i)=j
où la deuxième somme est prise sur toutes les permutations p qui envoient i vers j. En notant
X
bij = sgn(p) a1,p(1) · a2,p(2) · · · ai−1,p(i−1) · ai+1,p(i+1) · · · an,p(n) , (4.5)
p ∈Sn
p(i)=j
on a
n
X
det(A) = aij bij
j=1
et il faut donc montrer que bij = cij . On note que (4.5) est la somme de produits contenant chacun n − 1
facteurs. De plus, aucun de ses produits ne contient de facteur appartenant à la ième ligne ou à la j ème
colonne. Examinons dans un premier temps le cas particulier de (4.5) avec i = j = 1 :
X
b11 = sgn(p) a2,p(2) · · · an,p(n) ,
p∈S1,2,n
53
où S1,2,n est l’ensemble des permutations des entiers entre 1 et n telles que p(1) = 1. Il s’agit donc des
permutations possibles des entiers entre 2 et n, précédées de 1. A chacune de ces permutations p ∈ S1,2,n
correspond donc une et une seule permutation p̃ ∈ S2,n des entiers entre 2 et n. De plus, la signature d’une
permutation p̃ est identique à sa permutation p correspondante, car elles sont toutes deux construites en
utilisant le même nombre de transpositions à partir de la permutation fondamentale. On peut donc réécrire
X
b11 = sgn(p̃) a2,p̃(2) · · · an,p̃(n) ,
p̃∈S2,n
et cette expression est égale au déterminant obtenu en considérant seulement les lignes et les colonnes
2, . . . , n de la matrice A. On en déduit que b11 = m11 (mineur), qui est égal au cofacteur c11 car
(−1)1+1 = 1.
Passons maintenant au cas où i et j sont arbitraires. Nous allons déplacer la ième ligne de telle sorte
qu’elle vienne se placer en première position. De même, nous déplaçons la j ème colonne de telle sorte
qu’elle vienne se placer en première position. Pour cela, il faut effectuer i − 1 transpositions successives
de cette ligne et j − 1 transpositions successives de cette colonne. On peut alors appliquer le raisonnement
précédent à cette matrice permutée A′ , et déduire que
b′11 = m′11 ,
où les ′ dénotent les quantités liées à la matrice permutée A′ . Comme les lignes et colonnes 2, . . . , n de A′
sont identiques aux lignes et colonnes 1, . . . , i − 1, i + 1, . . . , n de A, on voit immédiatement que
m′11 = mij .
De plus, chaque transposition appliquée à la matrice A (pour obtenir A′ ) change le signe de son déterminant,
et donc de chacun des coefficients bij . Par conséquent, on a que
vu que les cofacteurs c′′kj de A′′ sont égaux aux cofacteurs ckj de A. Étant donné que la matrice A′′ possède
deux lignes identiques (i et k), son déterminant est nul, ce qui prouve le résultat.
Nous remarquons que cet énoncé permet de calculer la valeur du déterminant en développant une
quelconque de ses lignes ou de ses colonnes par rapport à leurs cofacteurs (cas k = i ou k = j). Les
54
colonnes ou lignes intéressantes de ce point de vue sont celles qui contiennent un ou plusieurs zéros. En
effet, il ne faudra pas calculer les cofacteurs correspondants.
Définition 4.13 Soit A une matrice d’ordre n. Alors la matrice des cofacteurs de A est la matrice C définie
par
[C]ij = cij ,
La matrice des cofacteurs de A jouit d’une propriété très importante (théorème de Binet-Cauchy sous
forme matricielle) :
Théorème 4.21 Soit A une matrice carrée d’ordre n et C sa matrice des cofacteurs. Alors
ACT = CT A = det(A) I,
Preuve.
Cette propriété résulte directement de la définition de la matrices des cofacteurs, du théorème 4.20 et de
la définition du produit des matrices (théorème 4.4).
a11 a12
det(A) = = a11 a22 − a12 a21 .
a21 a22
1. Sélectionner une colonne ou une ligne du déterminant considéré, comprenant un nombre aussi
élevé que possible d’éléments nuls.
2. Pour chacun des éléments non nuls aij de cette ligne ou colonne, calculer le mineur qui lui est
associé (on calcule ce mineur en utilisant la méthode que nous sommes en train d’exposer).
55
3. Effectuer la somme des éléments de la ligne ou la colonne multipliés par (−1)i+j leur mineur. On
obtient ainsi la valeur du déterminant.
Si A est une matrice d’un type particulier, le calcul du déterminant peut devenir plus simple.
Définition 4.14 Soit A une matrice carrée d’ordre n. On dit que A est triangulaire supérieure si et seule-
ment si
aij = 0 (i > j).
De même, on dit que A est triangulaire inférieure si et seulement si
Théorème 4.22 Soit A une matrice carrée d’ordre n de type triangulaire inférieur ou supérieur. Alors
n
Y
det(A) = aii .
i=1
Théorème 4.23 Soient A et B deux matrices carrées d’ordre n et soit C leur produit. Alors
Nous démontrerons ce théorème plus loin dans le cours de manière plus abstraite.
Nous avons déjà remarqué que l’on peut intervertir lignes et colonnes d’un déterminant sans changer
sa valeur (théorème 4.14). Par conséquent, on déduit immédiatement du théorème que nous venons de
démontrer que
56
Preuve.
La thèse résulte directement de la relation
Théorème 4.25 Soit f une transformation linéaire sur Kn . Soient A la matrice associée à f (par
rapport à une base donnée) et C la matrice des cofacteurs associée.
1. f est inversible si et seulement si det(A) 6= 0.
1
2. Dans ce cas, A−1 = T
detA C .
1
3. Dans ce cas, det(A−1 ) = detA .
Théorème 4.26 Le déterminant d’une matrice A est non nul si et seulement si les colonnes de la
matrice A sont linéairement indépendantes.
Ainsi, lorsqu’une matrice A a un déterminant nul, ses colonnes sont linéairement dépendantes. Au-
trement dit, il existe un vecteur non nul v tel que Av = 0. Donc, le noyau de A (ou de la transformation
linéaire correspondante) contient le vecteur v 6= 0, ce qui implique bien que la transformation associée
n’est pas inversible. De telles matrices sont dites singulières.
Définition 4.15 Soit A une matrice carrée d’ordre n. On dit que A est singulière si et seulement si
det(A) = 0.
57
4.5 Matrices spéciales
Nous décrivons brièvement ici quelques matrices spéciales, dont nous étudierons par la suite certaines
propriétés.
Il est clair qu’une matrice symétrique réelle est hermitienne et, de même, une matrice orthogonale réelle
est unitaire. On vérifie par ailleurs le résultat suivant (à faire en exercice).
Théorème 4.27
• Si une matrice A est orthogonale, alors det(A) = ±1.
• Si une matrice A est unitaire, alors | det(A)| = 1.
Définition 4.17 Une matrice carrée A est dite normale si elle commute avec son adjointe, c’est-à-dire si
AA∗ = A∗ A.
On montre facilement que les matrices symétriques, hermitiennes, orthogonales et unitaires sont des ma-
trices normales.
4.6 Similitude
Nous avons déjà analysé comment se transforme la matrice associée à une transformation linéaire sur
un espace vectoriel de dimension n lorsque l’on change de base (théorème 4.7). Grâce à la matrice inverse,
nous pouvons réécrire :
Définition 4.18 Soient A et B deux matrices carrées d’ordre n. On dit que A et B sont semblables si et
seulement si il existe une matrice Q non singulière telle que
B = [I]YX A [I]X
Y =Q
−1
A Q.
58
Théorème 4.28 Soient A et B deux matrices semblables, c’est-à-dire deux matrices associées à la
même transformation linéaire par rapport à des bases différentes. Alors
det(A) = det(B).
Preuve.
Si A et B sont semblables, il existe une matrice Q non singulière telle que
A = Q−1 BQ.
det(A) = det(Q−1 ) det(B) det(Q) = det(B) det(Q−1 ) det(Q) = det(B) det(Q−1 Q) = det(B).
Il apparaı̂t donc que le déterminant est un scalaire associé à une transformation linéaire, et non
seulement à une matrice particulière représentant cette transformation. Jusqu’à présent, nous pouvions
dire qu’une transformation linéaire est inversible si et seulement si le déterminant de la matrice qui la
représente dans une base est non nul ; on peut maintenant affirmer qu’une transformation linéaire est
inversible si et seulement si son déterminant est non nul.
59
où A est la matrice m × n des coefficients de l’équation, b ∈ Rm est le vecteur des termes indépendants,
et x ∈ Rn est le vecteur des inconnues. Il vient donc que la résolution du système d’équations (4.6)
est équivalente à celle de l’équation matricielle (4.7). Sachant que la matrice A n’est rien d’autre que la
représentation d’une application linéaire f dans une base donnée, on notera encore que l’on recherche un
vecteur x (de coordonnées x) tel que f (x) = b (avec b de coordonnées b).
Il est évident qu’une solution ne peut être trouvée que lorsque b ∈ Im(A). Cette condition, dite de
compatibilité, se traduit sous forme matricielle par la condition de rang
qui représente bien le fait que b doit être une combinaison linéaire des vecteurs colonnes de A. On re-
marque que la condition de compatibilité est évidemment vérifiée si A est surjective.
On peut alors distinguer trois cas.
1. rang([A, b]) > rang(A). Cela se traduit par le fait que A n’est pas surjective et le vecteur b n’est
pas dans Im(A). Dans ce cas, le système ne possède pas de solutions et est dit sur-contraint. Nous
verrons au chapitre 8 comment obtenir une “solution approchée” (au sens des moindres carrés).
2. rang([A, b]) = rang(A) = n. Cela se traduit par le fait que le vecteur b est dans Im(A) et A est
injective. Cette situation ne peut être obtenue que lorsque m ≥ n. En effet, dans le cas m < n, on
aurait rang(A) ≤ m < n. Dans ce cas, le système possède une solution unique.
3. rang([A, b]) = rang(A) < n. Cela se traduit par le fait que le vecteur b est dans Im(A) mais
A n’est pas injective. Dans ce cas, le système possède une infinité de solutions et est dit sous-
contraint. Si x est une solution, alors x + y est également une solution pour tout y ∈ Ker(A).
Nous terminons en considérant le cas particulier des systèmes de n équations à n inconnues. On
distingue maintenant deux situations.
1. det(A) = 0. La matrice A n’est ni injective, ni surjective. Soit le système n’admet aucune solution
(système incompatible), soit il admet une infinité de solutions (système compatible).
2. det(A) 6= 0. La matrice A est surjective et injective (bijective). Le système est donc toujours
compatible et admet une solution unique, donnée par
x = A−1 b.
Pour la résolution à la main, la règle de Cramer permet de calculer les inconnues xj via un rapport
de déterminants :
60
On vérifie en effet que
n n
X 1 X
xj = [A−1 ]jk bk = ckj bk .
det(A)
k=1 k=1
Pn
Vu le théorème 4.20 (Binet-Cauchy), la somme k=1 ckj bk correspond bien au déterminant de la
matrice A dans laquelle on a remplacé la j ème colonne par le vecteur b.
61
Chapitre 5
Structure propre
Dans le chapitre précédent, nous avons vu que le déterminant est un scalaire associé à une trans-
formation linéaire et ne dépend pas de la base de l’espace vectoriel sous-jacent que l’on considère. Ce
chapitre est consacré à l’étude d’autres quantités qui dépendent uniquement de la transformation linéaire
analysée, et non d’une base particulière. C’est dire aussi que ces quantités seront invariantes pour des
transformations de similitude : elles sont identiques pour des matrices semblables.
Définition 5.1 Soit f une transformation linéaire sur E ≡ Kn . Alors on dira que λ ∈ K est une
valeur propre de f associée au vecteur propre non nul v ∈ E \ {0} si et seulement si
L’ensemble des valeurs propres de f est aussi appelé spectre de f et noté σ(f ).
Cette définition montre donc que le vecteur v est transformé en un autre vecteur dans la direction de
v. Ceci est également vrai pour tout multiple du vecteur v. On voit aisément dans la définition que le
vecteur propre v est défini seulement à une constante multiplicative près.
Comme les valeurs propres et vecteurs propres ont été définis pour une transformation f , indépendam-
ment du choix d’une base, il est évident que ces quantités ne dépendent pas du choix de celle-ci. D’autre
62
part, si nous voulons utiliser les vecteurs propres, il faut les exprimer dans une base particulière. Si A est
la matrice de f par rapport à cette base, notée X, l’équation qui définit les valeurs et vecteurs propres
s’écrit maintenant
A v = λ v avec [f ]X X = A et v = [v]
X
(5.2)
où v est la représentation (par une matrice colonne) du vecteur propre v dans la même base X. On peut
alors parler de v et λ comme vecteur propre et valeur propre de la matrice A.
Que se passe-t-il lorsqu’on change de base ? Écrivons l’équation (5.1) dans la base Y , avec une valeur
propre λ′ et un vecteur propre colonne v′ :
λ v = A v = (Q B Q−1 ) Q v′ = Q B (Q−1 Q) v′ = Q B v′ = Q λ′ v′ = λ′ Q v′ = λ′ v
On voit alors que λ′ = λ est valeur propre de A et de B, ce qui est logique, puisqu’il s’agit de la même
transformation linéaire exprimée dans des bases différentes. Le vecteur propre v est identique, mais a
changé d’expression : il est exprimé par v, dans la base X si on considère la matrice A, et par v′ dans la
base Y , si on considère la matrice B. De ces considérations, on déduit donc le théorème suivant :
Théorème 5.1 Soit A une matrice carrée d’ordre n et λ une valeur propre de A associée au vecteur
propre v. Alors, pour toute matrice Q non-singulière, λ est toujours valeur propre de la matrice
Q−1 AQ, mais elle est associée au vecteur propre Q−1 v.
Par la suite, dans la majorité des expressions, nous ne ferons plus la différence entre le vecteur v et sa
représentation v dans la base choisie. Nous écrirons simplement : A v = λ v.
Nous donnons maintenant un exemple important de valeurs et vecteurs propres, après avoir introduit
une notation pour un type de matrice particulier : les matrices diagonales, qui sont de la forme
a11 0 · · · 0
0 a22 · · · 0
D= . .. .. .
..
.. . . .
0 0 ··· ann
63
Nous noterons ces matrices par le symbole
Considérons maintenant les valeurs propres et vecteurs propres d’une telle matrice diagonale. On voit
immédiatement que, si
aii = 1 (i = 1, . . . , n),
la matrice diagonale n’est alors autre que la matrice identité I, et tous les vecteurs de E ≡ Kn sont alors
vecteurs propres de I, associés à la valeur propre 1. Si, maintenant, nous ne supposons plus que tous les
éléments diagonaux de la matrice diagonale D sont égaux à 1, nous pouvons néanmoins vérifier facilement
que
a11 0 · · · · · · 0
0 0 0
. .. .. .. ..
.. . . . .
··· ···
···
D[ei ]e = 0 · · · aii · · · = aii = aii 1 = aii [ei ]e ,
0 1
.
. .. .. .. .. · · ·
· · ·
· · ·
. . . . .
0 0 · · · · · · ann 0 0 0
où i = 1, . . . , n et où les ei sont les vecteurs de la base choisie dans E ≡ Kn . Par conséquent, les éléments
diagonaux de D sont des valeurs propres (de D), associées au vecteurs propres donnés par les vecteurs de
la base correspondants. Cette remarque sera utilisée de nombreuses fois dans la suite du cours.
Remarquons aussi, dans cet exemple, que le déterminant de D est égal au produit de ses coefficients
diagonaux (D est bien entendu triangulaire), c’est-à-dire à un produit de ses valeurs propres. Nous verrons
plus tard que cette propriété se généralise au cas des matrices non diagonales.
Théorème 5.2 Soit A une matrice carrée d’ordre n. Alors toute valeur propre λ de A est racine de
l’équation polynomiale
det(λI − A) = 0. (5.4)
Preuve.
Soit λ une valeur propre de A. Par définition, il existe alors un vecteur y non nul tel que
A y = λ y,
64
ou encore
(λI − A) y = 0.
y = (λI − A)−1 0 = 0,
ce qui est une contradiction. Donc l’équation (5.4) est bien satisfaite pour toute valeur propre λ. Il résulte
de plus de la définition du déterminant comme somme de produits que (5.4) est bien une équation poly-
nomiale (de degré au plus n) et λ est donc bien une racine de cet polynôme.
Pour démontrer la réciproque, supposons que λ soit racine de l’équation (5.4), ce qui signifie que la
matrice λI − A est singulière. La transformation linéaire sous-jacente l’est donc aussi. On en déduit alors
que son noyau n’est pas réduit à l’origine et l’on peut donc choisir un vecteur v non nul dans Ker(λI − A).
Pour ce vecteur, on a alors que
(λI − A)x = 0,
Théorème 5.3 Soit A une matrice carrée d’ordre n. Alors elle admet exactement n valeurs propres.
De plus, son polynôme caractéristique est un polynôme de degré exactement égal à n et de la forme
Preuve.
Vérifions d’abord la forme du polynôme caractéristique. Ce polynôme est, par définition,
et l’on voit qu’il existe dans la somme (4.4) un terme qui contiendra le produit de tous les facteurs conte-
nant x se trouvant sur la diagonale. Comme chacun de ces facteurs est affecté du coefficient 1 et que la
permutation correspondant à ce produit est la permutation identique, on voit donc que le coefficient de
65
xn dans le polynôme sera égal à 1. De plus, si l’on prend la valeur de ce polynôme en x = 0, on voit
immédiatement que le terme indépendant est identique au déterminant de (−A), ou encore à
(−1)n det(A).
La forme (5.5) est donc correcte. Il en résulte alors que le nombre de valeurs propres est égal au nombre
de racines d’un polynôme de degré n, soit n.
A partir du polynôme caractéristique, nous pouvons déduire quelques propriétés intéressantes des
valeurs propres. Une première proriété lie les valeurs propres de A aux valeurs propres de sa transposée.
Théorème 5.4 Soit A une matrice carrée d’ordre n et soit λ une de ses valeurs propres. Alors λ est
aussi valeur propre de la matrice AT .
Preuve.
Cet énonce est évident lorsqu’on a remarqué que
det(λI − A) = det(λI − AT ) = 0.
On remarque que certaines valeurs propres peuvent être imaginaires, car toutes les racines d’un po-
lynôme de degré n ne sont pas nécessairement réelles. Par ailleurs, le polynôme caractéristique est un
polynôme monique, c’est-à-dire que le coefficient du terme de degré le plus élevé est égal à 1. Une
conséquence de cette propriété est donnée par le théorème suivant :
Théorème 5.5 Soit A une matrice carrée d’ordre n. Alors son déterminant est égal au produit de ses
valeurs propres.
Preuve.
Cet énoncé résulte immédiatement du fait que le terme indépendant d’un polynôme monique est identique
au produit de ses racines, au signe près, suivant la parité de n. Ceci peut se voir en écrivant le polynôme
sous la forme suivante, valable pour tout λ :
n
Y
det(λI − A) = (λ − λi ),
i=1
où les λi sont les n racines de ce polynôme. Il vient donc, en remplaçant λ par 0 :
n
Y n
Y
n
det(−A) = (−λi ) = (−1) λi .
i=1 i=1
66
Comme det(−A) = (−1)n det(A) par la propriété de multilinéarité sur les colonnes, on en déduit finale-
ment
Yn
det(A) = λi .
i=1
Théorème 5.6 Soit A une matrice carrée d’ordre n. Alors elle est singulière si et seulement si elle
admet au moins une valeur propre nulle.
Preuve.
On voit facilement, en vertu du théorème précédent, que le déterminant de A est nul si et seulement si une
(ou plusieurs) des valeurs propres est nulle.
Notons que la somme des valeurs propres, quant à elle, est égale à la trace de la matrice, c’est-à-dire
la somme des éléments diagonaux :
n
X n
X
λi = aii = tr(A).
i=1 i=1
Définition 5.2 Soit A une matrice carrée et λi une de ses valeurs propres. La multiplicité algébrique
(notée mi ) de λi est la multiplicité (le nombre de fois) avec laquelle elle est racine du polynôme ca-
ractéristique.
Il est évident que la somme des multiplicités algébriques de toutes les valeurs propres prises distinctement
est égale à l’ordre de la matrice.
Dans cette section, nous nous intéressons également à l’indépendance linéaire des vecteurs propres.
Nous pouvons énoncer le résultat suivant.
Théorème 5.7 Soit A une matrice carrée d’ordre n et soient λ1 et λ2 deux valeurs propres distinctes
de A. Alors les vecteurs propres qui leur sont associés sont linéairement indépendants.
67
Preuve.
Soit v1 un vecteur propre associé à λ1 et v2 un vecteur propre associé à λ2 . On peut écrire :
A v 1 = λ1 v 1 et A v2 = λ2 v2 .
Supposons que v1 et v2 soient linéairement dépendants, ce qui signifie qu’il existe α 6= 0 tel que v2 = α v1 .
Nous pouvons donc écrire :
A α v 1 = A v 2 = λ2 v 2 = λ2 α v 1
ce qui est impossible, car les deux valeurs propres sont distinctes, et v1 , comme tout vecteur propre, est
toujours non nul. Les deux vecteurs propres sont donc linéairement indépendants.
Alors que deux vecteurs propres associés à des valeurs propres distinctes sont linéairement indépendants,
il n’en est pas de même dans le cas de valeurs propres multiples.
Théorème 5.8 Soit une matrice carrée A. Toute combinaison linéaire de vecteurs propres de A as-
sociés à une même valeur propre λ est un vecteur propre de A.
Preuve.
Supposons que A admette deux vecteurs propres distincts v(1) et v(2) correspondant à une seule valeur
propre λ. Pour α et β deux scalaires quelconques, on obtient
et donc toute combinaison linéaire des vecteurs propres v(1) et v(2) est aussi un vecteur propre associé à
la valeur propre λ. Le raisonnement se généralise à tout ensemble de plus de deux vecteurs propres.
L’espace vectoriel généré par les vecteurs propres associés à une même valeur propre s’appelle le
sous-espace propre.
Définition 5.3 Le sous-espace vectoriel engendré par les vecteurs propres d’une matrice carrée A as-
sociés à une valeur propre λ est appelé sous-espace propre. Il correspond au noyau de A − λI.
Définition 5.4 Soit A une matrice carrée d’ordre n et soit λi une de ses valeurs propres. La multiplicité géométrique
(notée µi ) de λi est alors la dimension du sous-espace propre associé à λi , c’est-à-dire µi = dim(A − λi I).
68
Il existe une relation entre les multiplicités algébrique et géométrique d’une valeur propre.
Théorème 5.9 Soit A une matrice carrée d’ordre n et soit λi une de ses valeurs propres. Alors la
multiplicité géométrique de λi est inférieure ou égale à sa multiplicité algébrique (µi ≤ mi ).
Preuve.
µi
Soit {v(j) }j=1 un ensemble de vecteurs propres linéairement indépendants associés à la valeur propre λi .
Ces vecteurs forment une base de l’espace propre associé à λi et peuvent être complétés par un ensemble
de vecteurs {v(j) }nj=µi +1 afin de former une base de Kn . On peut alors construire la matrice
| |
Q = v(1) · · · v(n) .
| |
Cette matrice est non-singulière car ses colonnes vj sont linéairement indépendantes (les vecteurs vj
forment une base par définition), ce qui permet de définir une autre matrice B = Q−1 AQ. L’égalité
QB = AQ donne alors
| | | | | | | |
· · · v(n) B = Av(1) · · · Av(n) = λi v(1) · · · λi v(µi ) Av(µi +1) · · · Av(n) .
(1)
v
| | | | | | | |
Chaque colonne de la matrice B contient les coordonnées de chaque vecteur colonne correspondant de la
matrice AQ (membre de droite). La matrice B est donc de la forme
λi 0 · · · 0
0 λi
..
.. B
1
. .
0 λi
0 B2
où P (λ) est un polynôme quelconque de degré n − µi . Étant donné que A et B sont des matrices sem-
blables, elles ont le même polynôme caractéristique et on conclut que A a une valeur propre λi de multi-
plicité algébrique au moins égale à µi .
Un exemple simple qui illustre le résultat précédent est la matrice
!
1 1
,
0 1
69
où la multiplicité algébrique de la valeur propre 1 vaut 2, tandis que sa multiplicité géométrique vaut 1.
Définition 5.5 Un matrice défective est une matrice qui admet (au moins) une valeur propre de multipli-
cité géométrique strictement inférieure à sa multiplicité algébrique.
Clairement, une matrice défective admet un nombre de vecteurs propres linéairement indépendants stric-
tement inférieur à sa dimension.
Si l’on renforce un peu les hypothèses, on obtient le résultat suivant, connu sous le nom de théorème
de décomposition spectrale :
Théorème 5.10 Une matrice carrée A d’ordre n possède n vecteurs propres linéairement
indépendants si et seulement si il existe une matrice non-singulière Q telle que
Q−1 AQ = diag(λ1 , λ2 , . . . , λn ),
où les λi sont les valeurs propres de A. De plus, les colonnes de la matrice Q sont les vecteurs propres
associés à ces valeurs propres.
Preuve.
Supposons que la matrice A possède n vecteur propres vj linéairement indépendants et montrons que la
70
matrice Q existe. On va construire pour cela une matrice Q dont les colonnes sont les vecteurs propres vj :
| |
Q = v1 · · · vn .
| |
Vu que les vecteur propres sont linéairement indépendants, il est évident que Q est non-singulière. Par
ailleurs, on vérifie que
| | | | | |
Q−1 AQ = Q−1 Av1 · · · Avn = Q−1 λ1 v1 · · · λn vn = Q−1 v1 · · · vn diag(λ1 , . . . , λn )
| | | | | |
= diag(λ1 , . . . , λn ).
Supposons maintenant qu’il existe une matrice Q et montrons que la matrice A possède n vecteurs
propres linéairement indépendants. On a donc que
AQ = Qdiag(λ1 , . . . , λn ).
En considérant à nouveau que les colonnes de Q sont des vecteurs vj , l’égalité ci-dessous peut être ré-
écrite colonne par colonne pour donner
Avj = λj vj .
Les vecteurs vj sont donc bien des vecteurs propres de A. Ils sont linéairement indépendants car la matrice
Q est non-singulière par hypothèse.
Si les valeurs propres de A ne sont pas distinctes, les vecteurs propres associés peuvent être linéairement
dépendants et la situation se complique. Il n’est plus toujours vrai que A est semblable à une matrice
diagonale. On peut néanmoins prouver un résultat similaire. Pour présenter ce résultat, que nous ne
démontrerons pas, nous avons besoin de quelques définitions.
Définition 5.6 Soient {Bi }pi=1 une collection de matrices d’ordre mi respectivement. Si on place ces
matrices les unes en dessous des autres, le long de la diagonale, la matrice obtenue A sera appelée une
diagonale par blocs (les blocs étant les sous-matrices Bi ) et sera notée
A = diag(B1 , . . . , Bp ).
On voit immédiatement que la dimension de la matrice carrée A, diagonale par blocs, est égale à la
somme des dimensions partielles mi (i = 1, . . . , p) des blocs Bi qui la composent :
p
X
n= mi .
i=1
71
Les matrices diagonales sont des cas particuliers de matrices diagonales par blocs : tous les blocs sont
de dimension mi = 1 et p = n.
Nous admettrons le résultat suivant :
Théorème 5.11 Le polynôme caractéristique d’une matrice diagonale par blocs est le produit des
polynômes caractéristiques de ses composantes.
Exemple
! ! −1 −1 4
1 −1 4 1
avec B1 = , B2 = , B3 = 7 et B4 = 6 7 −2 .
2 5 6 8
1 0 6
Blocs de Jordan
Définition 5.7 Nous dirons que la matrice carrée Jp (λ∗ ), d’ordre p, est un bloc de Jordan de dimension
p associé à λ∗ si et seulement si cette matrice est de la forme
λ 1 0 0 ··· 0
0 λ 1 0 ··· 0
..
. .
0 0 λ 1 . .
Jp (λ∗ ) =
.. .. . .
.
. . .. .. 0
0 0 ··· λ 1
0 0 0 ··· 0 λ
72
Théorème 5.12 Le déterminant d’un bloc de Jordan de dimension p associé à λ∗ est donné par :
Preuve.
La démonstration est évidente, puisqu’un bloc de Jordan est une matrice triangulaire supérieure.
Analysons maintenant les valeurs propres d’un tel bloc.
Théorème 5.13 Le bloc Jp (λ∗ ) admet une valeur propre unique λ∗ de multiplicité p. De plus, ce
bloc n’admet qu’un seul vecteur propre associé à cette valeur propre : le vecteur e1 .
Preuve.
Considérons le polynôme caractéristique de Jp (λ∗ )
det(λI − Jp (λ∗ )) = (λ − λ∗ )p ,
qui admet évidemment une seule racine λ = λ∗ de multiplicité p. On en déduit que λ∗ est la seule valeur
propre associée à Jp (λ∗ ). Si l’on écrit maintenant l’équation aux valeurs propres
ce qui impose que [v]p = 0. De même, la (p − 2)ième ligne impose que [v]p−1 = 0, et ainsi de suite
jusqu’à [v]2 = 0. Le seul vecteur propre de Jp (λ∗ ) est donc un multiple du vecteur e1 .
Théorème de Jordan
Munis de ces nouvelles notions, nous pouvons alors énoncer le résultat annoncé : le théorème de
Jordan.
73
Théorème 5.14 Soit A une matrice carrée d’ordre n. Alors il existe une matrice non-singulière Q
telle que
Q−1 AQ = J = diag (Jp1 (λ1 ), . . . , Jps (λs )) , (5.6)
avec
s
X
pi = n. (5.7)
i=1
La forme donnée par (5.6) est unique à l’ordre des blocs Jpi (λi ) sur la diagonale près.
La matrice J est appelée forme de Jordan de la matrice A. Par le théorème 5.11, on voit donc que le
polynôme caractéristique de J (et donc aussi de A) est égal à
s
Y
det(λI − A) = det(λI − J) = (λ − λi )pi , (5.8)
i=1
Théorème 5.15 Soit A une matrice carrée d’ordre n et soit J sa forme de Jordan. Si J est formée de
s blocs de Jordan, alors A admet exactement s vecteurs propres linéairement indépendants.
Exemple
Visualisons les différents résultats énoncés ci-dessus. Nous partons d’une matrice A de dimensions
8 × 8, avec 3 valeurs propres distinctes λ1 , λ2 et λ3 . Après calculs, nous obtenons :
det(λ I − A) = (λ − λ1 )2 (λ − λ2 )5 (λ − λ3 )
74
— Pour λ1 : 1 bloc dans une zone disponible 2 × 2 ; il y aura donc un seul bloc de dimension 2, que
nous écrivons J2 (λ1 ).
— Pour λ2 : 3 blocs dans une zone disponible 5 × 5 ; il y aura donc deux solutions possibles, une
première avec 2 blocs J2 (λ2 ) et 1 bloc J1 (λ2 ) et une seconde, avec 2 blocs J1 (λ2 ) et 1 bloc J3 (λ2 ).
La théorie vue dans ce cours ne permet pas de trancher, mais en utilisant d’autres outils, on peut
toujours déterminer la solution unique (à une permutation des blocs près) garantie par le théorème
de Jordan. Nous supposons ici qu’il s’agit de la première possibilité.
— Pour λ3 : 1 bloc dans une zone disponible 1 × 1 ; ce sera alors J1 (λ3 ).
Exemple
2 1 1
A= 0 1 2 .
0 −2 5
La matrice A est exprimée dans une base de référence e = {e1 , e2 , e3 }.
75
Commençons par calculer les valeurs propres et leurs multiplicités.
det(A − λI) = 0,
(2 − λ)[(1 − λ)(5 − λ) + 4) = 0,
(2 − λ)(5 − 6λ + λ2 + 4] = 0,
(2 − λ)(λ2 − 6λ + 9) = 0,
(2 − λ)(3 − λ)2 = 0.
Calculons maintenant les vecteurs propres associés aux deux valeurs propres distinctes.
1. λ1 = 2 et (A − 2I)X1 = 0 avec X1 = α e1 + β e2 + γ e3 .
0 1 1 α 0
0 −1 2 β = 0 .
0 −2 3 γ 0
β + γ = 0,
−β + 2γ = 0,
−2β + 3γ = 0,
2. λ2 = 3 et (A − 3I)X2 = 0 avec X2 = α e1 + β e2 + γ e3 .
−1 1 1 α 0
0 −2 2 β = 0 ,
0 −2 2 γ 0
−α + β + γ = 0,
−2β + 2γ = 0,
−2β + 2γ = 0,
76
ce qui donne β = γ et α = 2β. Le sous-espace vectoriel propre associé à λ2 est span{2 e1 +
e2 + e3 }, ce qui permet de déduire la valeur de la multiplicité géométrique, égale à 1, alors que la
multiplicité algébrique vaut 2. Le nombre de blocs de Jordan associé à λ2 est donc de 1, pour une
place 2 × 2. Ce sera donc 1 bloc de Jordan de dimension 2.
0 0 3
AQ = QJ.
On connait les deux premières colonnes de Q qui correspondent aux vecteurs propres déjà calculés. La
troisième est inconnue puisqu’il n’existe plus d’autre vecteur propre linéairement indépendant. Appelons
ces termes a, b et c et tâchons de les déterminer.
1 2 a
Q= 0 1 b et AQ = QJ.
0 1 c
On obtient :
2 1 1 1 2 a 1 2 a 2 0 0
0 1 2 0 1 b = 0 1 b 0 3 1
0 −2 5 0 1 c 0 1 c 0 0 3
2 6 2a + b + c 2 6 2 + 3a
0 3 b + 2c = 0 3 1 + 3b
0 3 −2b + 5c 0 3 1 + 3c
ou encore
2a + b + c = 2 + 3a
b + 2c = 1 + 3b
−2b + 5c = 1 + 3c
Alternativement, un vecteur propre généralisé peut être calculé comme le vecteur w vérifiant l’équation
(A − λi I)p w = 0 avec p ∈ N. Cette propriété est résumée dans le définition suivante.
77
Définition 5.8 Soit une matrice A possédant une valeur propre λi de multiplicité algébrique mi . Un vec-
teur w 6= 0 est un vecteur propre généralisé de A associé à la valeur propre λi s’il existe p ∈ {1, . . . , mi }
tel que
(A − λi I)p−1 w 6= 0 et (A − λi I)p w = 0.
On notera qu’un vecteur propre est un vecteur propre généralisé d’ordre p = 1. Par ailleurs, une matrice
d’ordre n admet n vecteurs propres généralisés linéairement indépendants, chaque bloc de Jordan Jpi (λi )
étant associé à pi vecteurs propres généralisés linéairement indépendants d’ordre p ∈ {1, . . . , pi }.
Finalement, nous pouvons vérifier dans l’exemple précédent que (3/2, 0, 1/2) est bien un vecteur
propre généralisé d’ordre 2, associé à la valeur propre λ2 = 3, étant donné que
2
2 1 1 1 0 0 3/2 1 −5 3 3/2
0 1 2 − 3 0 1 0 0 = 0 0 0 0 = 0.
0 −2 5 0 0 1 1/2 0 0 0 1/2
Définition 5.9 Une matrice carrée de dimension n est dite diagonalement dominante si et seulement si,
pour tout i entre 1 et n,
X
|aij | ≤ |aii |. (5.9)
j6=i
Elle sera dite strictement diagonalement dominante si et seulement si elle est diagonalement dominante
et si l’inégalité (5.9) est stricte pour tous les i.
Une matrice diagonalement dominante a donc ses éléments diagonaux plus grands en module que la
somme des modules des éléments hors diagonaux de la même ligne.
Exemple
La matrice ci-dessous est diagonalement dominante mais n’est pas strictement diagonalement domi-
nante, à cause de l’égalité présente à la deuxième ligne :
4i i 2 |4i| = 4 > |i| + |2| = 3
√ √ √
0 1+i 2 |1 + i| = 2 = |0| + | 2|
78
On peut alors énoncer le résultat suivant :
Preuve.
Supposons que A soit strictement diagonalement dominante et qu’il existe un vecteur x non nul tel que
Ax = 0. Notons xi = [x]i . Soit alors
|xm | = max |xj | > 0.
j
On obtient alors (par Ax = 0) que
n
X
amj xj = 0
j=1
ou encore
X
amm xm + amj xj = 0.
j6=m
On en déduit :
X
amm xm = − amj xj
j6=m
et en passant aux modules :
X X
|amm xm | = |amm | |xm | = | amj xj | ≤ |xm | |amj |,
j6=m j6=m
ce qui contredit la dominance diagonale stricte de A. Donc le noyau de A est réduit à l’origine, et A est
inversible.
Cette propriété est très utile dans la pratique car la classe des matrices diagonalement dominantes
est assez répandue. D’autre part, elle permet aussi de démontrer le résultat fondamental suivant, appelé
premier théorème de Gerschgorin :
Théorème 5.17 Soit A une matrice carrée de dimension n. Alors toute valeur propre λ de A se
trouve dans l’union des disques du plan complexe
X
Di = z ∈ C | |z − aii | ≤ |aij | . (5.10)
j6=i
Preuve.
Supposons que λ n’appartienne pas à l’union des disques Di , c’est-à-dire que
X
|λ − aii | > |aij |,
j6=i
79
pour tout i entre 1 et n. On en déduit que la matrice λI − A est strictement diagonalement dominante, et
donc, en vertu du théorème précédent, inversible. Ceci implique alors que λ n’est pas valeur propre de A,
ce qui est impossible.
On peut aussi appliquer ce théorème à la matrice transposée, ce qui est parfois plus avantageux.
Nous mentionnons finalement la propriété suivante concernant les valeurs propres de la matrice in-
verse, qui est à vérifier en exercice.
Théorème 5.18 Soit A une matrice carrée inversible de dimension n et soient λi , i = 1, . . . , n, ses
1
valeurs propres. Alors les valeurs propres de A−1 valent , i = 1, . . . , n.
λi
80
Chapitre 6
Dans ce chapitre, nous allons munir l’espace vectoriel réel ou complexe de dimension n d’une notion
supplémentaire : la norme d’un vecteur. L’espace vectoriel de départ muni de cette notion est alors appelé
espace (vectoriel) normé, qui est un cas particulier d’espace métrique, dans lequel une notion de distance
est définie. Ensuite, nous ajouterons encore plus de structure via l’introduction du produit scalaire.
Ces normes satisfont bien les propriétés de la définition 6.1 (à vérifier en exercice). De manière
générale, les normes vectorielles dans un espace vectoriel E sont directement associées à des normes
dans Cn , en ce sens que, si v ∈ Rn est la représentation du vecteur v ∈ E dans une base, on a kvk = kvk.
pPn
Ainsi, par exemple, kvk2 = 2
i=1 |vi | . Dans ce cas, la norme dépendra du choix de la base.
On notera finalement que les matrices sont des éléments d’un espace vectoriel. Il est donc possible de
définir des normes de matrices, appelées normes matricielles. Ce sera l’objet du chapitre suivant.
81
6.2 Produit scalaire
Nous pouvons maintenant ajouter une notion supplémentaire à l’espace vectoriel : le produit scalaire.
Comme nous le verrons, celui-ci permet de caractériser l’angle entre deux vecteurs et est directement lié
à une norme particulière.
Définition 6.3 Soient v et w deux vecteurs d’un espace vectoriel réel E de dimension n. On dira que
leur produit scalaire dans la base X = {xi }ni=1 est le réel hv, wi défini par la relation
n
X n
X n
X
hv, wi = vi wi avec v = vi xi et w = wi xi . (6.1)
i=1 i=1 i=1
Si on passe à une représentation matricielle, on peut associer le vecteur colonne v à v et le vecteur colonne
w à w, définis par :
v1 w1
v2 w2
v=
et w = . . .
. . .
vn wn
et écrire :
hv, wi = wT v.
Nous remarquerons d’abord que cette définition pourrait aussi s’écrire comme
hv, wi = vT w.
On en déduit donc une première propriété du produit scalaire réel : il est symétrique en ses arguments.
Notons que la relation (6.1) définit une forme bilinéaire de E × E dans R. On remarque aussi que,
pour tout v de E,
X n
hv, vi = vi2 ≥ 0.
i=1
Cette forme bilinéaire vérifie donc la propriété de positivité :
v 6= 0 ⇒ hv, vi > 0.
Par ailleurs, grâce à la positivité, le produit scalaire permet de ré-interpréter la norme k · k2 définie
précédemment :
X n
vi2 = hv, vi.
p
kvk2 =
i=1
On dira que la norme k·k2 est induite par le produit scalaire. Elle peut être interprétée comme la “longueur”
du vecteur. De même, le produit scalaire permet de définir un “angle” entre deux vecteurs.
82
Définition 6.4 Soient v et w deux vecteurs non nuls d’un espace muni d’un produit scalaire. L’angle
entre ces deux vecteurs est le réel θ, compris entre 0 et π, défini par
hv, wi
cos(θ) = .
kvk2 kwk2
Ces notions de longueur et d’angle correspondent aux notions intuitives dans R2 et R3 .
où nous avons utilisé la bilinéarité du produit scalaire. Le fait qu’un carré soit négatif ne permet plus d’en
prendre la racine carrée positive pour définir la norme. Aussi nous allons modifier la définition (6.1) et
poser :
Définition 6.5 Soient v et w deux vecteurs d’un espace vectoriel complexe de dimension n. Alors, leur
produit scalaire hv, wi est le nombre complexe défini par
n
X
hv, wi = vi wi = wT v = w∗ v. (6.2)
i=1
Ce produit scalaire n’est plus symétrique comme dans le cas d’un espace métrique réel, mais satisfait
maintenant les relations suivantes
hv, wi = hw, vi,
hαv + βw, zi = αhv, zi + βhw, zi
et
hv, αw + βzi = αhv, wi + βhv, zi.
On dit alors que le produit scalaire est une forme sesquilinéaire, et non plus bilinéaire !
Avec le produit scalaire ainsi défini, il est immédiat de voir que la norme k · k2 d’un vecteur complexe
est alors donnée par la relation
Xn
2
kvk2 = hv, vi = |vi |2 . (6.3)
i=1
Nous remarquons que la définition de la forme sesquilinéaire (6.2) reste valable dans le cas réel et que
nous retrouvons alors les propriétés du produit scalaire réel défini par (6.1).
La forme sesquilinéaire (ou bilinéaire dans la cas réel) positive h·, ·i définie sur E × E dans K permet
de calculer le produit scalaire de deux vecteurs quelconques de E, et de déterminer ainsi leurs longueurs
et l’angle qui les sépare. On appelle cette forme h·, ·i la métrique de E.
Définition 6.6 Un espace vectoriel E muni d’une métrique est appelé un espace métrique.
83
6.2.3 Changement de base
Imaginons maintenant un changement de base : au départ nous considérons que les vecteurs v et w
sont décomposés dans une base X = {x1 , . . . , xn } et représentés par des scalaires vi pour v et wi pour
w dans cette base. Leur produit scalaire s’écrit donc, dans la base X :
n
X
hv, wi = vi w i = w∗ v. (6.4)
i=1
Prenons une seconde base Y = {y1 , . . . , yn } que nous pouvons relier à la première base par une
matrice carrée Q = [I]X
Y de dimension n × n, dont les éléments sont qij :
n
X
∀ i = 1, . . . , n : yi = qji xj .
j=1
Dans la base Y , nous représentons les vecteurs par des scalaires vi′ pour v et wi′ pour w. Nous
écrivons :
Xn
v = vi′ yi ,
i=1
n
X
w = wj′ yj .
j=1
Introduisons une matrice de dimension n × n notée G et définie par [G]ij = gij = hyi , yj i et écrivons
la relation (6.5) de façon matricielle :
n
X n
X
hv, wi = vi′ w ′j gij = w′∗ G v′ . (6.6)
i=1 j=1
En comparant l’expression du produit scalaire dans la base Y donnée par (6.6) avec celle donnée dans
la base de départ X en (6.4), nous constatons que l’écriture du produit scalaire dans une base dépend
d’une matrice, I dans la base de référence, G dans la nouvelle base :
hv, wi = w∗ v = w∗ I v = w′∗ G v′ .
Nous pouvons donc aussi considérer, si nous travaillons dans la base Y , que notre espace vectoriel E
est associé à une nouvelle métrique entièrement définie par la matrice G, alors que la base de référence
X était associée à une métrique de matrice I. La donnée de la matrice G suffit à calculer directement le
produit scalaire dans la base Y .
Cette matrice G n’est pas quelconque ; en particulier, à ce stade, nous pouvons déjà constater que
ses éléments diagonaux gii sont strictement positifs, qu’elle est inversible (à démontrer), qu’elle est
symétrique dans le cas réel (gij = gji ∀i, j ou G = GT ) et hermitienne dans le cas complexe (gij =
g ji ∀i, j ou G = G∗ ).
84
6.3 Orthogonalité
La relation la plus importante entre deux ou plusieurs vecteurs d’un espace métrique est l’orthogona-
lité. Nous définirons cette notion formellement comme suit :
Définition 6.7 Soient v et w deux vecteurs d’un espace métrique E. Nous dirons que v et w sont
orthogonaux si et seulement si
hv, wi = 0.
Remarquons tout de suite que cette relation est symétrique : en effet, puisque
∀ i, j = 1, . . . , m hxi , xj i = δij .
Nous remarquerons ici que l’orthogonalité de deux vecteurs implique leur indépendance linéaire.
Théorème 6.1 Soit X = {xi }m i=1 un ensemble orthonormé dans un espace métrique E. Alors, les
vecteurs de X sont linéairement indépendants.
Preuve.
Supposons que nous avons une combinaison linéaire nulle de vecteurs de X :
m
X
αi xi = 0.
i=1
85
6.3.1 Relations de Bessel, Parseval et Cauchy-Schwarz
Nous citons ici trois résultats importants, qui seront démontrés dans d’autres cours.
Théorème 6.2 (Inégalité de Bessel) Soit X = {xi }m i=1 un ensemble orthonormé fini dans un espace
métrique muni d’un produit scalaire.
Alors
Xm
|hv, xi i|2 ≤ kvk22 .
i=1
Pm
De plus, le vecteur v′ = v − i=1 hv, xi i xi est orthogonal au sous-espace span(X).
Définition 6.9 Soit X un ensemble orthonormé de vecteurs dans un espace métrique E. On dira que cet
ensemble X est complet si et seulement si il n’est contenu dans aucun autre ensemble orthonormé de E.
Théorème 6.3 (Théorème de Parseval) Soit X = {xi }ni=1 un ensemble orthonormé de vecteurs
dans un espace métrique E. Alors, les assertions suivantes sont équivalentes :
1. X est un ensemble orthonormé complet,
2. hv, xi i = 0 ∀ i = 1, ..., n ⇒ v = 0,
3. span(X) = E,
n
X
4. ∀ v ∈ E : v = hv, xi ixi ,
i=1
n
X
5. ∀ v, w ∈ E : hv, wi = hv, xi ihxi , wi,
i=1
n
X
6. ∀ x ∈ E : kvk22 = |hv, xi i|2 .
i=1
Ce théorème illustre la raison pour laquelle un ensemble orthonormé complet sera simplement appelé
une base orthonormée. Par ailleurs, l’équivalence 5 montre qu’un produit scalaire défini avec une base
orthonormée ne dépend pas du choix de cette base. Cela peut se voir également en considérant la matrice
G permettant de définir le produit scalaire dans une autre base.
86
Finalement, nous pouvons énoncer l’inégalité de Cauchy-Schwarz (cfr cours d’analyse) :
Théorème 6.4 (Inégalité de Cauchy-Schwarz) Soient v et w deux vecteurs quelconques d’un es-
pace métrique. Alors
|hv, wi| ≤ kvk2 kwk2 .
L’inégalité de Cauchy-Schwarz est un résultat très important, qui permet notamment de montrer
l’inégalité triangulaire pour la norme k · k2 .
Étape 2 : m = 2
On s’intéresse au deuxième de base, x2 , et on calcule ce qu’il en reste (z2 ), une fois “projeté” sur
l’ensemble orthonormé S1 .
z2 = x2 − hx2 , y1 i y1 .
Ce vecteur z2 est non nul, car x1 et x2 sont des vecteurs d’une même base, qui sont donc
linéairement indépendants et ne peuvent ainsi pas être combinaisons linéaires l’un de l’autre. Le
vecteur z2 est aussi orthogonal à y1 par le théorème de Bessel-Parseval.
On peut donc normer z2 :
z2
y2 = et S2 = {y1 , y2 } constitue un ensemble orthonormé à 2 éléments.
kz2 k2
Étape 3 : m = 3
Partant de x3 , on calcule ce qu’il en reste (z3 ), une fois “projeté” sur l’ensemble orthonormé S2 .
z3 = x3 − hx3 , y1 i y1 − hx3 , y2 i y2 .
Ce vecteur z3 est non nul et orthogonal à y1 et à y2 , pour les mêmes raisons que précédemment
(voir Étape 2).
87
On peut donc normer z3 :
z3
y3 = et S3 = {y1 , y2 , y3 } constitue un ensemble orthonormé à 3 éléments.
kz3 k2
Ce vecteur est non nul et orthogonal à tous les vecteurs de Sn−1 . On termine la construction de la
base orthonormée en normant zn :
zn
yn = .
kzn k2
Conclusion : {y1 , y2 , . . . , yn } est donc un ensemble orthonormé complet (à n éléments) qu’on ap-
pelle une base orthonormée.
Si E est un espace métrique de dimension n, il est toujours possible d’y construire une base ortho-
normée : on part d’une base quelconque, dont l’existence est assurée, et on la transforme en une base
orthonormée par la méthode de Gram-Schmidt décrite ci-dessus.
Exemple
Prenons E = R3 associé à la base X = {(1, 1, 1), (−1, 1, 1), (−1, 1, −1) et recherchons la base Y
orthonormée, calculée à partir de X par la méthode de Gram-Schmidt.
√
— Étape 1 : x1 = (1, 1, 1) et kx1 k2 = 3, et donc y1 = √13 (1, 1, 1)
— Étape 2 : x2 = (−1, 1, 1)
z2 = x2 − hx2 , y1 i y1
1 1
= (−1, 1, 1) − h(−1, 1, 1), √ (1, 1, 1)i √ (1, 1, 1)
3 3
1 1
= (−1, 1, 1) − √ √ (1, 1, 1)
3 3
1 4 2 2
= (−1, 1, 1) − (1, 1, 1) = (− , , )
3 3 3 3
2√ z2 1
kz2 k2 = 6 ⇒ y2 = = √ (−2, 1, 1)
3 kz2 k2 6
88
— Étape 3 : x3 = (−1, 1, −1)
z3 = x3 − hx3 , y1 i y1 − hx3 , y2 i y2
1 1
= (−1, 1, −1) − h(−1, 1, −1), √ (1, 1, 1)i √ (1, 1, 1)
3 3
1 1
−h(−1, 1, −1), √ (−2, 1, 1)i √ (−2, 1, 1)
6 6
−1 1 2 1
= (−1, 1, −1) − √ √ (1, 1, 1) − √ √ (−2, 1, 1)
3 3 6 6
1 1
= (−1, 1, −1) + (1, 1, 1) − (−2, 1, 1) = (0, 1, −1)
3 3
√ z3 1
kz3 k2 = 2 ⇒ y3 = = √ (0, 1, −1)
kz3 k2 2
— Nous en déduisons la base Y = { √13 (1, 1, 1), √1 (−2, 1, 1), √1 (0, 1, −1)}
6 2
89
Chapitre 7
Normes matricielles
Dans la première partie de ce chapitre, nous étudierons les normes que l’on peut construire sur l’en-
semble des matrices. Ces normes ont d’importantes propriétés qui sont abondamment utilisées dans la
plupart des applications de l’algèbre linéaire et pour le calcul numérique.
Si l’on considère l’ensemble des matrices, on peut se poser la question de trouver un nombre qui
exprime, d’une certaine manière, la “grandeur” d’une matrice. Nous avons déjà le déterminant à notre
disposition, mais nous savons qu’une matrice peut être très différente d’une matrice nulle tout en étant
singulière (et donc avec un déterminant nul). Nous allons ainsi tenter de généraliser la notion de norme
aux matrices.
Définition 7.1 Soit k·kM une application de Cn×n dans R. Alors cette application est une norme matricielle
si et seulement si les conditions suivantes sont satisfaites pour deux matrices A et B quelconques, carrées,
de dimension n :
kAkM ≥ 0,
kAkM = 0 ⇔ A = 0,
kkAkM = |k|.kAkM , ∀ k ∈ C,
On remarque qu’une propriété relative au produit (opération interne) de deux matrices carrées est présente,
alors qu’elle n’a pas de sens pour les vecteurs.
Nous dirons de plus :
90
Définition 7.2 Soit k · kM une norme matricielle et k · kV une norme vectorielle. Ces deux normes sont
dites compatibles si et seulement si
kAxkV ≤ kAkM kxkV ,
Avec ces définitions, nous ne savons toujours pas comment construire une norme matricielle. Cette
lacune est comblée par le résultat suivant :
kAxkV
kAkM (V ) = sup (7.1)
x6=0 kxkV
Preuve.
Les trois premières propriétés de la définition 7.1 de norme matricielle sont évidentes et laissées à titre
d’exercice. Pour la quatrième propriété, on obtient par l’inégalité triangulaire :
où la dernière inégalité provient du fait que le supremum sur tous les vecteurs Bx ∈ Im(B) ⊆ Rn est
plus petit où égal au supremum sur tous les vecteurs x ∈ Rn . Ceci démontre que la norme induite est une
norme matricielle.
Pour la propriété de norme compatible, si x 6= 0, on vérifie que
kAxkV
kAkM (V ) kxkV ≥ kxkV = kAxkV .
kxkV
Si x = 0, la propriété est triviale.
Ce résultat conduit à la définition de la norme matricielle induite.
Définition 7.3 Soit k.kV une norme vectorielle. Alors l’application k.kM (V ) définie par (7.1) est une
norme matricielle et est appelée norme matricielle induite par la norme k.kV .
91
Théorème 7.2 Une définition équivalente de la norme matricielle induite par la norme vectorielle
k.kV est donnée par la relation
Preuve.
En utilisant les propriétés de la norme vectorielle, on obtient immédiatement que
kAxkV
kAkM (V ) = sup = sup{kAxkV | kxkV = 1}.
x6=0 kxkV
La proposition résulte alors du fait que l’ensemble X défini par
X = {x ∈ Cn | kxkV = 1}
est compact, et donc que le supremum d’une fonction continue est en fait un maximum.
Théorème 7.3 Soient I la matrice identité et A une matrice carrée inversible. Alors, pour toute norme
matricielle induite k · kM (V ) , on a kIkM (V ) = 1 et kAkM (V ) · kA−1 kM (V ) ≥ 1.
Théorème 7.4 Soit A une matrice quelconque de dimension n. Alors les normes induites par les
normes vectorielles k · k∞ , k · k1 et k · k2 sont données par les formules suivantes :
Xn
kAk∞ = max |aij | , (7.2)
i=1,...,n
j=1
" n #
X
kAk1 = max |aij | , (7.3)
j=1,...,n
i=1
et
kAk2 = max[σi | i ∈ {1, . . . , n}] (7.4)
où σi est une valeur singulière de A, c’est-à-dire la racine carrée d’une valeur propre de la matrice
A∗ A.
92
Preuve.
Démontrons d’abord la relation (7.2). Nous avons que
Posons
n
X
C∞ = max |aij |
i=1,...,n
j=1
n
X n
X n
X n
X
aij xj ≤ |aij | |xj | ≤ |aij | max |xj | = |aij | car x ∈ S (7.7)
j
j=1 j=1 j=1 j=1
n
X n
X
max aij xj ≤ max |aij | = C∞ (7.8)
i=1,...,n i=1,...,n
j=1 j=1
āpj
si apj 6= 0
x̂j = |apj | . (7.10)
1 si apj = 0
93
Revenons à la norme :
n n
X |apj |2 X
= = |apj | = C∞ où on a rajouté les éventuels apj = 0
|apj |
j=1 j=1
n
X
où Q = {x : kxk1 = 1} = {x : |xj | = 1}.
j=1
Rappelons que, si y = Ax, nous obtenons :
n
X n
X
kyk1 = |yi | et yi = aij xj . (7.14)
i=1 j=1
Posons
n
" #
X
C1 = max |aij |
j=1,...,n
i=1
et montrons que kAk1 = C1 .
Nous utilisons deux inégalités successives (valables ∀x ∈ Q et pour n’importe quel j) :
n X n n X n n n
!
X X X X
aij xj ≤ |aij | |xj | = |aij | |xj |
i=1 j=1 i=1 j=1 j=1 i=1
n n n n
! !
X X X X
≤ max |aij | |xj | = max |aij | |xj | = C1 kxk1 = C1 car x ∈ Q.
j j
j=1 i=1 i=1 j=1
94
Les composantes x̂j sont définies par :
(
0 si j 6= k
x̂j = ou encore x̂j = δjk (7.16)
1 si j = k
n
X
Nous constatons que kx̂k1 = |x̂j | = |x̂k | = δkk = 1, donc x̂ ∈ Q. Revenons à la norme :
j=1
n
X n
X n
X n
X n
X n
X n
X
kAk1 = max aij xj ≥ aij x̂j = aij δjk = |aik | = C1 .
x ∈Q
i=1 j=1 i=1 j=1 i=1 j=1 i=1
Nous avons donc prouvé que kAk1 ≥ C1 et, en combinant avec la relation 7.15, nous avons prouvé
l’égalité (7.3).
Enfin, pour la norme au sens 2, on voit que
kAxk2 (Ax)∗ (Ax) x∗ A∗ Ax
kAk22 = max = max = max = max σi2 ,
x6=0 kxk2 x6=0 kxk2 x6=0 kxk2 i
où nous avons utilisé la propriété suivante (admise) : pour toute matrice A, la valeur maximale du quotient 1
hx∗ Axi/kxk2 correspond à la plus grande valeur propre de A (ici, les valeurs propres de A∗ A sont les
valeurs singulières σi2 ).
Une quatrième norme matricielle est importante en pratique : la norme de Frobenius (ou de Schur, ou
encore norme euclidienne), définie par la relation
v
u n
uX
kAkF = t |aij |2 . (7.17)
i,j=1
Cette nouvelle norme n’est rien d’autre que la norme déduite du produit scalaire sur Cn×n et on peut
immédiatement vérifier qu’elle n’est induite par aucune norme vectorielle car
√
kIkF = n.
Avant de poursuivre plus avant l’étude des propriétés élémentaires des normes matricielles, nous allons
nous intéresser à une autre quantité : la trace d’une matrice.
95
Cette quantité va jouer un rôle important dans l’étude des normes matricielles et possède les propriétés
intéressantes suivantes :
Preuve.
La linéarité de la trace (7.19) résulte immédiatement de sa définition en terme de somme.
Nous avons, d’autre part,
n X
X n n X
X n n X
X n
tr(AB) = aij bji = bji aij = bij aji = tr(BA),
i=1 j=1 j=1 i=1 i=1 j=1
J = HAH−1
96
7.4 Propriétés élémentaires des normes matricielles
Nous pouvons maintenant démontrer les propriétés suivantes :
Théorème 7.6 Soit A une matrice carrée quelconque de valeurs propres {λi }ni=1 , soient x, y deux
vecteurs quelconques appartenant à Cn et soit k · ki une norme matricielle induite quelconque. Alors
Preuve.
La relation (7.23) résulte directement de la définition de la norme de Frobenius (7.17).
D’autre part,
Xn X n X n X n
2 2
kAkF = |aij | = aij aij = tr(A∗ A),
i=1 j=1 i=1 j=1
ce qui prouve la première égalité de (7.24). La seconde résulte de la définition des valeurs singulières et
des propriétés de la trace.
La première inégalité de (7.25) s’obtient à partir de (7.4) et de (7.24). La seconde provient de :
( n )1 1
2
√
X 2
kAkF = σi2 2
≤ n max σi = n kAk2 .
i
i=1
où nous avons utilisé la compatibilité des normes matricielles et vectorielles, ainsi que (7.25). Calculons
maintenant
n X n n X n n
! n
X X X X
kxy∗ k2F = |xi yj |2 = xi y j xi y j = xi xi yj yj = kxk22 kyk22 .
i=1 j=1 i=1 j=1 i=1 j=1
97
et la relation (7.27) en découle.
Finalement, nous pouvons lier la notion de rayon spectral aux normes matricielles compatibles.
Définition 7.5 Soit une matrice carrée A possédant des valeurs propres λi .
Le scalaire
ρ(A) = max{|λi |}
i
est appelé le rayon spectral de A.
Le rayon spectral est le rayon d’un disque du plan complexe centré à l’origine et contenant toutes les
valeurs propres de A. On a le résultat suivant :
ρ(A) ≤ kAk,
Preuve.
Soit λ une valeur propre quelconque de A et soit v son vecteur propre associé. On construit la matrice
carrée d’ordre n
| |
V = v · · · v ,
| |
qui est telle que AV = λV. Il vient donc que kAVk = |λ| kVk. Or, on sait également que kAVk ≤ kAkkVk.
Donc, on obtient |λ| kVk ≤ kAkkVk. Cette inégalité peut être divisée par kVk, qui est non nul, et on
obtient finalement
|λ| ≤ kAk.
Vu que l’inégalité est valable pour toute valeur propre λ, on conclut donc que la norme matricielle est
supérieure ou égale au rayon spectral.
98
Chapitre 8
La définition de somme directe, étudiée au chapitre 1, nous dit alors que pour tout vecteur z de E, on peut
écrire
z = x + y, (8.2)
où x est un vecteur de M et y un vecteur de N . De plus, cette décomposition est unique. Nous pouvons
maintenant définir les projections :
Définition 8.1 Supposons que l’espace E est décomposé comme décrit par l’équation (8.1) et considérons
la décomposition d’un vecteur z quelconque de E selon (8.2). Le vecteur x est alors appelé projection de
z sur M le long de N .
On s’aperçoit rapidement que la transformation de E dans lui-même qui, à chaque z fait correspondre
sa projection sur M le long de N , est linéaire (en effet, la relation (8.2) est linéaire). On peut donc écrire
x = PM/N (z),
où PM/N est une transformation linéaire sur E. De plus, cette projection est unique pour M et N donnés,
à cause de l’unicité de x et y dans (8.2).
Pour simplifier l’écriture, nous noterons désormais cette projection par P , en omettant la mention des
sous-espaces quand cela ne porte pas à confusion.
99
Théorème 8.1 Si P est la projection sur un sous-espace M le long d’un sous-espace N c’est-à-dire
si P = PM/N et E = M ⊕ N , alors
P 2 = P. (8.3)
Réciproquement,
si P 2 = P , alors P est une projection, P = PM/N , sur un sous-espace vectoriel M le long d’un
sous-espace vectoriel N , ces deux sous-espaces étant alors définis par
M = {z ∈ E | P (z) = z} (8.4)
et
N = {z ∈ E | P (z) = 0}. (8.5)
Preuve.
⇒ Supposons d’abord que P est la projection sur M le long de N . Alors, si
z=x+y
z = P (z) + (I − P )(z),
Théorème 8.2 P est une projection si et seulement si (I − P ) est une projection. Dans ce cas, si P
est une projection sur M le long de N , alors I − P est une projection sur N le long de M .
100
La preuve de cette proposition résulte des définitions de M et N par (8.4)-(8.5).
Théorème 8.3 Soit P une projection sur M le long de N , où M et N sont deux sous-espaces
complémentaires de E. Alors les valeurs propres de P sont soit 0 soit 1, et E possède une base de
vecteurs propres, c’est-à-dire n vecteurs propres linéairement indépendants.
Preuve. Pour démontrer cette proposition, il suffit évidemment de construire une base de n vecteurs
propres de P , et de montrer que les valeurs propres associées à ces vecteurs propres soient 0 ou 1. Pour
cela, choisissons {xi }m n
i=1 une base de M (que nous supposons de dimension m) et {xi }i=m+1 une base
de N (qui est alors de dimension n − m). Puisque M et N sont complémentaires, on voit immédiatement
que les vecteurs {xi }ni=1 forment une base de E. En vertu des relations (8.4) et (8.5), il devient clair que
les m premiers sont des vecteurs propres associés à la valeur propre 1, tandis que les n − m suivants sont
vecteurs propres associés à la valeur propre 0.
Une conséquence simple de cette proposition est que la forme de Jordan d’une projection est diago-
nale.
X ⊥ = {v ∈ E | ∀w ∈ X : hv, wi = 0}.
Nous pouvons observer que X ⊥ est un sous-espace vectoriel de E, même si X n’en est pas un. En effet,
toute combinaison linéaire de vecteurs orthogonaux aux vecteurs de X reste orthogonale aux vecteurs de
X.
Le théorème suivant est laissé en exercice :
X ⊆ span(X) ⊆ (X ⊥ )⊥ .
101
Dans le cas particulier où X est un sous-espace vectoriel, nous obtenons le résultat suivant :
X = (X ⊥ )⊥
Si nous revenons aux projections sur un sous-espace M le long du sous-espace N , nous pouvons alors
considérer le cas précis où N = M ⊥ . Cela nous conduit à la notion de projection orthogonale.
Définition 8.3 La projection sur M le long de son sous-espace orthogonal est appelée projection orthogonale
sur M .
Quand on spécifie l’orthogonalité de la projection, la mention du sous-espace le long duquel on pro-
jette est évidemment implicite. L’orthogonalité de la projection a aussi une autre conséquence naturelle.
Considérons un vecteur z quelconque de E et sa projection orthogonale P (z) sur le sous-espace M . Alors
le vecteur z − P (z) appartient à l’orthogonal de M , et donc :
hz − P (z), vi = 0 (8.6)
pour tout vecteur v ∈ M . Ceci rejoint bien la notion intuitive de projection orthogonale.
On peut encore caractériser les projections orthogonales par la proposition suivante :
Théorème 8.6 Soit P une transformation linéaire sur E, représentée par la matrice P. Alors P est
une projection orthogonale si et seulement si
P = P2 = P∗ . (8.7)
Théorème 8.7 Soit P une transformation linéaire sur E, représentée par la matrice P. Alors P est
une projection orthogonale si et seulement si
P2 = P (8.8)
et
kPk2 ≤ 1. (8.9)
Considérons maintenant le problème de la projection orthogonale d’une autre façon : au lieu de se don-
ner une décomposition de E en somme directe, nous nous donnons m vecteurs linéairement indépendants
102
de E, et nous désirons construire la projection orthogonale sur le sous-espace engendré par ces m vec-
teurs. Plus précisément, nous souhaitons construire la matrice P associée à cette projection (dans la base
canonique).
où V est la matrice de type n × m dont les colonnes contiennent les composantes vi des vecteurs
{vi }m
i=1 .
Preuve.
Soit z un vecteur quelconque de E et sa représentation z (dans la base canonique) ; si P (z) est la
projection orthogonale de z sur M , cela signifie que P (z) est une combinaison linéaire des vecteurs
{vi }m
i=1 . On peut donc écrire :
Xm α1
Pz = αi vi = V · · · = Vx (8.11)
i=1 αm
Montrons maintenant que la matrice V∗ V est inversible. Par l’absurde, supposons qu’elle soit singulière.
On peut donc trouver, dans ce cas, un vecteur y 6= 0 tel que V∗ Vy = 0, ce qui implique que Vy ∈
Ker(V∗ ) = Im(V)⊥ . Mais Vy ∈ Im(V) par définition, et donc Vy ∈ Im(V) ∩ Im(V)⊥ = {0}, ce qui
donne Vy = 0. Puisque les colonnes de V sont linéairement indépendantes, on en déduit que y = 0. Nous
obtenons donc une contradiction, et il en résulte que V∗ V est inversible. Nous pouvons alors réécrire (8.12)
sous la forme
x = (V∗ V)−1 V∗ z.
Calculons maintenant Pz = Vx :
Pz = Vx = V(V∗ V)−1 V∗ z.
103
Le vecteur z étant quelconque, on en déduit que la matrice de projection orthogonale P cherchée est bien
donnée par (8.10) qui, on le vérifie aisément, est bien hermitienne et idempotente.
Nous considérons maintenant le cas particulier où m = 1, c’est-à-dire le cas où on projette sur un
sous-espace de dimension 1. Dans ces hypothèses, et si v est un vecteur qui engendre M , représenté dans
une base par v, on voit que
vv∗
P= ,
kvk2
en vertu de (8.10). Cette matrice de projection est aussi évidemment hermitienne et idempotente.
Théorème 8.9 Soit une transformation linéaire sur E de matrice A hermitienne et soient {vi }ni=1 ses
vecteurs propres normalisés (kvi k2 = 1), associés respectivement aux valeurs propres λi . Alors
n
X
A= λi vi vi∗ . (8.13)
i=1
En d’autres termes, A est la somme des projections sur ses vecteurs propres (les projections spec-
trales), pondérée par les valeurs propres correspondantes. Cette proposition porte le nom de théorème de
projection spectrale.
Remarquons, à ce point, que si l’on définit les projections spectrales par
Pi = vi v∗ i ,
où les vi sont choisis comme ci-dessus, on peut écrire la relation (8.13) sous la forme
n
X
A= λi Pi .
i=1
Cette forme est, en fait, plus générale que (8.13) ; une forme similaire existe en effet pour les transforma-
tions non nécessairement hermitiennes. Dans ce cas, les projections spectrales sont définies de manière
légèrement différente.
Définition 8.4 Soit A une matrice de dimension n × m et de rang r, et soient W et F deux matrices de
dimensions n × r et r × m, respectivement, et de rang r, telles que
A = WF. (8.14)
104
Alors, l’inverse généralisé de A, noté A+ est donné par
Cette définition est cohérente, car les matrices W et F étant toutes deux de rang r, et les inverses
apparaissant dans (8.15) existent bien. D’autre part, il est clair que A+ représente une application de Cn
dans Cm , et un simple calcul de dimension montre que la matrice (8.15) a le bon nombre de lignes et de
colonnes.
Nous analysons maintenant quelques propriétés fondamentales des inverses généralisés.
Théorème 8.10 Soient A une matrice de dimension n × m et A+ son inverse généralisé. Alors,
1. les matrices AA+ et A+ A correspondent respectivement aux projections orthogonales sur
Im(A) et (Ker(A))⊥ .
2. les relations
A+ AA+ = A+
et
AA+ A = A
sont vraies,
3. A+ est la seule matrice qui satisfait ces relations.
et
A+ A = F∗ (FF∗ )−1 (W∗ W)−1 W∗ WF = F∗ (FF∗ )−1 F, (8.17)
où l’on a décomposé A comme en (8.14). On voit d’après le Théorème 8.8 que la matrice (8.16) représente
une projection orthogonale sur le sous-espace généré par les vecteurs-colonnes de W. Or, étant donné que
Ax = WFx et que, pour tout x, Fx peut correspondre à n’importe quel vecteur (car F est surjective), il vient
que le sous-espace généré par les vecteurs-colonnes de W est Im(A). Il s’agit donc bien d’une projection
orthogonale sur Im(A). La matrice (8.17), quant à elle, correspond à une projection orthogonale sur le
sous-espace généré par les vecteurs-colonnes de F∗ . Supposons que x ∈ Ker(A) et donc que WFx = 0, ou
encore Fx = 0 (car W est injective). Cette dernière égalité peut être réécrite sous la forme (F∗ )∗ x = 0 et
implique que les vecteurs-colonnes de F∗ sont tous orthogonaux à x. Ainsi, le sous-espace généré par les
vecteurs-colonnes de F∗ est le complémentaire orthogonal (Ker(A))⊥ . Il s’agit donc bien d’une projection
orthogonale sur (Ker(A))⊥ .
105
La seconde assertion résulte aussi d’un calcul simple utilisant la même décomposition :
et
AA+ A = W(W∗ W)−1 W∗ WF = WF = A.
L’unicité résulte naturellement de l’unicité des projections orthogonales, une fois que le sous-espace
sur lequel on projette est fixé.
Cette proposition admet un corollaire immédiat :
A+ = A∗ (AA∗ )−1 .
De même, lorsque le rang de A correspond au nombre de colonnes (r = m), la matrice F peut être choisie
comme l’identité et W = A, et nous obtenons
A+ = (A∗ A)−1 A∗ .
Ax = b (8.18)
106
où A est une matrice rectangulaire de dimension n × m, x ∈ Rm et b ∈ Rn , dans la situation où n > m. Il
s’agit du cas d’un système d’équations linéaires surdéterminé, dans ce sens qu’il possède plus d’équations
que d’inconnues. Comme ce système est, en général, impossible à résoudre exactement, nous allons cher-
cher la “meilleure solution possible”, c’est-à-dire un vecteur x tel que la norme de l’erreur soit aussi petite
que possible. En d’autre termes, nous désirons trouver la solution x du problème suivant :
où k·k représente la norme euclidienne habituelle sur l’espace Rn . D’autres choix de normes sont possibles
pour ce problème, mais ils mènent à des solutions plus complexes. Il sont aussi beaucoup moins utilisés
dans la pratique, et nous ne les envisagerons pas ici. Comme le problème (8.19) est évidemment équivalent
au problème
minm kAx − bk2 , (8.20)
x∈R
il est parfois remplacé par ce dernier, d’où le nom de problème aux moindres carrés.
Nous allons maintenant développer une méthode de résolution de ce type de problème. Il est clair que
la solution de (8.19) consiste à trouver un vecteur y dans l’image de A, qui soit aussi proche que possible
du vecteur b. La propriété suivante va alors nous aider.
Théorème 8.12 Soit M un sous-espace de l’espace métrique E. Alors, si b est un vecteur quel-
conque de E,
kPM (b) − bk = min kz − bk,
z∈M
Preuve.
Pour tout z ∈ M , on peut écrire que
Théorème 8.13 Soit A une matrice de dimension n × m (avec n > m). Alors, une solution de
Ax = b au sens des moindres carrés est donnée par
x = A+ b,
107
Preuve.
Le problème (8.19) peut être réécrit comme
Considérons, dans le théorème précédent, que M = Im(A). On voit que la solution consiste donc à choisir
z = PIm(A) b,
c’est-à-dire la projection orthogonale de b sur Im(A). En vertu des propriétés de l’inverse généralisé
(Théorème 8.10), nous savons que AA+ = PIm(A) et donc z = AA+ b. Étant donné que z = Ax, on
conclut que x = A+ b est une solution possible.
Lorsque rg(A) = m, la matrice A est injective et AA+ b = Ax implique directement A+ b = x, et donc
que la solution est unique. On note que cette dernière égalité peut également s’obtenir en prémultipliant
chaque membre par A+ et en utilisant le fait que A+ A = I (Théorème 8.11).
Nous venons donc de démontrer que, lorsque A est de rang plein, l’inverse généralisé nous fournit
la solution du problème aux moindres carrés. Lorsque le rang de A n’est pas plein, il existe plusieurs
solutions à (8.19), et l’inverse généralisé fournit celle de plus petite norme.
108