CS001
CS001
Alexis Herault
Table des matières
1
Codage de l’information et
algorithmique
2
Chapitre I
3
Proposition 2 : Le digit le moins significatif du développement de n en
base b, α0 est égal au reste de la division de n par b.
Jusqu’à la base 10 les αi peuvent être représentés par des chiffres, au delà de
la base 10 il faudra, pour éviter toute confusion, utiliser des symboles. Dans
ce cas une fois les dix chiffres (0,1,...,9) épuisés, on utilise les lettres A, B, · · · .
Il n’en a pas toujours été ainsi et vous trouverez ci dessous une liste, non ex-
haustive, des différents systèmes de numération utilisé à travers les époques
et les peuples :
– le système binaire (base 2) utilisé en d’Amérique du Sud et en Océanie
– le système quinaire (base 5) était utilisé parmi les premières civili-
sations, et jusqu’au xxe siècle par des peuples africains, mais aussi,
partiellement, dans les notations romaine et maya
– le système octal (base 8) utilisé au Mexique.
4
– le système décimal (base 10) a été utilisé par de nombreuses civilisa-
tions, comme les Chinois dès les premiers temps, et, probablement, les
Proto-indo-européens. Aujourd’hui, il est de loin le plus répandu.
– le système duodécimal (base 12) utilisé au Népal. On le retrouve, à
cause de ses avantages en matière de divisibilité (par 2, 3, 4, 6), pour
un certain nombre de monnaies et d’unités de compte courantes en
Europe au Moyen Âge, partiellement dans les pays anglo-saxons dans le
système d’unité impérial, et dans le commerce. Notre façon de compter
les mois et les heures est un vestige de son utilisation.
– le système sexagésimal (base 60) était utilisé pour la numération ba-
bylonienne, ainsi que par les Indiens et les Arabes en trigonométrie. Il
sert actuellement dans la mesure du temps et des angles.
5
43 = 2 ∗ 21 + 1 → α0 =1
21 = 2 ∗ 10 + 1 → α1 =1
10 =2∗5+0 → α2 =0
5 =2∗2+1 → α3 =1
2 =2∗1+0 → α4 =0
1 =2∗0+1 → α5 =1
donc :
4310 = 1010112
Symbole 0 1 2 3 4 5 6 7 8 9 A B C D E F
Valeur 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
6
Hex. 0 1 2 3 4 5 6 7
Binaire 0000 0001 0010 0011 0100 0101 0110 0111
Hex. 8 9 A B C D E F
Binaire 1000 1001 1010 1011 1100 1101 1110 1111
7
Ce sont celles-ci que nous présenterons ici. De plus, pour des raisons histo-
riques, les bits sont regroupés sous forme d’octet (byte en anglais) comportant
8 bits. Les types numériques ou alphanumériques seront donc codés sur un
ou plusieurs octets.
Le binaire signé
L’idée la plus simple pour représenter un entier relatif est de coder le signe
directement sur le bit de poids fort (le bit le plus à gauche de la représentation
binaire) 0 correspondant au signe + et 1 au signe - et de consacrer les bits
restants au codage binaire de la valeur absolue du nombre à représenter.
Par exemple, en utilisant 8 bits pour le codage, on aura :
x = 13 → 0000 1101
x = −13 → 1000 1101
8
Le décalage
Pour un codage sur n bits, une autre idée consiste à décaler le 0 de 2n/2 .
Par exemple, en utilisant 8 bits pour le codage, 0 sera décalé de 24 = 16 et
on aura :
Le complément à 2
Malheureusement aussi bien le binaire signé que le décalage du 0 ont un
défaut majeur : ces représentations ne sont pas compatibles avec l’addition.
L’utilisation de la représentation dite de complément à 2 permet d’éliminer
cette difficulté. Soit x un entier relatif à représenter avec n bits :
– si x ≥ 0, x est codé en binaire sur n − 1 bits avec 0 comme bit de poids
fort
– si x < 0
• on code | x | en binaire sur n − 1 bits avec 0 comme bit de poids fort
• on inverse les bits du résultat précédent (NON binaire)
• on ajoute 1 au nombre binaire précédent en ignorant les dépassements
Cette opération correspond au calcul de 2n − | x |, d’où le nom complément
à 2.
Par exemple, pour une représentation sur 4 bits on a les correspondances
suivantes :
9
Valeur Représentation
-8 1000
-7 1001
-6 1010
-5 1011
-4 1100
-3 1101
-2 1110
-1 1111
0 0000
1 0001
2 0010
.. ..
. .
7 0111
On vérifie sans peine que cette représentation est compatible avec l’addi-
tion. Bien entendu c’est cette représentation qui est effectivement utilisée
actuellement.
Pour illustrer cette notion et pour plus de commodité nous nous placerons
dans le système de numérotation décimal. Supposons que nous disposions de
8 caractères dont la virgule et le signe pour représenter un décimal. Dans
10
une représentation à virgule fixe, nous ne pourrons écrire que les décimaux
du type suivant :
±123, 456
L’éventail des nombres représentables est très limité. Ainsi le plus petit
décimal, en valeur absolue, représentable est :
+0, 00001
Sur ce dernier exemple 5 caractères sont occupés par la représentation de
0 et le seul chiffre significatif est 1. Il est clair qu’une telle représentation
est d’une part particulièrement inefficace et d’autre part d’une précision très
limitée. L’idée de la représentation en virgule flottante consiste donc à avoir
toujours un maximum de chiffres significatifs.
11
qu’un nombre fini de réels, ceux qui peuvent s’écrire exactement sous la
forme ci-dessus. Pour tous les autres se pose le problème de l’approximation,
autrement dit de l’arrondi.
Considérons x ∈ C. Choisir une représentation flottante de x revient à
choisir une mantisse m de p chiffres telle que :
(−1)s .m.be = x (1 + b−p α)
b−p α est l’erreur relative sur x. α est appelé erreur d’arrondi normalisée :
– en arrondi au plus près, α ∈ [−0.5, 0.5[
– en arrondi vers 0, α ∈ [0, 1[
– en arrondi vers ±∞, α ∈ [−1, 1[
Principes généraux
Le codage d’un nombre dans la normalisation IEEE754 est légèrement plus
complexe que celui présenté ci-dessus :
– La mantisse m est codée en base 2 avec codage des valeurs négatives
par bit de signe. Elle est normalisée et est donc représenté par un triplet
(S, N, F )(signe, valeur absolue de la partie entière, valeur absolue de
la partie fractionnaire) normalisé de façon à ce que 1 ≤ |m| < 2 (si
|m| 6= 0). La normalisation implique que N = 12 ce qui permet de
coder N de façon implicite (bit caché). C’est donc la longueur de F qui
caractérise la précision relative du code.
– L’exposant e est un entier relatif codé par décalage. e est donc représenté
par une valeur entière E avec e = E − d (avec d décalage). On notera
que, dans la norme IEEE754, les deux valeurs extrêmes de l’exposant
sont réservées au codage de valeurs “non numériques” (voire section
4.4).
12
La notation (1,F) exprime le fait qu’il faut rajouter le bit caché (issu de la
normalisation de la mantisse) devant la partie fractionnaire F de la mantisse
pour obtenir la mantisse complète.
Codage binaire
Le codage binaire prévu dans la norme IEEE754 peut paraı̂tre complexe de
prime abord ; il a en effet été conçu pour favoriser la rapidité des calculs
flottants (et non pour faciliter la lecture “humaine”). C’est donc un codage
“orienté processeur” plus qu’un codage “orienté utilisateur”.
Tout nombre flottant est composé d’un bit de signe S, de la valeur absolue
de la partie fractionnaire de la mantisse 1 F et de l’exposant E. Le codage
IEEE normalise le nombre de bits de chacune de ces parties.
1. Du fait de la normalisation, la partie entière, toujours à 1, n’est pas stockée puis-
qu’elle est implicite (bit caché)
13
Par ailleurs, afin de permettre la comparaison directe de deux nombres
flottants (dans le même format), la mantisse est codée sur les poids faibles
et l’exposant sur les poids forts (le bit de poids le plus fort étant utilisé pour
le signe).
Le nombre de bits utilisés pour représenter chaque champs d’un flottant est
résume dans le tableau I.3 et la position des différents champs sur la figure I.1
Codage du signe :
Le codage du bit de signe est extrêmement simple : par convention, le nombre
est positif si le bit de signe (bit de poids fort) est à 0 et négatif sinon.
Codage de l’exposant :
L’exposant est un nombre entier relatif, codé sur 8 bits en simple précision
et sur 11 bits en double précision. Il est codé par décalage : 127 pour en
simple précision et 1023 en double précision. Cependant, toutes les valeurs
“codables” ne sont pas utilisées car les valeurs extrêmes (-127 et 128 en simple
précision) sont utilisées pour le codage de valeurs spécifiques (voir paragraphe
suivant).
Codage de la mantisse :
La mantisse est un nombre fractionnaire, normalisé, codé sur 24 bits en simple
précision et sur 53 bits en double précision. La normalisation impose que le
premier bit de la mantisse (ici, le premier bit avant la virgule) soit toujours 1
14
(l’exposant est ajusté en conséquence). Cela permet de garantir la précision
maximum. La partie fractionnaire de la mantisse est donc un nombre fraction-
naire compris entre 0.02 et 0.1111111111111111111111112 . La partie entière,
toujours égale à 12 n’est pas codée (bit caché).
On notera que la normalisation, en entraı̂nant la “perte” de la valeur originale
de l’exposant, place délibérément la norme IEEE754 du coté des mathémat-
iciens (qui travaillent sur des nombres libres de sémantiques) et non du coté
des physiciens (pour lesquels la sémantique des nombres est souvent plus im-
portante que les nombres eux-même). Ainsi, pour un physicien :
0,00 années-lumières + 1 cm = 0,00 années-lumières
tandis que, pour un mathématicien (et donc pour un informaticien) :
0,00 années-lumières + 1 cm = 1 cm.
On voit clairement que la normalisation, parce qu’elle perd “l’ordre de gran-
deur” de la valeur, risque d’entrainer une perte de signification lors des trai-
tements.
Codes “spécifiques”
Nous avons déjà vu que les exposants “extrêmes” (E = 0 et E = 255, ou
e=-127 et e = 128, en simple précision) sont réservés à des usages spécifiques
et non au codage des flottants proprement dits. La norme IEEE754 auto-
rise en effet l’utilisation de mantisses “dénormalisées”, le codage de valeurs
spécifiques “non-numériques” (NaN,+∞ et +∞), ainsi que le codage exact
de la valeur zéro.
Valeurs dénormalisées :
Les nombres dénormalisés sont les nombres pour lesquels la partie entière de
la mantisse n’est pas fixée à 1. De façon évidente la dénormalisation entraine
une perte de précision relative (puisque le nombre de chiffres significatifs de
la mantisse n’est plus égal au nombre de chiffres total de la mantisse 2 ). Elle
est cependant utile pour les nombres dont l’exposant est inférieur à emin qui,
sans la dénormalisation ne seraient pas codables. C’est pour cette raison que
l’exposant emin − 1 (correspondant à e = −127 en simple précision, c’est à
dire à E = 0) est réservé au codage de ce type de valeurs. Dans le cas des
valeurs dénormalisées, la formule I.2 n’est plus valide, et est remplacée par :
r = S.0, F.2−d+1 = S.0, F.2emin (I.3)
2. Ainsi, en décimal, avec une mantisse sur trois chiffres, il est évident que la
représentation 3, 14.100 est plus précise que 0, 03.102
15
Attention l’exposant emin − 1 sert au codage des valeurs dénormalisées mais
l’exposant pris en compte dans I.3 est bien emin , ceci afin de garantir la conti-
nuité de cette représentation avec la représentation normalisée I.2.
Codage du zéro :
Pour des raisons de simplicité évidentes, la norme IEEE754 utilise, pour
le codage du zéro, une représentation particulière correspondant au “zéro
binaire”. On notera que cette représentation correspond en pratique à un
nombre dénormalisé “à l’extrême” ce qui permet, dans un calcul, d’arron-
dir automatiquement vers 0 lorsque cela s’avère nécessaire. On notera par
ailleurs, que le codage signé utilisé pour les mantisses (bit de signe) permet
de coder deux valeurs de zéro différentes (+0 et -0).
“Not a Number ” :
La normalisation IEEE754 introduit la notion de “NaN ” (“Not a Number ”)
afin de garantir qu’un calcul donnera toujours
√ un résultat, même si ce résultat
est invalide (par exemple lors du calcul de −1). NaN est représenté, en bi-
naire, par une valeur d’exposant égale à emax + 1 (128 en simple précision) et
de mantisse non nulle 3 . Le codage de NaN est particulièrement intéressant
car il permet de simplifier les formes algorithmiques en “négligeant” les tests
systématiques des valeurs intermédiaires (à condition que toute opération
arithmétique recevant NaN en entrée retourne NaN en sortie). Cette dernière
caractéristique est d’ailleurs imposée dans la norme (par exemple : NaN +
3 = NaN ).
Le tableau I.4 résume les différents cas rencontrés dans le codage binaire
3. Les bits de la mantisse peuvent alors être utilisés pour exprimer le type de l’opération
ayant produit un NaN.
16
des nombres flottants.
Exposant Mantisse fractionnaire Exposant
e = emin − 1 F =0 ±0
e = emin − 1 F 6= 0 ±0, F.2emin
emin ≤ e ≤ emax − ±1, F.2e
e = emax + 1 F =0 ±∞
e = emin − 1 F 6= 0 NaN
Arrondis
La norme définit quatre modes d’arrondis :
– au plus proche (réel machine le plus proche du réel à coder)
– vers +∞ (réel machine supérieur ou égal au réel à coder)
– vers −∞ (réel machine inférieur ou égal au réel à coder)
– vers 0 (correspond à un arrondi vers +∞ pour les nombres positifs et
vers −∞ pour les nombres négatifs)
17
les nombres flottants ne sont, par définition, que des nombres fractionnels
et certainement pas des nombres réels “pûrs”). Il est donc fondamental de
connaı̂tre la précision de la représentation utilisée.
Précision
La précision de la représentation est portée par la mantisse mais l’interprétation
de cette dernière est modifiée par l’exposant. La précision de la représentation
ne peut donc pas être considérée comme absolue : suivant l’ordre de grandeur
de la valeur codée, la précision sera totalement différente. C’est pourquoi on
parle d’erreur relative de codage. Pour une valeur donnée, l’erreur absolue
doit donc être calculée en multipliant l’erreur relative par la valeur de l’ex-
posant.
La précision de la représentation correspond, pour une valeur donnée
de e, à la plus petite différence entre deux valeurs codables, c’est-à-dire à
l’intervalle au sein duquel les valeurs réelles ne sont pas exprimables. Ainsi,
si la mantisse est exprimée sur n bits (n = 23 en simple précision, n = 52 en
double précision et n = 63 en double précision étendue), l’erreur relative du
codage est égale à la précision portée par le chiffre de poids le plus faible :
2−n . Ceci est illustré dans le tableau I.5.
x suivant intervalle
0.0 1.1754944.10−38 1.1754944.10−38
1.0000000 1.0000001 1.1920929.10−7
2.0000000 2.0000002 2.3841858.10−7
1.6000000.101 1.6000002.101 1.9073486.10−6
1.2800000.102 1.2800002.102 1.5258789.10−5
1.0000000.1020 1.0000001.1020 8.7960930.1012
9.9999997.1037 1.0000001.1038 1.0141205.1031
18
étendue).
En décimal, les nombres flottants sont donc représentables avec sept chiffres
significatifs (en simple précision), seize chiffres significatifs (en double précision)
ou 20 chiffres significatifs (en double précision étendue). L’imprécision des
représentations peut avoir des conséquences importantes sur le codage des
programmes. En effet, du fait de ces approximations, une simple comparaison
peut donner des résultats surprenants.
Le plus petit nombre positif différent de zéro et le plus grand nombre négatif
différent de zéro (représentés par une valeur dénormalisée avec e = emin − 1,
c’est à dire E = 02 , et seul le bit de poids faible de m à 1) sont :
±2−23 .2−126 = 2−149 ' ±1, 4012985.10−45
Le plus grand nombre positif fini et le plus grand nombre négatif fini (représentés
avec e = emax , c’est à dire E = 111111112 , et tous les bits de m à 1) sont :
X23
127
2−k = ±2127 2 − 2−23 ' ±3, 4028235.1038
±2
k=0
19
Imperfection des opérations élémentaires
Il est évident que, si le codage en virgule flottante n’est qu’une approxi-
mation des réels, alors les opérations arithmétiques sur les réels ne peuvent
plus être considérées comme exactes. En effet, dans le cas général, le résultat
d’un calcul devra toujours être considéré comme différent de son résultat
théorique : si, en théorie, on a a + b = c, on devra toujours considérer en pra-
tique que a + b = c(1 + ab ) avec ab (erreur d’arrondi) dépendant de a et de b.
Addition :
Outre les problèmes de dépassement de capacité (overflow ) qui peuvent sur-
venir quand l’un des deux opérandes possède l’exposant emax , le principal
problème de l’addition est lié à la dénormalisation (mise au même exposant)
utilisée lors du calcul. En effet, si les deux opérandes sont trop différents (en
ordre de grandeur, c’est-à-dire en exposant), alors la plus petite valeur sera,
au cours de la dénormalisation, confondue avec 0 et donc négligée dans le
calcul : en résumé, si a b alors a + b = a.
Soustraction :
Le problème de la soustraction est plus important dans la mesure ou la sous-
traction de deux opérandes de valeurs comparables amplifie l’erreur relative :
si a ∼
= b, alors l’erreur relative sur a − b est égale à l’erreur absolue sur a − b
divisée par le résultat soit :
absolu
relatif =
|a − b|
Cette imperfection “fondamentale” de la soustraction - qui ne s’exprime,
heureusement, que lorsque les deux opérandes sont presque égaux - est à l’ori-
gine de beaucoup d’erreurs et d’approximations dans les calculs numériques.
Multiplication/division :
Vu la définition du format flottant, la multiplication et la division sont plus
simples que l’addition et la soustraction. Même si elles sont soumises aux
erreurs d’arrondi, d’overflow et d’underflow (sous-dépassement de capacité :
un nombre est trop petit pour être représenté sera confondu avec zéro), elles
n’entraı̂nent pas de problèmes aussi cruciaux que la soustraction. On restera
cependant particulièrement attentif aux dépassements de capacités (dans les
deux sens). En effet, dès que l’exposant d’un des deux opérandes est supérieur
à emax
2
ou inférieur à 2.eemin , un dépassement de capacité devient possible lors
20
d’une multiplication et/ou d’une division.
21
gueur moyenne réalisés aléatoirement dans les deux sens). Ce cas idéal est
cependant rare et ne doit être considéré qu’avec une très grande prudence
pour au moins deux raisons :
– Il est très courant que, soit l’algorithme utilisé, soit les particularités
de l’implémentation ne biaise l’orientation des erreurs d’arrondi. Dans
ce cas, l’erreur totale sera de l’ordre de N..
– Dans certaines conditions, particulièrement défavorables mais malheu-
reusement très courantes, les erreurs initiales vont s’accumuler rapide-
ment car elles vont être démultipliées par les calculs ultérieurs. C’est
en particulier le cas lorsque le programme est amené à soustraire deux
nombres très proches puis à réutiliser le résultat de cette soustraction.
x calcul ex
−1 0.3678793 0.367879 · · ·
−5 0.0067384 0.0067379 · · ·
−10 −0.0000625 0.0000454 · · ·
−20 −2.7566754 0.0000000020612 · · ·
−30 −24368.556 0.000000000000093576 · · ·
−40 −730834432 0.0000000000000000042 · · ·
22
n
montrent que pour des valeurs de x “relativement” grandes, xn! atteint rapi-
dement des valeurs importantes pour n petit. Or, pour des valeurs négatives
de x, on remarque que le développement en série entière comporte alternati-
vement des additions et des soustractions. L’algorithme passe alors par des
soustractions de valeurs proches mais très grandes en regard du résultat final
ce qui amplifie l’erreur relative (voir ci-dessus). Le même algorithme uti-
lisé pour calculer des valeurs positives de x ne poserait donc pas les mêmes
problèmes.
25
20
15
10
0
0 5 10 15 20
xn
Figure I.2 – Valeurs successives de n!
pour x ∈ {1, · · · , 5} (de bas en haut)
et n variant de 0 à 20
23
107
105
1000
10
0.1
0 5 10 15 20
xn
Figure I.3 – Valeurs successives de n!
pour x ∈ {1, · · · , 20} (de bas en haut)
et n variant de 0 à 20
valeur de x, par :
xf 0 (x)
C= (I.4)
f (x)
Si C est grand (> 1), alors le calcul est “mal conditionné” et risque de pro-
duire des erreurs cumulatives.
24
Un algorithme est dit stable si la valeur calculée fcalc (x) est la solu-
tion exacte d’un calcul ftheorique (y) avec y proche de x (donc si fcalc (x) =
ftheorique (y + ) avec petit).
Exemple
Reprenons l’exemple du calcul de f (x) = ex . Le nombre de condition de ce
x
calcul est C = xe ex
= |x|. Ce calcul est mal conditionné pour x ∈ / [−1, 1]
et comme nous l’avons vu plus n’est pas stable pour les valeurs négatives
inférieures à -1. Ces considérations nous mettent sur la voie d’un algorithme
stable et bien conditionné pour le calcul de l’exponentielle :
3 Conclusion
Tout le codage d’information et tout calcul se fait au niveau machine en
utilisant une représentation binaire.
La réalisation d’algorithmes numériques exacts n’est généralement pas
possible puisqu’il est impossible de coder exactement l’ensemble des réels.
Il est donc fondamental de conserver à l’esprit que l’arithmétique machine
n’est pas équivalente à l’arithmétique mathématique. Par conséquent, tout
algorithme numérique (sur les flottants et, dans une moindre mesure sur
les entiers) produit un résultat approximatif (au mieux) voire totalement
faux. Pour éviter de se retrouver dans ce dernier cas (et pour limiter l’im-
portance du premier), quelques règles courantes peuvent être déduites des
considérations présentées dans ce chapitre :
– Il faut choisir avec soin le type des données, d’une part pour
éviter les débordements (dans le cas des entiers), d’autre part pour ga-
rantir une précision suffisante (dans le cas des flottants). D’une façon
générale, le format “simple précision” doit être considéré comme
peu fiable et évité sauf en cas de raison majeure.
– Il faut faire attention aux conversions de type, en particulier aux
25
réductions (conversion d’un type vers un type plus court) mais aussi
aux élargissements plus ou moins implicites qui peuvent provoquer des
résultats surprenants, par exemple lors des tests (d’autant plus que les
règles de conversion changent suivant les langages).
– Il faut faire attention lors des soustraction, en particulier si les
deux valeurs soustraites peuvent être proches.
– Attention aux tests d’égalité entre flottants qui peuvent donner
des résultats surprenants.
– Ne pas faire une confiance aveugle aux compilateurs mais aussi aux li-
brairies, aux codes récupérés, ... Suivant les cas, il pourra être judicieux
de savoir exactement ce que fait le code ...
Reste que toutes ces précautions ne serviront de toute façon à rien si l’algo-
rithme utilisé entraı̂ne mathématiquement des approximations ... ou s’il est
faux ...
26