0% ont trouvé ce document utile (0 vote)

112 vues26 pages

cm4 Texte

Le document décrit différents formats et standards pour la représentation et le codage de l'information, notamment des caractères, du texte et des données. Il présente des codages comme ASCII, ISO-8859, Unicode/UTF-8, ainsi que des formats comme CSV, XML pour structurer et échanger des données.

Transféré par

Koùukoù Abbàssii

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

112 vues26 pages

cm4 Texte

Transféré par

Koùukoù Abbàssii

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

représentation et codage de l’information

4. représentation des données textuelles

Pierre Réty
février 2021
L1 informatique — Université d’Orléans
Retour sur le codage des caractères
Codage des caractères

Le langage écrit repose sur l’utilisation d’alphabets, de

graphèmes, de symboles.

Les ﬁchiers contiennent des suites d’octets.

La convention qui associe un caractère à un code numérique

est appelée codage de caractères.

Remarque Une fois cette convention choisie, il reste encore

pour l’afﬁcher à associer une représentation graphique à une
suite de caractères, mais c’est une autre histoire (glyphe,
ligature, etc).

1
ASCII

Norme incontournable, codage de caractères sur 7 bits adapté

à l’alphabet anglais + 33 codes de contrôle.
Un 0 est rajouté à gauche pour obtenir un octet complet (8 bits).

Ainsi, le caractère a est codé par l’octet 61 = 0110 0001

2
ISO 8859
Norme déﬁnissant 16 façons ISO-8859-𝑛 d’étendre ASCII, avec
le bit gauche à 1, pour la gestion d’autres langues :
• ISO-8859-1, latin-1, européen occidental
• ISO-8859-2, latin-2, européen central
• ISO-8859-3, latin-3, européen du Sud
• ISO-8859-4, latin-4, européen du Nord
• ISO-8859-5, cyrillique
• ISO-8859-6, arabe
• ISO-8859-7, grec
• ISO-8859-8, hébreu
• ISO-8859-9, latin-5, turc
• ISO-8859-10, latin-6, nordique
• ISO-8859-11, thaï
• ISO-8859-13, latin-7, balte
• ISO-8859-14, latin-8, celtique
• ISO-8859-15, latin-9, latin-1 + € 3
• ISO-8859-16, latin-10, européen du Sud-Est
ISO-8859-15 (latin-1 + codage de €)

𝑥= 0 1 2 3 4 5 6 7 8 9 𝐴 𝐵 𝐶 𝐷 𝐸 𝐹

Ainsi, le caractère é est codé par l’octet 𝐸9 = 1110 1001

4
EBCDIC

Codage exotique utilisé par les mainframe IBM.

5
Unicode

Compatible avec Universal Character Set (UCS, ISO/IEC 10646)

Standard visant à normaliser les échanges de texte au niveau

mondial. Modélise les caractères et leurs traitements.

Décrit plus de 110000 caractères couvrant plus de 100 écritures.

Associe un mot binaire à chaque caractère : les 256 premiers

sont identiques à ISO-8859-1 (latin-1).

Initialement codé sur 16 bits, aujourd’hui sur 17 plans de 65536

caractères, soit 1114112 caractères codables de 0x0 à 0x10FFFF.
Rappel : 0x10FFFF est le nombre 10FFFF écrit en base 16.

Notation : U+0000 à U+FFFF pour le premier plan (BMP),

6
U+10000 à U+10FFFF pour les autres plans.
Implémentation de l’unicode : UTF-32

Chaque mot binaire est représenté sur 32 bits, en complétant

par des 0 à gauche.

Un texte, même en anglais, occupe quatre fois plus de place !

Peu utilisé en pratique, éventuellement pour la représentation

interne de chaînes Unicode.

7
Implémentation de l’unicode : UTF-8

UTF-8 est un codage à longueur variable compatible ASCII et

latin-1, très répandu, en particulier pour le Web et le mail.
bits dernier code octet 1 octet 2 octet 3 octet 4
7 U+7F 0xxxxxxx
11 U+7FF 110xxxxx 10xxxxxx
16 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
21 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Si besoin, on complète par des 0 à gauche pour avoir le nombre de bits demandés.

Exemple Unicode UTF-8

@ U+40 1000000 (7 bits) 01000000 0x40
é U+E9 000 11101001 (11 b) 11000011 10101001 0xC3 0xA9
€ U+20AC 00100000 10101100 11100010 10000010 10101100 0xE2 0x82 0xAC
Rem : les codages unicode des caractères @ et é sont les mêmes qu’en latin-1 (et
ASCII pour @). Mais en UTF-8, @ est codé sur 1 octet, é sur 2 octets, € sur 3 octets.
Les caractères anglais, donc codables en ASCII, sont codés sur 1 octet en UTF-8. 8
Normalisation

Histoire de compliquer un peu tout ça, Unicode propose

plusieurs manières de déﬁnir un même caractère :

é est codé U+00E9 ou U+0065 U+0301 (e suivi d’un accent aigü).

De plus, dans certains contextes, ont peut avoir envie

d’ interpréter à l’identique certains caractères à la sémantique
différente :

U+00C5 LATIN CAPITAL LETTER A WITH RING ABOVE : Å

U+212B ANGSTROM SIGN : Å

Unicode déﬁnit donc des normalisations du texte pour

permettre la comparaison de chaînes.
9
En pratique

En dehors du codage proprement dit, problème du codage des

ﬁns de lignes : CR vs LF vs CRLF.

10
Fichier texte brut

Un ﬁchier texte est une suite de codes de caractères dans un

encodage ﬁxé (ASCII, latin-1, latin-9, UTF-8, …).
Ici, le ﬁchier dumbo.txt est codé en UTF-8. cat et hexdump sont des commandes
exécutées dans un terminal sous Linux ou MacOS. Ne pas tenir compte des numéros
d’octets 000000, 000010, etc...

$ cat dumbo.txt
BlaBlaBlaBla
Un éléphant qui se balançait sur une toile d'araignée.

$ hexdump dumbo.txt
000000 42 6c 61 42 6c 61 42 6c 61 42 6c 61 0a 55 6e 20
000010 c3 a9 6c c3 a9 70 68 61 6e 74 20 71 75 69 20 73
000020 65 20 62 61 6c 61 6e c3 a7 61 69 74 20 73 75 72
000030 20 75 6e 65 20 74 6f 69 6c 65 20 64 27 61 72 61
000040 69 67 6e c3 a9 65 2e 0a 11
Base64 (Norme RFC 2045, 1996)

Afﬁcher un texte UTF-8 avec l’alphabet américain.

On découpe la suite d’octets en mots de 6 bits.

Ainsi 3 octets = 4 mots de 6 bits.
chaque mot de 6 bits ⟹ entier compris entre 0 et 63
chaque entier ⟹ codé par le caractère :
0=A, 1=B,…, 25=Z, 26=a, …, 51=z, 52=0, …, 61=9, 62= +, 63= /

Remplissage (padding)
On complète par des zéros pour avoir un nombre entier de
mots de 6 bits.
si on ajoute 2 zéros, on rajoute = à la ﬁn du texte codé
si on ajoute 4 zéros, on rajoute == à la ﬁn du texte codé

12
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w (pad) =
15 P 32 g 49 x
16 Q 33 h 50 y
13
Base64 (Norme RFC 2045, 1996)

Fichier texte en UTF-8.

$ cat dumbo.txt
BlaBlaBlaBla
Un éléphant qui se balançait sur une toile d'araignée.

$ python -m base64 -e < dumbo.txt

QmxhQmxhQmxhQmxhClVuIMOpbMOpcGhhbnQgcXVp
IHNlIGJhbGFuw6dhaXQgc3VyIHVuZSB0b2lsZSBk
J2FyYWlnbsOpZS4=

14
Données structurées
Structuration des données

Données non structurées :

• le contenu d’un ﬁchier texte
• un enregistrement audio
• une collection de photographies

Données semi-structurées :
• une page web
• vos notes de cours
• un dictionnaire

Données structurées :
• les horaires de cinéma
• le contenu d’un agenda
• le système de réservation d’une compagnie aérienne 15
Modélisation relationnelle

Les données sont organisées en tables (ou relations).

id Interprète Titre Année

1 Led Zeppelin Stairway to Heaven 1971
2 AC/DC Highway to Hell 1979
… … … …

Colonnes champs, attributs

Lignes tuples, n-uplets

16
Le format textuel CSV

Le format de ﬁchier CSV (comma-separated values) représente

un tableau par un texte.

Chaque ligne du ﬁchier correspond à un enregistrement, une

ligne du tableau.

Les colonnes sont séparées par un séparateur (virgule ou

point-virgule).

id,Interprète,Titre,Année
1,Led Zeppelin,Stairway to Heaven,1971
2,AC/DC,Highway to Hell,1979

17
Données semi-structurées
XML

Un document XML (eXtensible Markup Language) est une

chaîne de caractère structurée par des balises.

• balise ouvrante : <bonjour>

• balise fermante : </aurevoir>
• balise vide : <message />

Toute balise ouvrante est fermée par une balise fermante de

même nom.

Une balise vide ou bien l’ensemble du texte entre une balise

ouvrante et la balise fermante correspondante forme un
élément.
18
<? xml version="1.0" encoding="utf-8" standalone="yes" ?>
<filmographie>
<film id="sw" acteur="cf,mh">
<titre>Star Wars</titre>
<annee>1977</annee>
</film>
<acteur id="cf" jouedans="sw">
<nom>Carrie Fisher</nom>
<adresse>
<rue>Maple St.</rue><ville>Hollywood</ville>
</adresse>
<adresse>
<rue>Locust Rd.</rue><ville>Malibu</ville>
</adresse>
</acteur>
<acteur id="mh" jouedans="sw">
<nom>Mark Hamill</nom>
<rue>Oak St.</rue>
<ville>Bollywood</ville>
</acteur>
</filmographie>
HTML : code source d’une page web

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><title>Exemple XHTML 1.0</title></head>
<body><h2>Texte codé en UTF-8, et décodé en latin-1 !</h2>
<ul>
<li>Tous les éléments doivent être explicitement balisés.</li>
<li>Les balises fermantes ne sont pas optionnelles.</li>
<li>Les noms d'éléments et d'attributs
<em class="important">doivent</em> être en minuscules.</li>
<li>Tous les attributs doivent avoir une valeur explicite
<input type="checkbox" checked="checked" value="..." />.</li>
<li>Les guillemets sont <em class="important">toujours</em>
obligatoires autour des valeurs d'attribut.</li>
<li>Les éléments vides doivent être fermés
<img src="i.png" alt="i"/>.</li>
</ul></body></html>
Afﬁchage par le navigateur web

Le ﬁchier HTML est codé en UTF-8.

Page web afﬁchée avec décodage latin-1 :

Rem : Chaque é est codé sur 2 octets en UTF-8, ce qui donne 2 caractères en latin-1.

Page web afﬁchée avec décodage UTF-8 :

Vous aimerez peut-être aussi

II 05
Pas encore d'évaluation
II 05
32 pages
Représentation des Nombres et Codes ASCII
Pas encore d'évaluation
Représentation des Nombres et Codes ASCII
26 pages
Codage Caracteres
Pas encore d'évaluation
Codage Caracteres
6 pages
RepDonnées-codage Du Texte
Pas encore d'évaluation
RepDonnées-codage Du Texte
5 pages
1nsi Codage Caractere Cours
Pas encore d'évaluation
1nsi Codage Caractere Cours
3 pages
Codage Caractere
Pas encore d'évaluation
Codage Caractere
6 pages
Représentation D'un Texte en Machine.
Pas encore d'évaluation
Représentation D'un Texte en Machine.
3 pages
Codage des caractères et encodage
100% (1)
Codage des caractères et encodage
10 pages
Lencodage Utf 8 A La Main
Pas encore d'évaluation
Lencodage Utf 8 A La Main
11 pages
Codage Des Caractères
Pas encore d'évaluation
Codage Des Caractères
10 pages
Codage Des Caracteres Unicode
Pas encore d'évaluation
Codage Des Caracteres Unicode
3 pages
Représentation Des Données Chaine de Caractère
Pas encore d'évaluation
Représentation Des Données Chaine de Caractère
4 pages
Codage ASCII
Pas encore d'évaluation
Codage ASCII
3 pages
Encodage des caractères en binaire
Pas encore d'évaluation
Encodage des caractères en binaire
2 pages
Encodage des caractères en UTF-8
Pas encore d'évaluation
Encodage des caractères en UTF-8
1 page
Prof 04
Pas encore d'évaluation
Prof 04
3 pages
TP Encodage de Caractères Linux
Pas encore d'évaluation
TP Encodage de Caractères Linux
1 page
Électricité Automobile
Pas encore d'évaluation
Électricité Automobile
12 pages
Chaines de
Pas encore d'évaluation
Chaines de
24 pages
Guide sur Unicode pour Python
Pas encore d'évaluation
Guide sur Unicode pour Python
13 pages
La Representation Des Donnees Alphanumer
Pas encore d'évaluation
La Representation Des Donnees Alphanumer
7 pages
21 Codage Des Caracteres 2022 Corrige
Pas encore d'évaluation
21 Codage Des Caracteres 2022 Corrige
7 pages
Codage Caractéres Representation Numériques
Pas encore d'évaluation
Codage Caractéres Representation Numériques
3 pages
NSI Lecon8 Codage Caractères
Pas encore d'évaluation
NSI Lecon8 Codage Caractères
7 pages
1576611438codage Des Fichiers Texte
Pas encore d'évaluation
1576611438codage Des Fichiers Texte
9 pages
Intro NLP
Pas encore d'évaluation
Intro NLP
68 pages
Média - Texte 2024
Pas encore d'évaluation
Média - Texte 2024
16 pages
Texte
Pas encore d'évaluation
Texte
3 pages
Codage de l'information en binaire
Pas encore d'évaluation
Codage de l'information en binaire
11 pages
Codage des Caractères en Informatique
Pas encore d'évaluation
Codage des Caractères en Informatique
4 pages
Tutoriel - Comprendre Les Encodages
Pas encore d'évaluation
Tutoriel - Comprendre Les Encodages
17 pages
Les Chaînes de Caractères
Pas encore d'évaluation
Les Chaînes de Caractères
11 pages
Codage Des Caractères - Correction
Pas encore d'évaluation
Codage Des Caractères - Correction
3 pages
Archi td2
Pas encore d'évaluation
Archi td2
4 pages
Comprendre Bits, Octets et Unicode
Pas encore d'évaluation
Comprendre Bits, Octets et Unicode
3 pages
Cours Crypto2020
Pas encore d'évaluation
Cours Crypto2020
5 pages
Introduction aux chaînes en Python
Pas encore d'évaluation
Introduction aux chaînes en Python
34 pages
Chapitre 4-Représentation Des Données
Pas encore d'évaluation
Chapitre 4-Représentation Des Données
31 pages
1nsi Codage Caractere Exos
Pas encore d'évaluation
1nsi Codage Caractere Exos
1 page
Introduction aux jeux de caractères et codages
Pas encore d'évaluation
Introduction aux jeux de caractères et codages
22 pages
Chapitre Iv (Travailler Avec Les Chaînes de Caractères)
Pas encore d'évaluation
Chapitre Iv (Travailler Avec Les Chaînes de Caractères)
10 pages
Scheme2 Cours8 4p
Pas encore d'évaluation
Scheme2 Cours8 4p
6 pages
Chapitre 2 Systeme de Numérotation 5 - Nombre Réel
Pas encore d'évaluation
Chapitre 2 Systeme de Numérotation 5 - Nombre Réel
4 pages
Chaîne de Traitement Multimédia
Pas encore d'évaluation
Chaîne de Traitement Multimédia
4 pages
Codage et Traitement Formels en Éducation
Pas encore d'évaluation
Codage et Traitement Formels en Éducation
38 pages
Support 1 Cours
Pas encore d'évaluation
Support 1 Cours
42 pages
Chaines de Caracteres Et Fichiers
Pas encore d'évaluation
Chaines de Caracteres Et Fichiers
5 pages
Chapitre III: Les Systèmes de Codage de L'information: Leçon Réalisée Par: MEKAM Guy Merlin (PLEG en Informatique)
Pas encore d'évaluation
Chapitre III: Les Systèmes de Codage de L'information: Leçon Réalisée Par: MEKAM Guy Merlin (PLEG en Informatique)
3 pages
Activité 3.1 Décodage Info 2021 Élève
Pas encore d'évaluation
Activité 3.1 Décodage Info 2021 Élève
14 pages
Représentation Des Données Et de L'Information: Bloc 1
Pas encore d'évaluation
Représentation Des Données Et de L'Information: Bloc 1
18 pages
7 - Langage C (Chaînes de Caractères)
Pas encore d'évaluation
7 - Langage C (Chaînes de Caractères)
13 pages
Guide Complet sur les Chaînes de Caractères en C
Pas encore d'évaluation
Guide Complet sur les Chaînes de Caractères en C
9 pages
PDF
Pas encore d'évaluation
PDF
328 pages
Défi 10-Gérer Les Données EC
Pas encore d'évaluation
Défi 10-Gérer Les Données EC
42 pages
LIF 1: Lgorithmique ET Rogrammation Impérative, Initiation: Licence STS Université Claude Bernard Lyon I
Pas encore d'évaluation
LIF 1: Lgorithmique ET Rogrammation Impérative, Initiation: Licence STS Université Claude Bernard Lyon I
35 pages
Code ASCI
Pas encore d'évaluation
Code ASCI
3 pages
06 - Chaînes de Caractères v1.3 - Par Etape
Pas encore d'évaluation
06 - Chaînes de Caractères v1.3 - Par Etape
96 pages
CH1 - Partie 2
Pas encore d'évaluation
CH1 - Partie 2
6 pages
Primitives et intégrales en 2021
Pas encore d'évaluation
Primitives et intégrales en 2021
2 pages
TD4 - 2020
Pas encore d'évaluation
TD4 - 2020
2 pages
TD2 2020
Pas encore d'évaluation
TD2 2020
4 pages
Comprendre les liaisons chimiques
Pas encore d'évaluation
Comprendre les liaisons chimiques
45 pages
4-Bases de La Liaison Chimique-MD-SA-VB (OK) 2
Pas encore d'évaluation
4-Bases de La Liaison Chimique-MD-SA-VB (OK) 2
88 pages
TD1 2020
Pas encore d'évaluation
TD1 2020
2 pages
Primitives des Fonctions Usuelles
Pas encore d'évaluation
Primitives des Fonctions Usuelles
2 pages
cm3 Virgule
Pas encore d'évaluation
cm3 Virgule
22 pages
Calcul des masses molaires et solubilités
Pas encore d'évaluation
Calcul des masses molaires et solubilités
10 pages
3-Méthodes danalyses-MD
Pas encore d'évaluation
3-Méthodes danalyses-MD
39 pages
Codage Binaire et Représentation Numérique
Pas encore d'évaluation
Codage Binaire et Représentation Numérique
29 pages
cm2 Entiers
Pas encore d'évaluation
cm2 Entiers
19 pages
Solution Exos Chap2 RRM2024
Pas encore d'évaluation
Solution Exos Chap2 RRM2024
6 pages
Chapitre 5: Codage Des Informations Numériques
Pas encore d'évaluation
Chapitre 5: Codage Des Informations Numériques
82 pages
Schéma Et DTD
100% (1)
Schéma Et DTD
2 pages
TP LINUX Archivage & Compression
Pas encore d'évaluation
TP LINUX Archivage & Compression
7 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
16 pages
Fiche Technique Matrice
Pas encore d'évaluation
Fiche Technique Matrice
8 pages
Guide Linux: Archivage et Compression
Pas encore d'évaluation
Guide Linux: Archivage et Compression
14 pages
Fonction Anglais Francais
Pas encore d'évaluation
Fonction Anglais Francais
4 pages
Introduction à la DTD et XML
Pas encore d'évaluation
Introduction à la DTD et XML
4 pages
Caracteres - Codes ASCII
Pas encore d'évaluation
Caracteres - Codes ASCII
4 pages
Ponctuation
Pas encore d'évaluation
Ponctuation
1 page
TP N°02 Codage Shanon-Fano
Pas encore d'évaluation
TP N°02 Codage Shanon-Fano
2 pages
Chaînes de caractères en algorithmique
Pas encore d'évaluation
Chaînes de caractères en algorithmique
22 pages
Algorithmes de compression informatique
Pas encore d'évaluation
Algorithmes de compression informatique
76 pages
CIF vs SIF : Résolutions vidéo expliquées
Pas encore d'évaluation
CIF vs SIF : Résolutions vidéo expliquées
3 pages
Codes ASCII Et Leur Correspondance
Pas encore d'évaluation
Codes ASCII Et Leur Correspondance
2 pages
Cours5 TI
Pas encore d'évaluation
Cours5 TI
12 pages
1.2 Codage Des Nombres Réels
Pas encore d'évaluation
1.2 Codage Des Nombres Réels
12 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
Chapitre 1 - Séminaire D'ouverture Scientifique - Compression Des Données Visuelles
Pas encore d'évaluation
Chapitre 1 - Séminaire D'ouverture Scientifique - Compression Des Données Visuelles
39 pages
EMD IATI 2425 Avec Solution
Pas encore d'évaluation
EMD IATI 2425 Avec Solution
4 pages
ch3 Compression Des Signaux Isitcom
Pas encore d'évaluation
ch3 Compression Des Signaux Isitcom
34 pages
Introduction aux Codes Binaires et ASCII
Pas encore d'évaluation
Introduction aux Codes Binaires et ASCII
2 pages
M1 SysTLC Codage Et Compression
Pas encore d'évaluation
M1 SysTLC Codage Et Compression
3 pages
Créer un Favicon sur WordPress
Pas encore d'évaluation
Créer un Favicon sur WordPress
157 pages
Codage Ziv-Lempel : LZ77 et LZ78
Pas encore d'évaluation
Codage Ziv-Lempel : LZ77 et LZ78
13 pages
Cours Le Developpement Informatique
Pas encore d'évaluation
Cours Le Developpement Informatique
6 pages