Compression de fichiers : méthodes et codes

Le document aborde la problématique du manque d'espace de stockage sur les disques durs et la compression de fichiers, en expliquant comment les données sont stockées en binaire et les méthodes de compression sans perte de données. Il présente le principe des codes préfixes pour éviter les ambiguïtés lors du décodage et introduit l'algorithme de Huffman pour optimiser la compression en fonction des fréquences des caractères. Enfin, un exemple illustratif montre comment coder le mot 'ABRACADABRA' en utilisant cet algorithme.

Transféré par

mansourchahid209

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues4 pages

Compression de fichiers : méthodes et codes

Transféré par

mansourchahid209

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

1-Problématique

2-Comment les fichiers sont enregistrés

3-Comment les fichiers sont compressés (les différentes méthodes)
4-Application

Problématiques

Souvent on est confronté au problème de manque d’espace sur les disques durs
de l’ordinateur ou sur la mémoire du téléphone. Alors il nous arrive de
compresser les fichiers en utilisant les utilitaires d’archives comme gzip ou
winzip.
Alors que ce passe t’il derrière cette manipulation que nous faisons si
commodément chaque jour ?
C’est ce que nous allons faire comprendre par notre présentation.

Comment les fichiers sont alors stockés sur l’ordinateur

Les fichiers à stocker sur l’ordinateur sont souvent d’autres divers (des images,
des chiffres, des mots………) or l’ordinateur ne comprend que les 0 1.
Alors il faut trouver un moyen de lui communiquer les données que nous voulons
enregistrer (ici nous allons étudier le cas des mots ou phrases)
On utilise alors pour cela le langage binaire pour résoudre ce problème.
On fait correspondre alors chaque lettre de l’alphabet à une série de bits
Par exemple on peut créer un alphabet
A=00
B=01
C=10
D=11
Les 01 ;00 ;10 ;11 sont appelées mots du code
Et pour coder alors le mot DADA ça nous fait alors 11OO11OO
Il est à remarquer que les mots sont de même longueur c’est-à-dire même
nombre de bits .

Comment l’ordinateur compresse-t-il alors ces fichiers

Si on veut coder par exemples un fichier avec un langage écrit avec des mots de
longueur n un fichier de x lettre alors on aura besoin de x.n bits .Le but de la
compression est de trouver un moyen pour quelles fichiers codés soient plus
courts que cela (pour que les fichiers stockés dans l’ordinateur prennent moins
de place). On va donc devoir changer de code.
Principe de la compression sans perte de données
L'idée essentielle est de ne pas coder toutes les lettres avec le même nombre de
bits : on veut profiter de ce que leE par exemple est beaucoup plus fréquent (en
français) que le K, comme tout joueur de Scrabble le sait bien. Donc si le E
pouvait
être codé sur moins de 8 bits, quitte à ce que le K soit plus long, on pourrait y
gagner.
Mais le problème est qu'on veut toujours pouvoir déchiffrer. Or on rappelle qu'on
ne peut pas mettre d'espace entre deux mots du code (car l'ordinateur ne
connaît
pas les espaces, il ne connaît que 0 et 1).
Un code non déchiffrable

Par exemple, si on décide de coder un alphabet de quatre lettres comme ceci

A →0
B →01
C →10
D →11
Comment décoder0010 ?
AAC ou ABA ?
Il y a ambiguïté, et ce code est donc un mauvais code.

Codes préfixes

Pour éviter ce problème, on fait en sorte d'utiliser des suites de 0 et de 1 telles

qu'aucune ne soit le début d'une autre. On dit que le code est préfixe. Dans le
code
précédent, 0(A) était le début de 01(B), et c'est pour cela qu'on pouvait avoir
ambiguïté.
Si on prend par exemple :
A →0
B →10
C →110
D →111
0 n'est pas le début de 10, ni de 110, ni de 111. De même, 10 n'est le début ni de
110
ni de 111. Donc quand on cherche à décoder un message, on peut lire de gauche
à
droite, et dès qu'on reconnaît un mot du code, c'est forcément lui (et pas le début
d'un autre).

Quel code choisir ?

On peut avoir plusieurs codes préfixes pour un alphabet. Suivant les fréquences
des lettres dans le texte à coder , un code pourra être plus efficace qu'un autre.
On
se doute bien que les lettres les plus fréquentes doivent être codées par un mot
plus court. Mais c'est plus compliqué que cela.
Par exemple, si on a un texte de 100 lettres avec 50 A, 30 B, 10 C et 10 D : si on
utilise le code :
A →0
B →10
C →110
D →111
on obtient un texte codé de longueur 170 bits.
Si on avait utilisé le code
A →0
B →01
C →10
D →11
le texte codé aurait eu une longueur de 200 bits : on a donc ici intérêt à utiliser le
premier code. Mais si on a un texte de 100 lettres avec 28 A, 25 B, 24 C et 23 D,
le
premier code fournit un texte codé de longueur 219 bits. Le deuxième code
aurait
fourni un texte codé de longueur toujours 200. Ici c'est donc le deuxième code
qui
est meilleur !
Il ne suffit donc pas de connaître l'ordre de fréquence des lettres... Le meilleur
code dépend donc vraiment des valeurs des fréquences dans le texte qu'on veut
compresser.

Le code optimale
Pour remedier au probleme soulevé plus tot David Huffman a publié, en 1952,
l'algorithme
qui porte son nom et qui permet, lorsqu'on connaît les fréquences des lettres
dans un fichier, de trouver l'arbre qui correspond au code préfixe qui raccourcira
le
plus le fichier.

L’algorithme de huffman
Pour mieux expliquer cet algorithme nous allons nous mettre dans le contexte de
representation d’un arbre genealogique avec les mots du codes .
Alors dans un code optimal, les deux caractères les moins fréquents seront codés
par les
mots les plus longs, et en fait par deux mots de même longueur. En effet, sinon,
le
mot le plus long a son frère inutilisé, on peut donc le remonter d'un cran (en
conservant un code préfixe).
On peut de plus aussi s'arranger pour que ces deux mots les plus longs soient
deux frères et qu'ils aient donc le même père (s'ils ne le sont pas c'est qu'il y a
d'autres mots de la même longueur, mais cela ne change rien de permuter deux
mots).
On peut alors identifier les deux lettres codées par ces deux mots, en une lettre
fictive
codée par le mot père : on obtient un nouveau texte où on a remplacé chaque
occurrence de ces deux lettres par ce nouveau caractère; on se retrouve alors à
chercher un code optimal pour ce nouveau texte, dont l'alphabet comporte un
symbole de moins, et ainsi de suite. C'est une sorte de récurrence descendante :
il
s'agit d'un principe récursif.

Exemple
Supposons par exemple que l'on veuille coder ABRACADABRA. On commence par
établir le nombre d'apparitions de tous les caractères, et par les classer dans
l'ordre
croissant. Ici on obtient :
(D ;1) (C ;1) (R ;2) (B ;2) (A ;5)

On prend les deux caractères les moins fréquents : D et C. Dans un code optimal,
d'après la première remarque, ils seront frères, et seront codés par pour et
pour où désigne une même suite de 0 et de 1 encore inconnue. On crée
alors un nouveau symbole qui remplacera tous les et tous les (et sera
codé par ); on est alors amené à chercher un code optimal pour un texte utilisant
un alphabet comportant un symbole de moins (4 au lieu de 5), avec les nombres
d'apparitions suivants :
(D ∼ C ;2) (R ;2) (B ;2) (A ;5)
où D ∼ C sera codé par la suite précédente. On recommence alors avec les
caractères les moins fréquents, qui sont maintenant par exemple et , qui seront
aussi frères dans le code qu'on cherche .

(D ∼ C ;2) (R ∼ B ;4) (A ;5)

On obtient alors :

Enfin, D ∼ C et R ∼ B seront aussi frères, et on obtient

((D ∼ C) ∼ (R ∼ B) ;6) (A ;5)
Finalement A peut être codé par 1, ((D ∼ C) ∼ (R ∼ B)) par 0, donc D ∼ C
sera codé par 00, R ∼ B par 01, et enfin D sera codé par 000,C par 001, R par
010, et par 011. Ce code est optimal, et fournit une longueur de 23 bits pour
ABRACADABRA

Vous aimerez peut-être aussi

Huffman
Pas encore d'évaluation
Huffman
18 pages
Algorithme de Compression de Huffman
100% (1)
Algorithme de Compression de Huffman
20 pages
Projet D Informatique M1BI - Compression Et Décompression de Texte. 1 Généralités Sur La Compression - Décompression de Texte
Pas encore d'évaluation
Projet D Informatique M1BI - Compression Et Décompression de Texte. 1 Généralités Sur La Compression - Décompression de Texte
6 pages
TD N°04 Huffman
Pas encore d'évaluation
TD N°04 Huffman
21 pages
Compression de Huffman Diab - Copie
Pas encore d'évaluation
Compression de Huffman Diab - Copie
78 pages
Compression de texte avec Huffman en C
Pas encore d'évaluation
Compression de texte avec Huffman en C
10 pages
Baccalauréat Blanc : Épreuve Numérique et Informatique
Pas encore d'évaluation
Baccalauréat Blanc : Épreuve Numérique et Informatique
20 pages
Compression et Codage de Données
Pas encore d'évaluation
Compression et Codage de Données
18 pages
Ds 2018
Pas encore d'évaluation
Ds 2018
4 pages
Cours 3 Compresssion
Pas encore d'évaluation
Cours 3 Compresssion
46 pages
Algorithme de codage Huffman expliqué
Pas encore d'évaluation
Algorithme de codage Huffman expliqué
15 pages
Codage de Huffman et Arithmétique
Pas encore d'évaluation
Codage de Huffman et Arithmétique
3 pages
Techniques de codage de l'information
Pas encore d'évaluation
Techniques de codage de l'information
9 pages
Codage de Sources Discrètes et Compression
Pas encore d'évaluation
Codage de Sources Discrètes et Compression
67 pages
Compression de Images
Pas encore d'évaluation
Compression de Images
22 pages
Types et Méthodes de Compression de Fichiers
Pas encore d'évaluation
Types et Méthodes de Compression de Fichiers
44 pages
Compression de données sans pertes
Pas encore d'évaluation
Compression de données sans pertes
9 pages
Tutoriel - Comprendre Les Encodages
Pas encore d'évaluation
Tutoriel - Comprendre Les Encodages
17 pages
Huffman Eleve
Pas encore d'évaluation
Huffman Eleve
3 pages
File Temp 1260895409413625788
Pas encore d'évaluation
File Temp 1260895409413625788
57 pages
Codage Source Réseau
Pas encore d'évaluation
Codage Source Réseau
5 pages
TM Compression 2020
Pas encore d'évaluation
TM Compression 2020
24 pages
Compression et gestion des données
Pas encore d'évaluation
Compression et gestion des données
99 pages
Bac Blanc 2024 Sujet2 Correction
Pas encore d'évaluation
Bac Blanc 2024 Sujet2 Correction
20 pages
Compression de données : RLE, Huffman, LZW
Pas encore d'évaluation
Compression de données : RLE, Huffman, LZW
3 pages
Codage des Caractères en Informatique
Pas encore d'évaluation
Codage des Caractères en Informatique
4 pages
Codage Arithmétique : Compression Optimisée
Pas encore d'évaluation
Codage Arithmétique : Compression Optimisée
17 pages
Codage Entropique et Compression
Pas encore d'évaluation
Codage Entropique et Compression
9 pages
CH 4 - Partie2 - CodageSource - 2324
Pas encore d'évaluation
CH 4 - Partie2 - CodageSource - 2324
32 pages
Compression et stockage des données
Pas encore d'évaluation
Compression et stockage des données
68 pages
Compression de Données: Méthodes et Algorithmes
Pas encore d'évaluation
Compression de Données: Méthodes et Algorithmes
36 pages
Huffman
Pas encore d'évaluation
Huffman
94 pages
Icc Serie 2.3
Pas encore d'évaluation
Icc Serie 2.3
4 pages
Codage Huffman et Compression des Données
Pas encore d'évaluation
Codage Huffman et Compression des Données
13 pages
Systèmes de numération et codage binaire
Pas encore d'évaluation
Systèmes de numération et codage binaire
8 pages
Ch1 Codage Des Caractères
Pas encore d'évaluation
Ch1 Codage Des Caractères
13 pages
Cours 2
Pas encore d'évaluation
Cours 2
4 pages
Créez votre bracelet binaire amusant
Pas encore d'évaluation
Créez votre bracelet binaire amusant
2 pages
Codage Binaire et Alphanumérique
Pas encore d'évaluation
Codage Binaire et Alphanumérique
19 pages
Compression de Données Sans Perte
100% (1)
Compression de Données Sans Perte
57 pages
Introduction à la programmation et codage
Pas encore d'évaluation
Introduction à la programmation et codage
67 pages
Chapitre1 LCS HENDEL Partie2
Pas encore d'évaluation
Chapitre1 LCS HENDEL Partie2
3 pages
Codage des caractères et encodage
100% (1)
Codage des caractères et encodage
10 pages
Huffman
Pas encore d'évaluation
Huffman
23 pages
Huffman Oral v2
Pas encore d'évaluation
Huffman Oral v2
3 pages
Compression DEFLATE : LZ77 et Huffman
100% (1)
Compression DEFLATE : LZ77 et Huffman
11 pages
Codage Caractéres Representation Numériques
Pas encore d'évaluation
Codage Caractéres Representation Numériques
3 pages
Comprendre la compression Huffman
Pas encore d'évaluation
Comprendre la compression Huffman
11 pages
Codage de l'information en binaire
Pas encore d'évaluation
Codage de l'information en binaire
11 pages
Codage de Huffman
Pas encore d'évaluation
Codage de Huffman
5 pages
Compression LZW : Algorithme et Exemples
Pas encore d'évaluation
Compression LZW : Algorithme et Exemples
29 pages
LZ78
0% (1)
LZ78
4 pages
Codage et traitement formel des messages
Pas encore d'évaluation
Codage et traitement formel des messages
38 pages
Chapitre III: Les Systèmes de Codage de L'information: Leçon Réalisée Par: MEKAM Guy Merlin (PLEG en Informatique)
Pas encore d'évaluation
Chapitre III: Les Systèmes de Codage de L'information: Leçon Réalisée Par: MEKAM Guy Merlin (PLEG en Informatique)
3 pages
Codage de Huffman : Méthode et Exemple
Pas encore d'évaluation
Codage de Huffman : Méthode et Exemple
2 pages
Introduction au codage binaire et ASCII
Pas encore d'évaluation
Introduction au codage binaire et ASCII
5 pages
Codage de Huffman et Alphabet
Pas encore d'évaluation
Codage de Huffman et Alphabet
12 pages
TP 10 Hysteresis
Pas encore d'évaluation
TP 10 Hysteresis
5 pages
PSI PHYSIQUE CCP 2 2009.enonce
Pas encore d'évaluation
PSI PHYSIQUE CCP 2 2009.enonce
12 pages
Critères de Réussite
Pas encore d'évaluation
Critères de Réussite
5 pages
Les Règles de La Concision
Pas encore d'évaluation
Les Règles de La Concision
4 pages
Mouvements dans un champ de forces centrales
Pas encore d'évaluation
Mouvements dans un champ de forces centrales
5 pages
La Méthodologie Du Texte À Résumer
Pas encore d'évaluation
La Méthodologie Du Texte À Résumer
8 pages
Méthodologie Du Résumé de Texte
Pas encore d'évaluation
Méthodologie Du Résumé de Texte
42 pages
CPGE Mohammedia 2024-2025 Mpsi - Informatique: Probl' Eme: Les Nombres en Chiffres Romains
Pas encore d'évaluation
CPGE Mohammedia 2024-2025 Mpsi - Informatique: Probl' Eme: Les Nombres en Chiffres Romains
3 pages
Exercices sur les Polynômes et leurs Propriétés
Pas encore d'évaluation
Exercices sur les Polynômes et leurs Propriétés
4 pages
Exercices de mathématiques corrigés MPSI
Pas encore d'évaluation
Exercices de mathématiques corrigés MPSI
14 pages
Nombres Réels
Pas encore d'évaluation
Nombres Réels
3 pages
Devoir Informatique MPSI 2025
Pas encore d'évaluation
Devoir Informatique MPSI 2025
6 pages
Amplificateurs optiques et transmission avancée
Pas encore d'évaluation
Amplificateurs optiques et transmission avancée
1 page
Équations Différentielles MPSI2
Pas encore d'évaluation
Équations Différentielles MPSI2
2 pages
Exercices corrigés d'intégration MPSI
Pas encore d'évaluation
Exercices corrigés d'intégration MPSI
44 pages
Équations Différentielles MPSI2
Pas encore d'évaluation
Équations Différentielles MPSI2
2 pages
Guide de Configuration CME Cisco
100% (1)
Guide de Configuration CME Cisco
86 pages
Unil Opal Racing 10W50
Pas encore d'évaluation
Unil Opal Racing 10W50
2 pages
Solitons, Dispersion Et Explosion
Pas encore d'évaluation
Solitons, Dispersion Et Explosion
148 pages
Effets Climatiques Sur Les Constructions Règles NV 85 ENIS
Pas encore d'évaluation
Effets Climatiques Sur Les Constructions Règles NV 85 ENIS
19 pages
Test Devenir Enseignant
Pas encore d'évaluation
Test Devenir Enseignant
4 pages
Whatever (Chanson D'oasis)
Pas encore d'évaluation
Whatever (Chanson D'oasis)
9 pages
Cours 2 - Introduction À TypeScript
Pas encore d'évaluation
Cours 2 - Introduction À TypeScript
38 pages
Traduction Anglais-Français en ligne
Pas encore d'évaluation
Traduction Anglais-Français en ligne
20 pages
Attachment
100% (5)
Attachment
22 pages
Cours de Programmation en Langage C
Pas encore d'évaluation
Cours de Programmation en Langage C
103 pages
Coordonnées Curvilignes
Pas encore d'évaluation
Coordonnées Curvilignes
13 pages
ET2503220044 exportKaliRes P 202503241915341
Pas encore d'évaluation
ET2503220044 exportKaliRes P 202503241915341
4 pages
Formation en Électricité Industrielle
Pas encore d'évaluation
Formation en Électricité Industrielle
4 pages
SYNTHESE DE BOTANIQUE 2025 DR KYPH
Pas encore d'évaluation
SYNTHESE DE BOTANIQUE 2025 DR KYPH
35 pages
ADMISSIBLES CMA94 Jan 23
Pas encore d'évaluation
ADMISSIBLES CMA94 Jan 23
3 pages
Consultation Entretien Climatisation
Pas encore d'évaluation
Consultation Entretien Climatisation
13 pages
Fy23 Gronlid hfb01 r1 008-Web
Pas encore d'évaluation
Fy23 Gronlid hfb01 r1 008-Web
5 pages
Rôle de L'infirmier en Hémodialyse Chronique
Pas encore d'évaluation
Rôle de L'infirmier en Hémodialyse Chronique
19 pages
Davis FR
100% (1)
Davis FR
2 pages
4 Les Outils de Base de Prise de Décision ABC
Pas encore d'évaluation
4 Les Outils de Base de Prise de Décision ABC
7 pages
Exercice Bouteille 3
Pas encore d'évaluation
Exercice Bouteille 3
4 pages
Choisir Des Outils en Focntion D'une Tâche Donnée Creuser Un Trou
Pas encore d'évaluation
Choisir Des Outils en Focntion D'une Tâche Donnée Creuser Un Trou
3 pages
Contrôle d'Accès en Sécurité Établissement
Pas encore d'évaluation
Contrôle d'Accès en Sécurité Établissement
5 pages
TD Droit Fiscal DCG Serie 1 2024
Pas encore d'évaluation
TD Droit Fiscal DCG Serie 1 2024
6 pages
DR Raphaëlle Taccone, Le Livre de Cratès Un Traité Alchimique Arabe Du Moyen Age
Pas encore d'évaluation
DR Raphaëlle Taccone, Le Livre de Cratès Un Traité Alchimique Arabe Du Moyen Age
19 pages
Organigramme Procédures SAV (Détaillé)
Pas encore d'évaluation
Organigramme Procédures SAV (Détaillé)
6 pages
Examen Irs
Pas encore d'évaluation
Examen Irs
5 pages
Tests de Pollution Véhicules
Pas encore d'évaluation
Tests de Pollution Véhicules
9 pages
Rapport Climat Gabon: État et Actions
Pas encore d'évaluation
Rapport Climat Gabon: État et Actions
221 pages
Exemples de Rédactions Pour Bourses D'études Basées Sur Les Besoins Financiers
Pas encore d'évaluation
Exemples de Rédactions Pour Bourses D'études Basées Sur Les Besoins Financiers
6 pages