TP44

info

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

10 vues2 pages

TP44

info

Transféré par

ayoubkarim953

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Informatique TP 43 - Algorithme de Huffman 1/2

Le but de ce TP est implémenter l’algorithme de Huffman (appliqué à des caractères représentés sur un
octet) en OCaml, et à le tester en compressant le texte intégral de "À la recherche du temps perdu", qui fait
plus de 7Mo.
Dans un second temps, chez vous, vous pouvez combiner Huffman et LZW, en appliquant d’abord l’al-
gorithme LZW, puis l’algorithme de Huffman à l’échelle de l’octet ou bien de la taille des codes LZW (cette
deuxième option donne une meilleure compression, mais l’arbre de Huffman est sensiblement plus gros et
donc sa sérialisation est aussi plus grosse).
On utilisera pour calculer l’arbre de Huffman le module [Link] (avec son interface précisée dans
[Link] qui implémente les files de priorité mutables 1 .
Les arbres préfixes (dont l’arbre de Huffman que l’on veut calculer) seront définis ainsi :
1 type arbre = Feuille of int | Noeud of arbre * arbre
L’entier entre qui étiquette chaque feuille correspond au code d’un caractère. On se donne de plus une
fonction nb_occurences : in_channel -> int Array telle que
nb_occurences entree renvoie un tableau de taille 256 contenant le nombre d’occurences de chaque octet
dans le flux entree.
On utilisera, pour lire dans un fichier, les fonctions open_in : string -> in_channel,
input_byte : in_channel -> int et close_in : in_channel -> [Link] rappelle que la fonction
input_byte lève l’exception End_of_file si le flux d’entrée est terminé.
On utilisera, pour écrire dans un fichier, les fonctions open_out : string -> out_channel,
output_byte : out_channel -> int -> unit et close_out : out_channel -> unit.
1. Construction de l’arbre et de l’encodage :
(a) Écrire une fonction arbre_huffman : int array -> arbre qui construit l’arbre de Huffman as-
socié aux nombre d’occurences de chaque caractère dans un texte, en utilisant une file de priorité.
Parmi les 256 octets possibles, on ne mettra dans l’abre que ceux qui apparaissent au moins une fois
dans le fichier.
Indication : Une fois la file de priorité construite, il peut être pertinent d’utiliser une fonction récursive
sans argument (car elle aura des effets de bords sur cette file de priorité) pour calculer l’arbre. Ceci
peut être plus facile à écrire qu’avec une boucle.
(b) Écrire une fonction tableau_encodage : arbre -> int list array qui, étant donné un arbre
correspondant à un code préfixe sur les octets, calcule un tableau de 256 listes correspondant aux
codes définis par l’arbre pour les caractères. 2 .
2. Compression :
(a) La sérialisation consiste à définir, pour un type de données, une fonction qui écrit chaque valeur
distincte de ce type comme une chaîne de caractère différente, tel qu’il soit ensuite possible d’inverser
cette fonction.
Pour un terme d’une structure inductive, écrire en entier le terme pourrait convenir, mais on cherche
en général à économiser de la place plutôt qu’à faciliter la lecture par un humain.
Proposer une sérialization pour les arbres préfixe.

1. On considère un tas binaire, qui est un arbre binaire complet, et on le représente comme un tableau dont les cases sont
les étiquettes de ses nœuds dans l’ordre d’un parcours en largeur.
2. Si vous cherchez à gagner en efficacité : plutôt qu’une liste, utilisez un couple d’entiers, le premier étant l’entier dont le
code est la représentation binaire, et le second la taille en bits du code.

MP2I 2024-2025 Nath François

Informatique TP 43 - Algorithme de Huffman 2/2

(b) Écrire une fonction serialize : out_channel -> arbre -> unit qui prend en argument un flux
de sortie et un arbre préfixe. On fait la sérialisation en énumérant les nœuds de l’arbre de façon préfixe
avec la façon suivante :
• Les nœuds internes sont représentées par un octet à 0 ;
• les feuilles sont représentées par un octet à 1 suivi de l’octet qui les étiquette.
(c) Écrire une fonction extract_byte : int list -> int * int list qui étant donné une listes de
bit correspondant à des bits déjà lus, en extrait les 8 premiers sous la forme d’un entier (on prend
les bits en gros bout), et renvoie cet entier ainsi que le reste de la liste.
Par exemple, extract_byte [0; 0; 1; 0; 1; 0; 1; 0; 1; 1] = (42, [1; 1]).
Si la liste ne contient pas aux moins 8 bits 3 , on fait comme si tous les bits manquant valaient 0.
Cette fonction servira à traiter le buffer de bits correspondant à des codes calculés mais pas encore
écrits dans la sortie.
(d) Écrire une fonction
huffman : in_channel -> out_channel -> int list array -> int list -> unit
qui prend en argument un flux d’entrée contenant le texte à compresser, un flux de sortie sur lequel
écrire le texte compressé, le tableau indiquant le code de chaque caractère, et la liste d’entiers buffer
indiquant les bits à écrire qui ne forment pas encore un octet complet.
Indication : Il est recommandé de :
• Si le flux d’entrée est fini, écrire le buffer actuel sur la sortie ;
• sinon, si le buffer contient 8 bits ou moins, lire le prochain octet du flux d’entrée ;
• sinon, le buffer actuel contient au moins 9 bits : écrire un octet dans le flux de sortie. Ceci garanti
que le nouveau buffer ne sera pas vide.
(e) Écrire une fonction compresse : bool -> string -> string -> unit qui prend en argument le
nom du fichier source et le nom souhaité du fichier de destination. Cette fonction compresse le fichier
source en suivant l’algorithme de Huffman, en utilisant les deux fonctions précédentes. Elle encode
dans cet ordre les informations suivantes :
• un entier, représenté sur 8 octets, indiquant le nombre d’octets dans la source ;
• l’arbre de Huffman, encodé avec serialize ;
• l’encodage du contenu de la source, obtenu avec huffman.
Tester cette fonction sur le fichier [Link]. Quel est le gain d’espace ? Comparer avec ce
qu’on obtient avec la compression au format .zip.
3. Décompression :
(a) Écrire une fonction deserialize : in_channel -> arbre qui calcule l’arbre dont les feuilles sont
étiquettées par des caractères, encodé dans le flux en entrée 4 .
(b) Écrire une fonction buffer_of_byte : int -> int list qui étant donné un entier, le transforme
en la liste des 8 bits (même s’il y a des 0 de poids fort) de sa représentation binaire, toujours écrite
en gros bout comme pour extract_byte.
(c) Écrire une fonction
huffman_inv : in_channel -> out_channel -> int -> arbre -> int list -> unit
qui prend en argument un flux d’entrée contenant le texte à décompresser, un flux de sortie sur lequel
écrire le texte décompressé, le nombre d’octets restant à lire, l’arbre préfixe indiquant le codage utilisé,
et la liste buffer indiquant les bits déjà lus mais pas encore décodés.
Il peut être pertinent d’écrire une fonction récursive auxiliaire pour parcourir l’arbre.
(d) Écrire une fonction decompresse : string -> string -> unit qui prend en argument le nom
d’un fichier compressé avec ce programme, et le nom souhaité du fichier décompressé, et effectue la
décompression.
Tester votre fonction avec [Link], le résultat de la compression précédente.
3. Ce qui arrivera uniquement à la fin du texte.
4. Comme on l’a vu en montrant qu’un ABSNV dont les feuilles et les nœuds internes avait des étiquettes distincts, cette
fonction arrêtera de consommer des octets du flux exactement à la fin de la sérialisation de l’arbre de Huffman, et juste avant
le début du texte compressé.

MP2I 2024-2025 Nath François

Vous aimerez peut-être aussi

DL ALGOA TP Bzip
Pas encore d'évaluation
DL ALGOA TP Bzip
10 pages
Compression de texte avec Huffman en C
Pas encore d'évaluation
Compression de texte avec Huffman en C
10 pages
TP5 Huffman
Pas encore d'évaluation
TP5 Huffman
4 pages
tp22 Complement
Pas encore d'évaluation
tp22 Complement
5 pages
Les Operateurs:: Les Fonctions Et Les Methodes Sur Les Entiers / Reels
Pas encore d'évaluation
Les Operateurs:: Les Fonctions Et Les Methodes Sur Les Entiers / Reels
28 pages
Projet D Informatique M1BI - Compression Et Décompression de Texte. 1 Généralités Sur La Compression - Décompression de Texte
Pas encore d'évaluation
Projet D Informatique M1BI - Compression Et Décompression de Texte. 1 Généralités Sur La Compression - Décompression de Texte
6 pages
TP Huffman
Pas encore d'évaluation
TP Huffman
4 pages
Huffman
Pas encore d'évaluation
Huffman
5 pages
Compression de Huffman Diab - Copie
Pas encore d'évaluation
Compression de Huffman Diab - Copie
78 pages
CNC2017C
Pas encore d'évaluation
CNC2017C
11 pages
SQL et Compression Huffman: Guide 2017
Pas encore d'évaluation
SQL et Compression Huffman: Guide 2017
6 pages
Codage Huffman Elèves
Pas encore d'évaluation
Codage Huffman Elèves
11 pages
Algorithme Compression de Huffman
Pas encore d'évaluation
Algorithme Compression de Huffman
10 pages
Huffman
Pas encore d'évaluation
Huffman
2 pages
CNC 2017 Corrige
Pas encore d'évaluation
CNC 2017 Corrige
9 pages
Rapport Java Huffman
Pas encore d'évaluation
Rapport Java Huffman
17 pages
TD Algorithmique : Arbres, Tri et Codage
Pas encore d'évaluation
TD Algorithmique : Arbres, Tri et Codage
2 pages
Chaines de Caracteres Et Fichiers
Pas encore d'évaluation
Chaines de Caracteres Et Fichiers
5 pages
Mp2i DS4
Pas encore d'évaluation
Mp2i DS4
8 pages
Cours Python: Structures d'Arbres
Pas encore d'évaluation
Cours Python: Structures d'Arbres
11 pages
Codage Huffman pour Ingénieurs
Pas encore d'évaluation
Codage Huffman pour Ingénieurs
5 pages
Baldellon C Cours 03
Pas encore d'évaluation
Baldellon C Cours 03
18 pages
Python : Fichiers et Itérateurs Avancés
Pas encore d'évaluation
Python : Fichiers et Itérateurs Avancés
76 pages
Codage Huffman et Shannon-Fano en MATLAB
Pas encore d'évaluation
Codage Huffman et Shannon-Fano en MATLAB
11 pages
TD Compression Huffman
Pas encore d'évaluation
TD Compression Huffman
5 pages
h23 - Sol 1
Pas encore d'évaluation
h23 - Sol 1
23 pages
DS02 IPT2122 Mines2015
Pas encore d'évaluation
DS02 IPT2122 Mines2015
10 pages
Fonctions Python natives listées
Pas encore d'évaluation
Fonctions Python natives listées
28 pages
On Commence Par Définir
Pas encore d'évaluation
On Commence Par Définir
1 page
Manipulation de crochets en C
Pas encore d'évaluation
Manipulation de crochets en C
5 pages
Codage de Huffman et Arithmétique
Pas encore d'évaluation
Codage de Huffman et Arithmétique
3 pages
Revision Python
Pas encore d'évaluation
Revision Python
7 pages
Codage Huffman
Pas encore d'évaluation
Codage Huffman
11 pages
Examen Programmation Avancee Et Structures de Donnees
Pas encore d'évaluation
Examen Programmation Avancee Et Structures de Donnees
4 pages
II l1 Info td05
Pas encore d'évaluation
II l1 Info td05
3 pages
Info & Prog
Pas encore d'évaluation
Info & Prog
9 pages
Compression avec l'algorithme de Huffman
Pas encore d'évaluation
Compression avec l'algorithme de Huffman
4 pages
Corrigé Examen Blanc C
Pas encore d'évaluation
Corrigé Examen Blanc C
6 pages
C142-Activites Paradigmes Prog
Pas encore d'évaluation
C142-Activites Paradigmes Prog
17 pages
II 05
Pas encore d'évaluation
II 05
32 pages
Bac Blanc NSI Corot 2025
Pas encore d'évaluation
Bac Blanc NSI Corot 2025
11 pages
TP 22
Pas encore d'évaluation
TP 22
6 pages
TP Compression: Huffman, Shano-Fano, LZW
100% (1)
TP Compression: Huffman, Shano-Fano, LZW
23 pages
Codage et Décodage de Huffman
Pas encore d'évaluation
Codage et Décodage de Huffman
19 pages
Examen Blanc C 24 25
Pas encore d'évaluation
Examen Blanc C 24 25
5 pages
BRHVR 2
Pas encore d'évaluation
BRHVR 2
17 pages
Algorithme (Con17)
Pas encore d'évaluation
Algorithme (Con17)
4 pages
Bac Blanc 2024 Sujet2
Pas encore d'évaluation
Bac Blanc 2024 Sujet2
20 pages
Codage de Huffman
Pas encore d'évaluation
Codage de Huffman
5 pages
Chap 07 B
Pas encore d'évaluation
Chap 07 B
5 pages
Compression et Codage en Python
Pas encore d'évaluation
Compression et Codage en Python
5 pages
Projet de Programmation Avancée C
Pas encore d'évaluation
Projet de Programmation Avancée C
3 pages
Bac Blanc 2024 Sujet2 Correction
Pas encore d'évaluation
Bac Blanc 2024 Sujet2 Correction
20 pages
Memento Python Sci Lab
Pas encore d'évaluation
Memento Python Sci Lab
4 pages
TP 23
Pas encore d'évaluation
TP 23
8 pages
Chp1 Files Cours Exercices v1.1
Pas encore d'évaluation
Chp1 Files Cours Exercices v1.1
3 pages
Chap 1
Pas encore d'évaluation
Chap 1
13 pages
Chap0, Info, Prepa
Pas encore d'évaluation
Chap0, Info, Prepa
80 pages
Mines 2025
Pas encore d'évaluation
Mines 2025
10 pages
Cours PPT Schema Cine Modifie
Pas encore d'évaluation
Cours PPT Schema Cine Modifie
46 pages
Cours 17 - PFSPDF
Pas encore d'évaluation
Cours 17 - PFSPDF
36 pages
Par-Delà Nature Et Culture
Pas encore d'évaluation
Par-Delà Nature Et Culture
5 pages
Chroma TC Our
Pas encore d'évaluation
Chroma TC Our
63 pages
Exposé Sur La Place de La Femme
Pas encore d'évaluation
Exposé Sur La Place de La Femme
5 pages
Note D Information Opv Sib
Pas encore d'évaluation
Note D Information Opv Sib
145 pages
Gestion D'équipes - Principes de Management
Pas encore d'évaluation
Gestion D'équipes - Principes de Management
11 pages
Cours 1
Pas encore d'évaluation
Cours 1
13 pages
Limites Et Asymptotes
100% (1)
Limites Et Asymptotes
9 pages
Répartition Consolidation Et Remediation 6
Pas encore d'évaluation
Répartition Consolidation Et Remediation 6
3 pages
Politique identitaire juive et sionisme
100% (1)
Politique identitaire juive et sionisme
12 pages
Le Process Communication
33% (3)
Le Process Communication
19 pages
"Explorez les Invisibles du Sol"
Pas encore d'évaluation
"Explorez les Invisibles du Sol"
56 pages
Cours de Psychopédagogie pour Stagiaires
Pas encore d'évaluation
Cours de Psychopédagogie pour Stagiaires
45 pages
Comprendre les Immobilisations Incorporelles
Pas encore d'évaluation
Comprendre les Immobilisations Incorporelles
10 pages
Outils No Code
Pas encore d'évaluation
Outils No Code
3 pages
Spécifications de Tuyauterie à Enveloppe de Vapeur
Pas encore d'évaluation
Spécifications de Tuyauterie à Enveloppe de Vapeur
4 pages
Guide D'entretien Avec Un Les Personnes Ressources de La Ville de Sokone
Pas encore d'évaluation
Guide D'entretien Avec Un Les Personnes Ressources de La Ville de Sokone
2 pages
Dimanche de La Famille
Pas encore d'évaluation
Dimanche de La Famille
5 pages
Plan HACCP Mozzarella
Pas encore d'évaluation
Plan HACCP Mozzarella
3 pages
Devoirs Semaine du 11/05 pour Élèves
Pas encore d'évaluation
Devoirs Semaine du 11/05 pour Élèves
8 pages
La Fille de Jaïrus-1
Pas encore d'évaluation
La Fille de Jaïrus-1
63 pages
TP: Mise en œuvre du Multicast IP
0% (1)
TP: Mise en œuvre du Multicast IP
18 pages
Notre Maison
Pas encore d'évaluation
Notre Maison
1 page
10 PAGES Cours de Terminologie Juridique S1
100% (1)
10 PAGES Cours de Terminologie Juridique S1
13 pages
Introduction aux bétons hydrauliques
Pas encore d'évaluation
Introduction aux bétons hydrauliques
21 pages
Examen de Rattrapage de Mécanique Des Fluides - ICAA1 - 2024
Pas encore d'évaluation
Examen de Rattrapage de Mécanique Des Fluides - ICAA1 - 2024
1 page
Instructions de Montage Ventouse
Pas encore d'évaluation
Instructions de Montage Ventouse
4 pages
Rapport de Stage Derniere Vers
Pas encore d'évaluation
Rapport de Stage Derniere Vers
35 pages
Devoir - 2 $ 3 S2 SPC 2BAC
Pas encore d'évaluation
Devoir - 2 $ 3 S2 SPC 2BAC
2 pages
Contrat Moudaraba
75% (4)
Contrat Moudaraba
38 pages
Cours de Thermodynamique
75% (4)
Cours de Thermodynamique
123 pages
Théories D'échange International
Pas encore d'évaluation
Théories D'échange International
3 pages