0% ont trouvé ce document utile (0 vote)
29 vues5 pages

Docsi 393 0130

Transféré par

Alain Bayala
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
29 vues5 pages

Docsi 393 0130

Transféré par

Alain Bayala
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Journée d'étude de l'ISDN

Valorisation du patrimoine et numérisation des collections


Michèle Battisti
Dans Documentaliste-Sciences de l'Information 2002/3 (Vol. 39), pages 130 à 133
Éditions A.D.B.S.
ISSN 0012-4508
DOI 10.3917/docsi.393.0130
© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

Article disponible en ligne à l’adresse


[Link]

Découvrir le sommaire de ce numéro, suivre la revue par email, s’abonner...


Flashez ce QR Code pour accéder à la page de ce numéro sur [Link].

Distribution électronique [Link] pour A.D.B.S..


La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le
cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque
forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est
précisé que son stockage dans une base de données est également interdit.
REPÈRES

Journée d’étude de l’ISDN


Valorisation du patrimoine
et numérisation des collections

L’Institut des sciences du document IL N’EST NULLEMENT constatées après la mise en


BESOIN DE correspondance des fac-similés et des
numérique (ISDN) proposait le DEMONTRER tables sont analysées et leur nombre
AUJOURD’HUI les diminue progressivement. L’analyse
7 mars 2002 à Lyon une journée multiples intérêts d’une des différents formats de diffusion
numérisation. Mais cette opération, proposés sur le marché a permis
d’étude consacrée à La valorisation fondamentale pour parvenir à une d’opter aujourd’hui pour le format
réelle valorisation du document gif1. Quant à la navigation, elle se fait
du patrimoine et la numérisation source, doit être effectuée avec par feuilletage et mise en regard des
précaution. Plusieurs solutions pages, adaptée à la spécificité de ces
des collections. Les solutions adoptées pour numériser des documents. La recherche peut être
documents patrimoniaux ou des effectuée sur les notices et les tables
techniques adoptées pour le archives, et testées dans le cadre ou par des moteurs de recherche
d’études pointues ou d’usages externes.
traitement des problèmes posés savants, ont été présentées lors de Ce travail de numérisation
cette manifestation, ainsi que des implique aussi une analyse des
par divers manuscrits et documents expériences de numérisation de fonds pratiques de lecture à partir des
littéraires. journaux d’activité (logs), qui sera
anciens ont été présentées : diffusée très prochainement, mais il
Prendre en compte les complexités apparaît déjà que le confort de lecture
éditions anciennes de documents de l’édition ancienne de ces bibliothèques virtuelles doit
Le Conservatoire national des arts être amélioré. Le système développé
scientifiques, revues de et métiers (CNAM) entreprend de aujourd’hui est adapté à une simple
numériser son fonds ancien constitué mise à disposition des fac-similés et à
mathématiques, reconnaissance de cent cinquante mille ouvrages leur impression à distance. Les études
scientifiques et techniques présentant se poursuivent dans le domaine
de l’écriture manuscrite, détection toutes les complexités d’une édition tridimensionnel2.
© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])


ancienne (format, pagination,
automatique de la structure d’un illustration, etc.). Il est d’ores et déjà
envisagé que les solutions techniques
document, ajout de métadonnées choisies, adaptées au contexte
technique actuel, soient remises en
et structuration des documents, question au fur et à mesure de leur 1 Parmi le grand nombre de sites proposant des
évolution. définitions des formats d’image <[Link]-
[Link]/webcurse/html_imb.html>,
numérisation d’archives en couleur, Ce sont les fac-similés de quelques <[Link]/public/faerber/
ouvrages qui sont proposés en ligne traitements/formats_graph.html>...
etc. Des exemples de numérisation aujourd’hui, auxquels sont associés 2 Entre autres en utilisant le VRML (Virtual
des répertoires alimentés Reality Modeling Language) : langage de
modélisation permettant d’intégrer des objets 3D
de fonds littéraires ont aussi été manuellement. Les tables de matières sur les supports électroniques. Parmi les sites
et d’illustrations présentes en mode proposant des informations sur ce langage :
présentés. texte sont également saisies par des <[Link]/VRML> ou
prestataires externes. Les erreurs <[Link]/Specifications/VRML 97>.

130 • Documentaliste - Sciences de l’information 2002, vol. 39, n° 3


REPÈRES VALORISATION DU PATRIMOINE ET NUMÉRISATION DES COLLECTIONS

Les journées d’étude Mines (EMSE) de Saint-Etienne : diaporama (format powerpoint)


Cette manifestation a été Quatre autres exposés ont été - L’historien et la numérisation ou sous forme audiovisuelle
organisée, dans le cadre de proposés par la suite dans le du patrimoine livresque français, (format SMIL : Synchronized
l’Institut des sciences du cadre des « Jeudis du par François Dupuigrenet multimedia integration
document numérique (ISDN) numérique » (voir page Desrousilles (ENSSIB) ; language, nécessitant le
Rhône-Alpes, par l’École normale suivante), lors d’une conférence - Des usages..., par Jean-Pierre téléchargement gratuit du
supérieure de lettres et sciences prononcée simultanément en Sakou (Oséa) ; lecteur Real Player) sur le site de
humaines et le laboratoire visioconférence à l’École - L’art de numériser, par Christian l’ISDN : <//[Link]>.
Reconnaissance de formes et nationale supérieure de lettres et Chabrier (Arkhenum) ;
vision de l’Institut national des sciences humaines de Lyon, - La numérisation a-t-elle encore
sciences appliquée (INSA). Elle a l’Institut de la communication et un avenir ? par Hubert Emptoz
eu lieu le 7 mars 2002 à Lyon, des medias (ICM) d’Echirolles, (INSA).
autour de trois sessions qui font l’Espace Culture Multimédia de Ces quatre conférences sont
l’objet de ce compte rendu. l’École nationale supérieure des disponibles sous forme de

La numérisation des revues La lecture de l’écriture manuscrite La détection automatique


mathématiques françaises par la machine de la structure d’un document
Ce travail a été confié à la cellule La reconnaissance des manuscrits Dans le cadre de leur campagne de
Mathdoc qui, au sein du CNRS, est est encore un défi – en dehors de numérisation, les archives de la
chargée de piloter ce programme quelques applications industrielles Mayenne ont traité des registres
spécifique. L’objectif poursuivi est (lecture de chèques, codes postaux, d’incorporation militaire du XIXe
d’assurer la conservation d’un fonds, blocs notes personnels) qui, dans un siècle, constitués de formulaires types
toujours d’actualité dans cette contexte applicatif limité, ont permis dont la structure est restée la même
discipline, et de maintenir la visibilité de développer des méthodes fiables. pendant quarante ans. Certaines cases
des revues françaises au sein du La lecture réelle, incluant des niveaux s’étant révélées trop petites, on y avait
patrimoine numérique mondial. Les d’interprétation depuis le niveau ajouté des paperolles (post-it) qui
articles des cinq revues qui font graphique jusqu’au niveau lexical, masquent la structure du document.
l’objet de la première phase du projet syntaxique, voire sémantique, est une Le traitement manuel consiste en une
seront librement accessibles à partir étape postérieure à la simple indexation des noms propres en
d’un délai adapté à chacune d’entre reconnaissance de formes et tous les langage XML. Les travaux de
elles afin de ne pas ébranler leur problèmes n’ont pas encore été recherche consistaient à appliquer la
stabilité économique. surmontés. La machine doit en effet méthode DMOS3 permettant la
Le choix technique s’est porté sur pouvoir développer des capacités détection automatique de la structure
des formats standards facilement omniscripteurs lui permettant de d’un document. Appliquée aux
convertibles (tiff, xml), sur des reconnaître n’importe quelle écriture, registres matricules, et malgré le
images de qualité permettant une mais aussi des capacités nombre important de paperolles, un
reconnaissance optique des caractères monoscripteurs lui permettant de taux insignifiant de rejet (0,4 %) a été
et une recherche plein texte (sauf reconnaître les fantaisies de chaque constaté. Il a été possible aussi de
pour les formules mathématiques), et scripteur et de lui attribuer sans faute découper virtuellement les registres et
sur une segmentation par unités un texte donné. de supprimer les données médicales,
logiques. Les textes sont Les résultats des travaux entrepris pour ne donner accès au public
accompagnés d’une base de données par le laboratoire PSI de Rouen sur la
© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])


bibliographiques en libre accès reconnaissance de mots dans le texte 3 Méthode DMOS (Description et modification de
proposant des liens croisés avec des ainsi que sur l’identification et la la segmentation ) : « méthode constituée d’un
bases de recensement grâce à un vérification du scripteur permettent formalisme grammatical de position permettant
de modéliser la connaissance, et d’un analyseur
format d’échange des données d’envisager diverses applications, associé autorisant une modification en cours
structurées (xml selon une dtd mise entre autres dans l’expertise des d’analyse de la structure analysée. Cette
au point par la cellule Mathdoc). Ces documents anciens. L’intérêt n’est modification permet d’introduire le contexte
choix techniques visent la qualité et pas, en effet, de retranscrire en code (niveau symbolique) dans la phase de
la pérennité. Ils devraient pouvoir ASCII des textes manuscrits mais de segmentation (niveau numérique), afin
d’améliorer la reconnaissance. La méthode
être appliqués à la deuxième phase du pouvoir en extraire les mots clés. La DMOS offre en plus les avantages de séparer la
projet qui consistera à élargir le recherche est prometteuse mais le connaissance (décrite sous la forme d’une
champ du domaine mathématique faible nombre de corpus numérisés grammaire) et le programme, et de produire
concerné par le plan de numérisation. en freine malheureusement le automatiquement l’analyseur par compilation de
la grammaire. Ces avantages facilitent largement
développement. la maîtrise de l’introduction de connaissances
complexes... » Source : <[Link]/bibli/publi/
theses/1996/couasnon/[Link]>.

Documentaliste - Sciences de l’information 2002, vol. 39, n° 3 • 131


REPÈRES VALORISATION DU PATRIMOINE ET NUMÉRISATION DES COLLECTIONS

Les principales interventions • Numériser les archives en humaines, Lyon


• Le conservatoire numérique des Thierry Paquet, Laboratoire PSI, couleur : les réalisations de la • L’édition électronique de la
arts et métiers. Pierre Cubaud, Université de Rouen ville de Douai. Vincent Doom, correspondance de Pierre Bayle.
Conservatoire national des arts et • Le traitement des registres Archives municipales de Douai. Antony McKenna, Université Jean
métiers, Paris. Site matricules du XIXe siècle aux [L’intervenant n’ayant pu se Monnet, Saint-Étienne, UMR 5
<[Link]> archives de la Mayenne. Bertrand déplacer, une présentation plus CNRS 4037, ENS-Lsh
• NUMDAM : NUMérisation de Couasnon, IRISA-INSA, Rennes. succincte a été faite par l’une des • Images et mirages : la
Documents Anciens Site <[Link]> personnes présentes à la numérisation de dictionnaires
Mathématiques. Thierry Bouche, • Métadonnées et structuration manifestation] anciens. Jean-Philippe de Saint-
Cellule Mathdoc, Université des documents numériques. • Montesquieu... ou comment Gérand, Université de Clermont-
Joseph-Fourrier, Grenoble. Site Yannick Maignien, École valoriser vingt mille pages de Ferrand et Abdel Bélaïd, Loria-
<[Link]> nationale supérieure Lettres et manuscrits ? Catherine Volpilhac- CNRS, Nancy
• La reconnaissance des sciences humaines, Centre Auger, École nationale
manuscrits. Laurent Heutte et d’ingénierie documentaire, Lyon supérieure Lettres et sciences

qu’aux informations qui pouvaient lui doivent ensuite être intégrées dans un Numériser les archives en couleur
être communiquées. ensemble de données, images et Pour donner accès aux registres
Pour en améliorer l’accès, le textes, puis encapsulées avec les paroissiaux et à l’état civil de leur
volume de la bande passante ressources grâce aux possibilités de ville, les archivistes de Douai ont opté
nécessaire a été diminué ne laissant la structuration logique ou physique immédiatement pour la couleur, ce
faculté de ne visualiser, dans un riches, d’annotations et de hiérarchies qui procure un confort visuel
premier temps, que les index et des données par le format image. Ces maximal. Un cofinancement public et
vignettes et de sélectionner ensuite le ressources hétérogènes peuvent ainsi privé a permis de mettre en œuvre ce
document souhaité. L’étape suivante être traitées en collaboration de projet ambitieux offrant dès
consiste à automatiser la lecture des manière interdisciplinaire. aujourd’hui une présentation de
noms ainsi que d’autres champs à RDF (Ressource Description qualité à des documents présentés
vocabulaire réduit (la taille, la Framework)4 est un exemple de souvent sous des formats non
couleur des yeux), de valider la syntaxe de métadonnées utilisant le standards. À ce jour, trois postes au
méthode DMOS sur d’autres langage XML5 qui permet de définir sein de l’établissement permettent de
documents dont la structure est des relations entre des ressources consulter les documents concernés. À
moins nette et d’effectuer des complexes qui soient interprétables terme, ils devraient être disponibles
annotations automatiques sur par des machines, grâce, entre autres, sur un site web qui permet déjà
d’autres corpus pour faciliter la à l’élaboration de métadonnées d’admirer une série remarquable de
recherche textuelle. procédurales donnant des sceaux6.
informations sur le niveau d’accès, le
Métadonnées et structuration type de pratiques et de lecture D’autres propositions techniques
des documents numériques savantes (indexation, annotation, Deux interventions, très
Les manuscrits et les documents validation, etc.) qui sont proches des différentes des précédentes, ont
anciens sont des documents usages, en l’occurrence des usages présenté des produits commerciaux.
complexes dont la numérisation savants. L’un d’entre eux permet une lecture
n’implique pas seulement une nomade par feuilletage de fac-similés
reproduction à l’identique. téléchargés donnant l’opportunité de
© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])


L’adjonction de métadonnées et la
structuration des documents, deux
opérations indispensables à assurer, 4 RDF : « Format universel de description de 5 avril 2002, <[Link]/
données, proposé par Netscape au consortium webmestre>.
doivent répondre à une double W3C, dans le but de créer un système 5 « XML (Extensible Markup Language, ou
exigence : assurer la description la d’indexation adapté autant à la création de Langage extensible de balisage) est un langage
plus fine possible tout en étant serveurs de recherche dans Internet qu’à de balisage destiné à succéder à HTML sur le
suffisamment simples pour faciliter l’indexation de fichiers stockés sur le disque dur World Wide Web. Mais contrairement à HTML,
l’interopérabilité la plus large de l’usager. Le format RDF est à la base de la qui présente un jeu limité de balises orientées
nouvelle technologie Aurora de Netscape qui présentation (titre, paragraphe, image, lien
possible. Mais il semble qu’il y ait un propose dans son navigateur une nouvelle façon hypertexte, etc.), XML est un métalangage, qui va
décalage dans l’usage des données et d’organiser les données, non pas par type de permettre d’inventer à volonté de nouvelles
des métadonnées sur le web. Si les données, mais par centre d’intérêt. Il ne faut pas balises pour isoler toutes les informations
principes classiques du catalogage confondre le format RDF et le système RDF, qui élémentaires (titre d’ouvrage, prix d’article,
partagent le même sigle, ce dernier ayant été numéro de sécurité sociale, référence de pièce,
sont repris, mais appliqués à des élaboré à l’origine par le consortium W3C pour etc.), ou agrégats d’informations élémentaires,
objets divers et non plus seulement à l’échange des données à travers le Web ». que peut contenir une page Web ». Source : idem.
des textes écrits, les métadonnées Source : Le guide-âne du webmestre, Admiroutes, 6 <[Link]/[Link]>

132 • Documentaliste - Sciences de l’information 2002, vol. 39, n° 3


REPÈRES VALORISATION DU PATRIMOINE ET NUMÉRISATION DES COLLECTIONS

L’ISDN et les jeudis du numérique En collaboration avec l’Agence


Le 6 décembre 1999, les des approches disciplinaires régionale du numérique, des
présidents de la Conférence différentes (sciences de conférences de haut niveau sur
universitaire Rhône-Alpes et de l’ingénieur et sciences humaines les enjeux du numérique sont
la Conférence des grandes écoles et sociales). Son objectif est de organisées tous les quinze jours,
de la région Rhône-Alpes ont « faciliter les échanges entre les le jeudi, de 17 heures à 19 heures.
annoncé la création d’un Institut équipes de façon à enrichir les L’entrée est libre. Ces conférences
des sciences du document recherches en cours et à sont diffusées en direct sur le
numérique (ISDN) destiné à développer de nouvelles web. Les thèmes développés sont
fédérer les efforts de recherche actions ». Le soin de coordonner présentés sur le site de l’ISDN :
dans ce domaine à Lyon et dans cette dynamique a été confié à <//[Link]>, et annoncés
la région rhône-alpine. Cet l’École nationale supérieure des sur plusieurs listes de diffusion
institut regroupe dix-sept sciences de l’information et des dont les listes adbs-info et biblio-
laboratoires de recherche ayant bibliothèques (ENSSIB). fr.

les segmenter, de les regrouper selon d’un inventaire, d’une base des textes sémantiques du document pour le
le choix de l’utilisateur et de annotés par les chercheurs et d’une baliser et l’indexer intelligemment
conserver les liens hypertextes. Le base image des lettres. Elle facilite le afin de le rendre lisible et
deuxième est un outil de GED travail d’édition en équipe qui compréhensible pour un usager final
utilisant le langage XML pour décrire consiste à donner des explications donné. Une fois la numérisation
et structurer les données, et des termes utilisés, à indiquer des achevée, l’évaluation du respect des
autorisant différentes formes ajouts ou lacunes constatés dans le documents doit être envisagée, ainsi
d’exploitation et de consultation. texte et de formaliser la présentation que la valorisation des résultats par
selon des normes imposées. Outre le des spécialistes des usages, consistant
Des exemples : Montesquieu, Bayle fait qu’elle a facilité la reconstitution à encapsuler l’ouvrage amené à être
et des dictionnaires anciens du fonds initial, qui devait se monter diffusé sur Internet.
Les manuscrits de Montesquieu à cinq mille lettres, à partir d’autres Michèle Battisti
illustrent parfaitement l’intérêt d’une textes et de notes critiques, la [Link]@[Link]
numérisation qui a permis de numérisation a permis divers travaux
reconstituer la cohérence d’un fonds de cartographie et l’analyse
considérable mais dispersé et de le approfondie des lieux et des
rendre disponible à des chercheurs de personnes mentionnés ou des
plus en plus nombreux à être citations faites. Après la poursuite
intéressés par les textes inédits. Cette d’un travail titanesque sur les quinze
opération a donné également les autres volumes qui doivent encore
moyens d’évaluer la complexité des être publiés, les résultats des travaux
documents « où s’enchevêtrent liés à cette numérisation pourraient
plusieurs mains », elle en facilite être appliqués à la construction d’un
même la lecture lorsque les originaux dictionnaire de Port Royal,
sont dégradés. On a pu y ajouter des impliquant une analyse biographique
métadonnées (au sens classique du et bibliographique de deux mille trois
terme), à savoir des annotations sur cents personnages !
© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])

© A.D.B.S. | Téléchargé le 05/06/2024 sur [Link] (IP: [Link])


les contenus, les transcriptions, les C’est le recours à une expertise
supports, les écritures, et des liens pluridisciplinaire qui a été mis en
ont pu être établis avec une autre valeur lors de la présentation des
édition, celle des œuvres complètes travaux de numérisation des
de Voltaire. La numérisation a dictionnaires anciens. En amont, il
modifié ainsi le regard que l’on peut s’agit d’appréhender correctement
porter sur une œuvre, et la mise à non seulement les difficultés
disposition à une large échelle est techniques liées à la qualité de
susceptible d’accélérer les travaux liés l’impression et à la nature diverse des
à l’authenticité des documents, enjeu illustrations, mais également la
d’une recherche nouvelle. dimension historique de l’ouvrage, les
La numérisation de la applications susceptibles d’en être
correspondance de Pierre Bayle, tirées pour différents types de
philosophe français du XVIIIe siècle, publics. L’étape suivante consiste à
soit dix-huit cents lettres, fait l’objet saisir les formes structurelles et

Documentaliste - Sciences de l’information 2002, vol. 39, n° 3 • 133

Vous aimerez peut-être aussi