Avancées en reconnaissance d'écriture
Avancées en reconnaissance d'écriture
Abdel Belaïd
LORIA-CNRS
Campus scientifique B.P. 239
54506 Vandoeuvre-Lès-nancy
email : abelaid@[Link]
1 Introduction
Après une longue période d'incubation qui a duré plus de trente ans, la reconnaissance
automatique de l'écriture et du document (RAED) a pris un réel envol en s’impliquant avec
force dans plusieurs secteurs technologiques (édition numérique, commerce électronique,
étude du patrimoine, traitement des objets postaux, sécurisation des documents, etc.). Elle
s'affirme de jour en jour comme une réelle technique de codage du support écrit et semble
combler petit à petit son retard par rapport à d'autres disciplines voisines, comme la
reconnaissance automatique de la parole. Concernant le script lui-même, la technique semble
réduire largement l'écart qui existait entre les performances obtenues sur l'imprimé et celles
obtenues sur le manuscrit, réputé plus difficile d'abord. L'intérêt porté par les applications
manuscrites industrielles tels que le tri postal, la reconnaissance des montants de chèques, ou
l’analyse de formulaires a favorisé l'affermissement des méthodes de reconnaissance, relevant
des défis de plus en plus difficiles: écriture non contrainte par la forme du support et du
scripteur, utilisation d’un vocabulaire de plus en plus large, reconnaissance multifonte, etc.
Par ailleurs, portée par l'évolution de l'Internet et des réseaux de communication en ligne,
la RAED est devenue un outil incontournable de la chaîne de gestion électronique de
documents (GED) pour l'introduction du document dans la chaîne électronique. La RAED a
su améliorer les performances de ses outils de reconnaissance automatique de caractères
(OCR) dont les taux avoisinent actuellement les 99.98% sur des documents imprimés de
bonne qualité. Elle poursuit aujourd'hui son investigation sur la reconnaissance de la structure
de documents en proposant un processus complet de "reverse engineering" (rétroconversion).
Des standards de description de documents tel XML (eXtended Markup Language, un format
générique de document) permettent une homogénéisation des manipulations de documents.
Sur le plan des interfaces, la RAED continue d’apporter des solutions d’assistance. Sa
raison d’être fût d’abord l’assistance aux aveugles (la première machine à lire fût la machine
Kurzweil). Elle propose aujourd’hui des outils interactifs pour l’apprentissage de l’écriture et
de la lecture. Au travers du concept du livre, de l’ardoise et du cartable électronique, on incite
d’une part l’enfant à la lecture, et on le soulage d’autre part d’un fardeau quotidien. Des
solutions équivalentes sont proposées pour les adultes avec l’ordinateur de poche, pour tenir
leurs agendas électroniques, prendre des notes, annoter leurs textes, ou se laisser aller à un
peu de lecture nomade.
S'il est vrai que les nouvelles technologies permettent de prendre efficacement le relais du
papier dans certains cas, celui-ci reste néanmoins un média courant bien ancré dans notre
société par l'habitude, la simplicité d'utilisation (post it) et l'atmosphère qu'introduit son
utilisation (livres, lettres, etc.). A tout cela, s'ajoutent tous les anciens documents qui ne sont
toujours pas en version électronique et nécessitent donc d'être "informatisés". On réalise
2
mieux maintenant tout l'avenir que la RAED a devant elle et toute l'importance de la
recherche entreprise sur le sujet.
Nous allons présenter dans la suite de cet article un bilan rapide des activités et des
recherches liées à la RAED en décrivant d'abord les aspects méthodologiques, puis nous
donnerons quelques exemples pour expliquer son application sur des cas pratiques.
2 Aspects méthodologiques
Sur le plan méthodologique, la RAED propose des approches différentes suivant le mode
d'écriture : manuscrit ou imprimé1. En effet, la régularité de l'imprimé permet d'utiliser des
techniques beaucoup plus fiables et beaucoup plus directes et rapides que celles pour le
manuscrit dont la complexité et la variabilité sont très importantes. Cela explique que les
OCR soient des outils courants sur le marché, alors que le manuscrit commence seulement à
faire une percée.
Pour plus de clarté, nous allons organiser cette section suivant ces deux types d'écriture.
1
A. Belaïd et Y. Belaïd. Reconnaissance des Formes : Méthodes et applications,
InterEditions, janvier 1992.
3
Figure 1: Différent modes de captures de mots : tracé à gauche du mot "sage" et image
du mot "dix" à droite.
Sans préjuger ici de la difficulté d'un cas par rapport à l'autre, on peut seulement
constater que dans le cas en ligne, les résultats sont souvent meilleurs pour des conditions
similaires d'expérimentations (taille du vocabulaire, nombre de scripteurs, etc.). Cela vient des
informations temporelles qui fournissent des connaissances précieuses sur la dynamique, la
vélocité et la morphologie de l'écriture. Cependant, dans le cas en ligne, on est souvent
conditionné par l'outil d'acquisition ce qui limite le nombre d'applications possibles.
2
G. Lorette et Yves Lecourtier. Reconnaissance et interprétation de textes manuscrits hors-
ligne: un problème d'analyse de scènes ? In Actes du colloque CNED'92, A. Belaïd, editor,
pp. 109-135, Nancy, 1992.
3
C. C; Tappert, C. Y. Suen and T. Wakahara. On-line Handwriting Recognition - A Survey,
In Proceedings of the 9th ICPR, pp. 1123-1127, Roma, Italia, 1988.
4
Nombre de scripteurs
omni
multi
Taille du
mono vocabulaire
guidée réduit large
non contrainte
Disposition spatiale
Figure 2: Graphe de complexité des systèmes de RAED
D'autres types de critères peuvent influencer la complexité des systèmes de RAED. Ils
sont relatifs aux variations intrinsèques de l'écriture, dans un contexte d'écriture cursive.
Parmi ces variations, on peut noter celles :
- propres au scripteur, traduisant le style personnel en termes de rapidité, de
continuité et de régularité. Tous ces éléments influent sur la forme des lettres
(écriture penchée, bouclée, arrondie, linéaire, etc.) et bien sûr sur la forme des
ligatures, compromettant parfois le repérage des limites entre lettres.
- propres à l'écriture manuscrite. La forme d'une lettre dépend de sa position dans
le mot (début, milieu, fin) ainsi que des lettres voisines.
Toutes ces variations vont conduire à des formes morphologiques (dessins)
différentes d'une même lettre, appelées allographes. La Figure 3 donne des exemples
d'allographes de la lettre f (d'après Lecolinet4).
4
E. Lecolinet. Segmentation d'images de mots manuscrits : application à la lecture de chaînes
de caractères majuscules alphanumériques et à la lecture de l'écriture cursive. Thèse de
doctorat, Université Pierre et Marie Curie (Paris vI), 1990.
5
simple reconnaissance de lettres individuelles. Nous allons montrer dans la suite quelques
situations de reconnaissance.
Mais afin d'atténuer les variations dues au scripteur et augmenter les chances d'une
bonne reconnaissance, certains prétraitements sont nécessaires. Parmi ces prétraitements, on
trouve :
- Le redressement de la ligne de base. L'idée est de rendre horizontaux les mots à
l'aide d'une transformation géométrique de type rotation isométrique des points de
l'image (voir Figure 4.a).
- Le redressement des écritures penchées. Cette technique facilite la segmentation
préalable des mots en caractères. L'idée est de trouver l'angle moyen d'inclinaison
puis de faire une transformation géométrique de type cisaillement de l'image (voir
Figure 4.b).
- La squelettisation sert à obtenir une épaisseur égale à 1 du trait d'écriture et de se
ramener ainsi à une écriture linéaire. Le squelette doit préserver la forme,
connexité, topologie et extrémités du tracé, et ne doit pas introduire d'éléments
parasites (voir Figure 4.c).
- La normalisation permet de ramener les images de mots à des tailles standard.
Cette phase peut être indispensable pour certains types de systèmes comme les
réseaux de neurones. La différentielle différentielle pousse le principe de
normalisation à un degré plus fin en essayant de normaliser localement différentes
parties du mot, de manière à augmenter la ressemblance d'une image à une autre.
Les parasites, les hampes et les jambages provoquent des décalages verticaux des
mots qui désynchronisent la présence des informations (par ex. les minuscules
peuvent se trouver à différentes positions verticales). C'est ainsi que Ch. Choisy 5 a
proposé une normalisation différentielle qui consiste à rechercher le corps des
minuscules et à le normaliser dans le tiers central de l'image de destination. Les
parties inférieure et supérieure sont normalisées dans les parties restantes de
manière adéquate (voir Figure 4.d où l’image normalisée du mot est placée sur sa
droite).
(a)
(b)
(d)
(c)
5
Ch. Choisy et A. Belaïd. Analytic word recognition without segmentation based on Markov
random fields, International Workshop on Frontiers in Handwriting Recognition (IWFHR),
Hollande, septembre 2000.
6
L'approche globale a une vision générale du mot; elle se base sur une description
unique de l'image du mot, vue comme une entité indivisible. Disposant de beaucoup
d'informations, elle absorbe plus facilement les variations au niveau de l'écriture. Cependant,
cet aspect généraliste la limite à des vocabulaires distincts et réduits. En effet, la
discrimination de mots proches est très difficile, et l'apprentissage des modèles nécessite une
grande quantité d'échantillons qui est souvent difficile à réunir.
Cette approche est souvent appliquée pour réduire la liste de mots candidats dans le
contexte d'une reconnaissance à grands vocabulaires. Il est nécessaire d'utiliser dans ce cas
des primitives très robustes (coarse features), comme dans les travaux de Govindaraju7, pour
ne pas manquer le mot réel parmi les mots candidats. Le mot reconnu est ensuite trouvé à
l'aide de primitives de plus en plus précises (ou d'un classifieur de plus en plus fin). Cette
combinaison de classifieurs est appelée combinaison sérielle par Madvanath8, par opposition à
la combinaison parallèle où les sorties des classifieurs sont considérées en même temps. Pour
les vocabulaires réduits et distincts (exemple: reconnaissance de montants littéraux de
chèques bancaires), cette approche reste parfaitement envisageable comme cela a été fait par
Simon 9, Gilloux10, Knerr11, Guillevic 12 et Saon13.
6
A. Belaïd et G. Saon. Utilisation des processus markoviens en reconnaissance de l'écriture,
Revue Traitement du Signal, vol. 14, n. 2, 1997, pp. 161-177.
7
V. Govindaraju, R. K. Srihari and S. N. Srihari. Handwritten Text Recognition. In Internal
Association for Pattern Recognition Workshop on Document Analysis Systems (DAS'94),
Kaiserslautern, Germany, pp. 157-171, September 1994.
8
S. Madvanath and V. Govindaraju. Serial Clasiifier Combination for Handwritten Word
Recognition. In 3rd 4th International Conference on Document Anazlysis and Recognition
ICDAR'95, p. 911-914, 1995.
9
J. C. Simon. Off-line Cursive Word Recognition. Proceedings of the IEEE, 80 (7):1151-
1161, 1992.
10
M. Gilloux and M. Leroux. Recognition of Cursive Amounts on Postal Cheques. In first
European Conference dedicated to Postal Technologies, pp. 705-712, June 1993.
11
S. Knerr et al. The A2iA INTERCHEQUE System : Courtesy and Legal Amount
Recognition for French Checks. In International Journal of Pattern Recognition and Artificial
Intelligence , Spécial Issue on Automatic Banckcheck Processing, 1997.
7
Certaines des approches actuelles se proposent de tirer avantage des deux méthodes,
réduisant la complexité de l'approche globale en l'appliquant sur des entités plus petites
(lettres). L'approche analytique recherche la séquence de lettres contenues dans l'image à
reconnaître. Certains modèles permettent de combiner ces deux niveaux en un seul et peuvent
ainsi s'affranchir de la segmentation préalable de l'image15.
12
D. Guillevic and C. Suen. HMM Word Recognition Engine. In 4th International Conference
on Document Anazlysis and Recognition (ICDAR'97), vol. 2, pp. 544-547, Ulm, Germany,
August 1997.
13
G. Saon and A. Belaïd. Off-line Handwritten Word Recognition Using a mixed HMM-
MRF Approach. In 4th International Conference on Document Analysis and Recognition
(ICDAR'97), vol. 1, pp. 118-122, Ulm, Germany, August 1997.
14
R. G. Casey and E. Lecolinet. Strategies in Characater Segmentation : a Survey. In 3rd
International Conference on Document Analysis and Recognition (ICDAR'95), vol. 2, pp.
1028-1032, Montréal, 1995.
15
Ch. Choisy et A. Belaid. Apprentissage croisé en reconnaissance analytique de l'écriture
manuscrite. In CIFED'2000. (Lyon). Presses polytechniques et universitaires romandes ,
2000. Collection des sciences appliquées de l'INSA de Lyon.
16
R. Plamondon and S. Srihari. On-line and Off-line Handwriting Recognition: A
Comprehensive Survey. Invited Paper, 20th Anniversary Special Issue of IEEE Transactions
on Pattern Analysis and Machine Intelligence.
8
recherche17. La situation a beaucoup changé pendant cette dernière décennie avec le progrès
enregistré par les ordinateurs à stylo (Pen Computers).
Les ordinateurs à stylo18 offre une alternative intéressante au papier. On peut écrire
directement sur un écran à cristaux liquides (LCD) avec un stylet ou un crayon optique.
L'écran dispose d'une matrice de points invisibles qui enregistre la position du stylet sur la
surface d'écriture. La trajectoire du stylet apparaît de manière instantanée sur l'écran donnant
l'impression d'une encre électronique.
Mais si la technologie d’affichage a beaucoup progressé, la RAED n’arrive pas encore
à s’imposer sur ces ordinateurs car les performances de la RAED restent trop faibles par
rapport à la qualité exigée en usage courant (stylet mal adapté, support non confortable,
apprentissage insuffisant de l’écriture, etc.). Les Pen computers utilisent généralement soit un
mode d'écriture pré-établi soit un clavier miniature. Ces derniers sont plus lents à l'utilisation,
mais plus fiables (moins de 1% d'erreur comparé à 5-6% pour un système de RAED
classique)19. Des études récentes, faites par Isabelle Guyon20, montrent qu’une bonne dactylo
fait moins de 1% d’erreur, 0.5% est pratiquement indétectable, et 2% d’erreur reste
intolérable ! Le taux d'erreur en RAED devra être ramené à de telles valeurs pour pouvoir
être utilisable dans un tel contexte.
17
C. C; Tappert, C. Y. Suen and T. Wakahara. The state of the art in on-line handwriting
recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(8): 787-
808, 1990.
18
G. Formazn and J. Zahorjan. The challenges of mobile computing. IEEE Computer, pp. 38-
47, 1994.
19
C. MacQueen et al. A comparison of four methods of numeric entry on pen-based
computers. In Proceedings of Graphics Interface'94, Toronto, Canada, 1994.
20
I. Guyon and C. Warwick. Handwriting as computer Interface. Chapter in Survey of the
State of the art in Human Language Technology, J. Mariani et al. Editors, 1995.
21
R. Plamondon. Special Issue on cursive script recognition. Machine Vision and
Applications, 1995.
22
E. Lecolinet and O. Barret. Cursive word recognition: methods and survey. In S. Empedovo
Editor, Fundamentals in Handwriting Recognition, volume 24 of NATO_Advanced Institute,
Series F Springer-Verlag.
9
23
L. Lam and C. Y. Suen. Application of majority voting to pattern recognition : an analysis
of its behavior and performance, IEEE Trans. On Pattern Analysis and Machine Intelligence,
vol. 27, n. 5, pp. 553-568, 1997.
24
R. K. Powalka et al. Multiple recognizer combination topologies, Handwriting and drawing
research: basic and applied issues, IOS Press, pp. 329-342, 1996.
25
G. Lorette. Handwriting recognition or reading ?, situation at the dawn of the 3rd Millenium,
Proc. IWFHR, Taejon, Korea, pp. 1-13, 1998.
26
R. Plamondon and G. Lorette. Automatic signature verification and writer identification -
the state of the art. Pattern recognition, vol. 22, n. 2, pp. 107-131, 1989.
27
A. Belaïd, Analyse et reconnaissance de documents, Cours INRIA: le Traitement
électronique de Documents, Collection ADBS, 3-7 octobre, Aix-en-Provence, 1994.
10
Le monde économique s'est emparé très tôt de cette technologie (le premier OCR date
des années soixante). Il a finalisé les premiers travaux sur la reconnaissance optique des
caractères et propose continuellement des OCR avec des performances de plus en plus
élevées. Aujourd'hui, il existe au moins une vingtaine d'OCR dont les plus connus sont
TextBridge (Xerox), FineReader (Abbyy), Omnipage (Caere), Capture(Adobe).
75 ppp
300 ppp
600 ppp
1200 ppp
28
A. L. Spitz. Determination of the script anf language content of document images, IEEE
Trans. On Pattern Analysis and Machine Intelligence, vol. 19, n.3, pp. 235-245, March 1997.
29
A. Belaïd and J. C. Anigbogu, Mise à contribution de plusieurs classifieurs pour la
reconnaissance de textes multifontes. Revue Traitement du signal, vol 11, n. 2, 1994
12
bloc de texte. Zramdini 30 a proposé le système ApOFIS capable de distinguer plus de 280
fontes différentes en combinant 10 polices, 7 corps et 4 styles. La fonte est identifiée avec
97% de précision, tandis que le style, le corps et la pente sont identifiés avec une précision
s'échelonnant entre 97.5 et 99.9%.
30
A. Zramdini and R. Ingold. Optical font identification using typographic features, On
Pattern Analysis and Machine Intelligence, vol. 20, n.8, pp. 877-882, August 1998.
31
A. Belaïd, OCR Print - An Overview, In: Survey of the state of the art in Human Language
Technology, R.A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen, et V. Zue (réd.). Kluwer
Academic Plublishers, 1995, ch. 2.
32
S. V. Rice, G. Nagy et T. A. Nartker. Optical character recognition: an illustrated guide to
the frontier. Kluwer Academic Publisher, 1999.
33
F. Lebourgeois
13
La binarisation permet de passer d’une image de niveaux de gris à une image binaire
composée de 2 valeurs 0 et 1, plus simple à traiter. En général, on utilise un seuil de
binarisation approprié qui traduit la limite des contrastes fort et faible dans l'image. Mais pour
des images peu contrastées ou à contraste variable (i.e. la distribution de niveaux de gris n'est
pas clairement bimodale), il est difficile de fixer ce seuil à une valeur précise.
Pour des images de niveaux de gris, on peut trouver dans Trier et al.34 une bonne
synthèse des méthodes de binarisation, proposant des seuils adaptatifs (i.e. s'adaptant à la
différence de distribution des niveaux de gris). Mais le défi reste total pour les fonds texturés
où il est difficile de trouver une modalité claire dans la distribution. Liu et Srihari35 proposent
une solution pour les images d'adresses postales. La recherche du seuil passe par plusieurs
étapes : binarisation préliminaire basée sur une distribution de mixture multimodale, analyse
de la texture à l'aide d'histogrammes de longueurs de traits, et sélection du seuil à partir d'un
arbre de décision. Dernièrement, Sawaki et Hagita36 proposaient une autre méthode pour la
binarisation des titres en japonais, texturés ou en inverse vidéo. Leur méthode est fondée sur
la relation de complémentarité entre la forme (les caractères) et le fond (l'arrière plan).
34
O. D. Trier and T. Taxt. Evaluation of binarization methods for document images, On
Pattern Analysis and Machine Intelligence, vol. 11, n.12, pp. 312-314, December 1995.
35
Y. Liu and S. Srihari. Document image binarization on texture features, On Pattern
Analysis and Machine Intelligence, vol. 19, n.5, pp. 540-544, May 1997.
36
M. Sawaki and N. Hagita. Text-line extraction and character recognition of document
headlines with graphical designs using complementary similarity measures, On Pattern
Analysis and Machine Intelligence, vol. 20, n.10, pp. 1103-1108, Oct. 1998.
37
H.K. Aghajan and T. Kailath. SLIDE: Subspace-based line detection, On Pattern Analysis
and Machine Intelligence, vol. 16, n.11, pp. 1057-1073, Nov. 1994.
38
B.B. Chauduri and U. Pal. Skew angle detection of digitized script documents, On Pattern
Analysis and Machine Intelligence, vol. 19, n.2, pp. 182-186, Feb. 1997.
14
39
K. Etemad et al. Multiscale segmentation of unstructured document pages using soft
decision integration, On Pattern Analysis and Machine Intelligence, vol. 19, n.1, pp. 92-96,
Jan 1997.
40
A. Simon et al. A fast algorithm for bottom-up layout analysis, On Pattern Analysis and
Machine Intelligence, vol. 19, n.3, pp. 273-277, Mar. 1997.
41
A. K. Jain and B. Yu. Document representation and its application to page decomposition,
On Pattern Analysis and Machine Intelligence, vol. 20, n.3, pp. 294-308, Mar. 1998.
42
K. Y. Wong, R. G. Casey and F. M. Wahl. Document analysis system. IBM Journal
Research Development, 26(6):647-656, 1982.
43
T. Pavlidis and J. Zhou. ge Segmentation by White Streams. In Proceedings of the 1st
International Conference on Document Analysis and Recognition (ICDAR), St-Malo, France.
pp.945-953, 1991.
44
T. Akindele and A. Belaid. Page Segmentation by Segment Tracing, In
Proceedings of the 2nd International Conference on Document Analysis and Recognition
(ICDAR), Sukuba, Japan, 1993.
45
A. Antonacopoulos and R.T. Ritchings. Flexible page Segmentation using the background.
Proceedings of The 12th International Conference on Pattern Recognition (ICPR), Jerusalem,
Israel, Oct. 1994, pp. 339-344.
15
46
A. Belaïd and O. T. Akindele, A labeling approach for mixed document blocks.
Proceedings 2nd International Conference on Document Analysis and Recognition (ICDAR),
Tsukuba Japan, 1993. pp.749-752.
47
C. H. Wang and S. Srihari. A framework for object recognition in uncertain environments:
locating address blocks in irregular mail pieces. Report of US Post Service Contract 104230-
85-M3349, 1989.
16
48
A. Belaïd, J.-J. Brault, and Y. Chenevoy. Knowledge-based system for structured document
Recognition. In Proceedings MVA'90 IAPR Workshop on Machine Vision Applications.
Tokyo, Japan, 1990.
49
A. Belaïd. Panorama de méthodes structurelles en analyse et reconnaissance de documents.
In Journée thématique du GRCE. (ENST, Paris). 1997.
50
Y. Chenevoy and Belaïd. A. Hypothesis Management for Structured Document
Recognition. In Proceedings First International Conference on Document Analysis and
Recognition (ICDAR), St Malo, 1991.
17
Pour des structures complexes où la notion de lien est très forte entre les objets, les
techniques d'analyse de graphes sont plus appropriées. La recherche de clique maximale
(partie d'un graphe ayant certaines propriétés) a été beaucoup utilisée pour l'analyse de
formulaires pour la reconnaissance d'une partie de la structure. Les méthodes de relaxation
sont là également très utilisées pour le repérage d'entités particulières51.
Plusieurs systèmes proposent des méthodologies distribuées par l'emploi de systèmes
multi-agents. En effet, la multitude des connaissances dans le document conduit à la
spécialisation d'agents de traitement et à la définition de stratégies expertes.
Enfin, pour des structures à granularité très fine comme les citations ou les sommaires
de revues, la technique de taggage par partie de discours52, empruntée au traitement de la
langue, commence à être de plus en plus utilisée.
Le schéma générique que nous avons adopté à Nancy 53 pour toutes nos applications de
rétroconversion se base sur le schéma d’édition agréé par le consortium W3C (voir Figure 8).
Edition
Rédaction
DTD XSLT Composer Médium
Document Formatting
Idée
XML Objects (FO)
Contraintes OCR
utilisateur, application, support...
Edition
Structure Logique Structure physique
Archivage
XmlDoc XmlLayout
e_book...
XSLT+Composer XSLT-1
Ré-édition
Rétroconversion
Figure 8: Relation entre les processus d'édition et de rétroconversion.
Tout le schéma est régi par une norme de représentation en XML. L’édition enseigne
que la production du médium à partir d’un document logique en XML passe par trois
opérations : 1) la rédaction qui produit un document logique conforme à une DTD, 2) le
formatage qui prépare l'affichage par l’emploi d’une feuille de style XSLT (eXtensible Sheet
Language Transform); XSLT est une transformation d'une DTD logique en DTD physique
(FO), et 3) la production du médium par l’emploi d’un composer. Les Formatting Objects
51
[Link]ïd, Y. Belaïd, Late N. Valverde and S. Kébairi. Adaptive Technology for Mail-Order
Form Segmentation, International Conference on Document Analysis and Recognition
(ICDAR), Seattle, USA, Sept. 2001.
52
L. Van Guilder. Automated Part of Speech Tagging : A Brief Overview,
http///[Link]/cball/Ling361/tagging_overview.html
53
L. Pierron and A. Belaïd, An XML/SVG platform for document analysis, Workshop on
Document Layout Interpretation and its Applications (DLIA2001), Seattle, Sept. 2001.
18
(FO) sont des objets XML permettant une description normalisée des documents pour
l'édition et la présentation.
Ce schéma révèle trois difficultés. La première est de pouvoir obtenir à partir d'une
feuille de style une feuille de style inverse, jouant le rôle d'une stratégie de rétroconversion.
Cette stratégie nécessite l'emploi d'un modèle a priori obtenu automatiquement à partir de
XSLT (incluant à la fois des informations de la DTD de composition et de la feuille de style
de présentation) ou généré à la main. La deuxième difficulté est qu'on ne peut pas utiliser des
FO en sortie des OCR car on a de l'incertitude sur les caractères. La solution consisterait à
développer ses propres FO (une sorte de XFO : Extented FO ou similaire). La dernière
difficulté est relative à la définition des contraintes d’utilisation et à leur intégration dans le
système. Ces contraintes peuvent correspondre à des habitudes de lecture ou d’édition dont la
formalisation est difficile.
Le problème demeure pour les autres types de formulaires où l'information est moins
organisée. Plusieurs recherches ont été proposées pour l'identification de classes particulières
de formulaires. Les méthodes s'apparentent davantage à des méthodes de traitement d'images
qu'à un traitement de document, et restent spécifiques à un type d'organisation particulier5657.
54
Y. Eto and M. Suzuki. Mathematical Formula Recognition Using Virtual Link Network, ICDAR'01,
Seattle, Sept. 2001.
55 A. Kacem, A. Belaïd, and M. Ben Ahmed, “EXTRAFOR : Automatic EXTRAction of mathematical
FORmulas”, ICDAR'99, Bangalor India, 1999, pp. 527-530.
56
S. W. Lam, L. Javanbakht and S. N. Srihari. “Anatomy of a Form Reader”. IEEE ICDAR, pp. 579-582, 1995.
19
Nous avons proposé une technologie adaptative pour le traitement de bons de commande
destinés à de la vente par correspondance58. Cette technique permet de s'adapter au
changement fréquent de la mise en page et ne se préoccupe que de l'information pertinente.
Cette information est localisée au travers de points d'ancrage ne subissant pas d'altération par
la modification de la mise en page. La reconnaissance du document revient donc à localiser
ces points d'ancrage puis l'information associée (par ex. NOM : Durand, ADRESSE: 2, rue
des jardins fleuris) qui sera reconnue par des OCR spécifiques.
57
F. Cesarini, M. Gori, S. Mariani and G. Soda, “INFORMys : A Flexible Invoice-like Form
Reader System”. IEEE Trans. PAMI, 20(7):730-745, July 1998.
58
[Link]ïd, Y. Belaïd, Late N. Valverde and S. Kébairi. Adaptive Technology for Mail-Order
Form Segmentation, ICDAR'01, Seattle, USA, Sept. 2001.
59
A. Belaïd, L. Pierron, L. Najman et D. Reyren. La numérisation de documents : Principe et
évaluation des performances, Ecole de l'INRIA, La Bresse, Oct. 2000.
20
scanner acheté de nos jours est accompagné d'un OCR permettant de transformer le document
papier en un texte. Mais le résultat est loin de répondre à l'attente de tous (plusieurs erreurs
par page), ce qui n’est pas réaliste pour certaines applications.
Le problème qui se pose est que bien que la lecture ait l’air d'être facile et que
l’ordinateur rende une quantité de services, les besoins restent nombreux. Aujourd’hui faire
de la numérisation professionnelle n’est pas ca ! et les interrogations sont nombreuses. On
peut d'abord se demander si le but est de diminuer le volume, la réponse est sûrement non; le
volume du papier consommé est plus important, car les gens impriment, relisent et jettent le
papier. Un autre but pourrait être la conservation des données, mais cela pose très vite le
problème de leur réutilisation. En effet, chercher un document dans une armoire peut être plus
facile que faire une recherche d’image sur un CD-ROM. La réponse, a été en partie donnée
dans les sections précédentes, concernant la réutilisabilité électronique et ne satisfait que très
peu le professionnel.
La numérisation professionnelle vise d'autres objectifs liées à la productivité et à la
qualité. Il s'agit d'augmenter la productivité par rapport à la saisie manuelle. Actuellement, les
performances sont : en simple saisie de l'ordre de 4000 à 5000 caractères / heure, avec une
qualité de 2/1000 (erreurs par caractères saisis), et en double saisie : 2000 c/h, avec une
qualité de 2/10000. L'espoir avec les techniques de RAED est d'atteindre un niveau de qualité
aussi élevé sinon plus élevé que celui de la saisie manuelle, soit actuellement 1/ 10000, ce qui
est loin des performances actuelles des OCR (de l'ordre de 1/100).
En effet, on trouve de plus en plus dans les pays en voie de développement une main
d’œ uvre qualifiée pouvant parfaitement effectuer ce travail. Cela peut cependant être difficile
à gérer, à la fois pour des raisons de distances, et parce qu’il faut des personnes sachant lire le
français. Il ne faut pas négliger non plus les problèmes de confidentialité qui peuvent se poser.
On peut le faire automatiquement avec des OCR. Notons cependant qu’on ne pourra
jamais retirer définitivement l’utilisateur, car il faudra toujours une étape de validation et de
vérification du résultat fourni. Les outils (pas plus que l’être humain) ne seront jamais
parfaits, et on tolère moins d’erreur de la part d’une machine que de la part d’un être humain.
Par contre, on peut espérer un gain de productivité non négligeable par rapport à une saisie
purement manuelle : en effet, les ordinateurs peuvent travailler 24h/24, et être achetés en
nombre suffisant. Cette combinaison opérateur/machine ne peut donc être que bénéfique,
d’autant plus que les erreurs effectuées par une machine (donc sans interprétation du contenu)
ne seront pas du même type que celles effectuées par un opérateur.
Dans les différentes études effectuées par Rice60, il est montré que de l’ordre de 50%
d’erreur est éliminée par la combinaison de plusieurs OCR ayant des taux de reconnaissance
individuels de l’ordre de 97%. Cela étant, ce gain ne peut être atteint que dans la mesure où
les erreurs proviennent des OCR et non de la qualité de l’image, et où les OCR sont de bonne
qualité.
Nous travaillons sur un projet de livre électronique (@folio63). Son objectif est de
permettre la consultation d'un document numérisé à la manière d'un codex (par feuilletage
électronique). La consultation de son contenu peut se faire de façon séquentielle de la
première à la dernière page mais son contenu même (pagination, table des matières, index, ...)
suggère une utilisation non séquentielle. Dans la suite du présent document, nous appelons
reliure l'ensemble des dispositions prises pour faciliter la consultation de l'ouvrage. Pour le
codex, il s'agit bien évidemment de la reliure physique mais également des éléments de
tabulation de son contenu (pagination, table des matières, index, ...) qui permettent cette
navigation non séquentielle.
Les documents numérisés ne sont pas directement utilisables sur le livre électronique à
cause de leurs dimensions, mise en page, etc. Ils nécessitent donc d'être restructurés ce qui
passe par une rétroconversion. On peut observer à ce niveau qu'une simple restructuration
physique n'est pas suffisante car elle risque de casser le schéma logique de lecture du
document. Par exemple, une page de magazine comportant plusieurs blocs d'information
(encadrés, photos, etc.) y perdrait beaucoup de son attrait.
60
S. V. Rice, J. Kanai, and T. A. Nartker, “An Evaluation of OCR Accuracy,” ISRI. AnnuaI
Research Report, University of Nevada, Las Vegas, April 1993, 9-31.
61
Conférence débat « Livre et édition électroniques», 23 novembre 00, à la BM de Lyon.
62
Ministère de l’Education et de la Recherche, site web EducNet dossier consacré au livre
électronique : [Link]/documentation/dossier/livrelec/[Link]
63
P. Schweitzer, [Link]
22
Notre collaboration avec l'équipe LIRE de l'UMR UMR 5611 (Université Lyon 2,
CNRS, Université de Grenoble III, Université Jean Monnet à St Etienne), associé au
typographe Alain Paccoud, se place du point de vue de l'utilisateur pour la compréhension des
processus de lecture de documents et consiste à mieux connaître l’usage que les lecteurs font
des livres électroniques6465. Il va s’agir de repérer d’une part comment les éléments
spécifiques au texte dans le document numérique (le paratexte) modifient le contrat de lecture,
et d’autre part, comment le lecteur intègre dans son parcours du texte, les éléments
spécifiques au document numérique. Toutes ces informations relèvent encore une fois de la
sémantique logique du document et non de sa structure physique !
64
J. M. Salaün et Alain Van Cuyck. Les usages et les besoins des documents numériques dans
l’enseignement supérieur et la recherche, coordination, Programme Numérisation pour
l’Enseignement et la Recherche (PNER-MSH), septembre 1999, 225 pages + annexes.
65
C. Hembise et C. Bélisle. Etat de l’art des recherches sur les pratiques et sur les usagers des
bibliothèques virtuelles, Rapport de recherche, Déliverables D.2.1. DEBORA (R. Bouché,
ENSSIB).