0% ont trouvé ce document utile (0 vote)
62 vues22 pages

Avancées en reconnaissance d'écriture

Transféré par

Jihad Sabar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
62 vues22 pages

Avancées en reconnaissance d'écriture

Transféré par

Jihad Sabar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Reconnaissance automatique de l'écriture et du document

Abdel Belaïd

LORIA-CNRS
Campus scientifique B.P. 239
54506 Vandoeuvre-Lès-nancy
email : abelaid@[Link]

1 Introduction
Après une longue période d'incubation qui a duré plus de trente ans, la reconnaissance
automatique de l'écriture et du document (RAED) a pris un réel envol en s’impliquant avec
force dans plusieurs secteurs technologiques (édition numérique, commerce électronique,
étude du patrimoine, traitement des objets postaux, sécurisation des documents, etc.). Elle
s'affirme de jour en jour comme une réelle technique de codage du support écrit et semble
combler petit à petit son retard par rapport à d'autres disciplines voisines, comme la
reconnaissance automatique de la parole. Concernant le script lui-même, la technique semble
réduire largement l'écart qui existait entre les performances obtenues sur l'imprimé et celles
obtenues sur le manuscrit, réputé plus difficile d'abord. L'intérêt porté par les applications
manuscrites industrielles tels que le tri postal, la reconnaissance des montants de chèques, ou
l’analyse de formulaires a favorisé l'affermissement des méthodes de reconnaissance, relevant
des défis de plus en plus difficiles: écriture non contrainte par la forme du support et du
scripteur, utilisation d’un vocabulaire de plus en plus large, reconnaissance multifonte, etc.
Par ailleurs, portée par l'évolution de l'Internet et des réseaux de communication en ligne,
la RAED est devenue un outil incontournable de la chaîne de gestion électronique de
documents (GED) pour l'introduction du document dans la chaîne électronique. La RAED a
su améliorer les performances de ses outils de reconnaissance automatique de caractères
(OCR) dont les taux avoisinent actuellement les 99.98% sur des documents imprimés de
bonne qualité. Elle poursuit aujourd'hui son investigation sur la reconnaissance de la structure
de documents en proposant un processus complet de "reverse engineering" (rétroconversion).
Des standards de description de documents tel XML (eXtended Markup Language, un format
générique de document) permettent une homogénéisation des manipulations de documents.
Sur le plan des interfaces, la RAED continue d’apporter des solutions d’assistance. Sa
raison d’être fût d’abord l’assistance aux aveugles (la première machine à lire fût la machine
Kurzweil). Elle propose aujourd’hui des outils interactifs pour l’apprentissage de l’écriture et
de la lecture. Au travers du concept du livre, de l’ardoise et du cartable électronique, on incite
d’une part l’enfant à la lecture, et on le soulage d’autre part d’un fardeau quotidien. Des
solutions équivalentes sont proposées pour les adultes avec l’ordinateur de poche, pour tenir
leurs agendas électroniques, prendre des notes, annoter leurs textes, ou se laisser aller à un
peu de lecture nomade.

S'il est vrai que les nouvelles technologies permettent de prendre efficacement le relais du
papier dans certains cas, celui-ci reste néanmoins un média courant bien ancré dans notre
société par l'habitude, la simplicité d'utilisation (post it) et l'atmosphère qu'introduit son
utilisation (livres, lettres, etc.). A tout cela, s'ajoutent tous les anciens documents qui ne sont
toujours pas en version électronique et nécessitent donc d'être "informatisés". On réalise
2

mieux maintenant tout l'avenir que la RAED a devant elle et toute l'importance de la
recherche entreprise sur le sujet.

Nous allons présenter dans la suite de cet article un bilan rapide des activités et des
recherches liées à la RAED en décrivant d'abord les aspects méthodologiques, puis nous
donnerons quelques exemples pour expliquer son application sur des cas pratiques.

2 Aspects méthodologiques
Sur le plan méthodologique, la RAED propose des approches différentes suivant le mode
d'écriture : manuscrit ou imprimé1. En effet, la régularité de l'imprimé permet d'utiliser des
techniques beaucoup plus fiables et beaucoup plus directes et rapides que celles pour le
manuscrit dont la complexité et la variabilité sont très importantes. Cela explique que les
OCR soient des outils courants sur le marché, alors que le manuscrit commence seulement à
faire une percée.

Pour plus de clarté, nous allons organiser cette section suivant ces deux types d'écriture.

2.1 Reconnaissance de l'écriture manuscrite

2.1.1 Critères d'influences


On classe souvent les méthodes de reconnaissance en fonction du mode d'acquisition de
l'écriture.
- L'écriture en ligne (ou dynamique) est obtenue par une saisie en continue et se
présente sous la forme d'une séquence de points ordonnée dans le temps. Dans ce
cas, la donnée est de type signal et l'approche doit tirer profit de la représentation
temporelle. L'analogie avec la reconnaissance de la parole est très fréquente et il
n'est pas rare de voir des chercheurs appliquer des techniques issus de ce domaine.
- L'écriture hors-ligne (ou en différé, ou encore statique) est obtenue par la saisie d'un
texte déjà existant, obtenue par un scanner ou une caméra. Dans ce cas, on dispose
d'une image binaire ou en niveaux de gris, ayant perdu toute information temporelle
sur l'ordre des points. De plus, ce mode introduit une difficulté supplémentaire
relative à la variabilité du tracé en épaisseur et en connectivité, nécessitant
l'application de techniques de prétraitement. La Figure 1 montre des exemples de
données relevant de ces deux modes d'écriture. Le schéma de gauche montre une
traduction de l'analyse du mouvement du tracé du mot "sage" par repérage des
points importants. Le schéma de droite montre l'image du mot cursif "dix" en
représentant ses pixels par des carrés noirs de même taille.

1
A. Belaïd et Y. Belaïd. Reconnaissance des Formes : Méthodes et applications,
InterEditions, janvier 1992.
3

Figure 1: Différent modes de captures de mots : tracé à gauche du mot "sage" et image
du mot "dix" à droite.
Sans préjuger ici de la difficulté d'un cas par rapport à l'autre, on peut seulement
constater que dans le cas en ligne, les résultats sont souvent meilleurs pour des conditions
similaires d'expérimentations (taille du vocabulaire, nombre de scripteurs, etc.). Cela vient des
informations temporelles qui fournissent des connaissances précieuses sur la dynamique, la
vélocité et la morphologie de l'écriture. Cependant, dans le cas en ligne, on est souvent
conditionné par l'outil d'acquisition ce qui limite le nombre d'applications possibles.

Sur le plan méthodologique, l'évaluation de la complexité de certains problèmes doit


prendre en compte plusieurs critères orthogonaux2 :
- Disposition spatiale du texte. La classification de Tappert3 indique que la
présentation du texte peut subir deux types de contraintes : externes conduisant à
une écriture pré-casée, zonée, guidée ou générale; et internes provenant des
habitudes propres à chaque scripteur et conduisant à une écriture détachée, groupée,
script (bâton), purement cursive ou mixte. Il est évident que l'écriture détachée reste
la plus facile à réaliser du fait de la séparation quasi immédiate des lettres ; Au
contraire, l'écriture cursive nécessite plus d'efforts du fait de l'ambiguïté des limites
entre les lettres.
- Nombre de scripteurs. La difficulté de reconnaissance croît avec ce nombre,
divisant l'échelle en trois : mono, multi et omni-scripteurs. En multi-scripteur, le
système doit s'adapter à l'écriture de plusieurs scripteurs, tandis qu'en omni-
scripteur, le système doit être capable de généraliser son apprentissage à n'importe
quel type d'écriture.
- Taille du vocabulaire. On fait la différence entre les applications à vocabulaire
limité (< 100 mots) et celles à vocabulaire très étendu (> 10 000 mots). Il est
évident que dans le premier cas, la complexité est moindre, car la réduction du
nombre limite l'encombrement mémoire et favorise l'utilisation de méthodes de
reconnaissance directes et donc rapides, par balayage systématique de l'ensemble
des mots du lexique.
La Figure 2 présente un schéma synthétique résumant les degrés de généralité et de
complexité des systèmes de reconnaissance de l'écriture manuscrite.

2
G. Lorette et Yves Lecourtier. Reconnaissance et interprétation de textes manuscrits hors-
ligne: un problème d'analyse de scènes ? In Actes du colloque CNED'92, A. Belaïd, editor,
pp. 109-135, Nancy, 1992.
3
C. C; Tappert, C. Y. Suen and T. Wakahara. On-line Handwriting Recognition - A Survey,
In Proceedings of the 9th ICPR, pp. 1123-1127, Roma, Italia, 1988.
4

Nombre de scripteurs

omni

multi

Taille du
mono vocabulaire
guidée réduit large

non contrainte

Disposition spatiale
Figure 2: Graphe de complexité des systèmes de RAED
D'autres types de critères peuvent influencer la complexité des systèmes de RAED. Ils
sont relatifs aux variations intrinsèques de l'écriture, dans un contexte d'écriture cursive.
Parmi ces variations, on peut noter celles :
- propres au scripteur, traduisant le style personnel en termes de rapidité, de
continuité et de régularité. Tous ces éléments influent sur la forme des lettres
(écriture penchée, bouclée, arrondie, linéaire, etc.) et bien sûr sur la forme des
ligatures, compromettant parfois le repérage des limites entre lettres.
- propres à l'écriture manuscrite. La forme d'une lettre dépend de sa position dans
le mot (début, milieu, fin) ainsi que des lettres voisines.
Toutes ces variations vont conduire à des formes morphologiques (dessins)
différentes d'une même lettre, appelées allographes. La Figure 3 donne des exemples
d'allographes de la lettre f (d'après Lecolinet4).

Figure 3: Echantillons d'allographes représentatifs du "f" cursif manuscrit

2.1.2 Techniques de reconnaissance


La classification précédente montre qu'en fonction de certains critères choisis, il peut y
avoir des approches plus dédiées, donc plus efficaces que d'autres. La reconnaissance du
manuscrit cursif à vocabulaire large présente sans doute le cas de difficulté le pus extrême. A
l'opposé, l'écriture isolée bâton est la plus facile, car l'effort de reconnaissance se réduit à une

4
E. Lecolinet. Segmentation d'images de mots manuscrits : application à la lecture de chaînes
de caractères majuscules alphanumériques et à la lecture de l'écriture cursive. Thèse de
doctorat, Université Pierre et Marie Curie (Paris vI), 1990.
5

simple reconnaissance de lettres individuelles. Nous allons montrer dans la suite quelques
situations de reconnaissance.

Mais afin d'atténuer les variations dues au scripteur et augmenter les chances d'une
bonne reconnaissance, certains prétraitements sont nécessaires. Parmi ces prétraitements, on
trouve :
- Le redressement de la ligne de base. L'idée est de rendre horizontaux les mots à
l'aide d'une transformation géométrique de type rotation isométrique des points de
l'image (voir Figure 4.a).
- Le redressement des écritures penchées. Cette technique facilite la segmentation
préalable des mots en caractères. L'idée est de trouver l'angle moyen d'inclinaison
puis de faire une transformation géométrique de type cisaillement de l'image (voir
Figure 4.b).
- La squelettisation sert à obtenir une épaisseur égale à 1 du trait d'écriture et de se
ramener ainsi à une écriture linéaire. Le squelette doit préserver la forme,
connexité, topologie et extrémités du tracé, et ne doit pas introduire d'éléments
parasites (voir Figure 4.c).
- La normalisation permet de ramener les images de mots à des tailles standard.
Cette phase peut être indispensable pour certains types de systèmes comme les
réseaux de neurones. La différentielle différentielle pousse le principe de
normalisation à un degré plus fin en essayant de normaliser localement différentes
parties du mot, de manière à augmenter la ressemblance d'une image à une autre.
Les parasites, les hampes et les jambages provoquent des décalages verticaux des
mots qui désynchronisent la présence des informations (par ex. les minuscules
peuvent se trouver à différentes positions verticales). C'est ainsi que Ch. Choisy 5 a
proposé une normalisation différentielle qui consiste à rechercher le corps des
minuscules et à le normaliser dans le tiers central de l'image de destination. Les
parties inférieure et supérieure sont normalisées dans les parties restantes de
manière adéquate (voir Figure 4.d où l’image normalisée du mot est placée sur sa
droite).

(a)

(b)

(d)

(c)

Figure 4: Exemples de prétraitements de mots manuscrits.

5
Ch. Choisy et A. Belaïd. Analytic word recognition without segmentation based on Markov
random fields, International Workshop on Frontiers in Handwriting Recognition (IWFHR),
Hollande, septembre 2000.
6

[Link] Reconnaissance de caractères isolés


C'est la tâche la plus basique d'un système de reconnaissance de l'écriture. L'effort
d'analyse est concentré sur un seul élément à la fois du vocabulaire (vue comme une forme
globale). Les méthodes de reconnaissance sont nombreuses, dépendant du choix du type des
indices visuels (ou paramètres, ou encore primitives) extraits de la forme. Ces paramètres
peuvent être soit topologiques (éléments ou parties), soit géométriques ou métriques (de type
distance, taille, courbure et angle), soit enfin statistiques relatives à des observations de
points (de type présence, absence, agglomération et distribution).
Ensuite, suivant le type d'indices visuels, plusieurs méthodes sont proposées. Il est
souvent habituel de traiter le cadre géométrique par les méthodes syntaxiques ou
stochastiques6 (chaînes de Markov), décrivant la forme à la manière d'une phrase d'un
langage. Ces méthodes sont capables de décrire la forme par décomposition en parties et
intègrent facilement le contexte linguistique dans la décision. Les indices numériques ou
statistiques sont plutôt utilisés par des méthodes globales de corrélation ou de type neuronal.
[Link] Reconnaissance de mots
Deux approches s'opposent en reconnaissance des mots : globale et analytique.

L'approche globale a une vision générale du mot; elle se base sur une description
unique de l'image du mot, vue comme une entité indivisible. Disposant de beaucoup
d'informations, elle absorbe plus facilement les variations au niveau de l'écriture. Cependant,
cet aspect généraliste la limite à des vocabulaires distincts et réduits. En effet, la
discrimination de mots proches est très difficile, et l'apprentissage des modèles nécessite une
grande quantité d'échantillons qui est souvent difficile à réunir.
Cette approche est souvent appliquée pour réduire la liste de mots candidats dans le
contexte d'une reconnaissance à grands vocabulaires. Il est nécessaire d'utiliser dans ce cas
des primitives très robustes (coarse features), comme dans les travaux de Govindaraju7, pour
ne pas manquer le mot réel parmi les mots candidats. Le mot reconnu est ensuite trouvé à
l'aide de primitives de plus en plus précises (ou d'un classifieur de plus en plus fin). Cette
combinaison de classifieurs est appelée combinaison sérielle par Madvanath8, par opposition à
la combinaison parallèle où les sorties des classifieurs sont considérées en même temps. Pour
les vocabulaires réduits et distincts (exemple: reconnaissance de montants littéraux de
chèques bancaires), cette approche reste parfaitement envisageable comme cela a été fait par
Simon 9, Gilloux10, Knerr11, Guillevic 12 et Saon13.

6
A. Belaïd et G. Saon. Utilisation des processus markoviens en reconnaissance de l'écriture,
Revue Traitement du Signal, vol. 14, n. 2, 1997, pp. 161-177.
7
V. Govindaraju, R. K. Srihari and S. N. Srihari. Handwritten Text Recognition. In Internal
Association for Pattern Recognition Workshop on Document Analysis Systems (DAS'94),
Kaiserslautern, Germany, pp. 157-171, September 1994.
8
S. Madvanath and V. Govindaraju. Serial Clasiifier Combination for Handwritten Word
Recognition. In 3rd 4th International Conference on Document Anazlysis and Recognition
ICDAR'95, p. 911-914, 1995.
9
J. C. Simon. Off-line Cursive Word Recognition. Proceedings of the IEEE, 80 (7):1151-
1161, 1992.
10
M. Gilloux and M. Leroux. Recognition of Cursive Amounts on Postal Cheques. In first
European Conference dedicated to Postal Technologies, pp. 705-712, June 1993.
11
S. Knerr et al. The A2iA INTERCHEQUE System : Courtesy and Legal Amount
Recognition for French Checks. In International Journal of Pattern Recognition and Artificial
Intelligence , Spécial Issue on Automatic Banckcheck Processing, 1997.
7

L'approche analytique permet de s'affranchir de ces limites mais nécessite une


interprétation locale basée sur un découpage (segmentation) du mot. La difficulté d'une telle
approche a été clairement évoquée par Sayre en 1973 et peut être résumée par le dilemme
suivant : "pour reconnaître les lettres, il faut segmenter le tracé et pour segmenter le tracé, il
faut reconnaître les lettres". Il s'ensuit qu'un processus de reconnaissance selon cette approche
doit nécessairement se concevoir comme un processus de relaxation alternant les phases de
segmentation et d'identification des segments. La solution communément adoptée consiste à
segmenter le mot manuscrit en parties inférieures aux lettres appelés graphèmes et à retrouver
les lettres puis le mot par combinaison de ces graphèmes. C'est une méthode de segmentation
explicite qui s'oppose à la segmentation interne où la reconnaissance des lettres s'opère sur des
hypothèses de segmentation variables (générées en fonction des observations courantes)14.
Cette approche est la seule applicable dans le cas de grands vocabulaires. Elle peut
s'adapter facilement à un changement de vocabulaire. Elle permet théoriquement une
discrimination plus fine des mots car elle se base sur la reconnaissance des lettres qui la
composent et il est possible de récupérer l'orthographe du mot reconnu. Son inconvénient
principal demeure la nécessité de l'étape de segmentation avec les problèmes de sous- ou de
sur-segmentation que cela implique.

Certaines des approches actuelles se proposent de tirer avantage des deux méthodes,
réduisant la complexité de l'approche globale en l'appliquant sur des entités plus petites
(lettres). L'approche analytique recherche la séquence de lettres contenues dans l'image à
reconnaître. Certains modèles permettent de combiner ces deux niveaux en un seul et peuvent
ainsi s'affranchir de la segmentation préalable de l'image15.

2.1.3 Reconnaissance en-ligne


Dans ce mode de reconnaissance, on s’intéresse aux méthodes et techniques de
traitement du message tel qu’il est écrit, en prenant en compte les informations relatives au
mécanisme d’écriture telles la position des points, la vitesse et l’accélération qui sont des
fonctions du temps16.
Jusqu'aux années 90, la recherche sur ce mode d'écriture était essentiellement
académique et l'on peut trouver plusieurs articles généraux décrivant les résultats de cette

12
D. Guillevic and C. Suen. HMM Word Recognition Engine. In 4th International Conference
on Document Anazlysis and Recognition (ICDAR'97), vol. 2, pp. 544-547, Ulm, Germany,
August 1997.
13
G. Saon and A. Belaïd. Off-line Handwritten Word Recognition Using a mixed HMM-
MRF Approach. In 4th International Conference on Document Analysis and Recognition
(ICDAR'97), vol. 1, pp. 118-122, Ulm, Germany, August 1997.
14
R. G. Casey and E. Lecolinet. Strategies in Characater Segmentation : a Survey. In 3rd
International Conference on Document Analysis and Recognition (ICDAR'95), vol. 2, pp.
1028-1032, Montréal, 1995.
15
Ch. Choisy et A. Belaid. Apprentissage croisé en reconnaissance analytique de l'écriture
manuscrite. In CIFED'2000. (Lyon). Presses polytechniques et universitaires romandes ,
2000. Collection des sciences appliquées de l'INSA de Lyon.
16
R. Plamondon and S. Srihari. On-line and Off-line Handwriting Recognition: A
Comprehensive Survey. Invited Paper, 20th Anniversary Special Issue of IEEE Transactions
on Pattern Analysis and Machine Intelligence.
8

recherche17. La situation a beaucoup changé pendant cette dernière décennie avec le progrès
enregistré par les ordinateurs à stylo (Pen Computers).

Les ordinateurs à stylo18 offre une alternative intéressante au papier. On peut écrire
directement sur un écran à cristaux liquides (LCD) avec un stylet ou un crayon optique.
L'écran dispose d'une matrice de points invisibles qui enregistre la position du stylet sur la
surface d'écriture. La trajectoire du stylet apparaît de manière instantanée sur l'écran donnant
l'impression d'une encre électronique.
Mais si la technologie d’affichage a beaucoup progressé, la RAED n’arrive pas encore
à s’imposer sur ces ordinateurs car les performances de la RAED restent trop faibles par
rapport à la qualité exigée en usage courant (stylet mal adapté, support non confortable,
apprentissage insuffisant de l’écriture, etc.). Les Pen computers utilisent généralement soit un
mode d'écriture pré-établi soit un clavier miniature. Ces derniers sont plus lents à l'utilisation,
mais plus fiables (moins de 1% d'erreur comparé à 5-6% pour un système de RAED
classique)19. Des études récentes, faites par Isabelle Guyon20, montrent qu’une bonne dactylo
fait moins de 1% d’erreur, 0.5% est pratiquement indétectable, et 2% d’erreur reste
intolérable ! Le taux d'erreur en RAED devra être ramené à de telles valeurs pour pouvoir
être utilisable dans un tel contexte.

La recherche académique s’est beaucoup focalisée sur la reconnaissance de l’écriture


cursive2122. Les performances restent modestes, on recense pour un alphabet anglais composé
de 26 lettres et un vocabulaire de 5-10000 mots, 5-10% d’erreurs pour les caractères isolés et
15-20% d’erreurs pour les mots. La difficulté vient essentiellement de la variation importante
du médium, provenant de plusieurs sources: géométrique (distorsion, inclinaison), bruit
neuro-biomécanique (modification de la forme des tracés), variations allographiques
(distorsion de la forme conduisant à une production d'allographes), et problèmes de
séquencement.
Dans le cadre de l'utilisation sur un Pen computer, les résultats peuvent être
notablement améliorés car on peut ne considérer qu'un seul scripteur et lui demander un
apprentissage personnel. Généralement, d'autres contraintes sont rajoutées comme une
écriture précasée, guidée, voire détachée. Par contre, si l'on veut se placer dans un contexte
plus général, les systèmes de RAED doivent s'armer de techniques de prétraitement robustes

17
C. C; Tappert, C. Y. Suen and T. Wakahara. The state of the art in on-line handwriting
recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(8): 787-
808, 1990.
18
G. Formazn and J. Zahorjan. The challenges of mobile computing. IEEE Computer, pp. 38-
47, 1994.
19
C. MacQueen et al. A comparison of four methods of numeric entry on pen-based
computers. In Proceedings of Graphics Interface'94, Toronto, Canada, 1994.
20
I. Guyon and C. Warwick. Handwriting as computer Interface. Chapter in Survey of the
State of the art in Human Language Technology, J. Mariani et al. Editors, 1995.
21
R. Plamondon. Special Issue on cursive script recognition. Machine Vision and
Applications, 1995.
22
E. Lecolinet and O. Barret. Cursive word recognition: methods and survey. In S. Empedovo
Editor, Fundamentals in Handwriting Recognition, volume 24 of NATO_Advanced Institute,
Series F Springer-Verlag.
9

et s'articuler autour d'une combinaison de méthodes complémentaires2324. Lorette25 se réfère à


plusieurs techniques : paléographie, biomécanique, neuropsychologie, éducation et bien sûr
linguistique pour tenir compte de tous les aspects de l'écriture.

Un autre champ d'application de la reconnaissance en ligne est la vérification de


signatures26. Ce problème est très particulier car il ne s'agit pas de reconnaître le contenu mais
de s'assurer de sa ressemblance ou dissemblance avec des signatures existantes. Ce genre de
vérification se fait en général dans des applications "à haut risque" où l'on ne peut pas tolérer
d'erreur !

Plusieurs systèmes commerciaux proposent des techniques de reconnaissance


indépendantes du scripteur, pour différents types d’écritures : casées ou cursives (CIC,
AT&T-EO, Grid, IBM, Microsoft, Nestor). Des solutions existent pour différents types
d’alphabet : Latin, Kanji (CIC). Ces systèmes peuvent pratiquer une auto-adaptation du
scripteur à partir de la reconnaissance de quelques gestes de base et de quelques échantillons
d'écriture.

2.2 Reconnaissance de documents


La reconnaissance de documents ou plutôt l'analyse d'images de documents concerne
tout le processus de conversion de l'image27. Ce processus est relatif à toutes les questions
autour du langage écrit et sa transformation numérique : reconnaissance de caractères,
formatage du texte, structuration du contenu et accès à l'information pour des applications
d'indexation.
S'agissant souvent d'un processus de rétroconversion d'une structure existante, le
processus de reconnaissance est guidé par un modèle explicite ou implicite de la classe
étudiée. Le modèle décrit les éléments composant le document et leurs relations. Cette
description peut être physique, relatant le format de mise en page, logique décrivant
l'enchaînement des sous-structures, ou sémantique portant sur le sens affecté à certaines
parties. L'OCR est une étape importante dans la rétroconversion du document. Il encode
évidemment les caractères et participe de manière très active à la reconnaissance de la
structure.
Ce processus serait sans doute clair et "simple" s'il ne s'agissait que de documents
textuels pour lesquels on dispose d'une structure éditoriale hiérarchique ; le problème est
beaucoup plus délicat pour d'autres classes de documents où l'information n'est pas très
organisée et le contenu est hétérogène (comprenant un mélange d'imprimé, de manuscrit et de
graphique), comme c'est le cas pour les formulaires, les documents postaux ou techniques, les
magazines, etc. Dans ce cas, il n'existe pas de modèle direct pour décrire la composition du

23
L. Lam and C. Y. Suen. Application of majority voting to pattern recognition : an analysis
of its behavior and performance, IEEE Trans. On Pattern Analysis and Machine Intelligence,
vol. 27, n. 5, pp. 553-568, 1997.
24
R. K. Powalka et al. Multiple recognizer combination topologies, Handwriting and drawing
research: basic and applied issues, IOS Press, pp. 329-342, 1996.
25
G. Lorette. Handwriting recognition or reading ?, situation at the dawn of the 3rd Millenium,
Proc. IWFHR, Taejon, Korea, pp. 1-13, 1998.
26
R. Plamondon and G. Lorette. Automatic signature verification and writer identification -
the state of the art. Pattern recognition, vol. 22, n. 2, pp. 107-131, 1989.
27
A. Belaïd, Analyse et reconnaissance de documents, Cours INRIA: le Traitement
électronique de Documents, Collection ADBS, 3-7 octobre, Aix-en-Provence, 1994.
10

document et l'on a souvent recours à un mélange de techniques de traitement d'images et du


langage pour extraire l'information.

Le monde économique s'est emparé très tôt de cette technologie (le premier OCR date
des années soixante). Il a finalisé les premiers travaux sur la reconnaissance optique des
caractères et propose continuellement des OCR avec des performances de plus en plus
élevées. Aujourd'hui, il existe au moins une vingtaine d'OCR dont les plus connus sont
TextBridge (Xerox), FineReader (Abbyy), Omnipage (Caere), Capture(Adobe).

2.2.1 Processus de reconnaissance


Les principales étapes d'une chaîne de reconnaissance sont :
- L'acquisition permettant la conversion du document papier sous la forme d'une image
numérique (bitmap). Cette étape est importante car elle se préoccupe de la préparation
des documents à saisir, du choix et du paramétrage du matériel de saisie (scanner),
ainsi que du format de stockage des images.
- Le prétraitement dont le rôle est de préparer l'image du document au traitement. Les
opérations de prétraitement sont relatives au redressement de l'image, à la suppression
du bruit et de l'information redondante, et enfin à la sélection des zones de traitement
utiles.
- La reconnaissance du contenu qui conduit le plus souvent à la reconnaissance du
texte et à l'extraction de la structure logique. Ces traitements s'accompagnent le plus
souvent d'opérations préparatoires de segmentation en blocs et de classification des
médias (graphiques, tableaux, images, etc.).
- La correction des résultats de la reconnaissance en vue de valider l'opération de
numérisation. Cette opération peut se faire soit automatiquement par l'utilisation de
dictionnaires et de méthodes de correction linguistiques, ou manuellement au travers
d'interfaces dédiées.

2.2.2 Saisie des documents


La saisie du document est opérée par balayage optique. Le résultat est rangé dans un
fichier de points, appelés pixels, dont la taille dépend de la résolution. Les pixels peuvent
avoir comme valeurs : 0 (éteint) ou 1 (actif) pour des images binaires, 0 (blanc) à 255 (noir)
pour des images de niveau de gris, et trois canaux de valeurs de couleurs entre 0 et 255 pour
des images en couleur. La résolution est exprimée en nombre de points par pouce (ppp). Les
valeurs courantes utilisées couramment vont de 100 à 400 ppp. Par exemple, en 200 ppp, la
taille d'un pixel est de 0,12 mm, ce qui représente 8 points par mm. Pour un format classique
A4 et une résolution de 300 ppp, le fichier image contient 2 520 × 3 564 pixels. Il est
important de noter que l'image n'a à ce niveau qu'une simple structure de lignes de pixels qu'il
faudra exploiter pour retrouver l'information. La Figure 5 montre différents niveaux de
résolution utilisés pour le même document. On peut remarquer la dégradation occasionnée par
75 ppp, l'insuffisance des 300 ppp pour le graphique, et l'inutilité des 1200 ppp pour
l'ensemble.

La technicité des matériels d'acquisition (scanner) a fait un bond considérable ces


dernières années. On trouve aujourd'hui des scanners pour des documents de différents types
(feuilles, revues, livres, photos, etc.). Leur champ d'application va du "scan" de textes au
"scan" de photos en 16 millions de couleurs (et même plus pour certains). La résolution est
classiquement de l'ordre de 300 à 1200 ppp selon les modèles.
11

75 ppp

300 ppp

600 ppp

1200 ppp

Figure 5: Différents niveaux de résolution.

2.2.3 Identification de la langue et de la fonte


La généralisation des OCR a conduit à les munir de modules spécifiques pour faciliter
leur adaptation. Cette réduction est apportée par l'identification du langage et de la fonte qui
peuvent varier dans un même document. La connaissance de la langue permet d'adapter les
modèles au vocabulaire spécifique. L'identification de la fonte permet de réduire le nombre
d'alternatives des formes pour une classe donnée de caractères, conduisant pratiquement à du
monofonte. Ces deux mesures peuvent également servir dans des opérations d'indexation et
d'interprétation.
Pour l'identification de la langue, Spitz28, un des pionniers du domaine, a proposé une
méthodologie permettant de classer cinq langues différentes dans un même document. Il
différencie d'abord les langues latines des langues asiatiques en utilisant l'écart type de la
position verticale des concavités par rapport à la ligne de base. Ces concavités sont situées à la
limite de la ligne de base pour le Latin, tandis qu'elles sont uniformément distribuées pour le
Chinois, le Japonais et le Coréen. Ensuite, les trois langues asiatiques sont séparées par
examen de l'histogramme de distributions de leurs points.
La multiplication des fontes s'ajoute à la multiplication des langues dans un document.
Les fontes sont classées en fonction de la police, du style (gras, italique) et du corps. Avec
Anigbogu29, nous avons proposé dans le cadre de sa thèse une méthode structurelle utilisant
les mêmes primitives du module de reconnaissance pour identifier la fonte majoritaire dans un

28
A. L. Spitz. Determination of the script anf language content of document images, IEEE
Trans. On Pattern Analysis and Machine Intelligence, vol. 19, n.3, pp. 235-245, March 1997.
29
A. Belaïd and J. C. Anigbogu, Mise à contribution de plusieurs classifieurs pour la
reconnaissance de textes multifontes. Revue Traitement du signal, vol 11, n. 2, 1994
12

bloc de texte. Zramdini 30 a proposé le système ApOFIS capable de distinguer plus de 280
fontes différentes en combinant 10 polices, 7 corps et 4 styles. La fonte est identifiée avec
97% de précision, tandis que le style, le corps et la pente sont identifiés avec une précision
s'échelonnant entre 97.5 et 99.9%.

2.2.4 Reconnaissance de caractères


Un texte est une association de caractères appartenant à un alphabet, réunis dans des
mots d’un vocabulaire donné. L’OCR doit retrouver ces caractères, les reconnaître d’abord
individuellement, puis les valider par reconnaissance lexicale des mots qui les contiennent.
Cette tâche n’est pas triviale car si l’OCR doit apprendre à distinguer la forme de chaque
caractère dans un vocabulaire de taille souvent importante, il doit en plus être capable de la
distinguer dans chacun des styles typographiques (polices), chaque corps et chaque langue,
proposés dans le même document. Cette généralisation omnifonte et multilingue n'est pas
toujours facile à cerner par les OCR et reste génératrice de leurs principales erreurs31.

Un système de reconnaissance de caractères est composé de plusieurs modules :


segmentation, apprentissage, reconnaissance et vérification lexicale.
- La segmentation permet d’isoler les éléments textuels, mots et caractères, pour la
reconnaissance. Elle se base sur des mesures de plages blanches (interlignes et inter
caractères) pour faire la séparation. La multiplicité des polices et la variation des
justifications empêchent de stabiliser les seuils de séparation, conduisant à la génération
de blancs inexistants ou au contraire à l’ignorance de blancs séparateurs de mots. Ce type
d’erreur est très fréquent, d’après une récente étude réalisée par Nagy et al.32 .
- La reconnaissance de caractères permet de se prononcer sur l’identité d’un caractère à
partir d’un apprentissage de sa forme. Cette étape nécessite une étape préalable de
paramétrisation de la forme, définissant des données, des mesures, ou des indices visuels
sur lesquels s'appuie la méthode de reconnaissance. Suivant la nature de ces informations,
il existe plusieurs catégories de méthodes : syntaxique (description par une grammaire),
structurelle (description par un graphe), ou statistique (description par partionnement de
l'espace). Ces dernières ont de loin le plus grand intérêt avec les méthodes à base de
réseaux de neurones, ou de modèles stochastiques. La complexité de la tâche vient de
l'apprentissage qui nécessite, pour sa stabilité, d'un très grand nombre d'échantillons par
classe, et de la recherche d'indices visuels discriminants, ce qui n'est pas aisé dans un
contexte omnifonte comme celui concerné par la numérisation automatique. Pour
accélérer la reconnaissance, certains OCR s'appuient sur la similarité entre une forme
reconnue et les formes étudiées33.
- Le post-traitement est effectué quand le processus de reconnaissance aboutit à la
génération d'une liste de lettres ou de mots possibles, éventuellement classés par ordre
décroissant de vraisemblance. Le but principal est d'améliorer le taux de reconnaissance
en faisant des corrections orthographiques ou morphologiques à l'aide de dictionnaires de
digrammes, tri-grammes ou n-grammes. Quand il s'agit de la reconnaissance de phrases

30
A. Zramdini and R. Ingold. Optical font identification using typographic features, On
Pattern Analysis and Machine Intelligence, vol. 20, n.8, pp. 877-882, August 1998.
31
A. Belaïd, OCR Print - An Overview, In: Survey of the state of the art in Human Language
Technology, R.A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen, et V. Zue (réd.). Kluwer
Academic Plublishers, 1995, ch. 2.
32
S. V. Rice, G. Nagy et T. A. Nartker. Optical character recognition: an illustrated guide to
the frontier. Kluwer Academic Publisher, 1999.
33
F. Lebourgeois
13

entières, on fait intervenir des contraintes de niveaux successifs : lexical, syntaxique ou


sémantique.

2.2.5 Techniques de prétraitement


Plusieurs étapes préliminaires sont nécessaires à la reconnaissance du document, parmi
lesquelles on peut noter : la binarisation, le redressement, le zonage et la classification.

La binarisation permet de passer d’une image de niveaux de gris à une image binaire
composée de 2 valeurs 0 et 1, plus simple à traiter. En général, on utilise un seuil de
binarisation approprié qui traduit la limite des contrastes fort et faible dans l'image. Mais pour
des images peu contrastées ou à contraste variable (i.e. la distribution de niveaux de gris n'est
pas clairement bimodale), il est difficile de fixer ce seuil à une valeur précise.
Pour des images de niveaux de gris, on peut trouver dans Trier et al.34 une bonne
synthèse des méthodes de binarisation, proposant des seuils adaptatifs (i.e. s'adaptant à la
différence de distribution des niveaux de gris). Mais le défi reste total pour les fonds texturés
où il est difficile de trouver une modalité claire dans la distribution. Liu et Srihari35 proposent
une solution pour les images d'adresses postales. La recherche du seuil passe par plusieurs
étapes : binarisation préliminaire basée sur une distribution de mixture multimodale, analyse
de la texture à l'aide d'histogrammes de longueurs de traits, et sélection du seuil à partir d'un
arbre de décision. Dernièrement, Sawaki et Hagita36 proposaient une autre méthode pour la
binarisation des titres en japonais, texturés ou en inverse vidéo. Leur méthode est fondée sur
la relation de complémentarité entre la forme (les caractères) et le fond (l'arrière plan).

Le redressement est une opération fréquente en analyse de documents, souvent due à


un mauvais positionnement du document sur le scanner, conduisant à une inclinaison de
l’image. Plusieurs méthodes de redressement ont été proposées cette dernière décennie, et la
plupart des OCR s’en trouvent pourvus actuellement tellement ces opérations sont courantes.
Les meilleurs algorithmes proposés sont sans doute ceux qui sont moins affectés par la
présence de graphiques, de zones noires dans le texte présentant des inclinaisons différentes,
ou de zones d’ombre près des marges provenant d’un phénomène de bombage du à la saisie
de livres ou de magazines. Une nouvelle méthode, proposée par Agajan et Kailath37, basée
sur une analogie entre les lignes de texte et les ondes d’antenne radar. La distance entre une
ligne de référence de chaque pixel du fond est convertie en une phase d’une onde sinus
complexe. L’algorithme de détection détermine la cohérence spatiale entre les différentes
contributions à partir de lignes différentes. Bien que similaire à l’idée de la transformée de
Hough, cette méthode semble être, au dire de ses auteurs, plus efficace. Plus récemment,
Chauduri & Pal 38 ont proposé une méthode pour des documents indiens multi-scripts
(Devanagari et Bangla).

34
O. D. Trier and T. Taxt. Evaluation of binarization methods for document images, On
Pattern Analysis and Machine Intelligence, vol. 11, n.12, pp. 312-314, December 1995.
35
Y. Liu and S. Srihari. Document image binarization on texture features, On Pattern
Analysis and Machine Intelligence, vol. 19, n.5, pp. 540-544, May 1997.
36
M. Sawaki and N. Hagita. Text-line extraction and character recognition of document
headlines with graphical designs using complementary similarity measures, On Pattern
Analysis and Machine Intelligence, vol. 20, n.10, pp. 1103-1108, Oct. 1998.
37
H.K. Aghajan and T. Kailath. SLIDE: Subspace-based line detection, On Pattern Analysis
and Machine Intelligence, vol. 16, n.11, pp. 1057-1073, Nov. 1994.
38
B.B. Chauduri and U. Pal. Skew angle detection of digitized script documents, On Pattern
Analysis and Machine Intelligence, vol. 19, n.2, pp. 182-186, Feb. 1997.
14

Le zonage ou segmentation physique permet de localiser les blocs d'information


d'homogènes et de les classer en fonction de leur contenu : texte ou non texte. Cette
séparation permet d'écarter les zones de graphique et de photographie du processus de
reconnaissance de texte. Plusieurs classes de méthodes sont proposées en fonction de la nature
de l’image (binaire, ou multiniveaux de gris ou couleur), de la séparabilité de ses régions et de
la régularité de sa structuration. Pour les images en multi-niveaux, plusieurs méthodes de
segmentation multi-échelles ont été proposées en RAED par Etemad39.
Les structures rectilignes du texte dans des images binaires appellent, quant à elles, à
l’emploi de méthodes plus intuitives, conduisant à des constructions ascendantes de la
structure, allant de la simple juxtaposition de composantes connexes en lignes, jusqu’à la
formation de blocs plus importants par association de ces lignes40. Bien que la construction
soit basée sur une juxtaposition horizontale de caractères, elle peut tolérer plus de 5°
d’inclinaison. Jain et Yu41 proposent une méthode ascendante plus rapide que la précédente
pour partitionner l’image en colonnes de texte, photographies et tableaux. Cette méthode est
basée sur le regroupement des pixels du fond dans des zones de même largeur.
Une dernière catégorie de méthodes proposent une décomposition descendante de
l’image par découpage récursif de celle-ci quand sa structure le permet. Le pionnier dans ce
type de découpage fût Wong42 en proposant un algorithme spécifique appelé « X-Y Cut » à
cause du découpage alterné suivant les axes X et Y, et récursif qu’il permet. Le principe de ce
découpage fût énormément suivi par plusieurs chercheurs. Pavlidis 43, tout en conservant
l’idée, base son découpage sur la recherche de plages blanches qui sont plus tolérantes à
l’inclinaison. Nous avons étendu ce principe pendant la thèse d'Akindele 44 pour tolérer plus
d’inclinaison et proposer un découpage polygonal des blocs. Antacopoulos45 propose une
méthode descendante très peu sensible à l’inclinaison. Il procède à un lissage vertical pour
noircir les zones informatives, utilise ensuite des carreaux de différentes tailles pour couvrir le
fond de l’image, puis extrait les bords des carreaux coïncidant avec les bords des zones
noircies (voir Figure 6).

39
K. Etemad et al. Multiscale segmentation of unstructured document pages using soft
decision integration, On Pattern Analysis and Machine Intelligence, vol. 19, n.1, pp. 92-96,
Jan 1997.
40
A. Simon et al. A fast algorithm for bottom-up layout analysis, On Pattern Analysis and
Machine Intelligence, vol. 19, n.3, pp. 273-277, Mar. 1997.
41
A. K. Jain and B. Yu. Document representation and its application to page decomposition,
On Pattern Analysis and Machine Intelligence, vol. 20, n.3, pp. 294-308, Mar. 1998.
42
K. Y. Wong, R. G. Casey and F. M. Wahl. Document analysis system. IBM Journal
Research Development, 26(6):647-656, 1982.
43
T. Pavlidis and J. Zhou. ge Segmentation by White Streams. In Proceedings of the 1st
International Conference on Document Analysis and Recognition (ICDAR), St-Malo, France.
pp.945-953, 1991.
44
T. Akindele and A. Belaid. Page Segmentation by Segment Tracing, In
Proceedings of the 2nd International Conference on Document Analysis and Recognition
(ICDAR), Sukuba, Japan, 1993.
45
A. Antonacopoulos and R.T. Ritchings. Flexible page Segmentation using the background.
Proceedings of The 12th International Conference on Pattern Recognition (ICPR), Jerusalem,
Israel, Oct. 1994, pp. 339-344.
15

Figure 6: Segmentation de blocs d'après Akindele (à gauche) et Antacopoulos (à droite).

La plupart des méthodes de classification se basent sur les propriétés fondamentales du


texte telles que la linéarité des caractères, la régularité de leurs tailles et des espaces entre eux,
pour le séparer des autres médias46. Wang et Srihari 47 proposaient une méthodologie basée sur
la texture. Celle-ci est exprimée en termes de mesures d'espaces. Les espaces sont peu larges,
moyennement réguliers et abondants pour le texte, peu large, peu réguliers et peu abondants
pour la photographie, et très larges, très irréguliers et peu abondants pour le graphique.

Figure 7: Image originale et son zonage.


La plupart des OCR du commerce proposent aujourd’hui des méthodes de zonage et
de classification. L’erreur la plus fréquente correspond au "décolonnage" qui conduit à la
fusion de deux colonnes et donc à une déstructuration du texte.

46
A. Belaïd and O. T. Akindele, A labeling approach for mixed document blocks.
Proceedings 2nd International Conference on Document Analysis and Recognition (ICDAR),
Tsukuba Japan, 1993. pp.749-752.
47
C. H. Wang and S. Srihari. A framework for object recognition in uncertain environments:
locating address blocks in irregular mail pieces. Report of US Post Service Contract 104230-
85-M3349, 1989.
16

2.2.6 Reconnaissance de documents structurés


La reconnaissance de documents structurés consiste à extraire la structure logique du
document. Contrairement à la structure physique qui décrit l'organisation géométrique des
documents dans les pages, la structure logique décrit la manière de lire les documents et les
exploiter. Elle correspond en général à l'inverse du procédé d'édition et essaie de retrouver les
composants et les relations qui ont conduit à cette construction. C'est ainsi que pour les
documents textuels, la tâche est assimilée à du "reverse engineering" pour redécouvrir la
feuille de style, ou la DTD (Data Type Definition) au sens XML du terme qui a servi à
l'édition. Pour les documents techniques, l'effort serait de retrouver toute la hiérarchie de
composants avec les éléments de construction et les indicateurs d'assemblage.
Sachant que le procédé de lecture et d'exploitation n'est pas unique et qu'il peut
changer d'une personne à l'autre en fonction de ses besoins et de sa façon de voir le document,
il ne peut y avoir de procédure universelle pour obtenir la structure logique. La technologie
conduit dans ce cas à accompagner le système d'un modèle décrivant la structure recherchée.
Partant d'une image, ou plus exactement d'une structure physique extraite par
segmentation de l'image, la structure logique s'exprime le plus souvent en termes de
transformations des objets physiques en objets logiques. C'est le modèle qui décrit cette
transformation qui n'est pas du tout évidente pour les raisons suivantes : d'abord la
segmentation physique comporte des erreurs; ensuite la structure logique est décrite de
manière globale pour une application donnée (classe de documents) et ne peut pas être
précise, une incertitude accompagne en général cette description; et enfin, la correspondance
entre les objets physiques (bloc, colonne, ligne et symbole) et les objets logiques (section,
titre, légende, mot) n'est pas directe, nécessitant de trouver des procédures de recherche de
correspondance entre le contenu et le contenant48.

Les méthodes utilisées sont en général de type tolérant au bruit et à l'imprécision49.


Suivant la régularité de la structure recherchée les méthodes sont plus ou moins rigoureuses.
Pour des structures régulières et ordonnées (hiérarchiquement), la tendance est d'utiliser des
analyseurs syntaxiques fondées sur des grammaires probabilistes (comme modèles). La
décomposition des objets est réalisée par l'intermédiaire de dérivation des règles
grammaticales, accompagnées le plus souvent de constructeurs (séquence, agrégat, mosaïque)
et de qualificatifs (optionnel, répétitif ou conditionnels) génériques à la manière de SGML
(Standard Generalized Markup Language). La dérivation peut se faire de manière ascendante
ou descendante en fonction du degré de précision dont on dispose sur les composants. La
tolérance au bruit est effectuée par des stratégies de recherche en profondeur ou en largeur
avec estimation du coût de la recherche dans les chemins 50. L'algorithme A* est souvent
utilisé dans ce cas. On peut également procéder à des techniques de transformations d'arbres.
Cette technique est intéressante car le modèle s'exprime en termes d'associations de deux
hiérarchies : physique et logique. La reconnaissance consiste dans ce cas à instancier une telle
association à partir de l'image traitée.

48
A. Belaïd, J.-J. Brault, and Y. Chenevoy. Knowledge-based system for structured document
Recognition. In Proceedings MVA'90 IAPR Workshop on Machine Vision Applications.
Tokyo, Japan, 1990.
49
A. Belaïd. Panorama de méthodes structurelles en analyse et reconnaissance de documents.
In Journée thématique du GRCE. (ENST, Paris). 1997.
50
Y. Chenevoy and Belaïd. A. Hypothesis Management for Structured Document
Recognition. In Proceedings First International Conference on Document Analysis and
Recognition (ICDAR), St Malo, 1991.
17

Pour des structures complexes où la notion de lien est très forte entre les objets, les
techniques d'analyse de graphes sont plus appropriées. La recherche de clique maximale
(partie d'un graphe ayant certaines propriétés) a été beaucoup utilisée pour l'analyse de
formulaires pour la reconnaissance d'une partie de la structure. Les méthodes de relaxation
sont là également très utilisées pour le repérage d'entités particulières51.
Plusieurs systèmes proposent des méthodologies distribuées par l'emploi de systèmes
multi-agents. En effet, la multitude des connaissances dans le document conduit à la
spécialisation d'agents de traitement et à la définition de stratégies expertes.
Enfin, pour des structures à granularité très fine comme les citations ou les sommaires
de revues, la technique de taggage par partie de discours52, empruntée au traitement de la
langue, commence à être de plus en plus utilisée.

Le schéma générique que nous avons adopté à Nancy 53 pour toutes nos applications de
rétroconversion se base sur le schéma d’édition agréé par le consortium W3C (voir Figure 8).

Edition
Rédaction
DTD XSLT Composer Médium

Document Formatting
Idée
XML Objects (FO)

Contraintes OCR
utilisateur, application, support...
Edition
Structure Logique Structure physique
Archivage
XmlDoc XmlLayout
e_book...

XSLT+Composer XSLT-1
Ré-édition

Rétroconversion
Figure 8: Relation entre les processus d'édition et de rétroconversion.
Tout le schéma est régi par une norme de représentation en XML. L’édition enseigne
que la production du médium à partir d’un document logique en XML passe par trois
opérations : 1) la rédaction qui produit un document logique conforme à une DTD, 2) le
formatage qui prépare l'affichage par l’emploi d’une feuille de style XSLT (eXtensible Sheet
Language Transform); XSLT est une transformation d'une DTD logique en DTD physique
(FO), et 3) la production du médium par l’emploi d’un composer. Les Formatting Objects

51
[Link]ïd, Y. Belaïd, Late N. Valverde and S. Kébairi. Adaptive Technology for Mail-Order
Form Segmentation, International Conference on Document Analysis and Recognition
(ICDAR), Seattle, USA, Sept. 2001.
52
L. Van Guilder. Automated Part of Speech Tagging : A Brief Overview,
http///[Link]/cball/Ling361/tagging_overview.html
53
L. Pierron and A. Belaïd, An XML/SVG platform for document analysis, Workshop on
Document Layout Interpretation and its Applications (DLIA2001), Seattle, Sept. 2001.
18

(FO) sont des objets XML permettant une description normalisée des documents pour
l'édition et la présentation.

En respectant cette logique de transformation, la chaîne inverse de rétroconversion,


nécessite : 1) l’emploi d’un OCR pour convertir le contenu : caractères, typographie, style, et
recouvrer la mise en page (opération inverse du composer), 2) la transformation inverse de la
structure de mise en page vers une structure logique proche de l'application. Cette opération
nécessite l'application de la transformée inverse de la feuille de style XSLT, et 3) la
transformation de cette structure logique vers une structure de mise en page nécessaire à
l'application, en utilisant une feuille de style adaptée et les contraintes de l’utilisateur.

Ce schéma révèle trois difficultés. La première est de pouvoir obtenir à partir d'une
feuille de style une feuille de style inverse, jouant le rôle d'une stratégie de rétroconversion.
Cette stratégie nécessite l'emploi d'un modèle a priori obtenu automatiquement à partir de
XSLT (incluant à la fois des informations de la DTD de composition et de la feuille de style
de présentation) ou généré à la main. La deuxième difficulté est qu'on ne peut pas utiliser des
FO en sortie des OCR car on a de l'incertitude sur les caractères. La solution consisterait à
développer ses propres FO (une sorte de XFO : Extented FO ou similaire). La dernière
difficulté est relative à la définition des contraintes d’utilisation et à leur intégration dans le
système. Ces contraintes peuvent correspondre à des habitudes de lecture ou d’édition dont la
formalisation est difficile.

2.2.7 Reconnaissance de documents hétérogènes


Un document hétérogène ou complexe est un document qui ne permet pas l'usage des
méthodes de représentation et de traitement récursifs de la structure du document. En d'autres
termes, Il n'y a pas de relations d'ordre simple régissant les éléments de la structure. De ce
fait, toutes les techniques répétitives pour la recherche de lignes et de blocs, fondées sur la
régularité des espaces et de la position ne sont plus opératoires. La structure du document
n'est pas que textuelle, elle peut comprendre une part importante de graphique, et le texte
n'est pas forcément linéaire (présence de formules mathématiques ou chimiques).
L'organisation géométrique peut être non linéaire : tabulaire (tableaux), filaire (formulaires
administratifs, ou descriptive (bon de commande, chèque bancaire, etc.). Enfin, le texte peut
être sous forme manuscrite, imprimée ou cochée.
Les OCR du commerce sont capables aujourd'hui de reconnaître les tableaux et sont en
voie de proposer des solutions intéressantes pour la conversion des documents
mathématiques54. En effet, les structures de ces documents sont régulières même si elles sont
bidimensionnelles. La présence de symboles mathématiques aide à la localisation des
formules en passant par des étapes de segmentation préliminaires55, et il existe des
grammaires d'expression permettant d'aider à la reconnaissance directe ou différée (après
segmentation texte/formules).

Le problème demeure pour les autres types de formulaires où l'information est moins
organisée. Plusieurs recherches ont été proposées pour l'identification de classes particulières
de formulaires. Les méthodes s'apparentent davantage à des méthodes de traitement d'images
qu'à un traitement de document, et restent spécifiques à un type d'organisation particulier5657.

54
Y. Eto and M. Suzuki. Mathematical Formula Recognition Using Virtual Link Network, ICDAR'01,
Seattle, Sept. 2001.
55 A. Kacem, A. Belaïd, and M. Ben Ahmed, “EXTRAFOR : Automatic EXTRAction of mathematical
FORmulas”, ICDAR'99, Bangalor India, 1999, pp. 527-530.
56
S. W. Lam, L. Javanbakht and S. N. Srihari. “Anatomy of a Form Reader”. IEEE ICDAR, pp. 579-582, 1995.
19

Nous avons proposé une technologie adaptative pour le traitement de bons de commande
destinés à de la vente par correspondance58. Cette technique permet de s'adapter au
changement fréquent de la mise en page et ne se préoccupe que de l'information pertinente.
Cette information est localisée au travers de points d'ancrage ne subissant pas d'altération par
la modification de la mise en page. La reconnaissance du document revient donc à localiser
ces points d'ancrage puis l'information associée (par ex. NOM : Durand, ADRESSE: 2, rue
des jardins fleuris) qui sera reconnue par des OCR spécifiques.

3 Besoins actuels en analyse de documents


Les OCR sont très performants sur la recherche de la structure physique et vont aller en
s'améliorant. Cependant, le principal intérêt d'un document ne se trouve pas dans sa forme
physique mais dans son contenu logique. Ce contenu est encore hors de portée des OCR qui
ne savent pas localiser les zones d'intérêt ni comprendre le contenu, ce qui limite énormément
les possibilités d'utilisation des documents. Si l'on reprend l'exemple des bons de commande,
les OCR n'étaient pas adaptés à la recherche des zones d'intérêt, car ils étaient incapables
d'extraire l'information logique; à cela s'ajoute les limites sur la qualité des documents qui
occasionne trop d'erreurs. Pour extraire l'information logique, il a été plus efficace de
rechercher des points d'ancrage (par association d'images de composantes connexes) pour
extraire une information utile.
Dans la même idée, l'analyse de la bibliographie et des tables de matières a également
montré les limites de l'OCR. En effet, il est incapable de décomposer une citation en ses
différents champs utiles (auteurs, titre, conférence, etc.). Des techniques additionnelles de
recherche d'information comme le taggage, ont dû être mises en place pour retrouver ces
différentes parties.
En conclusion, on peut dire qu'il y a deux grands axes en rétroconversion de documents :
1) tout ce qui concerne la première couche de codage du document (structure physique et
reconnaissance de caractères); dans cette tâche, les OCR sont très performants mais
nécessitent des améliorations; 2) le deuxième axe concerne toute la sémantique logique du
document; ce point n'est pas du tout pris en compte par les OCR et reste du domaine de la
recherche. Tout développeur d'un système de READ doit prendre conscience de ces deux
parties et donc du chemin à faire pour réaliser son application.
Pour illustrer notre propos, nous allons voir dans la section suivante deux applications
réelles montrant l'état de la recherche actuelle au niveau de la mise en œ uvre de la RAED.

3.1 Numérisation professionnelle


La numérisation professionnelle repose continuellement le problème de l'intérêt de la
RAED dans les applications professionnelles59. En effet, la Bureautique est aujourd'hui auprès
de tous (particuliers et professionnels) avec des outils d’édition, de manipulation d’images et
de texte. Cette technologie nous fait rentrer de plus en plus dans le monde électronique : on
manipule des documents électroniques en faisant des conversions, des corrections, des
recherches. Cependant, malgré toutes ces avancées, la quantité de papier manipulée reste
considérable ! On voudrait utiliser les outils Bureautique sur ce papier : n'importe quel

57
F. Cesarini, M. Gori, S. Mariani and G. Soda, “INFORMys : A Flexible Invoice-like Form
Reader System”. IEEE Trans. PAMI, 20(7):730-745, July 1998.
58
[Link]ïd, Y. Belaïd, Late N. Valverde and S. Kébairi. Adaptive Technology for Mail-Order
Form Segmentation, ICDAR'01, Seattle, USA, Sept. 2001.
59
A. Belaïd, L. Pierron, L. Najman et D. Reyren. La numérisation de documents : Principe et
évaluation des performances, Ecole de l'INRIA, La Bresse, Oct. 2000.
20

scanner acheté de nos jours est accompagné d'un OCR permettant de transformer le document
papier en un texte. Mais le résultat est loin de répondre à l'attente de tous (plusieurs erreurs
par page), ce qui n’est pas réaliste pour certaines applications.
Le problème qui se pose est que bien que la lecture ait l’air d'être facile et que
l’ordinateur rende une quantité de services, les besoins restent nombreux. Aujourd’hui faire
de la numérisation professionnelle n’est pas ca ! et les interrogations sont nombreuses. On
peut d'abord se demander si le but est de diminuer le volume, la réponse est sûrement non; le
volume du papier consommé est plus important, car les gens impriment, relisent et jettent le
papier. Un autre but pourrait être la conservation des données, mais cela pose très vite le
problème de leur réutilisation. En effet, chercher un document dans une armoire peut être plus
facile que faire une recherche d’image sur un CD-ROM. La réponse, a été en partie donnée
dans les sections précédentes, concernant la réutilisabilité électronique et ne satisfait que très
peu le professionnel.
La numérisation professionnelle vise d'autres objectifs liées à la productivité et à la
qualité. Il s'agit d'augmenter la productivité par rapport à la saisie manuelle. Actuellement, les
performances sont : en simple saisie de l'ordre de 4000 à 5000 caractères / heure, avec une
qualité de 2/1000 (erreurs par caractères saisis), et en double saisie : 2000 c/h, avec une
qualité de 2/10000. L'espoir avec les techniques de RAED est d'atteindre un niveau de qualité
aussi élevé sinon plus élevé que celui de la saisie manuelle, soit actuellement 1/ 10000, ce qui
est loin des performances actuelles des OCR (de l'ordre de 1/100).
En effet, on trouve de plus en plus dans les pays en voie de développement une main
d’œ uvre qualifiée pouvant parfaitement effectuer ce travail. Cela peut cependant être difficile
à gérer, à la fois pour des raisons de distances, et parce qu’il faut des personnes sachant lire le
français. Il ne faut pas négliger non plus les problèmes de confidentialité qui peuvent se poser.
On peut le faire automatiquement avec des OCR. Notons cependant qu’on ne pourra
jamais retirer définitivement l’utilisateur, car il faudra toujours une étape de validation et de
vérification du résultat fourni. Les outils (pas plus que l’être humain) ne seront jamais
parfaits, et on tolère moins d’erreur de la part d’une machine que de la part d’un être humain.
Par contre, on peut espérer un gain de productivité non négligeable par rapport à une saisie
purement manuelle : en effet, les ordinateurs peuvent travailler 24h/24, et être achetés en
nombre suffisant. Cette combinaison opérateur/machine ne peut donc être que bénéfique,
d’autant plus que les erreurs effectuées par une machine (donc sans interprétation du contenu)
ne seront pas du même type que celles effectuées par un opérateur.

L'utilisation de la RAED en industrie se pose en termes de choix d'outils et de facilité


d'intégration.
Un des principaux problèmes dans le choix d'un outil est de savoir évaluer son résultat,
en fonction des besoins. En d’autres termes, la sûreté attendue de la reconnaissance, ou le taux
d'erreur toléré est dépendant de l'application visée. Dans l’absolu, un taux d’erreur de 90% est
correct. Cependant, supposons que l'application concerne la numérisation du Bottin. Un taux
de reconnaissance de 90% est catastrophique car cela signifie une erreur tous les 10
caractères ; un numéro de téléphone ayant dix caractères, tous les numéros seront erronés, et
donc la reconnaissance sera inutile.
Les OCR n’atteindront jamais les 100% de bonne reconnaissance. On observe par
ailleurs, que différents moteurs d’OCR produisent des erreurs différentes. C’est cette idée qui
a conduit les chercheurs ces dernières années à développer des techniques de combinaison de
moteurs OCR afin d’améliorer le résultat global. L’objectif est de tirer parti des avantages de
chaque OCR et d’écarter leur faiblesse.
21

Dans les différentes études effectuées par Rice60, il est montré que de l’ordre de 50%
d’erreur est éliminée par la combinaison de plusieurs OCR ayant des taux de reconnaissance
individuels de l’ordre de 97%. Cela étant, ce gain ne peut être atteint que dans la mesure où
les erreurs proviennent des OCR et non de la qualité de l’image, et où les OCR sont de bonne
qualité.

3.2 Lecture électronique


Depuis l'arrivée de l'Internet, la lecture électronique a pris un essor considérable61 62. La
multiplicité des documents, leur accessibilité et le potentiel de diffusion ont profondément
modifié les pratiques liées à la lecture. Des professionnels de l'édition jusqu'aux usagers grand
public, tous sont convaincus de la révolution culturelle qu'introduit le concept de lecture
électronique. Il est évident qu'il s'agit d'un marché économique majeur à fort potentiel de
croissance, à l'échelle mondiale. Par essence, le document écrit numérique est étroitement
associé à l'ordinateur au sens large : ordinateur de bureau ou portable, assistant personnel
numérique voire livre électronique dont les versions commerciales comportent quelques
fonctionnalités de l'ordinateur.

Nous travaillons sur un projet de livre électronique (@folio63). Son objectif est de
permettre la consultation d'un document numérisé à la manière d'un codex (par feuilletage
électronique). La consultation de son contenu peut se faire de façon séquentielle de la
première à la dernière page mais son contenu même (pagination, table des matières, index, ...)
suggère une utilisation non séquentielle. Dans la suite du présent document, nous appelons
reliure l'ensemble des dispositions prises pour faciliter la consultation de l'ouvrage. Pour le
codex, il s'agit bien évidemment de la reliure physique mais également des éléments de
tabulation de son contenu (pagination, table des matières, index, ...) qui permettent cette
navigation non séquentielle.
Les documents numérisés ne sont pas directement utilisables sur le livre électronique à
cause de leurs dimensions, mise en page, etc. Ils nécessitent donc d'être restructurés ce qui
passe par une rétroconversion. On peut observer à ce niveau qu'une simple restructuration
physique n'est pas suffisante car elle risque de casser le schéma logique de lecture du
document. Par exemple, une page de magazine comportant plusieurs blocs d'information
(encadrés, photos, etc.) y perdrait beaucoup de son attrait.

La lecture augmentée consiste tout d ’abord à conserver le concept du livre en


proposant une reliure la plus proche possible du concept de lecture traditionnelle : marque
page, annotation, etc. mais aussi profiter des outils informatiques et linguistiques pour
l’enrichir par une reliure personnalisée prenant à la fois compte les aspects structurels et
conceptuels. Pour les aspects conceptuels, il s’agit d’analyser le contenu en profondeur en
faisant de l’extraction de termes, de thèmes, etc. Pour ce faire, on utilise des techniques de
traitement automatique des langues, mais débridées dans notre cas, car le médium est erroné,
infesté d’erreur d’OCR, voire sous forme image.

60
S. V. Rice, J. Kanai, and T. A. Nartker, “An Evaluation of OCR Accuracy,” ISRI. AnnuaI
Research Report, University of Nevada, Las Vegas, April 1993, 9-31.
61
Conférence débat « Livre et édition électroniques», 23 novembre 00, à la BM de Lyon.
62
Ministère de l’Education et de la Recherche, site web EducNet dossier consacré au livre
électronique : [Link]/documentation/dossier/livrelec/[Link]
63
P. Schweitzer, [Link]
22

Notre collaboration avec l'équipe LIRE de l'UMR UMR 5611 (Université Lyon 2,
CNRS, Université de Grenoble III, Université Jean Monnet à St Etienne), associé au
typographe Alain Paccoud, se place du point de vue de l'utilisateur pour la compréhension des
processus de lecture de documents et consiste à mieux connaître l’usage que les lecteurs font
des livres électroniques6465. Il va s’agir de repérer d’une part comment les éléments
spécifiques au texte dans le document numérique (le paratexte) modifient le contrat de lecture,
et d’autre part, comment le lecteur intègre dans son parcours du texte, les éléments
spécifiques au document numérique. Toutes ces informations relèvent encore une fois de la
sémantique logique du document et non de sa structure physique !

64
J. M. Salaün et Alain Van Cuyck. Les usages et les besoins des documents numériques dans
l’enseignement supérieur et la recherche, coordination, Programme Numérisation pour
l’Enseignement et la Recherche (PNER-MSH), septembre 1999, 225 pages + annexes.
65
C. Hembise et C. Bélisle. Etat de l’art des recherches sur les pratiques et sur les usagers des
bibliothèques virtuelles, Rapport de recherche, Déliverables D.2.1. DEBORA (R. Bouché,
ENSSIB).

Vous aimerez peut-être aussi