Recherche de mots manuscrits par graphes
Recherche de mots manuscrits par graphes
RÉSUMÉ. Dans ce papier, nous proposons une nouvelle approche de la recherche de mots par
similarité reposant sur une structure de graphes intégrant des informations sur la topologie,
la morphologie locale des mots ainsi que des informations contextuelles du voisinage de
chaque point d’intérêt. Chaque mot est représenté par une séquence de graphes associés
chacun à un objet connexe. Un graphe est construit sur la base d’un squelette décrit par le
contexte de formes : descripteur riche et compact en chaque point sommet. Afin d’être
robuste aux distorsions de l’écriture et aux changements de scripteurs, l’appariement entre
mots repose sur une distance dynamique et un usage adapté du coût d’édition approximé
entre graphes. Les expérimentations sont réalisées sur la base de George Washington et la
base de registres de mariages de la cathédrale de Barcelone. L’analyse de performances
montre la pertinence de l’approche comparativement aux approches structurelles actuelles.
ABSTRACT. Effective information retrieval on handwritten document images has always been a
challenging task. In this paper, we propose a novel handwritten word-spotting approach
based on graph representation. The presented model comprises both topological and
morphological signatures of handwriting. Skeleton-based graphs with the Shape Context labeled
vertexes are established for connected components. Each word image is represented as a
sequence of graphs. In order to be robust to the handwriting variations, an exhaustive merging
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
1. Introduction
Les applications fondées sur l’exploitation des manuscrits reposent pour une
grande partie sur des versions numérisées. L’accès au contenu nécessite alors de
pouvoir considérer les textes à travers une représentation qui doit être concise,
discriminante et informante. Ce sont sur ces représentations que sont fondées les
techniques de recherche par le contenu (recherche par similarités de formes, word
retrieval, word-spotting…). De nombreux défis scientifiques sont ainsi associés à la
recherche par le contenu dans les images de traits. Autour de la recherche par
similarité de formes écrites, un élément central concerne l’étude de la variabilité
interne des écritures ainsi que celle qui permet de distinguer deux écritures de mains
différentes. Il est désormais communément admis que les techniques d’OCR sont
totalement inopérantes sur la plupart des textes écrits, en particulier sur les supports
anciens et historiques souvent très dégradés et présentant des particularités
graphiques associées à une grande diversité de styles d’écriture. Généralement on
associe le word-spotting à deux types d’approches : une première famille repose sur
la considération de mots prédéfinis en lien avec des mécanismes d’apprentissage
spécifiques dédiés à ces mots. On peut citer les travaux de Fischer et Rodriguez
(2010) et Rodriguez-Serrano et Perronnin (2009) par exemple reposant sur des
modèles de Markov cachés et des vocabulaires ad-hoc. À côté de ces approches, on
généralise les techniques de word-spotting par le développement de techniques de
représentation et de processus d’appariement flexible mettant les mots requêtes en
correspondance avec les cibles issues de l’image (voir (Rath et Manmatha, 2007) et
(Leydier et al, 2009)). Dans les deux cas, l’accès au contenu dans l’image nécessite
de disposer de représentations complètes assurant à la fois une bonne rigueur de
description et une souplesse nécessaire pour absorber les variations présentes dans
les pages d’écritures (Fischer et al., 2010 ; Rodriguez-Serrano et Perronnin, 2009 ;
Rath et Manmatha, 2007). Finalement c’est sur la mesure de similarité permettant de
déterminer les appariements acceptables qu’une attention particulière doit être
portée. Cette mesure doit offrir le maximum de robustesse aux déformations, aux
changements d’échelles, aux irrégularités dans la formation des traits ainsi qu’aux
dégradations qui entament généralement la description des contours et des
extrémités de formes.
COMPENSER L’ABSENCE D’APPRENTISSAGE PAR DES ADAPTATIONS AU CONTEXTE.
Nous avons été motivés dans ces travaux par la volonté de produire une description
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
reproductibles que les points de jonction, de bifurcation et les points extrêmaux dans
les traits d’écriture permettent d’encoder (voir Daher et al., 2010). Les
caractéristiques topologiques des traits et la nature bidimensionnelle de l’écriture
nous semblent constituer des indications suffisantes pour écarter les descriptions
unidimensionnelles produites par des valeurs scalaires uniquement (Chherawala et
al., 2011). Par ailleurs, la polyvalence de la représentation recherchée nous a
conduits à considérer l’information dans son contexte selon un niveau d’échelle
modulable (l’échelle retenue ici est la connexité). Pour le contexte d’abord, nous
avons choisi d’exploiter une description fondée sur le Contexte de formes noté SC
pour Shape Context décrit dans Puzicha et Belongie (2002), estimé à partir de points
cibles extraits des formes. Nous l’appliquerons dans notre proposition à des données
de contours. Cette description pourra s’étendre à des données non segmentées
directement capturées de l’image en niveaux de gris ou en couleurs, ou encore sur
les squelettes des mots. Pour l’échelle d’analyse, nous avons retenu l’objet connexe,
car il est très informant dans l’écriture et permet de centrer l’analyse sur des entités
lexicales liées à une exécution continue typique du scripteur. L’entité de base
exploitée dans ces travaux peut également être considérée à d’autres échelles
d’analyse : le fragment (graphème) ou le mot (combinaison de fragments ou d’objets
connexes).
PRINCIPE GENERAL DE LA PROPOSITION. Nous proposons une approche générique
de word-spotting ne nécessitant pas de paramétrage lourd, n’ayant pas recours à
l’apprentissage et reposant sur une représentation des mots par graphe. La
description du graphe est fondée sur des primitives morphologiques obtenues par le
descripteur contextuel de Contexte de formes. Cette description est intégrée au
modèle de représentation pour indiquer localement en chaque sommet du graphe la
nature de son voisinage et les relations de proximité que les contours ont entre eux.
Ce descripteur est estimé sur la longueur totale d’un mot en tout point du graphe.
Chaque mot est finalement représenté par une séquence de graphes formés à partir
des connexités initialement repérés lors d’une étape de prétraitement. La
comparaison entre les mots image (requête et cibles) est finalement obtenue par le
calcul de la moyenne des distances d’édition entre graphes pair à pair. Au préalable,
une mesure dynamique (Dynamic Time Warping) est exploitée entre les graphes
Requête et Cibles comme processus de fusion de connexités garantissant les
meilleures correspondances et les meilleurs appariements de graphes. Une distance
d’édition approximée initialement définie dans (Riesen et Bunke, 2009) a été choisie
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
graphes) qui sont ensuite évaluées par la distance d’édition approximée entre
graphes (section 4). Les résultats expérimentaux et l’analyse des performances
reposent sur la comparaison entre quatre approches de word-spotting du domaine et
notre proposition (section 5). Nous concluons enfin sur de possibles améliorations
pour des applications de word-spotting sans segmentation.
2. Prétraitements
(a) (b)
Une procédure de suivi de contour est ensuite appliquée pour assurer une extraction
continue sans rupture de tracé (voir figure 2b). La pertinence des points de structure
tels que nous les avons définis dans ce travail peut s’évaluer à partir de l’étude
comparative de différents détecteurs de points d’intérêt usuellement exploités pour
la localisation ou la reconnaissance de régions d’intérêt : points DoG (Difference of
Gaussian), points issus du Hessien.
Figure 2. (a) mot manuscrit (b) son contour (c) son squelette (d) points structurels
(rouge: points extrémaux, vert: points de haute courbure, bleu: point de croisement)
La figure 3 illustre la stabilité des points DoG, des points issus du Hessien et des
points structurels en situation de bruit croissant (de gauche à droite). On observe
d’abord le fait que le nombre de points structurels est plus stable, et non
conditionnés par des seuils permettant d’en contrôler artificiellement la quantité. La
stabilité provient de l’existence de configurations stables de l’écriture repérables à
des niveaux d’échelles et de résolutions variables. Compte tenu du fait que les points
Modélisation par graphe de l’écriture 61
DoG et Hessiens sont issus d’une analyse de l’amplitude du gradient local, leur
détection et leur stabilité sont liées à des critères de contrastes, et de résolution
locale. On peut ainsi constater sur la figure 3 qu’à mesure que l’image se dégrade,
les quantités des points DoG et Hessiens diminuent tandis que les points structurels
restent stables.
Une étude de la répétabilité des points a été menée. Elle a permis de conduire
aux résultats suivants en termes de stabilité globale lors de dégradations
progressives de l’image: (Points de structure) RStructurel = 80 %, (Points DoG)
RDoG = 65.71 % et (Points hessiens) RHessian = 72.73 %.
Puisque les composantes connexes sont représentées par des graphes, leur
comparaison se ramène à un problème de correspondance de graphes. Afin d’éviter
les débordements calculatoires vite atteints dans de telles situations, nous avons opté
pour l’exploitation d’une comparaison approximée entre graphes proposée
initialement par Riesen et Bunke (2009) reposant sur la recherche du coût d’édition
minimal entre deux graphes.
Définition 2. (Distance d’édition entre graphes) Soit g = (V , E , μ , v ) le
graphe associé à la représentation de l’image Requête et g = (V , E , μ , v ) le
graphe associé à l’image Cible. La distance d’édition entre les deux graphes g1 et g2
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
Typiquement, la distance d’édition entre graphes est calculée avec une approche
de type recherche arborescente présentant une complexité calculatoire exponentielle.
L’algorithme de comparaison sous-optimal est basé sur la considération des graphes
internes à chaque connexité (une connexité étant, rappelons-le constituée de n
sommets et m arêtes). Les graphes internes sont donc ici définis comme un ensemble
centré en un sommet et décrit par sa structure adjacente locale. Par conséquent, la
distance d’édition entre deux graphes peut être reformulée comme la recherche d’un
chemin optimal entre sommets et leurs structures locales respectives. L’appariement
exact de deux graphes demeurant un problème très couteux malgré l’utilisation de la
programmation dynamique, nous avons choisi de le traiter comme un problème
d’affectation. Pour cela l’algorithme hongrois de Munkres (Hungarian matrix) a été
choisi pour résoudre ce problème de recherche d’optimal entre graphes minimisant
le coût lié aux transformations de sommets et d’arêtes des graphes en temps
polynomial. Ces différences sont importantes à considérer pour le traitement de
masses de données conséquentes, ce qui est notamment le cas pour les applications
d’exploration de collections manuscrites anciennes.
En entrée, l’algorithme d’optimisation prend la matrice totale de coût C suivante
(3).
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
(3)
Compte tenu des intervalles de valeurs choisis pour exprimer les coûts de
substitution, les deux constantes restantes liées au coût d’insertion et de suppression
sont fixées à 0.5. LM représente le coût associé au descripteur de contexte de formes
des sommets défini à l’équation (1). Le coût de substitution s’exprime alors par la
somme pondérée entre le coût de contexte de formes LM et le coût
NOPQN_STUVPTVUW défini comme le coût de substitution lié aux valeurs de longueurs des
arêtes. Pour un sommet considéré, on estime le coût de substitution de la façon
suivante : 1 − (S OUT /(NO[\ , avec (S OUT la longueur du contour le plus court
rattachant le sommet considéré à un voisin direct et (NO[\ la longueur la plus
importante dans ce voisinage.
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
Puisque un mot est représenté par une séquence de graphes (représentant les
objets connexités), la distance dynamique DTW est la mesure la plus adaptée pour
permettre un appariement souple entre graphes en intégrant la distance d’édition
présentée en section 4.1. Un des éléments fondamentaux de cette distance est de
permettre d’intégrer une variation parfois importante de connexités entre deux mots
à comparer. En effet, on peut rapidement observer que les mots présents dans un
texte manuscrit sont marqués par la présence de ruptures en des points non réguliers
du texte, ceci se traduit par la présence d’objets connexes en nombre variable entre
l’image Requête et l’image Cible. Ces variations sont remarquables entre scripteurs
66 DN. Volume 17 – n° 3/2014
mais également pour un même scripteur, voir figure 7. Cette figure présente un
exemple de deux instances d’un même mot écrit par la même main possédant
respectivement cinq et trois connexités. Cette particularité graphique va plus
généralement pouvoir se résoudre par la comparaison de n graphes (issus du mot
Requête) avec m graphes (issus du mot Cible).
(a) (b)
1. Projet CITERE : ANR Blanc SHS 2009-2011, Circulations, Territoires et Réseaux de l’âge
classique aux Lumières.
Modélisation par graphe de l’écriture 67
5. Expérimentations et protocoles
Les expérimentations sur lesquelles portent cette étude reposent sur deux
ensembles de données : la base de données désormais usuelle pour les applications
de word-spotting et composée des lettres manuscrites de George Washington (1780)
(voir Rath et Manmatha, 2007) et le registre de mariages célébrés en la Cathédrale
de Barcelone dont les manuscrits sont datés des périodes allant de 1451 à 1905 et
qui nommé la base 5CofM (The Five Centuries of Marriages Database), (voir
Fernandez et al., 2011). Les résultats obtenus sur ces deux bases de tests ont été
comparés à cinq autres approches développées dans le domaine du word- word-spotting.
La première approche comparative a été développée dans Rath et Manmatha (2007)
et traite de l’alignement de séquences utilisant la distance DTW exploitant des
attributs structurels de contours. Elle est notée DTW dans les graphiques de
résultats. La seconde approche proposée par Lladós et al., (2012) concerne la
construction de sacs de mots visuels à plusieurs échelles générant un modèle
statistique pour la comparaison de mots sur la base d’un clustering de formes. Elle
est notée BoVW dans les tableaux de résultats. La troisième approche vise le
développement d’un modèle pseudo-structurel utilisant une représentation reposant
sur les descripteurs Loci (voir Lladós et al., 2012). Elle est nommée Pseudo-Struct
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
dans les graphiques et tableaux ci-dessous. L’étude des résultats est réalisée à partir
de l’exploitation d’indicateurs statistiques de rappel, de précision et de précision
moyenne illustrés dans la section suivante.
La première base sur laquelle repose les tests est la base composée de vingt
pages de la collection de lettres manuscrites issues de la base GW. La seconde
évaluation repose sur l’exploitation des données issues de vingt sept pages issues de
la base 5CofM . Les deux corpus sont conçus comme des corpus étalons disposant
d’une segmentation en mots transcrits et permettant donc de réaliser une étude de
performance pertinente. Pour la collection GW, on dispose de 4 860 mots segmentés
avec 1 124 transcriptions, et pour la collection 5CofMon dispose de 6 544 mots
associés à 1751 transcriptions. Tous les mots possédant au minimum 3 lettres et
apparaissant au minimum 10 fois dans la collection sont sélectionnés comme mot
requête. Par conséquent, les expérimentations se fondent sur précisément 1 847
requêtes correspondant à 68 mots différents pour la base GW et 514 requêtes de 32
mots pour la base 5CofM. La figure 9 illustre quelques extraits de mots de la base
des registres de mariages (5CofM).
Afin d’évaluer les performances de l’approche que nous avons proposée, nous
avons choisi trois indices relevant des valeurs de rappel et de précision. Considérant
une requête, on notera Rel l’ensemble de réponses pertinentes relativement à cette
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
partir de chaque valeur de précision pour chaque rang. Pour une requête donnée, en
notant r(n) la fonction indiquant le nombre de retours positifs du système au rang n,
cette précision moyenne s’exprime comme le rapport suivant (Card(req) est le
nombre de requêtes) :
jklm(nop)
∑qr@ (h@[×U([))
efg (8)
MQUs(tWu)
(a) (b)
Il est intéressant dans notre cas de constater que notre proposition réalise ses
meilleures performances sur la base 5CofM. La raison vient du fait déjà évoqué
précédemment que les images de la collection GW présentent de plus nombreuses
dégradations que celles contenues dans la base 5CofM. Celles-ci impactent
fortement la construction du squelette établi sur un algorithme simple
d’amincissement morphologique. Dans notre approche, c’est davantage la qualité du
squelette qui est mise en cause en provoquant des discontinuités dans la
reconstruction des traits et qui génère un nombre de connexités souvent supérieur à
celui qui est effectivement observé, voir figure 1. La correction par vote tensoriel
conduit à une amélioration significative du squelette mais qui se traduit par une
augmentation globalement assez faible de la précision (sur le jeu de données GW)
notamment du fait de la présence exceptionnellement élevée de zones de
discontinuités très larges, (voir tableaux 1 et 2). Cependant l’exploitation
d’approches variationnelles, des tenseurs d’inertie ou de la diffusion anisotrope est
néanmoins très prometteuse car elle offre des possibilités d’extraire un squelette sur
des formes non binaires.
Excepté la méthode de Leydier, les autres méthodes reposent sur des versions
binaires de l’image. Par conséquent, les méthodes fondées sur des modèles
d’apparence basées sur les variations de luminosité locales (BoVW, DTW de
Manmatha et l’approche de Leydier) produisent sur des textes de résolution
moyenne plus faible, des résultats meilleurs que les méthodes purement structurelles
(la nôtre, la méthode Pseudo-Struct et Structural).
L’approche statistique BoVW décrite à partir d’une sélection de points d’intérêt
SIFT permet une description bas niveau robuste aux variations, elle est également
compacte et complète dans sa prise en compte de l’information de luminance en
chaque point d’intérêt. Elle est globalement plus insensible aux distorsions internes
de l’écriture. Notons cependant que la classification des mots visuels issus de la
méthode BoVW nécessite une comparaison reposant sur une représentation
pyramidale des données (Algorithme SPM : Spatial Pyramidal Matching décrit dans
(Lladós et al., 2012) qui encode les relations spatiales non intégrées dans les
codebooks visuels. Elle offre ainsi un meilleur pouvoir discriminant mais augmente
de façon significative les temps de calcul, ce qui réduit son champ d’application (à
de plus larges collections de documents).
À l’exception de l’approche BoVW, notre proposition s’est montrée plus
performante que les approches structurelles et pseudo-structurelles reposant sur des
graphes et procédant sans apprentissage. Cela illustre en particulier l’efficacité du
choix des points structurels définis sur le squelette des mots pour diriger la structure
du graphe qui le décrit, au lieu de points maximisant une variation locale d’intensité
lumineuse, comme cela est généralement le cas pour les points d’intérêt plus
standards. Par ailleurs, les informations contextuelles apportées par une description
par contexte de formes (SC) constituent une description très riche de ces points.
Le coût global permettant de conduire la recherche de mot par similarité est
difficile à établir du fait du grand nombre d’étapes allant de la description bas niveau
à l’appariement proprement dit (pour l’approche BoVW, il est nécessaire de
considérer la construction du codebook, la classification des points SIFT et enfin
l’appariement complet). Nous pouvons cependant proposer de comparer
qualitativement les durées de traitement, les performances relatives (déduites des
taux figurant dans les tableaux 1 et 2) et différents critères usuellement exploités
pour caractériser les capacités d’adaptation des systèmes (facilité du passage à
l’échelle, aisance à l’indexation), voir tableau 3.
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
L’information bas niveau de l’image est exploitée dans ses expressions de contours
(par le descripteur de contexte de formes) et de squelette (permettant une sélection
rapide de points d’intérêt structurels). La souplesse offerte par l’usage de la distance
dynamique (DTW) pour l’appariement et son rôle dans le processus de fusion des
objets connexes permet de compenser les distorsions subies par l’écriture lors de la
formation des mots et les irrégularités relevées par l’étape de squelettisation. Celle-
ci peut parfois créer artificiellement des connexités non visibles ou ne faisant pas
sens. Notre proposition repose ainsi sur un mécanisme de comparaison de graphes et
un usage intensif d’une distance d’édition approximée sans aucun apprentissage
préalable. Cette approche n’avait jamais été exploitée dans un contexte de recherche
de mots manuscrits. L’application à de nouveaux corpus plus volumineux constitue
le prochain enjeu de cette étude, en lien avec les données du projet ANR CITERE
aux volumes très conséquents. C’est donc sur la complexité calculatoire qu’un effort
devra être réalisé, sachant que la comparaison de graphes même partielle est très
consommatrice de puissance de calculs (DTW, coût d’édition en deux passes et
itérations en un très grand nombre de fenêtres d’analyse sur une page de texte
exploitant un descripteur de formes de dimension 60). Notre volonté de conserver
les deux dimensions de la représentation par graphe au lieu de ramener la
description à une séquence 1D de caractéristiques est un défi que nous tenterons de
maintenir malgré l’augmentation de taille des corpus à analyser.
Actuellement, nos travaux portent sur l’élaboration d’une stratégie complète pré-
sélectionnant des régions d’intérêt dans les images au fort potentiel en rapport avec
les propriétés morphologiques du mot-requête soumis au système. Cette étape vise
ainsi à rejeter massivement des propositions non pertinentes et de ne traiter que les
fenêtres d’analyse candidates. Une reconsidération locale de la description par
contexte de formes autour des sommets des graphes décrivant les objets connexes
pourrait ainsi soutenir cette étape de recherche de zones candidates.
Remerciements
Nous tenons à remercier le professeur Antony McKenna responsable du projet
ANR CITERE et d’un fonds de manuscrits numérisés uniques : « Les
correspondances clandestines de l’Europe des Lumières » ainsi que « Les
correspondances de Pierre Bayle ». Cette recherche est soutenue par un projet
régional d’ARC de la région Rhônes-Alpes en lien avec le projet ANR CITERE et
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
Bibliographie
Aida-Zade K. R., Hasanov J. Z. (2009). Word base line detection in handwritten text
recognition systems. International Journal of Electrical and Computer Engineering,
vol. 4, n° 5, p. 310-314.
Chherawala Y., Wisnovsky R., Cheriet M. (2011). Tsv-lr: Topological signature vector-based
lexicon reduction for fast recognition of premodern Arabic subwords. Proc. of the
Workshop HIP, p. 6-13.
74 DN. Volume 17 – n° 3/2014
Deriche R. (1987). Using Canny’s criteria to derive a recursively implemented optimal edge
detector. Int. J. Computer Vision, vol. 1, p. 167-187.
Do T-H., Tabbone S., Terrades O.R. (2013). New Approach for Symbol Recognition
Combining Shape Context of Interest Points with Sparse Representation. Proc. of the
ICDAR, p. 265-269.
Fernandez D., Lladós J., Fornés A. (2011). Handwritten word-spotting in old manuscript
images using a pseudo-structural descriptor organized in a hash structure. Pattern
Recognition and Image Analysis, vol. 6669, p. 628-635.
Fischer A., Keller A., Frinken V., Bunke H. (2010). HMM-based word spotting in
handwritten documents using subword models. Proc. of the ICPR, 2010, p. 3416-3419.
Fischer A., Riesen K., Bunke H. (2010). Graph similarity features for HMM-based
handwriting recognition in historical documents. Proc. of the ICFHR, p. 253-258.
Fischer A., Suen C. Y., Frinken V., Riesen K., Bunke H. (2013). A fast matching algorithm
for graph-based handwriting recognition. Lecture Notes in Computer Science, vol. 7887,
p. 194-203.
Hani D., Eglin V., Bres S., Vincent N. (2010). A new approach for centerline extraction in
handwrittenstrokes: an application to the constitution of a codebook. International
Workshop on Document Analysis Systems, p. 425-425.
Lladós J., Rusinol M., Fornés A., Fernandez D., and Dutta A. (2012). On the influence of
word representations for handwritten word-spotting in historical documents. Pattern
Recognition and Artificial Intelligence,vol. 26, n° 5, p. 1 263 002.1-1 263 002.25.
Lebourgeois F., Emptoz H. (2007). Skeletonization by Gradient Regularization and Diffusion.
Proc. of the ICDAR, p.1118-1122.
Leydier Y., Ouji A., LeBourgeois F., Emptoz H. (2009). Towards an omnilingual word
retrieval system for ancient manuscripts. PR, vol. 42, n° 9, p. 2089-2105.
Leydier Y., Eglin V., Bres S., Stutzmann D. (2014). Learning-free text-image alignment for
medieval manuscripts. Proceedings of Int. Conference of Frontiers of Handwriting
Recognition, p. 81-87.
Lu S., Ren Y., and Suen C. (1991). Hierarchical attributed graph representation and
recognition of handwritten Chinese characters. PR, vol. 24, n° 7, p. 617-632.
Luqman M.M., Ramel J-Y., Lladós J., Brouard T. (2011). Sub-graph Spotting through
Explicit Graph Embedding: An Application to Content Spotting in Graphic Document
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)
Rath T., Manmatha R. (2007). Word-spotting for historical documents. Proc. of the ICDAR,
vol. 9, n° 2-4, p. 139-152.
Riesen K., Bunke H. (2009). Approximate graph edit distance computation by means of
bipartite graph matching. Image and Vision Computing, vol. 27, n° 7, p. 950-959.
Rodriguez-Serrano J., Perronnin F. (2009). Handwritten word-spotting using hidden markov
models and universal vocabularies; PR, vol. 42, n° 9, p. 2106-2116.
Wang P., Eglin V., Largeron C., McKenna A., Garcia C. (2013). A comprehensive
representation model for handwriting dedicated to word-spotting. Proc. of the ICDAR,
p. 450-454.
Wang P., Eglin V., Largeron C., Garcia C., Fornès A., Llados J. (2014). A Coarse-to-Fine
Word Spotting Approach for Historical Handwritten Documents Based on Graph
Embedding and Graph Edit Distance. ICPR, International Conference on Pattern
Recognition, p. 363-368.
Zaslavskiy M., Bach F., Vert J. (2009). A path following algorithm for the graph matching
problem. PAMI, vol. 31, n° 12, p. 2227-2241.
Zhang T. Y., Suen C. Y. (1984). A fast parallel algorithm for thinning digital patterns.
Communication of the ACM, vol. 27, p. 236-239.
© Lavoisier | Téléchargé le 29/12/2023 sur www.cairn.info (IP: 196.117.40.229)